分類: 統計學

如何成為一位資料科學家(Data Scientist)?處理 Big Data 的專家

這裡整理了一張如何成為資料科學家(Data Scientist)的行程規劃圖,其中包含各種領域以及其中主要的技術,如果你想研究這方面的技術,這張圖就很值得的你參考。

在資訊爆炸的時代隨著的資料量的增加,如何處理與分析這些資料是一個前所未有的問題,要做一個稱職的資料科學家不是件容易的事情,他牽涉到各種不同的領域,從基本簡單的數學理論、大量資料、程式設計到統計、機器學習與資料視覺化等等,要能夠熟練這些領域的技巧不是一朝一夕能夠達成的。

以下這張圖是由 Swami Chandrasekaran 所繪製的,他將一般資料科學家應該具備的能力整理成一張捷運地圖。



這張捷運地圖分為十條幹線,分別為:
  1. 基礎技能(Fundamentals)
  2. 統計(Statistics)
  3. 程式設計(Programming)
  4. 機器學習(Machine Learning)
  5. 文字採礦/自然語言處理(Text Mining / Natural Language Processing)
  6. 資料視覺化(Data Visualization)
  7. 大量資料(Big Data)
  8. Data Ingestion
  9. Data Munging
  10. 工具(Toolbox)

每一條幹線都是一個領域,而幹線上每個站都是領域中的一個主題,當你想選擇一個領域開始學習時,就從起點出發,經過的每一站就是你要學習的主題。

當然這中間你也可以藉由幹線的分岔點轉到另一條幹線上,學習另一個領域的技術,等到你走完一整條幹線的全程,那你在該領域所具備的能力應該就足夠了。

如果你仔細看其中每一個領域的每個主題,你就會發現大部分的主題與技術來自於資訊工程與統計科學兩個科系,參雜少數幾個屬於其他科系的主題(如數學系),但是即便你在大學裡面修完這三個科系的所有課程,也未必能夠學到所有的主題,甚至有些大學裡面根本是不會教的,所以就一般人而言,要具備這些技能不是件容易的事情。

這張圖中所收錄的軟體工具都是以開放原始碼的自由軟體為主,當然如果你自己擁有一些商用軟體,像是 SPSS 或 SAS Enterprise Miner 等,你也可以自己使用這些商用軟體來代替圖中的自由軟體。

要成為一位資料科學家絕對是一條漫長的旅程,而這張圖就是這趟旅程的導覽圖。

參考資料:Pragmatic Perspectives

G. T. Wang

個人使用 Linux 經驗長達十餘年,樂於分享各種自由軟體技術與實作文章。

Share
Published by
G. T. Wang
標籤: 大數據

Recent Posts

光陽 KYMCO GP 125 機車接電發動、更換電瓶記錄

本篇記錄我的光陽 KYMCO ...

2 年 ago

[開箱] YubiKey 5C NFC 實體金鑰

本篇是 YubiKey 5C ...

2 年 ago

[DIY] 自製竹火把

本篇記錄我拿竹子加上過期的苦茶...

3 年 ago