[筆記] Hadoop 讀取 Gzip、Bzip2 與 LZO 壓縮檔

這裡介紹如何讓 Hadoop 可以直接讀取 HDFS 中的 Gzip、Bzip2、Snappy 與 LZO 壓縮檔,省去解壓縮的麻煩。 巨量資料在儲存時,通常都會經過適當的壓縮以節省儲存空間,如果在分析時還要先解壓縮的話,可能會遇到儲存空間上的麻煩,以文字檔來說解壓縮之後的資料大小會是原本的好幾倍,而且解壓縮也會需要非常大量的時間。 ...

May 16, 2017 · G. T. Wang

使用 R 與 Hadoop Streaming API 實作 MapReduce 字數計算 Word Count 範例教學

準備執行環境 若要使用 R 與 Hadoop Streaming API 分析資料,要先準備好標準的 Hadoop 環境,在測試時可以自己安裝單節點的 Hadoop 環境,或是使用 Hortonworks 或 Cloudera 這類整合好的虛擬機器也可以,然後在每一個 Hadoop 節點上安裝一般的 R 執行環境。 ...

May 6, 2017 · G. T. Wang

使用 R 與 Hadoop MapReduce 分析 Stack Exchange Data Dump 資料

這裡示範如何使用 R 與 Hadoop MapReduce 分析 Stack Exchange 網站的傾印資料。 Stack Exchange 是一個程式設計領域非常知名的問答網站,上面有非常多具有參考價值的問題解答,Stack Exchange 也將其整個網站的內容傾印成 XML 檔,以創用 CC 授權的方式開放出來,放在 archive.org 提供大家免費下載使用。 ...

May 4, 2017 · G. T. Wang

RHadoop 以 MapReduce 實作 K-Means 分群演算法範例

本篇敘述如何使用 RHadoop 的 MapReduce 實作 k-means 分群演算法。 在架設好 RHadoop 計算環境之後,接著就可以使用 MapReduce 撰寫各種分析程式,以下是用 MapReduce 實作 k-means 的 R 程式碼。 這個 k-means 範例只是用來示範 MapReduce 的實作方法,程式碼比較簡單,不適合在實際的應用上使用。 ...

May 3, 2017 · G. T. Wang

RHadoop 計算環境架設教學與使用範例程式碼

本篇介紹如何手動架設 RHadoop 計算伺服器,並使用 RHadoop 相關套件進行巨量資料分析。 RHadoop 是由 Revolution Analytics 所發展的 R 套件集,可讓 R 使用者更方便的使用 Hadoop 分析巨量資料,適用於 Cloudera、Hortonworks 等 Hadoop 發行版,以下是基本的 RHadoop 計算環境架設流程、MapReduce 用法與簡單的範例程式碼。 ...

May 2, 2017 · G. T. Wang