Hadoop on G. T. Wang

[筆記] Hadoop 讀取 Gzip、Bzip2 與 LZO 壓縮檔

Tue, 16 May 2017 17:02:51 +0800

這裡介紹如何讓 Hadoop 可以直接讀取 HDFS 中的 Gzip、Bzip2、Snappy 與 LZO 壓縮檔，省去解壓縮的麻煩。

巨量資料在儲存時，通常都會經過適當的壓縮以節省儲存空間，如果在分析時還要先解壓縮的話，可能會遇到儲存空間上的麻煩，以文字檔來說解壓縮之後的資料大小會是原本的好幾倍，而且解壓縮也會需要非常大量的時間。

使用 R 與 Hadoop Streaming API 實作 MapReduce 字數計算 Word Count 範例教學

Sat, 06 May 2017 14:50:06 +0800

準備執行環境

若要使用 R 與 Hadoop Streaming API 分析資料，要先準備好標準的 Hadoop 環境，在測試時可以自己安裝單節點的 Hadoop 環境，或是使用 Hortonworks 或 Cloudera 這類整合好的虛擬機器也可以，然後在每一個 Hadoop 節點上安裝一般的 R 執行環境。

使用 R 與 Hadoop MapReduce 分析 Stack Exchange Data Dump 資料

Thu, 04 May 2017 17:07:44 +0800

這裡示範如何使用 R 與 Hadoop MapReduce 分析 Stack Exchange 網站的傾印資料。

Stack Exchange 是一個程式設計領域非常知名的問答網站，上面有非常多具有參考價值的問題解答，Stack Exchange 也將其整個網站的內容傾印成 XML 檔，以創用 CC 授權的方式開放出來，放在 archive.org 提供大家免費下載使用。

RHadoop 以 MapReduce 實作 K-Means 分群演算法範例

Wed, 03 May 2017 14:26:45 +0800

本篇敘述如何使用 RHadoop 的 MapReduce 實作 k-means 分群演算法。

在架設好 RHadoop 計算環境之後，接著就可以使用 MapReduce 撰寫各種分析程式，以下是用 MapReduce 實作 k-means 的 R 程式碼。

這個 k-means 範例只是用來示範 MapReduce 的實作方法，程式碼比較簡單，不適合在實際的應用上使用。

RHadoop 計算環境架設教學與使用範例程式碼

Tue, 02 May 2017 15:28:24 +0800

本篇介紹如何手動架設 RHadoop 計算伺服器，並使用 RHadoop 相關套件進行巨量資料分析。

RHadoop 是由 Revolution Analytics 所發展的 R 套件集，可讓 R 使用者更方便的使用 Hadoop 分析巨量資料，適用於 Cloudera、Hortonworks 等 Hadoop 發行版，以下是基本的 RHadoop 計算環境架設流程、MapReduce 用法與簡單的範例程式碼。

Ubuntu Linux 架設 Hadoop 單節點測試主機教學

Tue, 21 Feb 2017 11:55:55 +0800

這裡示範如何在 Ubuntu Linux 的環境中，架設單節點 Hadoop 分散式運算的大資料分析測試環境。

Apache Hadoop 是一個分散式計算的架構，可用於巨量資料（big data）的處理與分析，其原理是利用多台電腦組合成為大型的 Hadoop 叢集電腦，以特殊的 HDFS 檔案系統讓大量的資料分散儲存於各個節點中，而在計算與分析資料時，則是使用 MapReduce 等演算法將計算工作分散在各個節點中平行處理，可用於 PB 級以上的資料儲存與分析。