<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Hadoop on G. T. Wang</title>
    <link>https://blog.gtwang.org/tags/hadoop/</link>
    <description>Recent content in Hadoop on G. T. Wang</description>
    <generator>Hugo -- 0.156.0</generator>
    <language>zh-tw</language>
    <copyright>G. T. Wang</copyright>
    <lastBuildDate>Tue, 16 May 2017 17:02:51 +0800</lastBuildDate>
    <atom:link href="https://blog.gtwang.org/tags/hadoop/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>[筆記] Hadoop 讀取 Gzip、Bzip2 與 LZO 壓縮檔</title>
      <link>https://blog.gtwang.org/linux/hadoop-read-gzip-bzip2-snappy-lzo-compressed-input-files/</link>
      <pubDate>Tue, 16 May 2017 17:02:51 +0800</pubDate>
      <guid>https://blog.gtwang.org/linux/hadoop-read-gzip-bzip2-snappy-lzo-compressed-input-files/</guid>
      <description>&lt;p&gt;這裡介紹如何讓 Hadoop 可以直接讀取 HDFS 中的 Gzip、Bzip2、Snappy 與 LZO 壓縮檔，省去解壓縮的麻煩。&lt;/p&gt;
&lt;p&gt;巨量資料在儲存時，通常都會經過適當的壓縮以節省儲存空間，如果在分析時還要先解壓縮的話，可能會遇到儲存空間上的麻煩，以文字檔來說解壓縮之後的資料大小會是原本的好幾倍，而且解壓縮也會需要非常大量的時間。&lt;/p&gt;</description>
    </item>
    <item>
      <title>使用 R 與 Hadoop Streaming API 實作 MapReduce 字數計算 Word Count 範例教學</title>
      <link>https://blog.gtwang.org/r/using-r-and-hadoop-streaming-api-to-implement-word-count-example/</link>
      <pubDate>Sat, 06 May 2017 14:50:06 +0800</pubDate>
      <guid>https://blog.gtwang.org/r/using-r-and-hadoop-streaming-api-to-implement-word-count-example/</guid>
      <description>&lt;h2 id=&#34;準備執行環境&#34;&gt;準備執行環境&lt;/h2&gt;
&lt;p&gt;若要使用 R 與 Hadoop Streaming API 分析資料，要先準備好標準的 Hadoop 環境，在測試時可以自己安裝&lt;a href=&#34;https://blog.gtwang.org/linux/linux-hadoop-single-node-cluster-tutorial/&#34;&gt;單節點的 Hadoop 環境&lt;/a&gt;，或是使用 Hortonworks 或 Cloudera 這類整合好的虛擬機器也可以，然後在每一個 Hadoop 節點上安裝一般的 R 執行環境。&lt;/p&gt;</description>
    </item>
    <item>
      <title>使用 R 與 Hadoop MapReduce 分析 Stack Exchange Data Dump 資料</title>
      <link>https://blog.gtwang.org/r/analyze-stack-exchange-data-dump-using-r-hadoop-mapreduce/</link>
      <pubDate>Thu, 04 May 2017 17:07:44 +0800</pubDate>
      <guid>https://blog.gtwang.org/r/analyze-stack-exchange-data-dump-using-r-hadoop-mapreduce/</guid>
      <description>&lt;p&gt;這裡示範如何使用 R 與 Hadoop MapReduce 分析 Stack Exchange 網站的傾印資料。&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;https://stackexchange.com/&#34;&gt;Stack Exchange&lt;/a&gt; 是一個程式設計領域非常知名的問答網站，上面有非常多具有參考價值的問題解答，Stack Exchange 也將其整個網站的內容傾印成 XML 檔，以創用 CC 授權的方式開放出來，放在 &lt;a href=&#34;https://archive.org/details/stackexchange&#34;&gt;archive.org&lt;/a&gt; 提供大家免費下載使用。&lt;/p&gt;</description>
    </item>
    <item>
      <title>RHadoop 以 MapReduce 實作 K-Means 分群演算法範例</title>
      <link>https://blog.gtwang.org/r/rhadoop-k-means-clustering-tutorial/</link>
      <pubDate>Wed, 03 May 2017 14:26:45 +0800</pubDate>
      <guid>https://blog.gtwang.org/r/rhadoop-k-means-clustering-tutorial/</guid>
      <description>&lt;p&gt;本篇敘述如何使用 RHadoop 的 MapReduce 實作 k-means 分群演算法。&lt;/p&gt;
&lt;p&gt;在架設好 &lt;a href=&#34;https://blog.gtwang.org/r/building-rhadoop-system-examples-tutorial/&#34;&gt;RHadoop 計算環境&lt;/a&gt;之後，接著就可以使用 MapReduce 撰寫各種分析程式，以下是用 MapReduce 實作 &lt;a href=&#34;https://zh.wikipedia.org/wiki/K-%E5%B9%B3%E5%9D%87%E7%AE%97%E6%B3%95&#34;&gt;k-means&lt;/a&gt; 的 R 程式碼。&lt;/p&gt;
&lt;p&gt;

&lt;ins class=&#34;adsbygoogle&#34;
     style=&#34;display:block&#34;
     data-ad-client=&#34;ca-pub-7794009487786811&#34;
     data-ad-slot=&#34;9921134032&#34;
     data-ad-format=&#34;auto&#34;
     data-full-width-responsive=&#34;true&#34;&gt;&lt;/ins&gt;
&lt;script&gt;
     (adsbygoogle = window.adsbygoogle || []).push({});
&lt;/script&gt;
&lt;/p&gt;

&lt;p&gt;這個 k-means 範例只是用來示範 MapReduce 的實作方法，程式碼比較簡單，不適合在實際的應用上使用。&lt;/p&gt;</description>
    </item>
    <item>
      <title>RHadoop 計算環境架設教學與使用範例程式碼</title>
      <link>https://blog.gtwang.org/r/building-rhadoop-system-examples-tutorial/</link>
      <pubDate>Tue, 02 May 2017 15:28:24 +0800</pubDate>
      <guid>https://blog.gtwang.org/r/building-rhadoop-system-examples-tutorial/</guid>
      <description>&lt;p&gt;本篇介紹如何手動架設 RHadoop 計算伺服器，並使用 RHadoop 相關套件進行巨量資料分析。&lt;/p&gt;
&lt;p&gt;RHadoop 是由 Revolution Analytics 所發展的 R 套件集，可讓 R 使用者更方便的使用 Hadoop 分析巨量資料，適用於 Cloudera、Hortonworks 等 Hadoop 發行版，以下是基本的 RHadoop 計算環境架設流程、MapReduce 用法與簡單的範例程式碼。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Ubuntu Linux 架設 Hadoop 單節點測試主機教學</title>
      <link>https://blog.gtwang.org/linux/linux-hadoop-single-node-cluster-tutorial/</link>
      <pubDate>Tue, 21 Feb 2017 11:55:55 +0800</pubDate>
      <guid>https://blog.gtwang.org/linux/linux-hadoop-single-node-cluster-tutorial/</guid>
      <description>&lt;p&gt;這裡示範如何在 Ubuntu Linux 的環境中，架設單節點 Hadoop 分散式運算的大資料分析測試環境。&lt;/p&gt;
&lt;p&gt;Apache Hadoop 是一個分散式計算的架構，可用於巨量資料（big data）的處理與分析，其原理是利用多台電腦組合成為大型的 Hadoop 叢集電腦，以特殊的 HDFS 檔案系統讓大量的資料分散儲存於各個節點中，而在計算與分析資料時，則是使用 MapReduce 等演算法將計算工作分散在各個節點中平行處理，可用於 PB 級以上的資料儲存與分析。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
