R 大資料分析實例:12 GB 美國飛機航班延誤紀錄

本篇以實際的美國飛機航班延誤紀錄資料,示範在實務上如何處理與分析巨量資料。 飛機航班的延誤會直接對旅客造成不便,因此我們會希望藉著分析班機誤點的資料,找出可能造成誤點的原因,進而嘗試降低航班延誤的頻率,不過這類的資料量通常都非常龐大,比較難以傳統的方式來處理。 ...

February 23, 2018 · G. T. Wang

R 讀取與產生 XML 格式檔案教學

這裡介紹如何在 R 中讀取與產生 XML 格式的資料,並提供許多實際的參考範例。 XML 是一種很普遍的資料格式,在 R 中若要讀取 XML 檔案,或是產生 XML 檔案,可以使用 XML 或是 xml2 這類的套件,以下是讀取與產生 XML 檔案的教學與範例。 ...

July 7, 2017 · G. T. Wang

jsonlite:R 的 JSON 格式資料處理套件

jsonlite 是 R 的一個 JSON 格式資料處理套件,本篇介紹此套件的基本用法,並提供實際應用的範例。 JSON(JavaScript Object Notation)是一種輕量級的資料交換格式,屬於 JavaScript 語言的子集,實作上相當容易,在網路上許多資料都會使用 JSON 的格式來傳遞。 ...

July 6, 2017 · G. T. Wang

R 的 rio 套件:匯入與匯出 Excel、SAS、SPSS、CSV、JSON、XML 等檔案

R 的 rio 套件是一個綜合型的檔案匯入與匯出工具套件,支援各種常見的檔案格式。 當我們要把資料從別的軟體匯入 R 中,或是要從 R 中匯出資料到別的軟體時,都會需要處理各式各樣檔案格式的轉換問題,傳統上不同的檔案格式會需要使用不同的匯入與匯出方式,而所需要安裝的套件也不同,當然使用方法也會有很大的差異,所以不是很方便。 ...

July 5, 2017 · G. T. Wang

使用 R 與 Hadoop Streaming API 實作 MapReduce 字數計算 Word Count 範例教學

準備執行環境 若要使用 R 與 Hadoop Streaming API 分析資料,要先準備好標準的 Hadoop 環境,在測試時可以自己安裝單節點的 Hadoop 環境,或是使用 Hortonworks 或 Cloudera 這類整合好的虛擬機器也可以,然後在每一個 Hadoop 節點上安裝一般的 R 執行環境。 ...

May 6, 2017 · G. T. Wang