2018年3月13日 星期二

認識大數據的第一本書[讀後心得]--下

認識大數據的第一本書
認識大數據的第一本書


上一篇文章講完了大數據的整體介紹及大數據的來源與應用,接下來要說的是這本書的後半段,本書的後半段主要是雲端運算,資料探勘,大數據程式設計入門,其中的NoSQL資料庫建立,運用MapReduce進行平行處理,以及運用Spark進行串流處理的部份,內容較為專業,有興趣的可以去搜尋一下,網路上還滿多教學資源可以去學習,這裡就不提了,接下來就雲端運算與資料探勘開始簡介。

雲端運算,是為快速打造一項運用,提供共享、彈性、具成本效益IT基礎建設的一種商業模式,在大數據的運用來說,一般的公司可以先藉由租用雲端設備如資料庫等,來進行初步的系統測試。因為雲端有彈性的容量,以及按使用付費原則,你可以彈性的就你所需的儲存空間及運算設備進行租用,而且雲端運算具有高度的復原力及安全性,可以用低廉的價格來確保資料的安全,雲端運算會是在投資IT基礎設備的一個好選擇。

資料探勘是一種從各領域借取技術的跨領域學科,從組織好的資料集合中萃取出有用模型的行為,運用了統計與計算機科學汲取模型與分析技術,另外亦從商業管理領域汲取決策制定的知識,其背後的假設為,利用過去的資料將可預測未來的活動模型。
資料探勘分為幾個步驟
(1)搜集與選擇資料:資料的搜集非常花費心力,特別是資料不具有任何結構,或者半結構化時,例如聊天對話、部落格、推文,或者是互相連接的機器、RFID標籤、甚至是機器產生的資料流等等,必須將這些資料矩形化。
(2)資料清理與準備:資料在公運用前,一定得經過整理轉換,比如填補缺失的數值、控制極端值造成的效果、量化連續變數等等。
(3)資料探勘輸出:資料探勘的輸出有許多方式,其中一種熱門的輸出形式為決策樹,可從視覺上遵照個步驟來進行基於模型的決策。輸出方式也可以是回歸方程式或數學函式的形式,呈現出最適當的曲線來代表資料。
(4)評估資料探勘結果:資料探勘的流程主要有兩種,監督式與非監督式學習,這本書介紹的較為複雜,我簡單的說明一下,監督式學習(Supervised Learning): 在訓練的過程中告訴機器答案、也就是「有標籤」的資料,比如說給機器看一百張有狗的照片,然後再給機器各種照片叫他找出有狗的照片。非監督式學習(Unsupervised Learning): 訓練資料沒有標準答案、不需要事先以人力輸入標籤,故機器在學習時並不知道其分類結果是否正確。簡單的說,若輸入資料有標籤,即為監督式學習;資料沒標籤、讓機器自行摸索出資料規律的則為非監督式學習,常見的有集群演算法。

資料探勘技術,目前常見的有數種,簡單列舉如下,更詳細的說明之後再寫。
(1)迴歸(Regression)是最受歡迎的統計資料探勘技術。
(2)類神經網路(ANN)源自於計算機科學中人工智慧的複雜資料探勘技術,模擬人類神經架構,神經接收刺激,處理刺激,然後將結果傳給其他神經,最後一條神經輸出一份決策,一份決策可能只被一條神經處理也有可能很多條,依據先前決策所收到的回饋,調整其內部運算與溝通參數,便能持續學習。
(3)集群分析(Cluster Analysis)是一種探究式的學習技術,是用來自動辨識事物自然分群的一種技術,彼此相似或接近的資料會被分類為一個群集,彼此十分不同的資料則會分類為不同的群集。集群分析也是人工智慧的一部份。
(4)關聯規則(Association rules)商業上常用的資料探勘方法,也被稱作購物籃分析,用來找出交叉銷售機會極有幫助,商務網站亞馬遜及串流電影網站Netflix也是此技術,此技術有助於找出變數(項目或事件)之間有趣的關係。

資料探勘好比深入粗糙的材質中,試圖發掘有價值的成品金塊,技術固然很重要,但領域知識也同樣重要,如此才能提供具想像力的解決方案,供日後資料探勘使用。



一開始會讀這本書,是因為最近工作上必須開始運用這一塊,加上寫code有時候有點煩,想說看一些科普的書,但看了之後才發現,如果把這當作一本科普的書而沒有程式底子的話,那很多部分會看得很痛苦(比如MapReduce進行平行處理,或Spark進行串流處理的部份)因為會看到很多程式碼,我想這本書應該要註明,給“資工人”認識大數據的第一本書,但略過程式部分不說的話,就針對雲端運算或者是資料探勘部分,他的圖文搭配我覺得還滿淺顯易懂的。

大數據是近期非常火紅的話題,也是進入機器學習與深度學習的前哨站,資料科學家的最終目標是找到最好解決問題的方法,所以常常會有依據不同的資料量或類型採用不同的模型與演算法,最近在看另一本使用TensorFlow進行深度學習快速入門的書,所以接下來可能會針對機器學習、深度學習、與類神經網路寫一篇讀書心得與入門這領域兼具的文章,不過在那之前,我應該會先把手上幾本陶冶性靈的心理學書籍先看一看,覺得最近自己的人文素養有些下滑了(汗.....





沒有留言:

張貼留言