顯示具有 大數據 標籤的文章。 顯示所有文章
顯示具有 大數據 標籤的文章。 顯示所有文章

2018年3月13日 星期二

認識大數據的第一本書[讀後心得]--下

認識大數據的第一本書
認識大數據的第一本書


上一篇文章講完了大數據的整體介紹及大數據的來源與應用,接下來要說的是這本書的後半段,本書的後半段主要是雲端運算,資料探勘,大數據程式設計入門,其中的NoSQL資料庫建立,運用MapReduce進行平行處理,以及運用Spark進行串流處理的部份,內容較為專業,有興趣的可以去搜尋一下,網路上還滿多教學資源可以去學習,這裡就不提了,接下來就雲端運算與資料探勘開始簡介。

雲端運算,是為快速打造一項運用,提供共享、彈性、具成本效益IT基礎建設的一種商業模式,在大數據的運用來說,一般的公司可以先藉由租用雲端設備如資料庫等,來進行初步的系統測試。因為雲端有彈性的容量,以及按使用付費原則,你可以彈性的就你所需的儲存空間及運算設備進行租用,而且雲端運算具有高度的復原力及安全性,可以用低廉的價格來確保資料的安全,雲端運算會是在投資IT基礎設備的一個好選擇。

資料探勘是一種從各領域借取技術的跨領域學科,從組織好的資料集合中萃取出有用模型的行為,運用了統計與計算機科學汲取模型與分析技術,另外亦從商業管理領域汲取決策制定的知識,其背後的假設為,利用過去的資料將可預測未來的活動模型。
資料探勘分為幾個步驟
(1)搜集與選擇資料:資料的搜集非常花費心力,特別是資料不具有任何結構,或者半結構化時,例如聊天對話、部落格、推文,或者是互相連接的機器、RFID標籤、甚至是機器產生的資料流等等,必須將這些資料矩形化。
(2)資料清理與準備:資料在公運用前,一定得經過整理轉換,比如填補缺失的數值、控制極端值造成的效果、量化連續變數等等。
(3)資料探勘輸出:資料探勘的輸出有許多方式,其中一種熱門的輸出形式為決策樹,可從視覺上遵照個步驟來進行基於模型的決策。輸出方式也可以是回歸方程式或數學函式的形式,呈現出最適當的曲線來代表資料。
(4)評估資料探勘結果:資料探勘的流程主要有兩種,監督式與非監督式學習,這本書介紹的較為複雜,我簡單的說明一下,監督式學習(Supervised Learning): 在訓練的過程中告訴機器答案、也就是「有標籤」的資料,比如說給機器看一百張有狗的照片,然後再給機器各種照片叫他找出有狗的照片。非監督式學習(Unsupervised Learning): 訓練資料沒有標準答案、不需要事先以人力輸入標籤,故機器在學習時並不知道其分類結果是否正確。簡單的說,若輸入資料有標籤,即為監督式學習;資料沒標籤、讓機器自行摸索出資料規律的則為非監督式學習,常見的有集群演算法。

資料探勘技術,目前常見的有數種,簡單列舉如下,更詳細的說明之後再寫。
(1)迴歸(Regression)是最受歡迎的統計資料探勘技術。
(2)類神經網路(ANN)源自於計算機科學中人工智慧的複雜資料探勘技術,模擬人類神經架構,神經接收刺激,處理刺激,然後將結果傳給其他神經,最後一條神經輸出一份決策,一份決策可能只被一條神經處理也有可能很多條,依據先前決策所收到的回饋,調整其內部運算與溝通參數,便能持續學習。
(3)集群分析(Cluster Analysis)是一種探究式的學習技術,是用來自動辨識事物自然分群的一種技術,彼此相似或接近的資料會被分類為一個群集,彼此十分不同的資料則會分類為不同的群集。集群分析也是人工智慧的一部份。
(4)關聯規則(Association rules)商業上常用的資料探勘方法,也被稱作購物籃分析,用來找出交叉銷售機會極有幫助,商務網站亞馬遜及串流電影網站Netflix也是此技術,此技術有助於找出變數(項目或事件)之間有趣的關係。

資料探勘好比深入粗糙的材質中,試圖發掘有價值的成品金塊,技術固然很重要,但領域知識也同樣重要,如此才能提供具想像力的解決方案,供日後資料探勘使用。



一開始會讀這本書,是因為最近工作上必須開始運用這一塊,加上寫code有時候有點煩,想說看一些科普的書,但看了之後才發現,如果把這當作一本科普的書而沒有程式底子的話,那很多部分會看得很痛苦(比如MapReduce進行平行處理,或Spark進行串流處理的部份)因為會看到很多程式碼,我想這本書應該要註明,給“資工人”認識大數據的第一本書,但略過程式部分不說的話,就針對雲端運算或者是資料探勘部分,他的圖文搭配我覺得還滿淺顯易懂的。

大數據是近期非常火紅的話題,也是進入機器學習與深度學習的前哨站,資料科學家的最終目標是找到最好解決問題的方法,所以常常會有依據不同的資料量或類型採用不同的模型與演算法,最近在看另一本使用TensorFlow進行深度學習快速入門的書,所以接下來可能會針對機器學習、深度學習、與類神經網路寫一篇讀書心得與入門這領域兼具的文章,不過在那之前,我應該會先把手上幾本陶冶性靈的心理學書籍先看一看,覺得最近自己的人文素養有些下滑了(汗.....





2018年3月12日 星期一

認識大數據的第一本書[讀後心得]--上



認識大數據的第一本書
認識大數據的第一本書


Big data Made Accessible的作者是Anil Maheshwari博士
節錄部分作者序:
要了解大數據的概念,則需要抑制許多關於資料上的傳統期望與假設,像是完整性、清晰度、一致性、以及簡潔性。對大數據的理解與掌握已從夢想慢慢轉變為現實,它是一個快速演化的領域,不論在值價與能力上皆呈指數型成長。
關於大數據的書籍愈來愈多,大部分都屬於兩種類型,有些著重在商業觀點,討論若想從大數據提供的諸多機會中獲得商業利益,需要什麼樣的策略性內部轉移。另一種則是著重在特定技術平台,例如Hadoop或Spark。而本書的目標則是將商業考量與技術完美地整合在一起。

-----------------------------------------------------我是分隔線----------------------------------------------------
大數據『Big Data』,又稱做巨量資料,近年來飛速的竄紅,什麼東西都得跟大數據扯上邊,感覺才跟得上時代一樣,而什麼是大數據呢?簡易的來說指的是傳統資料處理應用軟體不足以處理的大或複雜的資料集。
本書概括可分為幾個部分

大數據的整體介紹及來源與應用,大數據的架構與相關資料庫的運算處理,雲端運算,資料探勘,大數據程式設計入門,以下簡單整理

1.大數據的整體介紹
      大數據的特性歸類為「3V」,包括資料量(Volume)、資料類型(資料多樣化)(Variety)與資料傳輸速度(Velocity),資料量大部分以千兆位元組(PB)以上為單位,資料量的傳輸速度增加至(1GB/秒),資料的多樣性主要分為『形式』,『功能』,『來源』,而資料的來源又分為人與人溝通,人與機器溝通,機器與機器溝通。
      資料的準確性,大數據基本上是一團亂,所以會有品質不佳的資料,甚至是會有策略性散佈的不實資訊或者惡意訊息,所以必須在兼具品質下進行篩選與組織。
      大數據的好處與運用,主要有三個類型,監看與追蹤運用,例如公共事業預測能源消耗,管理需求與供給,工廠用來監看機器效能並進行預防性維護。分析與見解:政治組織可用大數據來預測政策與民意來贏得選戰,警察可以使用大數據來預防犯罪,設計師可用來追蹤潮流並且創造新產品。新產品開發,即時傳入的資訊可用來設計如真人實境秀之類的新節目,讓開發新產品的速度更加速。
      大數據的管理與分析,大數據可以透過兩種方式進行分析,成為流動大數據(Big Data in motion)或靜止大數據(Big Data at rest)分析,第一種方式是即時處理傳入的資料流,針對資料進行快速與有效的統計,第二種是儲存與結構化批次資料,並套用標準分析技術來產生見解。
      大數據的技術挑戰主要分為四個,超大容量資料的儲存,極快步調的提取串流,處理各種資料形式與功能,以高速處理資料,隨著硬體的進步以及演算法的運用,這些挑戰也逐漸的被克服。

2.大數據的來源與應用
     大數據的來源,分為人與人溝通,人與機器溝通,機器與機器溝通。人與人溝通以社交媒體的網路平台為主,如facebook、Twitter、Youtube等等。人與機器的溝通,如siri的個人助理,他們試著了解人類自然語言的需求,又或者是像智慧手錶之類的穿戴型裝置,讀取、儲存並且分析個人資料,以及人在使用機器,如人利用網路搜尋資訊甚至是滑鼠點擊的資料都可算是人與機器的溝通。機器與機器的溝通(M2M),或者稱作物聯網(Internet of Things,IoT),如RFID、GPS定位晶片、或者是車上的胎壓感應器等等,用來監控或者是測量特定的環境參數,以便能讓這些資訊被製造商或者機器擁有者存取與掌控。
    大數據的應用,可分為以下幾項
          (1)監看與追蹤的運用:如公共衛生監督,消費者情感監測,用電量追蹤等。
          (2)分析與見解運用:
             預測性警務,找出過去曾犯罪及預測未來可能會發生犯罪的熱點及時段,來作為未來警方巡邏的路線及區域。
             選舉運用,例如歐巴馬的競選團隊收集了數百萬支持者的選民資料,並用使用資料來決定有機會轉換為他們陣營的游離選民,並進行電話拜訪,再將電話拜訪的結果用應用程式紀錄進行分析。
             醫療健康,如IBM的華生,吸收並消化世界上所有醫學資訊,根據目前的症狀、並使、用藥紀錄及其他參數,提供精確的醫療診斷。
          (3)新產品開發:如網路使用者的瀏覽紀錄與購買歷史,可讓機器學習用戶的偏好與需求,並即時投放客戶可能感興趣的產品或者優惠的廣告。



本書的前半段簡介了大數據以及應用,大數據並沒有一個統一定義,我個人認為代表著傳統的儲存方式與分析技術難以應付的海量資料,而這些資料必須用新的儲存及處理方式,如分散式檔案儲存系統,及分散式運算、平行處理、NoSQL資料庫等等,傳統的商業分析可以分析過去發生什麼事,以及為什麼會發生,像是利用統計學回歸分析。而大數據則可根據目前發生的事,去建構模型,預測未來將發生什麼事,並提供決策。本書的後半段將著重於大數據架構與相關資料庫的運算處理及入門運用。

未完待續.......

















將探吉帶去日本系列-1(赫曼陸龜Testudo hermanni)

 因為接下來要去日本唸書 所以也要把探吉帶去日本 赫曼陸龜(學名:Testudo hermanni) 目前把北部能查的到的代辦寵物移民的問了一圈 得到的回覆是都沒有代辦陸龜 所以得開始研究自己辦理了 (或者有大大知道台灣誰有代辦陸龜出國的可以私訊我,感恩) 孟恭帶邱口去歐洲那間我...