認識大數據的第一本書 |
Big data Made Accessible的作者是Anil Maheshwari博士
節錄部分作者序:
要了解大數據的概念,則需要抑制許多關於資料上的傳統期望與假設,像是完整性、清晰度、一致性、以及簡潔性。對大數據的理解與掌握已從夢想慢慢轉變為現實,它是一個快速演化的領域,不論在值價與能力上皆呈指數型成長。
關於大數據的書籍愈來愈多,大部分都屬於兩種類型,有些著重在商業觀點,討論若想從大數據提供的諸多機會中獲得商業利益,需要什麼樣的策略性內部轉移。另一種則是著重在特定技術平台,例如Hadoop或Spark。而本書的目標則是將商業考量與技術完美地整合在一起。
-----------------------------------------------------我是分隔線----------------------------------------------------
大數據『Big Data』,又稱做巨量資料,近年來飛速的竄紅,什麼東西都得跟大數據扯上邊,感覺才跟得上時代一樣,而什麼是大數據呢?簡易的來說指的是傳統資料處理應用軟體不足以處理的大或複雜的資料集。
本書概括可分為幾個部分
大數據的整體介紹及來源與應用,大數據的架構與相關資料庫的運算處理,雲端運算,資料探勘,大數據程式設計入門,以下簡單整理
1.大數據的整體介紹
大數據的特性歸類為「3V」,包括資料量(Volume)、資料類型(資料多樣化)(Variety)與資料傳輸速度(Velocity),資料量大部分以千兆位元組(PB)以上為單位,資料量的傳輸速度增加至(1GB/秒),資料的多樣性主要分為『形式』,『功能』,『來源』,而資料的來源又分為人與人溝通,人與機器溝通,機器與機器溝通。
資料的準確性,大數據基本上是一團亂,所以會有品質不佳的資料,甚至是會有策略性散佈的不實資訊或者惡意訊息,所以必須在兼具品質下進行篩選與組織。
大數據的好處與運用,主要有三個類型,監看與追蹤運用,例如公共事業預測能源消耗,管理需求與供給,工廠用來監看機器效能並進行預防性維護。分析與見解:政治組織可用大數據來預測政策與民意來贏得選戰,警察可以使用大數據來預防犯罪,設計師可用來追蹤潮流並且創造新產品。新產品開發,即時傳入的資訊可用來設計如真人實境秀之類的新節目,讓開發新產品的速度更加速。
大數據的管理與分析,大數據可以透過兩種方式進行分析,成為流動大數據(Big Data in motion)或靜止大數據(Big Data at rest)分析,第一種方式是即時處理傳入的資料流,針對資料進行快速與有效的統計,第二種是儲存與結構化批次資料,並套用標準分析技術來產生見解。
大數據的技術挑戰主要分為四個,超大容量資料的儲存,極快步調的提取串流,處理各種資料形式與功能,以高速處理資料,隨著硬體的進步以及演算法的運用,這些挑戰也逐漸的被克服。
2.大數據的來源與應用
大數據的來源,分為人與人溝通,人與機器溝通,機器與機器溝通。人與人溝通以社交媒體的網路平台為主,如facebook、Twitter、Youtube等等。人與機器的溝通,如siri的個人助理,他們試著了解人類自然語言的需求,又或者是像智慧手錶之類的穿戴型裝置,讀取、儲存並且分析個人資料,以及人在使用機器,如人利用網路搜尋資訊甚至是滑鼠點擊的資料都可算是人與機器的溝通。機器與機器的溝通(M2M),或者稱作物聯網(Internet of Things,IoT),如RFID、GPS定位晶片、或者是車上的胎壓感應器等等,用來監控或者是測量特定的環境參數,以便能讓這些資訊被製造商或者機器擁有者存取與掌控。
大數據的應用,可分為以下幾項
(1)監看與追蹤的運用:如公共衛生監督,消費者情感監測,用電量追蹤等。
(2)分析與見解運用:
預測性警務,找出過去曾犯罪及預測未來可能會發生犯罪的熱點及時段,來作為未來警方巡邏的路線及區域。
選舉運用,例如歐巴馬的競選團隊收集了數百萬支持者的選民資料,並用使用資料來決定有機會轉換為他們陣營的游離選民,並進行電話拜訪,再將電話拜訪的結果用應用程式紀錄進行分析。
醫療健康,如IBM的華生,吸收並消化世界上所有醫學資訊,根據目前的症狀、並使、用藥紀錄及其他參數,提供精確的醫療診斷。
(3)新產品開發:如網路使用者的瀏覽紀錄與購買歷史,可讓機器學習用戶的偏好與需求,並即時投放客戶可能感興趣的產品或者優惠的廣告。
本書的前半段簡介了大數據以及應用,大數據並沒有一個統一定義,我個人認為代表著傳統的儲存方式與分析技術難以應付的海量資料,而這些資料必須用新的儲存及處理方式,如分散式檔案儲存系統,及分散式運算、平行處理、NoSQL資料庫等等,傳統的商業分析可以分析過去發生什麼事,以及為什麼會發生,像是利用統計學回歸分析。而大數據則可根據目前發生的事,去建構模型,預測未來將發生什麼事,並提供決策。本書的後半段將著重於大數據架構與相關資料庫的運算處理及入門運用。
未完待續.......
沒有留言:
張貼留言