文華閱讀筆記: Book：大數據 Big Data

端午節讀這本書，頗有趣的。

這本書告訴我們，大數據的三個很大特性：（1）大數據不是用抽樣的，是那全部的資料來分析，因此資料量很大；（2）資料的來源很多，資料格式很多種，資料結構無法預先設定，因此，分析是雜亂的。資料庫的設計，不能跟傳統的方式相同，在計算分析的過程，就很難要求數據的正確性。（3）放棄因果關係的邏輯，反而在不知道原因的前提下，根據資料分析，找出相關性，就去推測未來的行為，而步必先解釋原因現象，然後推理未來的發展。

最後一點非常重要，不能夠根據分析，去找原因，然後再推論某些條件下，應該如何決定，再去驗證結果。反而，不過問可能的原因，只用數字的關聯性，推測下一次類似的數字發生時，可能的結果。

未來的世界，因為所有人都在提供資料，包含社交網站的互動資料，包含每人的瀏覽行為軌跡，行動活動的地理位置，以及政府部門／醫療部門／企業部門／消費行為／通訊記錄／銀行金融交易記錄等都在累積中，人們的資料全都被記錄與分析。

資料的價值要看 option value，也就是說資料被重複拿來使用的價值，例如手機的通話記錄，除了收費外，也可以被拿來防詐騙，咋犯罪，分析行動記錄，分析朋友關係，如有更多應用，表示資料更有價值。可以整合不同來源的有些資料，然後做出更有價值的判斷，例如從電信公司取得某些人的通訊記錄與瀏覽軌跡，從醫院取得某些人的癌症記錄，從政府機關取得人的收入所得和年齡或菸酒習慣，整合三方的資料，來觀察某些人的癌症與使用手機行為與社經地位的相關性。再來，在搜集資料時，最好夾帶蒐集更多資料，在邊際成本不高下，多取得人的資料，有助於資料更多應用。

資料的價值鏈包含，資料取得者（如電信公司），資料分析者（建立模型，設計參數，演算與驗證的專業公司者），資料使用者（例如廣告行銷公司，透過前者的資料做精準的廣告投放）。

巨量資料分析是趨勢，卻也隱含風險，（1）個人隱私的保護，（2）依靠數據下決策，可能因為模型參數不當，數據取得偏差，全部相信GARBAGE DATA做出 GARBAGE DECISION。（2）去人性化，造成資料決策的獨裁，根據過去1000位罪犯的行為，預測眼前100個潛在罪犯，但者100人都需要被逮捕嗎？根據過去10000人的病理分析，推測眼前這10人可能也會死于癌症而無可醫治，是否就放棄這0條生命？根據過去100000個就業人員的性格分析，認為這1000人不適任醫生／法官，能否就根據性格分析，剝奪這1000人的工作權？根據台灣2000萬人健康保險的資料分析，眼前這個人75%可能會死於50～60歲，20%死於40～50歲，5%死於30～40歲，是否可以提供給他的男女朋友，作為是否結婚的參考？

巨量資料提供預測的模型，最困難的在於演算法；如何建模，如何驗證是很大的挑戰。

巨量資料提供預測機率，但避免被政客濫用，造成資料暴力。例如預測禽流感爆發要求對某些居民強制隔離，預測颱風而要求企業全面停工，預測汽車零件缺失而要求全面召回，預測某些人犯罪機率高而要求警方監控，等等。

巨量資料的取得者如何保護個人資料的被使用？資料分析者如何惡意竊取個人資料？資料使用者如何為資料負責？這些人如何避免不肖分子轉賣資料圖利？

這本書，特供一些看法，頗為發人深省。

文華閱讀筆記

6/02/2014

Book：大數據 Big Data

沒有留言: