端午節讀這本書, 頗有趣的。
這本書告訴我們, 大數據的三個很大特性:(1)大數據不是用抽樣的,是那全部的資料來分析,因此資料量很大;(2)資料的來源很多,資料格式很多種,資料結構無法預先設定,因此,分析是雜亂的。資料庫的設計,不能跟傳統的方式相同,在計算分析的過程,就很難要求數據的正確性。(3)放棄因果關係的邏輯, 反而在不知道原因的前提下,根據資料分析,找出相關性,就去推測未來的行為,而步必先解釋原因現象,然後推理未來的發展。
最後一點非常重要,不能夠根據分析,去找原因,然後再推論某些條件下,應該如何決定,再去驗證結果。反而,不過問可能的原因, 只用數字的關聯性,推測下一次類似的數字發生時,可能的結果。
未來的世界,因為所有人都在提供資料,包含社交網站的互動資料,包含每人的瀏覽行為軌跡, 行動活動的地理位置,以及政府部門/醫療部門/企業部門/消費行為/通訊記錄/銀行金融交易記錄等都在累積中,人們的資料全都被記錄與分析。
資料的價值要看 option value,也就是說資料被重複拿來使用的價值,例如手機的通話記錄, 除了收費外, 也可以被拿來防詐騙,咋犯罪,分析行動記錄, 分析朋友關係, 如有更多應用,表示資料更有價值。可以整合不同來源的有些資料, 然後做出更有價值的判斷,例如從電信公司取得某些人的通訊記錄與瀏覽軌跡,從醫院取得某些人的癌症記錄,從政府機關取得人的收入所得和年齡或菸酒習慣,整合三方的資料, 來觀察某些人的癌症與使用手機行為與社經地位的相關性。再來,在搜集資料時,最好夾帶蒐集更多資料,在邊際成本不高下,多取得人的資料,有助於資料更多應用。
資料的價值鏈包含,資料取得者(如電信公司),資料分析者(建立模型,設計參數,演算與驗證的專業公司者),資料使用者(例如廣告行銷公司,透過前者的資料做精準的廣告投放)。
巨量資料分析是趨勢,卻也隱含風險,(1)個人隱私的保護, (2)依靠數據下決策, 可能因為模型參數不當,數據取得偏差,全部相信GARBAGE DATA做出 GARBAGE DECISION。(2)去人性化,造成資料決策的獨裁,根據過去1000位罪犯的行為, 預測眼前100個潛在罪犯,但者100人都需要被逮捕嗎?根據過去10000人的病理分析, 推測眼前這10人可能也會死于癌症而無可醫治,是否就放棄這0條生命?根據過去100000個就業人員的性格分析, 認為這1000人不適任醫生/法官, 能否就根據性格分析, 剝奪這1000人的工作權? 根據台灣2000萬人健康保險的資料分析, 眼前這個人75%可能會死於50~60歲,20%死於40~50歲,5%死於30~40歲,是否可以提供給他的男女朋友, 作為是否結婚的參考?
巨量資料提供預測的模型,最困難的在於演算法;如何建模,如何驗證是很大的挑戰。
巨量資料提供預測機率,但避免被政客濫用,造成資料暴力。例如預測禽流感爆發要求對某些居民強制隔離,預測颱風而要求企業全面停工,預測汽車零件缺失而要求全面召回,預測某些人犯罪機率高而要求警方監控,等等。
巨量資料的取得者如何保護個人資料的被使用?資料分析者如何惡意竊取個人資料?資料使用者如何為資料負責? 這些人如何避免不肖分子轉賣資料圖利?
這本書,特供一些看法,頗為發人深省。
沒有留言:
張貼留言