7/01/2014

看穿統計 naked statistics - 數據的重要

俗話說,garbage in garbage out. 數據如果沒有重視取得的品質和相對母體的代表性,則很容易輸入不適當的資料,得出不清楚的結果。尤其提到抽樣調查,調查時盡可能要找到和母體分佈相類似的樣本(例如縣市別,性別,年齡區間,行為別都和母體的分佈比例類似)。但是抽樣最好取亂數,避免失去抽樣的隨機性。偏偏電話訪問或是街頭訪問時,願意接受訪問的人,不論是為了小贈品,或是個性使然,或是打電話的時段與受訪者的工作屬性,都可能造成抽樣的誤差。

有些抽樣誤差或謬誤,條列如下:
1.selection bias: 願意接受訪問或調查的人,本身就不會是亂數隨機的,回答的資訊正確率可疑。有些焦點或專家訪談,甚至徵求自願民眾參與實驗調查,這些自發性或篩選的樣本,本身就隱藏很大的誤差。
2.publication bias: 當我們發表的數據,考慮社會群眾,公司主管,媒體編輯,論文評審官等都喜歡正面的消息,嚴惡負面的發現。加上許多人的時間很少,希望在簡短的描述中抓到分析的結果,因此許多分析的內容很豐富,但結論卻被剪接的失去全貌。
3.recall bias:人類的記憶力並不好,對於過去一段時間的往事或經驗,往往要從記憶中拼湊,甚至亂猜亂湊。尤其進行量化的追蹤過去的歷史經驗,許多人會亂回答,並非故意,而是記憶力已經不清楚。
4.survivorship bias: 統計上的誤差發生在我們只計算存留下來比較優秀的樣本,而不計算優勝劣敗的淘汰者,造成統計上的表現很突出。例如基金公司號稱他們公司的投資基金優於大盤,其實不是他們公司的分析師特別厲害,而是,他們有20檔基金上市,他們把不好的基金做合併或下市,只留下優於大盤的基金繼續銷售,並且宣稱優於大盤。
5.healthy user bias: 教育局長宣導穿紫色睡衣睡覺的小孩比較健康,於是許多照顧小孩的家長會專程購買紫色睡衣,並且提醒小孩睡覺時間。過了10多年後,研究發現念名校的學生許多都曾經穿過紫色睡衣。其實紫色睡衣不是讓他們健康的因素,而是他們會穿紫色睡衣的家庭環境或生活作息。

這些案例,有些在快思慢想一書中,有類似的邏輯。

沒有留言: