6/30/2014

看穿統計 naked statistics -濫用機率的問題


機率本身不會出錯,是人們使用機率來犯錯。Probability doesn't make mistakes; people using probability make mistakes. There are some most common probability-related errors. 
(1) Assuming events are independent when they are not.
(2) Not understanding when events are independent.
(3) Cluster happen.
(4) The prosecutor's fallacy.
(5) Reversion to the mean (regression to the mean).
(6) Statistical discrimination.

(1) 嬰兒死亡率 1/8500, 那麼某個家庭連續2個嬰兒死亡的機率是 1/8500的平方?錯!家中有個1個死亡後,第2個嬰兒死亡的機率會比其它一般家庭的嬰兒死亡率1/8500大。因為可能父母的照顧方式,家庭疾病,蓄意謀殺等原因,造成第二個更容易死亡。所以,同家庭兩個嬰兒的死亡,並非各自獨立事件。
(2)賭徒的謬誤,當丟銅板連續5次正面後,賭徒會認為下一次一定出現反面。但其實,下一次出現反面的機率還是1/2,不會因為先前出現100次正面後,就改變機率。另外就是打擊狀況,許多棒球粉絲會認為一位強棒的打擊狀態,會因為他前兩次出場的打擊狀況而影響,前兩次打擊出去,這次打擊出去機會比較大,這叫做手順或手氣。但其實研究發現並沒有關聯性。
(3)某個村莊發現過去一年有好幾個人死於同一種癌症,然後就會猜測去年新建設的基地台或是化工廠造成民眾的死亡。這是針對群聚的解釋。事實上,這個村莊的現象,可能只是一種巧合;因為如果建設基地台,不會只造成這個村莊受影響;如果設立化工廠,化工廠周圍不會只有這個村莊受影響;只是因為有幾個例子,大家的恐慌就會突顯這個個例。
(4)   檢察官辦案時,他應該要找尋許多證據再做綜合判斷;但是人們容易患輕易取得的證據的謬誤(availability fallacy), 若先看到DNA比對結果,就先判斷DNA相似者的嫌疑大,進而驗證;當看到錄影帶死者死亡前附近有一位前科殺人犯出現過,這位前科犯就涉入重嫌;看到窮人與富人交往,窮人就會被懷疑謀財害命。
(5)運動員報導魔咒,當優秀運動員被報紙大篇幅報道後,他接下來的表現就會衰退。因為被報道時通常是最佳的表現,但是他的表現終究會回到平均值。到賭場賭博,剛開始會有幾次手氣順的時候,然後就會把本賠回去,如果再加碼,可能會賺一些,再玩下去,終究會賠一些。如果把賭博的次數從10次,拉到1000次,只要本錢夠,最後會發現,賠錢的機率是類似賭場設定的期望機率,回到平均值。
(6)統計的歧視;probability tells us what is more likely and what is less likely. Is it OK to discriminate if the data tell us that we'll be right far more often than we're wrong? 當我們設計一個模型來抓出走私犯,正確率80%。 那表示我們抓到的100人, 有80人是罪有應得,但20人是冤枉的, 這20人就是被統計所歧視而遭殃的人。我們設計汽車肇事的保險費, 男性出車禍的機率高於女性 20%,(1000個人,500個男人,500個女人,男人24人出車禍, 女人20人出車禍,因此男性保費比女性高20%),這種情況,那476位男性倒霉,要比那480位女性多負擔20%保費,這對476個男性是一種歧視性的懲罰。

針對專業經理人,作者提到有趣的現象,專業經理人拿到企業人大獎或是上封面雜誌後,其績效並不只是回復平均值而已,往往會有行為的扭曲,例如寫書演講外遇等,不單純類似是“運動員封面魔咒”。








沒有留言: