6/26/2014

看穿統計 naked statistics-序論

這本書的第一章總括本書的重點,希望讓讀者先初步了解全書的梗概。
因為我們日常生活中,遇到許多的統計數字,就像台灣的經濟成長率2~3%, 台灣社會新鮮人的平均薪資22K, 國中升高中會考的第一志願錄取率60%,台北市過去一個月的成交房價平均每坪69萬元,資策會調查發現台灣的智慧型手機用戶普及率51%,台北市藍綠兩黨推出的市長候選人的得票率,台灣電信業者預估4G用戶和手機銷售量等等許多數字。這些數字的取得和計算方式都不相同,而發佈數字的人,是否選擇性舉出對他有利的,或是對其它人不利的數字,都值得推敲背後的意義。
根據作者的說法,統計數字分幾種類型,要考慮數字的來源,定義的邏輯與呈現的潛在偏誤,當然數字背後有策略的意義。同樣一組數字,可以有不同的運算邏輯,然後就可以提供不同的意義,或是做不同的應用。例如我們拿到競爭者與我們工廠各1萬筆印表機品質抱怨資料,我們可以統計每個商品的瑕疵數從1~10+ 分別數量,並且做成柱狀圖(如書中20~21頁的圖),並且計算他們的平均值與中位數,如果那平均值我們瑕疵數9.1大於競爭者的2.8,表示我們這些商品每件的瑕疵比別人多。如果拿中位數,我們是1比競爭者的2少,表示我們的商品要嘛瑕疵率很高,要嘛很低,而競爭者較平均在2個附近。話在人說,也看聽的人信不信或是聰不聰明?

作者把統計數字分成幾種類別:
(1)敘述性的數字用來做比較:這類統計是把所有數字都蒐集起來,然後找出幾個重要的數字, 設計權重,忽略不計算某些類別的數字, 然後可以和其它人比較。例如大學聯考或甄試,各個學校可以根據他們的需求,統計學生的成績與排序;他們可以對某些科目加重權重, 也可以不採計高中在校成績,對國外奧林匹克競賽加分, 不考慮體育或操行成績等等。因為有取捨, 就有操縱的空間。
(2)透過抽樣來進行推論:因為母體太大無法逐一統計,因此採取抽樣的方式,進行分析,然後推論。例如某政黨要推出台中市長候選人,他們希望透過電話民調來取得參考的數據,因此就用室內電話抽樣,選擇某段時間叫工讀生打電話。抽樣的設計牽涉到調查的信度與效度,抽樣的邏輯(例如時段,區域別數量分配,年齡層或性別的比例)也會影響到結果。如何計算有效件,如何排除無效件,都影響結果。
(3)對未來的風險預測/或用機率預測未來/或統計發生率找出異常現象:最常見的就是對新產品的銷售量與投入資源的預估與規劃,例如保險公司設計保單時,預估這種類型的事故發生機率以及理賠金額,然後計算合理的保費;對於飛機零件的更換,根據過去的記錄預估汰換年限及故障發生率,以降低風險;對於IPHONE 6 的訂單預估,影響APPLE公司和其它中下游廠商的備料預估。這種牽涉到不確定性的機率,因為不確定,更有許多猜測的空間。
(4)辨別因果關係/偵探可能的脈絡:許多醫學界學者探討某項疾病與某種行為的關係, 例如講行動電話VS腦瘤,抽煙VS肺癌,燕麥片VS腸胃健康,飲食VS長壽等等。這可以透過回歸分析,或是加入多變數分析。但是很多時候, 選擇變數本身就是謬誤,選擇的數據背後可能還有其他影響因素,只拿幾個數據就開始分析, 然後歸納因果關係, 很多時候會不知所云或倒果為因。
(5)幫助說謊或特殊目的所做的統計:有許多時候,有心人士為了說謊或特殊目的,先設定主題,然後設計問卷或召開說明會去取得所需要的數據,編成完美的故事。例如有兩個業務單位,各有3個業務人員, 他們的業績分別是1,2,3及 4,5,6百萬元。平均業績各是2百萬魚百萬元。新的年度,老闆要兩個業務單位業績都要成長10%以上,於是兩個業務單位主管就協調把 4百萬的那一個業務轉調給第一組;於是他們6人的業績不變, 分別是1,2,3,4及5,6百萬,但是兩組的平均業績都提升了,分別是2.5與5.5百萬, 分別成長 25%與38%。此外,有些惡劣的人會作假欺瞞,玩數字遊戲。

讀這本書,感覺類似讀快思慢想那本書,只是從統計的語言切入。文字很簡單明瞭,值得推薦。

沒有留言: