7/03/2014

看穿統計 naked statistics - 回歸分析的問題

許多人拿到一些數據,就開始做回歸分析,他們的邏輯是,先把資料丟進去電腦裡面跑回歸,然後從運算中尋找相關性,他們設法把不相關的變數回歸找出相關性,希望在無因果關係中找到突破性的發現。

參考作者書中的案例,他舉出體重與其他變數間的相關係數。

體重(Y)=4.4 x 身高 + 0.08 x 年齡 - 5.7 x 性別(女性=1) - 0.7 x 學歷年數 + 3.7 x 低運動量(幾無運動者=1)+ 5.6 x 貧窮者(領食物卷者=1)+9.7 x 非拉丁美洲黑人 -117

回歸分析的相關係數,必須注意三件事:
-sign (正負號)代表兩個變數之間的正相關或是負相關,例如體重與身高正相關,身高越高體重也越高,性別則是負相關,女性比男性體重會減少。
-size(大小)代表兩個變數之間的相關大小程度,就是X-Y 座標上直線的斜率,但是這個數字未必有太大的意義,例如體重與身高的係數 4.4,表示身高增加 1英吋,體重增加 4 磅;而只要是貧窮者,體重會比非貧窮者多5.6磅。
-significance (顯著性) 代表兩個變數之間的關係重不重要,採用的計算方式是拿標準差 standard error,t 分佈, p value, 信賴區間與R平方。這麼多的衡量工具表示統計學最重要的在於找到變數之間真正的有價值變數,因為很難找到好的變數,於是要透過不同的工具來衡量顯著性。

作者接著利用30頁的篇幅,說明回歸分析的7種錯誤,大概的重點摘要如下:
(1)對非線性相關的事情,拿來做回歸分析,一定產生錯誤。記得:回歸分析只適用于線性關係的變數。例如高爾夫球教練費與高爾夫球杆數分佈類似微笑曲線,如果做回歸分析,可以得到一條直線,但那條直線無法解釋事情的真相。
(2)相關性不等於因果關係,誤解的話會硬擺出荒唐的邏輯。。例如觀察過去一段時間美國的自閉症病人數與中國的經濟成長率高度相關,但兩者是否有因果關係,未必可以因相關而斷定。
(3)正向因果關係不成立時,不代表反向就成立。例如我們相信失業率與經濟成長率高度相關;然而降低失業率後,未造成GDP成長;並不代表提升GDP成長,就能降低失業率。
(4)小心省略某些變數所做的回歸分析,可能造成偏誤。例如研究指出打高爾夫球的人,比打籃球的人較容易患有心血管疾病與癌症。這個研究忽略了年齡的因數,打高爾夫球的人年齡通常高於打籃球的人,這群人罹患這些疾病的比例原本就比較大。
(5)當多變數的回歸分析時,要提防把高度相關的獨立變數放進去回歸,讓原本彼此應該獨立的變數,蒙上互相牽制的陰影。例如作者研究海洛因與古柯鹼對SAT成績的影響,計算SAT對海洛因的相關係數,計算SAT對古柯鹼的相關係數,結果,某學校672吸毒學生的樣本,其中只有3人吸海洛因(不吃古柯鹼),2人吃古柯鹼(不吸海洛因),其他667位同時吸食兩種毒品。這樣的多變數回歸,只針對那5個樣本,就失去客觀性。
(6)丟進來太多無關的變數,會讓分析失焦,也很難解釋。例如連續多次丟銅板,最後從40個學生中找出一個能夠連續丟出5個正面的學生,這時候老師就專訪這個學生,你是怎麼辦到的?你能不能再連續丟出5個正面? 這表示許多研究其實無法複製情境,有些純屬偶然,卻硬生生要解釋,是太過外行的做法。

總之,作者認為回歸分析只是一個工具,使用時必須注意到前述的錯誤。此外,他提醒任何對數字有興趣的人,不要貿然的做回歸,最好先設想你心目中的X-Y 中關係,先有一套說得過去的邏輯說服自己,再來透過數字分析加強佐證。

沒有留言: