今天看到一篇「圖解:健保局星座月份趣味生命統計背後的真相(by 李怡志)」(以下簡稱為李文)。因為在該處無法回應,故在此回應。「>」之後的句子乃引自李文。
>星座我不完全相信,但老祖宗出生月份節氣會影響身體健康的這一套我卻很認同,如果不同季節生出來的人身體健康完全一樣,也說不過去。
如果不論名稱由來與其他加油添醋的成分,星座與月份之間其實只差了十天左右(往另一個方向算是二十天左右)。將星座改以月份來呈現並不會增加它的可信度。
地球的氣候一直在改變,而且台灣四季的天氣差別並不會很大。除了天氣╱氣候因素,還有太多因子可以影響人的壽命。所以不只不同季節生出來的人身體健康不會完全一樣,事實上地球上根本沒有兩個身體健康完全一樣的人。
>這份資料如果按照星座順序畫下來會忽高忽低,波動劇烈,那這就是健保局浪費納稅人的無聊偽科學...但如果畫出來能看出趨勢呢?
「忽高忽低,波動劇烈」不見得沒有統計意義,肉眼看出來的趨勢也不見得有統計意義。
>先按照具有神秘色彩的「星座」畫畫看:
>大致上有一個趨勢,就是春、夏生的人比秋、冬生的人,更要好好珍惜生命。
李文中的兩張柱狀圖裡,Y軸是不連續的。這種處理會凸顯出不同組別之間的趨勢與差別。也就是說:即使組別之間並不存在顯著差異,在經過這種處理之後,可能就足以讓肉眼「看出」其趨勢與差別。(李文中的雷達圖也有相同的弊病。)從李文的三張圖看來各星座之間似乎有很大的差異,但是成功大學統計系教授任眉眉認為健保局的這份統計報告「統計分析的方式大有問題...平均死亡年齡的比較未考量到各星座人數所佔比例等變數,各星座間的年齡差異性太小」。
(上圖左為李文的第一張圖。站長把它的「壽命」圖中被切掉的Y軸補上,結果如上圖右。奇怪,原本很明顯的趨勢怎麼不見了?)
生命科學期刊中的圖,一般會以星號呈現(或以圖例文字說明)不同組別之間是否有統計上的顯著差異,並算出假設檢定(hypothesis testing)的p值(p value)。肉眼的感覺有時會騙人,所以科學不是用看的,而是用算的。從這三張圖中站長看不到科學或所謂的「真相」。
>星座如何還原成月份?以五月來說,就是 21 天的金牛座外加 10 天雙子座。
李文中提到「我沒有原始資料」,所以站長無法得知這個還原過程的正確性。
>(還原成月份資料後)可以看得出來比星座要來得平順一點。但趨勢大致上不變
還是那句話:科學不是用看的,而是用算的。「平順」與「忽高忽低,波動劇烈」的差別在哪?在統計!何謂趨勢?在統計!
生命科學研究與生物統計的目的是發掘生命現象的真理。不過在研究設計中不免會加入一些假設或受到現實條件的限制,因而所得到的結果並不見得可以無限擴大適用範圍。眾所皆知,有太多先天與後天因子(即李文中提到的「外力干預」)可以影響一個人的壽命。這次健保局以「台灣人在2006年當中過世者」的資料為樣本,以星座為分組方式,分析星座與壽命╱死亡原因之間的相關性。所以只能說「在2006年當中過世的人,以魔羯座與水瓶座最長壽」(假設統計上真的有顯著差異的話),不宜任意將其衍伸為「在2007年當中過世的人,仍然以魔羯座與水瓶座最長壽」、「凡是魔羯座與水瓶座通常最長壽」、「星座會影響壽命長短」甚至「出生月份節氣會影響身體健康」。
橫斷性研究(cross-sectional study)只能算出盛行率(prevalence)而非發生率(indicende),所以推論因果關係(casuality)的能力原本就很弱。加上星座與壽命╱死亡原因之間目前並無生物學上的合理性(biological plausibility),難怪健保局這次的統計分析被批為「不倫不類」。
健保局醫審小組組長曾玟富強調這項統計「各指標之間也確實有統計上的意義」,意思是指健保局這次公布的所有數字都有統計意義嗎?頗令人懷疑。即使真的統計出相關性,有可能是隨機誤差(random error)或系統誤差(systemic error)造成的假相關性(spurious association,也就是其實並無相關性),也有可能是雖真有相關性但是是由其他的干擾因子(confounding factor或confounder)所導致。研究中可能的干擾因子可藉由很多方式來控制:匹配(matching)、限制(limitation)、隨機分配(randomization)、分層(stratification)、標準化(standardization)、多變項分析(multivariate analysis)...,捨此不為,非正道也。這應該是任眉眉教授認為健保局的這份統計報告「統計分析的方式大有問題」的原因之一。所以"Factors influencing medical informatics examination grade--can biorhythm, astrological sign, seasonal aspect, or bad statistics predict outcome?"一文中有句金玉良言:"Inadequate statistical analysis can always confirm false conclusions."
某位公衛教授曾說過:「給我數字,我就可以寫出一篇論文。」與健保局合作的公衛學者多如過江之鯽,期許能以健保局這些資料向New England Journal of Medicine投稿,為台灣爭光。
以下幾篇論文僅供參考:
▲相關連結:
統計可以玩的可多了
就像小弟讀過一篇論文 韓國人寫的 說得H. pylori感染會導致血液膽固醇增加
而且有統計上的意義哦 (p<0.05)
可是細看data
沒有H. pylori感染的人 膽固醇濃度約183 mg/dl
有H. pylori感染的人 膽固醇濃度約186 mg/dl
差異3 mg/dl 這是差心酸的喔!?
有統計上的意義 不表示有生理上 實質上的意義
健保局這群不學無術的人呀...... 真是愚人節快樂
Posted by: genome | 2008.01.23 at 04:19
另一個過度推論的例子:
聽MP3嚼口香糖 可護耳
http://www.libertytimes.com.tw/2008/new/jan/23/today-life12.htm
Posted by: morpheus | 2008.01.23 at 08:22