近期在Nature期刊[1]刊登一篇有關長期投身正確解讀統計數據[2]運動的最新文章;此篇文章或許在某些部分有更好的闡述,但這並非本文探討的重點;該文章對促進更好地理解統計數據帶來更卓越的貢獻,建議任何對理解統計研究感興趣的人可完整閱讀這篇文章。其文章的核心問題是希望能釐清「統計顯著性的實質意義」的概念,這個概念通常出現在研究發現的p值小於0.05時會凸顯具有「統計學上的顯著意義」(當然;蠻多領域有更嚴格謹慎的標準)。許多研究工作者在查找文獻時,常碰到很多對於「統計學上的顯著意義」所出現的盲目和狹隘視角(及由此產生的不科學行為)而感到困惑和挫敗;而對於許多相信P數值0.05的人來說,此篇作者探討的內容可能看起來較顛覆原先既有的概念。
事實並非如此,在統計學上直接鎖定P數值0.05全屬斷章取義(「統計學上談及的顯著性」雖出現在上面引號,但為了方便讀者閱讀,此後將省略本句)[3]。此外,長期濫用P值和統計意義[3-7]使研究者感到沮喪並希望獲得建議是可以理解的;這應該不是首次發生的事,但同樣的兩位作者在2018年一起建議採用更嚴謹的門檻來檢視具有統計意義的物件(這也不是全新構想)[8-11]。不過至少早在1960年代一直到千禧年[12-13]仍不斷收到各種警示提醒,其要求放棄將交叉結果分為統計顯著和非統計顯著的做法。例如,統計學家Doug Altman在1991年所提出的譴責可看出他典型且清晰的邏輯思維:
統計顯著性的截點水平通常取P值0.05,有時取0.01;但此依據較為果斷且不具特別重要意義。根據計算所得的P值,舉例來說0.055或0.045用不同方式來詮釋研究結果是不正確的;應該說這些P值需得出相似結論,而不是截然相反的結果。 [此外]對P值的截止值的使用將統計分析作為研究決策的過程用統計學的信賴區間來預估是更好的做法。在上述邏輯框架內,按慣例(但較偏頗)認為統計上顯著的影響是較真實的,而相反的在非顯著的影響則表示沒有差異;因此當我們從樣本中取得這樣的推論時,強制在「統計上的顯著差異」和「未有統計上的顯著差異」之間進行選擇,只會單純覆蓋其中的不確定性而已。 [14,pp 168-169]
我們再把時間轉到2019年,美國統計學者聚焦上述問題並提供一份完整的補充說明;此議題說明在一篇名為「Moving to a World Beyond “p < 0.05」的社論文章[7],其中三位編輯作者是美國統計協會(American Statistical Association) 2016年提出P值統計研究聲明的作者[6];此篇社論記載著極具意義的說明:
美國統計協會發表關於P值和統計顯著性的實質意義聲明,並且建議放棄「統計學上的顯著意義」;我們做出這個決定和結論是基於對此特刊和更廣泛的文獻回顧,相信現在是時候完全停用「具有統計學上顯著差異」相關術語且不應存在諸如「顯著差異」「p < 0.05」和「非顯著性」等其他延伸語彙;無論是用文字或表格當中以星號來標記注釋或用其他方式表達相同概念都應全數刪除。
無論是否有「統計學上的顯著意義」現在已毫無意義;回想起Fisher(1925)與 Edgeworth(1885)對「統計學上的顯著差異」最初提到最廣為人知的顯著意義只是用來表明統計結果及何時需進一步查證統計結果的工具;但此想法已逐漸消失;統計學上的顯著差異從不意味著具有科學統計上的重要性且兩者差異上的混淆在過去廣泛使用後很快就產生爭議並受到譴責(Boring 1919),不過我們沒想到在經歷過整整100年後,這種統計上的混亂仍未全數消失。
因此我們可將此現象看作是壟斷學術研究的統計工具且問題不僅是用「顯著」這個詞,儘管這個詞在統計學和一般含義確實已完全混淆(Ghose 2013);我們應要避免用顯著這樣的敘述,不過更大的問題是:使用明確的規則來證明統計科學主張或結論的合理性仍會導致錯誤的統計目標和糟糕的決策(記載於美國統協聲明的第三原則ASA statement, Principle 3);由此可推斷;具有統計顯著性實質差異的標籤並不會增加P值傳達的內容且交叉p值更會讓統計數據變得更糟。
又例如沒有統計p值就會感覺對於有所關聯或有其效果的存在性、真實性或重要性似有似無。因此,具有統計學上顯著的標籤不僅沒有直接意味或暗示極有可能或真正得互為關聯;且統計學上「顯著」和「不顯著」交叉分析法目前被視為一種對各種統計特徵給予正確的權威式授權應用;換個視角在一個沒有明確界線的統計領域中,較無差異的統計詮釋和研究計算所主張的明顯差異顯得站不住腳。這就像兩位統計學者Gelman和Stern(2006)所說的「顯著」和「不顯著」之間的差異本身並不具有任何統計上的實質意義。 [7, p2] 我們仍須強調此說法並非直接放棄P值統計報告;而是這些數據需檢視並防止誤用或濫用,還有一般對P值較偏頗的狹隘概念[15]。應該說有任何統計推論方式,我們應多面相的理解統計推論(例如,數據信賴區間,結果可靠區間,貝氏分類法,假陽性風險等),即便目前還沒有一個完美的統計法,但上述推論舉例會比P值更多且更實用。
雖此議題應持續討論(確實也正在進行中),但我們需要的不僅是讓數據具有統計意義,更需要具備統計專業背景的學術研究者、臨床工作者、學術期刊編輯都能更清楚瞭解,其仔細的統計分析實務、審慎進行結論推理並坦然接受過程出現的不確定性和包容「已知」的有限知識人士。
此資訊部分取自Gelman and Stern [16]