新聞類別
副刊
詳情#
【明報專訊】「Mathematics is the logic of certainty. Statistics is the logic of uncertainty.」——Joseph Blitzstein
香港遊行之後的人數爭議,起源於2004年七一遊行大會公布的五十三萬人上街數字犯上「植樹問題」,惹人疑忌。港大葉兆輝團隊在2011、2012兩次七一遊行統計人數,得出數字與大會宣布的相差極遠,引發網上批葉風潮,就連葉氏曾為中策組效力也被大做文章。葉氏反駁,要求主辦單位甚至警方公布人數點算方法,亦都不了了之。另一港大團隊鍾庭耀團隊在七一遊行統計的數字亦與大會有差距,只不過他沒有如葉氏反駁。但我亦記得他曾被請上電台解釋遊行人數推算方法,被主持和聽眾聲討的情况。今年元旦葉氏已放棄統計人數,原因是主辦單位「屢勸不聽」。鍾氏仍有統計元旦遊行人數,數字亦與大會公布相差甚遠。鍾氏在網站公布元旦遊行人數的報告有如此一句﹕「遊行集會可貴之處,是可以讓巿民以和平、理性、有秩序和非暴力的方式表達各種訴求。主辦機構也好,巿民大眾也好,最好不要糾纏在人數的爭拗,更加不要破壞科學精神。」科學精神就是「一不能當百」,文學一點的說法就是堅持二加二是等於四而不是等於五。
盲點
為何學者、警方與大會公布人數有落差,已有多篇專文分析(參看參考文獻),當中涉及技術性問題,我也無謂班門弄斧。我要重申,我要談論的是心理認知和統計學的問題,本着的是科學求真的精神,目的不在於批判任何組織,又或者轉移視線。
遊行人數難估,涉及我們思考上的盲點,可姑且稱為「大數迷思」。舉個例,甲全無收入,乙每月收入一萬元,我們會覺得甲和乙的收入差距巨大,沒有可能將甲乙歸類同一階層。丙的收入是兩萬,我們直覺上又會覺得乙和丙的收入其實差不多,都應歸類同一階層。但事實上甲乙和乙丙的收入差距都是一萬元。只要基底數愈大,那一萬元在直覺上的差距就愈細,例如1000萬比1001萬。弔詭的是這一萬元的數字是絕對的,例如菠蘿鐵價不二賣一蚊十二個,無論任何人用一萬元去買,都只可以買到十二萬個菠蘿。
數線上1和2之距
我們在小學學過「數線」的概念。在數線上1和2之間的距離,與10000和10001之間的距離,都是一樣的,數學上稱為線性標尺(linear scale)。常用的間尺是線性的,因為每毫米的間距都一樣。
可是擁有一個蘋果和擁有兩個蘋果之間心理上感覺差別大,如果將直覺上的分別畫成數線距離,那數線上的距離較長;擁有10000個蘋果和擁有10001個蘋果之間感覺上的差別小,即數線上的距離短。基低數愈大,每增加一個蘋果的距離也愈短。如果這是把尺,就會是一把間隔在不停縮小的尺。數學上稱為對數標尺(Logarithmic scale)。
有研究顯示,人的直覺數尺是對數標尺,經過教育後才慢慢變成線性標尺。就算如此,教育也無法將大數之間的分別變成線性。只要了解這一點,我們就不應用直覺去判斷遊行人數。
拉普拉斯之妖
假設世上有個全知全能的個體,它有超能力可以知道宇宙萬物在任何一刻的所在位置。這個個體宗教上可稱之為神,統計學上會稱為拉普拉斯之妖(Laplace's demon)。假設你就是這個妖,你用超能力知道甲遊行人數是三千,但最後主辦單位公布人數是三萬三千,你直覺上會覺得主辦單位在遊行數字上灌水。但是,當你用超能力知道乙遊行人數是三萬,但最後公布人數是六萬,你又會覺得差別不大可以接受。甚至當三萬變成十幾萬,你也未必可以憑直覺察覺差別。
事實上,拉普拉斯之妖並不存在,它只是一個假設。故此沒有人能夠確切量度遊行人數,任何人公布的遊行人數數字,包括用直覺亂估的數字,都只是估計值,而這估計值也一定有不確定性(Uncertainty)和誤差(Error)。統計學可貴之處除以科學方法算出估計值,亦能量化誤差。以今年鍾庭耀團隊就元旦遊行的人數統計為例,他們發表的遊行人數為三萬至三萬三千人。那三千人的上落,就是用統計學方法量化了中途插隊比率的誤差,原因是他們無可能現場統計插隊遊行人士佔整體遊行人士的比率,只能事後以電話訪問方式估算。我認為鍾氏的統計法仍有其他的誤差,但最少他有詳細說明統計方法,別人可根據統計方法的嚴謹程度去判估算值的可信度。沒有這類的資料的估算值,無法證明是建基於觀測證據,亦沒有量化誤差,根本毫不足信。
人群集結如遊行多數無預先登記參與。我唯一想到有預先登記確實參加人數而又有大量人群聚集的活動是香港馬拉松。我也想鍛煉一下自己的人群估算直覺,從第三者的角度去觀摩一下馬拉松,或者可參透統計七一遊行人數的更佳方法。
文 陳電鋸
香港遊行之後的人數爭議,起源於2004年七一遊行大會公布的五十三萬人上街數字犯上「植樹問題」,惹人疑忌。港大葉兆輝團隊在2011、2012兩次七一遊行統計人數,得出數字與大會宣布的相差極遠,引發網上批葉風潮,就連葉氏曾為中策組效力也被大做文章。葉氏反駁,要求主辦單位甚至警方公布人數點算方法,亦都不了了之。另一港大團隊鍾庭耀團隊在七一遊行統計的數字亦與大會有差距,只不過他沒有如葉氏反駁。但我亦記得他曾被請上電台解釋遊行人數推算方法,被主持和聽眾聲討的情况。今年元旦葉氏已放棄統計人數,原因是主辦單位「屢勸不聽」。鍾氏仍有統計元旦遊行人數,數字亦與大會公布相差甚遠。鍾氏在網站公布元旦遊行人數的報告有如此一句﹕「遊行集會可貴之處,是可以讓巿民以和平、理性、有秩序和非暴力的方式表達各種訴求。主辦機構也好,巿民大眾也好,最好不要糾纏在人數的爭拗,更加不要破壞科學精神。」科學精神就是「一不能當百」,文學一點的說法就是堅持二加二是等於四而不是等於五。
盲點
為何學者、警方與大會公布人數有落差,已有多篇專文分析(參看參考文獻),當中涉及技術性問題,我也無謂班門弄斧。我要重申,我要談論的是心理認知和統計學的問題,本着的是科學求真的精神,目的不在於批判任何組織,又或者轉移視線。
遊行人數難估,涉及我們思考上的盲點,可姑且稱為「大數迷思」。舉個例,甲全無收入,乙每月收入一萬元,我們會覺得甲和乙的收入差距巨大,沒有可能將甲乙歸類同一階層。丙的收入是兩萬,我們直覺上又會覺得乙和丙的收入其實差不多,都應歸類同一階層。但事實上甲乙和乙丙的收入差距都是一萬元。只要基底數愈大,那一萬元在直覺上的差距就愈細,例如1000萬比1001萬。弔詭的是這一萬元的數字是絕對的,例如菠蘿鐵價不二賣一蚊十二個,無論任何人用一萬元去買,都只可以買到十二萬個菠蘿。
數線上1和2之距
我們在小學學過「數線」的概念。在數線上1和2之間的距離,與10000和10001之間的距離,都是一樣的,數學上稱為線性標尺(linear scale)。常用的間尺是線性的,因為每毫米的間距都一樣。
可是擁有一個蘋果和擁有兩個蘋果之間心理上感覺差別大,如果將直覺上的分別畫成數線距離,那數線上的距離較長;擁有10000個蘋果和擁有10001個蘋果之間感覺上的差別小,即數線上的距離短。基低數愈大,每增加一個蘋果的距離也愈短。如果這是把尺,就會是一把間隔在不停縮小的尺。數學上稱為對數標尺(Logarithmic scale)。
有研究顯示,人的直覺數尺是對數標尺,經過教育後才慢慢變成線性標尺。就算如此,教育也無法將大數之間的分別變成線性。只要了解這一點,我們就不應用直覺去判斷遊行人數。
拉普拉斯之妖
假設世上有個全知全能的個體,它有超能力可以知道宇宙萬物在任何一刻的所在位置。這個個體宗教上可稱之為神,統計學上會稱為拉普拉斯之妖(Laplace's demon)。假設你就是這個妖,你用超能力知道甲遊行人數是三千,但最後主辦單位公布人數是三萬三千,你直覺上會覺得主辦單位在遊行數字上灌水。但是,當你用超能力知道乙遊行人數是三萬,但最後公布人數是六萬,你又會覺得差別不大可以接受。甚至當三萬變成十幾萬,你也未必可以憑直覺察覺差別。
事實上,拉普拉斯之妖並不存在,它只是一個假設。故此沒有人能夠確切量度遊行人數,任何人公布的遊行人數數字,包括用直覺亂估的數字,都只是估計值,而這估計值也一定有不確定性(Uncertainty)和誤差(Error)。統計學可貴之處除以科學方法算出估計值,亦能量化誤差。以今年鍾庭耀團隊就元旦遊行的人數統計為例,他們發表的遊行人數為三萬至三萬三千人。那三千人的上落,就是用統計學方法量化了中途插隊比率的誤差,原因是他們無可能現場統計插隊遊行人士佔整體遊行人士的比率,只能事後以電話訪問方式估算。我認為鍾氏的統計法仍有其他的誤差,但最少他有詳細說明統計方法,別人可根據統計方法的嚴謹程度去判估算值的可信度。沒有這類的資料的估算值,無法證明是建基於觀測證據,亦沒有量化誤差,根本毫不足信。
人群集結如遊行多數無預先登記參與。我唯一想到有預先登記確實參加人數而又有大量人群聚集的活動是香港馬拉松。我也想鍛煉一下自己的人群估算直覺,從第三者的角度去觀摩一下馬拉松,或者可參透統計七一遊行人數的更佳方法。
文 陳電鋸
留言 (0)