民調準不準--兼談期望值和大數法則

作者：伍德‧瓦懷特│2020-07-26 14:41:17│巴幣：62│人氣：436

　　我國可能是世界上數一數二愛選舉的國家。從地方到中央，每兩年就有一次大選。美其名是給行政團隊或各政黨的期中考，卻也常常被詬病政治人物拚完一場選舉後就再拚下一場，絲毫沒有思考長期政策的空間。不論對其看法如何，頻繁的大選也造成副產物：民調的興盛。各家公司無不使出渾身解數，或是為了引導輿論，或是為了揣摩上意，無不產出了光怪陸離的數字。究竟民調準不準，伍德也說不清楚，但要是問民調背後的數學原理，伍德倒是能跟各位好好談談。

　　今天的伍德說數，要帶大家談談機率中最基本的觀念之一：期望值，並從此出發，談機率論中最重要的定理之一：大數法則(Law of large number)。

一、期望值(Expectation、Expected Value)

　　在國高中課本出現的期望值，其正式定義為將結果以出現機率加權平均。以骰子來說，出現1至6點的機率都是1/6，所以期望值便為(1+2+3+4+5+6)/6=3.5。類似地，假設有一個輪盤，其有2/3的機率轉到3、1/3的機率轉到0，則這個輪盤的期望值便為3*2/3+0*1/3=2。

　　期望值常見的應用是在參加賭局前，計算賭局是否公平。舉例來說，要是丟銅板丟出正面，我們可以獲得10塊錢(+10)，丟出反面，則要付給莊家8塊錢(-8)。要是這場賭局要花一塊錢參加，那麼這場賭局的期望值便是：(10*1/2-8*1/2)-1=0，也就是說是場公平的賭局。長期來說期望雙方不贏也不輸*1。

　　雖然計算不難，期望值卻常讓人困惑。在骰子的例子裡，骰子是不可能骰出3.5點的；而我們設計的輪盤也轉不出2。事實上，期望值代表的是長期平均，當丟骰子1次，平均不可能是3.5，但丟了10次、100次、1000次，平均就非常可能靠近3.5。而這就是我們接下來要談的「大數法則」的核心精神。

二、大數法則(Law of large number)

　　我們先給出大數法則的大致敘述*2，再好好解釋它是什麼意思。

　　大數法則：如果每次實驗都是一樣且相互獨立(Identical and Independent)*3，實驗的平均結果會隨次數增加越來越靠近期望值。

　　一樣：實驗的內容不會變動。舉例來說，每次骰的都是公正的骰子。不會發生第一次骰的是公正，第二次骰的是灌鉛骰子這種情況。

　　獨立：每次實驗的結果不會相互影響。第一次實驗的結果不會影響第二次。

　　注意這裏我們說的是「靠近」期望值，而不是真的就會是期望值。舉例來說，丟十次銅板，很可能出現3次、8次正面，而不是期望值5次正面。抽中獎機率1%的轉蛋100次，也不保證中一張限定卡(~~又暴死啦~~)。但要是抽到100000次，其中就非常可能會有靠近1000張限定。當然，前提是你要課能夠抽到100000次的金。

　　事實上，大數法則分為強(Strong)和弱(Weak)兩種，其差異在於「靠近」的方式。由於內容太專業我們就不細談。而且在現實大部分的運用上「弱」大數法則就已經夠強了。

三、民調準不準？

　　說起大數法則在現實中的應用，最重要的莫過於開頭所稱的民調。透過調查一部份的人，藉此推知所有人的平均意向，相較普查是相當節省成本的做法。沒錯，根據大數法則，調查一部份的人對議題同意與否，就能大略推知所有人的意向。而且一般民調公司做到1000人左右，在數學上已經夠準了*4，許多人常批評樣本不夠多，在實務上並不是真的問題。

　　然而，我們在現實中也常常聽到民調失準的狀況，甚至是同樣的問題，卻做出截然不同的結果。在這裡我們依問題的成因是否跟大數法則有關，大致分成兩類。

(1) 和大數法則有關的問題

(a) 樣本的代表性：

　　抽取的樣本是否真的代表母體？如果抽到的樣本太偏，將會產生篩選偏差(Selection Bias)，無法反映母體。舉例來說，要是我想調查我國國民的平均年齡，卻從幼稚園裡找了30個樣本詢問，可能就會得到我國平均年齡不到10歲的結果。

　　為了正確反映母體，現今很多民調都會針對性別和年紀修正。要是有接過民調電話，可能會聽過「請50-60歲的女性回答」之類的要求，就是這個道理。

(b) 獨立性：

　　大數法則要求每個回答(每個實驗的結果)要是獨立而不交互影響的。在街上兩三人一組一起受訪時，大家的回答很容易被朋友交互影響(人云亦云)，大數法則要求的獨立性在此就不成立。

(2) 執行面的問題，和大數法則無關

(a) 誘導：

　　問卷的問題應該是中立，而不影響受試者回答。要是我想調查大家對免洗餐具的接受度，「由於疾病橫行，我們應該減少接觸。請問您對免洗餐具的接受程度為何？」和「環境保護、垃圾減量人人有責。請問您對免洗餐具的接受程度為何？」肯定就會得到很不同的結果。

　　當然，現實的誘導沒這麼明目張膽。多的是在前幾題問些無關緊要，植入印象的題目後，才問關鍵問題，藉此提高或降低贊成的比例。調查者若真是為了學術研究，在撰寫問題時就不可不慎；至於別有居心者，就請各位回答問題時睜大雙眼吧。

(b) 機構效應：

　　所謂機構效應說白了，指的是受試者會「見人說人話、見鬼說鬼話」。在路上碰到環境保護組織調查保護環境的問題，大多數人會抱持支持的態度(實際上不得而知)。新聞常見針對政治問題的幾個民調機構也多多少少有色彩，不管是民眾聽到機構做出反應，抑或是機構本身在問題上下功夫，其所作出的結果多多少少都會有機構效應而(些微)失準。

　　傳統政治學上認為所謂「出口民調」(Exit poll)是最準的民調。出口民調指的是在投票後，直接在投票所外面訪問民眾投票結果。在台灣由於人口不多，開票也都能在一天內完成，出口民調的意義不大。但在人口眾多的歐美、印度等國，開票動輒數日、甚至一星期，出口民調就是提前掌握結果的重要手段。但近幾年，出口民調卻頻頻讓專家跌破眼鏡，其問題就出在民眾不一定會說實話。

　　人權組織在街上調查人們對死刑的看法，會大喇喇地當著對方的面贊成死刑的人想必不多；在社會風氣不利某些黨派時，人們也往往不願意表態自己支持。有時是拒絕回答，更甚者是說謊隱藏自己意向。這樣的現象在傳播學稱為「沉默螺旋」。當聽不到某個群體的人的聲音時，民調自然就會失準。

　　另一個可能的問題是誤報。舉例來說，當在調查人們薪水時，人們通常會報整數(例如兩萬兩千元)，而非實際的數字。誤差一旦累積就會放大，不利於結果推估。

四、結論

　　這次我們聊了究竟什麼是期望值和大數法則，它們不是預測結果的萬靈丹，只是針對長期平均的總結。在獨立的實驗中，每次實驗都是新的開始，發生的事情雖會靠近，但不會完全照著期望值發生。

　　大數法則最重要的運用之一是民調。它確實是了解民情很重要的手段，但其執行不易，須注意的細節很多。若執行者一時不察，就很可能做出偏誤的結果。更甚者，有心人士能透過巧妙設計問卷，進而引導出自己想要的結果，繼而進一步影響輿情。各位閱讀媒體和解讀結果時不可不慎──畢竟數字和定理不會說謊，說謊的是人。

　　本期伍德說數就聊到這裡，我們下期再見！

*1. 儘管如此，實證上也有人不會參加這場賭局。人們在下判斷時，不只會在乎期望值，也會在乎其背後的風險。在個體經濟學中，就很仔細地去探討、實驗人們面對風險時的決策行為。

*2. 精確的定義和敘述請參照初等機率論或統計學課本。

*3. 大數法則可以在稍微寬鬆一點的條件下成立，內容太深入，我們不在這裡談。

*4. 這和另一個同樣很重要的定理「中央極限定理」(Central Limit Theorem)有關。

喜歡 22 收藏引用留言推上首頁檢舉

引用網址：https://home.gamer.com.tw/TrackBack.php?sn=4861905
All rights reserved. 版權所有，保留一切權利