猜猜看,如果我們把世界上所有國家的GDP(國內生產毛額;Gross Domestic Product)列出來,首位數字出現最多次的會是誰呢?這裡首位數字指的是最左方的數字,例如123的1、2350的2。
直覺來想,好像沒什麼線索好猜,畢竟每個數字出現的機率應該一樣──如果你這麼想,恭喜你,你被直覺擺了一道:「1」出現的機率遠高於其他數字,達到30%左右。事實上不只GDP,許多不同領域的數字都出現一樣的現象。今天伍德說數就來帶大家談談有點不可思議的反直覺現象:班佛法則(Benford's Law)
一、什麼是班佛法則?
西元1881年,美國天文學家賽門‧紐康(Simon Newcomb)偶然發現對數表前面的頁面汙損較多,表示被翻閱較多次。換句話說,人們比較常處理首位數字為1、2的運算。然而當時此現象並未引起關注。直到約半世紀後,1938年物理學家法蘭克‧班佛(Frank Benford)蒐集不同領域的資料,再次提出此法則,才吸引了跨領域科學家們的注意。
簡而言之,班佛法則指出在「自然生成」的一大筆資料內,首位數字分布並不均勻。更精確來說:
班佛法則:將自然生成的一大筆資料取對數後,其尾數在[0,1]中均勻分布。
或著也可以將其寫成:
班佛法則:在自然生成的一大筆資料中隨機取一數,其首位數字出現x的機率為log(x+1)-log(x),其中x為1,2,...9。
等等,你們不要急著打伍德或按上一頁。我知道該說人話。用稍稍簡單的方式再說一遍,可以寫出下列的表。
班佛法則:在自然生成的一大筆資料中隨機取一數,首位數字出現x的機率如下表。
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
0.30103 |
0.17609 |
0.12494 |
0.09691 |
0.07918 |
0.06695 |
0.05799 |
0.05115 |
0.04576 |
換句話說,出現1的機率最大(30%左右),之後依序遞減,9出現的機率大概約4.5%。
這裡的「自然生成」沒有精確的定義,粗略來說應該符合以下兩點:
(1) 非刻意造成:例如每天每趟花20元坐捷運上下班,那麼看到收支表,2就會出現非常多次。這樣的數據會偏離班佛法則。
(2) 尺度跨度大:資料的跨度越大(像是1-100000)就越有可能符合班佛法則。舉例而言,以公分計算的成年人身高就不符合班佛法則,因為絕大部分都被限制在100-200間。
相對地,像是自然界數據(山的高度、河流長度)、經濟數據(GDP)都很可能符合班佛法則。這是為什麼呢?
一種粗略的解釋提到應該要存在某種機率分布,讓首位數字出現的機率不隨單位而變。這裡不只是指公分換公尺這類100倍的變化,而包含公分換英吋、台幣換美元等更不規則的倍數。而這種無關單位的分布,就是上述的班佛法則。換句話說,不管用什麼單位來量,應該都是1的出現率最高*1。
二、班佛法則的應用
由於班佛法則對沒接觸過的人而言,還挺違反直覺的,現今其最重要的應用便是在金融犯罪偵測上。一般而言,會計帳目上的數字應該也要大致符合班佛法則,要是偏離太多,就有做假帳的疑慮。另一方面,投票後各投開票所的得票數據也應該要符合班佛法則,可以作為有無作票的間接證據。
說歸這麼說,實際運用上仍有相當多限制。以會計數據來說,常常有某些重複支出的款項(如講師費、車馬費、茶水費),某些金額受限於法規,也有可能訂死成某個數據。在這種情形下,就沒辦法用班佛法則來查帳了。
另一方面,關於一開始提到的GDP問題,伍德用IMF(國際貨幣基金)針對全球139個地區所計算的2014年GDP(單位美元)測試了班佛法則,結果如下:
老實說結果像到讓伍德也嚇了一跳。
三、結論
很多時候,我們的直覺未必準確。生活中隨處可見的「首位數字」藏著反直覺的法則,從天文、地理,到人文、經濟四處可見班佛法則的蹤跡。它在金融犯罪偵測上頗有建樹,但使用上也得注意限制,以免貽笑大方。
大家若有興趣,也能拿自己領域的數據試試看,說不定也會符合班佛法則喔!
那麼本期伍德說數就聊到這裡,我們下期再見!
*1. 更深入的解釋牽扯到「恆定」(Ergodicity),我們暫且按下不談。