創作內容

13 GP

冥冥中早有定數--簡談班佛法則

作者:伍德‧瓦懷特│2020-08-16 17:10:24│巴幣:124│人氣:392
  猜猜看,如果我們把世界上所有國家的GDP(國內生產毛額;Gross Domestic Product)列出來,首位數字出現最多次的會是誰呢?這裡首位數字指的是最左方的數字,例如123的1、2350的2。
  直覺來想,好像沒什麼線索好猜,畢竟每個數字出現的機率應該一樣──如果你這麼想,恭喜你,你被直覺擺了一道:「1」出現的機率遠高於其他數字,達到30%左右。事實上不只GDP,許多不同領域的數字都出現一樣的現象。今天伍德說數就來帶大家談談有點不可思議的反直覺現象:班佛法則(Benford's Law)

一、什麼是班佛法則?
  西元1881年,美國天文學家賽門‧紐康(Simon Newcomb)偶然發現對數表前面的頁面汙損較多,表示被翻閱較多次。換句話說,人們比較常處理首位數字為1、2的運算。然而當時此現象並未引起關注。直到約半世紀後,1938年物理學家法蘭克‧班佛(Frank Benford)蒐集不同領域的資料,再次提出此法則,才吸引了跨領域科學家們的注意。

  簡而言之,班佛法則指出在「自然生成」的一大筆資料內,首位數字分布並不均勻。更精確來說:

  班佛法則:將自然生成的一大筆資料取對數後,其尾數在[0,1]中均勻分布
  或著也可以將其寫成:
  班佛法則:在自然生成的一大筆資料中隨機取一數,其首位數字出現x的機率為log(x+1)-log(x),其中x為1,2,...9。

  等等,你們不要急著打伍德或按上一頁。我知道該說人話。用稍稍簡單的方式再說一遍,可以寫出下列的表。

  班佛法則:在自然生成的一大筆資料中隨機取一數,首位數字出現x的機率如下表
1 2 3 4 5 6 7 8 9
0.30103 0.17609 0.12494 0.09691 0.07918 0.06695 0.05799 0.05115 0.04576
  換句話說,出現1的機率最大(30%左右),之後依序遞減,9出現的機率大概約4.5%。

  這裡的「自然生成」沒有精確的定義,粗略來說應該符合以下兩點:
  (1) 非刻意造成:例如每天每趟花20元坐捷運上下班,那麼看到收支表,2就會出現非常多次。這樣的數據會偏離班佛法則。
  (2) 尺度跨度大資料的跨度越大(像是1-100000)就越有可能符合班佛法則。舉例而言,以公分計算的成年人身高就不符合班佛法則,因為絕大部分都被限制在100-200間。

  相對地,像是自然界數據(山的高度、河流長度)、經濟數據(GDP)都很可能符合班佛法則。這是為什麼呢?

  一種粗略的解釋提到應該要存在某種機率分布,讓首位數字出現的機率不隨單位而變。這裡不只是指公分換公尺這類100倍的變化,而包含公分換英吋、台幣換美元等更不規則的倍數。而這種無關單位的分布,就是上述的班佛法則。換句話說,不管用什麼單位來量,應該都是1的出現率最高*1。

二、班佛法則的應用
  由於班佛法則對沒接觸過的人而言,還挺違反直覺的,現今其最重要的應用便是在金融犯罪偵測上。一般而言,會計帳目上的數字應該也要大致符合班佛法則,要是偏離太多,就有做假帳的疑慮。另一方面,投票後各投開票所的得票數據也應該要符合班佛法則,可以作為有無作票的間接證據

  說歸這麼說,實際運用上仍有相當多限制。以會計數據來說,常常有某些重複支出的款項(如講師費、車馬費、茶水費),某些金額受限於法規,也有可能訂死成某個數據。在這種情形下,就沒辦法用班佛法則來查帳了。

  另一方面,關於一開始提到的GDP問題,伍德用IMF(國際貨幣基金)針對全球139個地區所計算的2014年GDP(單位美元)測試了班佛法則,結果如下:
  老實說結果像到讓伍德也嚇了一跳。

三、結論
  很多時候,我們的直覺未必準確。生活中隨處可見的「首位數字」藏著反直覺的法則,從天文、地理,到人文、經濟四處可見班佛法則的蹤跡。它在金融犯罪偵測上頗有建樹,但使用上也得注意限制,以免貽笑大方。
  大家若有興趣,也能拿自己領域的數據試試看,說不定也會符合班佛法則喔!

  那麼本期伍德說數就聊到這裡,我們下期再見!

*1. 更深入的解釋牽扯到「恆定」(Ergodicity),我們暫且按下不談。
引用網址:https://home.gamer.com.tw/TrackBack.php?sn=4884424
All rights reserved. 版權所有,保留一切權利

相關創作

同標籤作品搜尋:伍德說數

留言共 5 篇留言

雜魚小說家秋茶
看到機率,直覺在分析遊戲的課金機率
結果沒有,並沒有,我好傷心?

08-16 18:43

伍德‧瓦懷特
課金機率和抽到限定卡之類的,我倒是有題材可以拿來寫一期XD08-16 18:48
愛德莉雅.萊茵斯提爾
阿,不會打伍德先生(ˊ ˋ)
恩...課金機率跟抽卡,覺得賀輔先生對這方面應該會很好奇(ฅ´ω`ฅ)

08-16 19:43

伍德‧瓦懷特
賀輔:「一點都不好奇啦。反正課到有就對了。」
彩欣:「因為我的薪水一直沒發下來,所以我很好奇。」08-16 23:20
函和言
作為企管可能會遇到的大數據分析,個人表示有趣且實用

08-16 21:39

伍德‧瓦懷特
企管應該也會用沒錯。不過就像我說的,要小心使用上的限制。
所有定理都一樣,要注意前提且慎重使用。盲目地相信而不去思索,就別怪被定理背叛了。08-16 23:25
Jack
好晚看到這篇,首位數字的機率真的很有趣,我現在都這樣想: 付錢的時候一塊一塊的慢慢付,其實就會看到班佛法則了;又或者想存錢的情況,看到存了共90000元,是兩三筆大收入存出來的嗎?,很多筆存款累積出9萬比較像,那這些很多小存款就很可能是100 200之類的小整數

09-19 17:29

伍德‧瓦懷特
原本我以為這只是個統計現象,但看到比較深的機率課本倒是真有解釋。
是說一塊一塊慢慢付不是只會看到1嗎XD
總之越「無心」的資料越容易和班佛現象吻合,所以才說自然界的資料最容易符合。09-20 02:57
Jack
一塊一塊慢慢付,那麼觀察已付累積金額,就會常常看到1 2開頭,不過老闆會不高興吧w

09-20 11:02

伍德‧瓦懷特
仔細想起來好像也不是慢慢付的問題,是款項內不該有像是「鐘點費」、「交通費」這類訂死的費用。有這些費用的話機率分布就不會是班佛法則那樣了。09-20 11:07
我要留言提醒:您尚未登入,請先登入再留言

13喜歡★e12344888 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:關於Trickster那... 後一篇:[達人專欄] Math ...

追蹤私訊切換新版閱覽

作品資料夾

lemonade1120隨便逛逛的你
歡迎來小屋閱讀奇幻小說喔~ :)看更多我要大聲說8小時前


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】