相信各位應該都知道艦娘是個將戰鬥系統隱藏在數據和機率下的遊戲,也因此有許多大佬們不停地進行檢證,希望把背後隱藏的系統原型揭露出來。
可是,你有時就會感覺到自己實地打起來的狀況與其他人已經接露的公式所計算出來的結果不一樣。那,你能提出質疑嗎?數值的部分倒好說,只要稍有顯示數據上的不一樣(比如炮擊傷害值比理論傷害還要多1),就可以直接提出質疑。可是機率呢?
舉個例子來說,硬幣的實際機率是正反面各1/2,可是某次你投擲一枚硬幣十次,結果卻是七次正面三次反面,那你會不會有充分的理由,來提出”這次實驗的結果,讓我覺得本來的硬幣機率是錯的,實際上正面的機率應該比反面大。”這樣的質疑呢?
要知道因為投擲硬幣是個隨機實驗,所以這樣的結果只要原本實驗下正反面都有機會發生,就有可能出現(縱使機率超級低)。那你要怎麼樣才能質疑別人提出的機率公式有可能出錯?
而這就是我們今天要討論的主題。
事實上,機率裡的確有可以幫助確認的方法存在,這個方法叫做卡方檢測(chi square test)。如果各位有讀過大學的統計學的話,應該都不會對這個名詞太陌生,而這個測試也有相對應的機率版本,其公式也非常的相似。我們在此僅簡述其公式內容,有興趣的讀者可以自己去找公式的證明。
公式內容如下:
假設我們進行了A檢證並有一組觀察到的結果,那麼我們就先對A得到的每種隨機實驗的結果分別計算其X值並加總:
不妨假設求出來的值總和是χ(希臘字母,念kai)。
接著計算自由度df,,自由度df = 總結果次數-1。
再來,我們要找拿來比較的另外一個值,為此我們需要卡方分布表(chi square table,見附錄)。
我們先來解釋此表如何查詢,此表內的第一欄是自由度df,第二欄後的X下標的數值α代表顯著水準。我們先看df = 1與α = 0.05對應的數值,是3.841。
3.841這個數值的意思是,我們現在反覆進行一項檢證(比如剛才的檢證A),該檢證是在自由度1的隨機實驗下所進行,我們收集每次檢證的結果並計算出對應的χ,那麼會有約莫1/20數量的χ大於3.841。
不妨假設我們查詢到的對應數值為Y,那麼最後我們只需要比較Y與剛才算出的χ就能確認本來機率分布的可信度,為甚麼呢?特別注意到選取α=0.05是因為前面幾章所提到的95%=幾乎可信。
所以當我們做了一個自由度為1的隨機實驗的檢證,而發現χ大於3.841,由於若按照本來的機率分布,這樣的檢證結果是幾乎不會發生的,可是卻發生了,於是我們就能反過來質疑本來的機率分布幾乎是錯的,所以質疑正確。
相反的,若χ小於3.841,那麼就是幾乎都會發生的檢證結果,也就無從證明這樣的檢證結果能夠質疑本來的機率分布。
我們用剛才的硬幣實驗舉例子,首先先算各項結果的X的總和:
結果一(正面),期望值為5,對應的X是(5-7)^2/5 = 0.8
結果二(反面),期望值為5,對應的X是(5-3)^2/5 = 0.8
總和為1.6
再來尋找相對應的Y,因為實驗有兩種結果,所以自由度是2-1=1
查表找到α=0.05下的Y=3.841。
由於1.6<3.841,我們可知卡方檢測未過,亦即此試驗無法提供充分證據去質疑本來的機率分布有誤。
好的,該讓我們回到原本的問題了。
首先先提出質疑,在這裡我們先提出較為簡單的質疑:”彩雲在MAX後會讓交戰型態的機率分布有變化。”
那麼,我們也就照實用卡方檢測來測試吧。
χ= 同航戰的X + 反航戰的X + T字有利的X = (488-450)^2/450 + (331-400)^2/400 + (181-150)^2/150 = 21.518
自由度為2,查表可知α=0.05下的Y=5.991。
由於5.991 < 21.518,所以卡方檢測有過,亦即質疑合理,所以我們可以知道彩雲MAX的確可以讓本來的交戰型態的機率分布變的不同。
這是另一個過去質疑的例子,我們也用卡方檢測來測試看看。
一樣的,先提出質疑,不過我們要知道這篇檢證的內容,其主要機率的變化在於旗艦的CAP不同,僚艦相同是無法用卡方檢測檢定的(因為本來就是用來測試檢測結果是否有誤…),所以質疑應是:”我覺得旗艦的CAP應該沒有50那麼低。”
在當時的公式下,我們可以推得時雨的理論CI率是50*0.85 + 15(旗艦) + 5(探照燈) + 15 = 77.5(%)。
我們一樣用卡方檢測:
χ= (38.75-34)^2/38.75 + (12.25-16)^2/12.25 = 1.73
自由度為1,查表可知α=0.05下的Y=3.841
由於1.73 < 3.841,亦即旗艦CI率變化沒有很明顯,即卡方檢測未過,所以質疑不合理,也就是說,這個檢證以機率來說是沒有用的。
有了卡方測試後,我們可以很輕易的理解各個公式被質疑的合理性,進而選擇去相信這些檢測是否正確。
---------------------------------------------------------------------------------------------------------------------------
補充說明:用心的讀者會發現我們在此篇都會先提出質疑才用卡方檢測是否合理,可是為甚麼不能直接用測量數據套進去後,得知卡方檢測有過,再提出質疑呢?
那是因為,即使對於同樣的實驗與同樣的測量數據,卡方檢測的內容也會因為質疑的內容不同而有所變動,比如方才的T字有利率上升檢證,如果我們的質疑改成:”我認為MAX彩雲會讓T字有利發生機率產生變動。”那麼卡方檢測就會變成以下:
結果變成兩個,T字有利與不是T字有利。
χ= (181-150)^2/150 + (819-850)^2/850 = 7.537
自由度為1,查表得知α=0.05下的Y=3.841
因為3.841 < 7.537,所以卡方檢測有過,質疑合理,也因此可得知T字有利機率的確有上升。
在作卡方檢測以前,好好的提出質疑的內容是很重要的,因為這會改變之後卡方檢測的內容,進而影響了最終的結果。
附錄:卡方分布表
--------------------------------------------------------------------------------------------------
後記:
前三章總算是寫完了....其實現在的機率大體而言也只有這三個主要的方向,計算某件事情甚麼時候該發生,估計平均下來的預期狀態,以及確認機率本身的確定性。而這三個重要的東西前面只是大略介紹吧,後面會一直回顧並且會有新的觀念加進來的。
往後的章節應該就會很有趣了吧,應該。
最後,有感興趣的問題可以問哦,那麼我們下次見。