主題

稿件整理:Vtuber轉換模型建立與相關討論(十一)

夏目上將 | 2021-11-26 15:27:03 | 巴幣 14 | 人氣 50

Youtube的統計誤差:

一.尾數省略:

Youtube的數字顯示,在破萬後,就會有省略尾數的情況。這點就算在其他數據分析網站,也會看到相同的結果。這造成在判斷數據上,會出現相當程度的誤差。

在一千以前不會有這個問題,訂閱數的個位數是會顯示的。

一千以上,尾數只會顯示到十位數,同樣是1050,可能代表1059,以可能代表1050。只要沒到1060,是不會更新到1060的。

一萬以上,訂閱尾數只會顯示到百位數。

十萬以上,訂閱尾數只會顯示到千位數。

百萬以上,訂閱尾數只會顯示到萬位數。

參考位址:(訂閱人數計算)

有鑑於此,在計算模型的時候,必須依照位數做一個明顯的分層,一萬、十萬、百萬的計算需要分開統計,以減少誤差。

另外尾數顯示省略造成的影響大約1%,尚在可接受範圍內。所以一些指標依然會將訂閱數列為計算參數代入,只是在回歸模型建立時分開來看。

二.無效數據刪除:

除此之外,Youtube的訂閱數會有倒退的情況,可能第一天顯示為100,第二天倒退到98。這是因為Youtube的訂閱人數如有已關閉的帳號,或者被視為人為手法操作加入不實訂閱者,會在檢查後剃除造成訂閱人數倒退。

同樣的情形在觀看次數跟讚數也有可能倒退回溯,這是由於Youtube為了減少不實互動,會定期將不符合他們標準的觀看次數或讚數給刪除。

參考為只:(不實互動處理政策)

因為這個政策,所以會出現觀看次數或讚數降低的情況,至於誤判了會不會補回來,並沒有相關文獻參考。

在這邊的處理方式是,分一日後、三日後、七日後三個階段另外紀錄各項參數,以減少這類變動帶來的誤差。

創作回應

相關創作

更多創作