PS:新界面功能太多bug了,想弄個黑底白字都不能,而且還有一堆排版bug,決定還是這樣
寫作目的:
每個學期完了都會寫心得,以前是只有成績+感想+學習概要。這次因爲不知道爲什麽知識記得很清楚,所以想順便跟大家講完每一個知識點的流程,當作溫習也不錯。
問題是不知道要寫成什麽才是大家想要的,也有可能大家完全不想看,所以這篇做個測試,只介紹最簡單的一個概念。統計學的回歸模型
我會用講故事的方式去講解概念、目的、流程、應用這些一聽就懂的東西,總之完全不會涉及任何數學。
5分鐘就看完了。想要回饋,想到什麽就說吧,很有趣,很無聊,很不清楚,很垃圾,太詳細,哪裏不懂,哪裏可以講多一點,那些是讀者有興趣瞭解更多的,噴人也可以,記得寫原因就好。
會有很少英文的專有名詞,但我都會解釋的。翻譯中文更難看,信我
最好當然就是幫我找錯處XDD,因爲我14號要考試了XDD
————————
這篇只會介紹一個概念,simple regression model。
simple regression model是用來幹嘛的?
他的用途是,我輸入一個數據,我想推測出一個結果。
Ps:結果可以是任何東西,但這個例子裏,結果是一個數值。
這沒問題吧?
擧個例,我有一個喜歡的巴哈好友,克萊。但我不知道他對我到底有多少好感。
那我想知道,如果我有27k月薪,那他對我的好感度是多少?
對應上面的情況,我輸入:月薪=27k,推測結果:好感度=?
ok
但是,都沒有參考資料,我怎麽推測?
這時候我們就要找一堆樣本數據來參考。
就是找了很多人,他們的月薪是多少,而克萊對他們的好感度是多少
做完調查后,大概就是這樣
應該看的懂吧?
圖中的每一個點,對應的就是每個人的月薪是多少,而克萊的好感度又是多少
大概看到了,月薪跟好感度的關係,是當月薪上升,
但這樣是不夠的,因爲如果我現在問你,我月薪10k,好感度多少?你是回不了我的,因爲圖中不止一個好感度啊
這時候我們要找出一條有代表性的綫,俗語來説就是找出一個數學規律,這樣我們才能用這個規律去找到一個答案,而不是那麽多個可能
經過一堆數學操作后,我們找到了一條紅綫,回歸綫(regression line)
他是代表著月薪跟好感度的關係
那現在就好找多了,我月薪27k,順著這條綫,好感度=50
當然現實不會這麽好抓啦,還要一堆假設跟數學,總之原理是這樣,我找一堆樣本數據,去找出這兩者之間的關係,然後我在放我的輸入,就能推測出那個結果。
這時候就有個女生來問我這個問題。
既然是用樣本數據,代表數據是不完整的,那條綫不准怎麽辦?
對沒錯,我用不完整的數據,怎麽可能找到完全正確的答案。
假設紅色是正確答案,那我找到的可能是這樣
圖中,藍色的綫就是我找出來的,很明顯跟正確答案不同
先來了解,爲什麽會這樣?
用打電話做例子,我跟你講的話,就是你想接受的訊息,對吧?統計學上叫——訊號(signal)
但現實中,肯定會有雜音混進來,可能是室友在叫床,可能是LOL的游戲聲音,這些叫做——噪音(noise)
你當然希望是這樣:
輸出結果(y)=訊號
但事實上卻是, = 訊號+噪音
圖中也能看出,藍綫跟紅綫不是念著的,就是因爲有噪音,也就是誤差(error)
那怎麽解決?
當然是不能解決啊XDD,完整數據都不一定可以了,用樣本你可以有可能?
但是我們有一個補救方法
confidence interval(C.I.)
他的原理是,既然我們不能完全準確預測落點,那大概預測可以了吧?
擧個例,我是棒球的解説,我要預測擊球手會把球打到哪裏
我不能100%肯定球會落在觀衆席的A1座位上,這不可能
我只能說,我有95%的信心,球會落在左邊的觀衆席。
這是說,我有95%信心,球會落在這個範圍
同樣道理,當我有月薪27k,我有95%的信心,克萊的好感度會落在這個範圍
看的懂吧?
那如果要增加信心,那你就把範圍變大一點。
如果你要100%信心,那你就說,好感度一定會在0~無限
如果你要收窄範圍,那就説,我有50%,好感度會在(一個比95%更小的範圍)
流程跟原因就是這樣
看看你們有什麽意見,都可以講
我知道會有一堆問題想問,例如説超過一個輸入怎麽辦,不一定是直綫怎麽辦,那些在完整版會講