創作內容

22 GP

【講解/進來給意見】simple linear regression原理+概念+流程(沒有任何數學

作者:LOVe高橋李依│2020-12-08 17:17:47│巴幣:44│人氣:863
PS:新界面功能太多bug了,想弄個黑底白字都不能,而且還有一堆排版bug,決定還是這樣


寫作目的:

每個學期完了都會寫心得,以前是只有成績+感想+學習概要。這次因爲不知道爲什麽知識記得很清楚,所以想順便跟大家講完每一個知識點的流程,當作溫習也不錯。

問題是不知道要寫成什麽才是大家想要的,也有可能大家完全不想看,所以這篇做個測試,只介紹最簡單的一個概念。統計學的回歸模型

我會用講故事的方式去講解概念、目的、流程、應用這些一聽就懂的東西,總之完全不會涉及任何數學。

5分鐘就看完了。想要回饋,想到什麽就說吧,很有趣,很無聊,很不清楚,很垃圾,太詳細,哪裏不懂,哪裏可以講多一點,那些是讀者有興趣瞭解更多的,噴人也可以,記得寫原因就好。

會有很少英文的專有名詞,但我都會解釋的。翻譯中文更難看,信我

最好當然就是幫我找錯處XDD,因爲我14號要考試了XDD

————————


這篇只會介紹一個概念,simple regression model。

simple regression model是用來幹嘛的?

他的用途是,我輸入一個數據,我想推測出一個結果

Ps:結果可以是任何東西,但這個例子裏,結果是一個數值。

這沒問題吧?

擧個例,我有一個喜歡的巴哈好友,克萊。但我不知道他對我到底有多少好感。

那我想知道,如果我有27k月薪,那他對我的好感度是多少?

對應上面的情況,我輸入:月薪=27k,推測結果:好感度=?

ok

但是,都沒有參考資料,我怎麽推測?

這時候我們就要找一堆樣本數據來參考。

就是找了很多人,他們的月薪是多少,而克萊對他們的好感度是多少

做完調查后,大概就是這樣

應該看的懂吧?


圖中的每一個點,對應的就是每個人的月薪是多少,而克萊的好感度又是多少

大概看到了,月薪跟好感度的關係,是當月薪上升,

但這樣是不夠的,因爲如果我現在問你,我月薪10k,好感度多少?你是回不了我的,因爲圖中不止一個好感度啊

這時候我們要找出一條有代表性的綫,俗語來説就是找出一個數學規律,這樣我們才能用這個規律去找到一個答案,而不是那麽多個可能


經過一堆數學操作后,我們找到了一條紅綫,回歸綫(regression line)

他是代表著月薪跟好感度的關係

那現在就好找多了,我月薪27k,順著這條綫,好感度=50

當然現實不會這麽好抓啦,還要一堆假設跟數學,總之原理是這樣,我找一堆樣本數據,去找出這兩者之間的關係,然後我在放我的輸入,就能推測出那個結果。

這時候就有個女生來問我這個問題。

既然是用樣本數據,代表數據是不完整的,那條綫不准怎麽辦?

對沒錯,我用不完整的數據,怎麽可能找到完全正確的答案。

假設紅色是正確答案,那我找到的可能是這樣


圖中,藍色的綫就是我找出來的,很明顯跟正確答案不同

先來了解,爲什麽會這樣?

用打電話做例子,我跟你講的話,就是你想接受的訊息,對吧?統計學上叫——訊號(signal)

但現實中,肯定會有雜音混進來,可能是室友在叫床,可能是LOL的游戲聲音,這些叫做——噪音(noise)

你當然希望是這樣:

輸出結果(y)=訊號

事實上卻是, = 訊號+噪音

圖中也能看出,藍綫跟紅綫不是念著的,就是因爲有噪音,也就是誤差(error)

那怎麽解決?

當然是不能解決啊XDD,完整數據都不一定可以了,用樣本你可以有可能?

但是我們有一個補救方法

confidence interval(C.I.)

他的原理是,既然我們不能完全準確預測落點,那大概預測可以了吧?

擧個例,我是棒球的解説,我要預測擊球手會把球打到哪裏

我不能100%肯定球會落在觀衆席的A1座位上,這不可能

我只能說,我有95%的信心,球會落在左邊的觀衆席。

這是說,我有95%信心,球會落在這個範圍

同樣道理,當我有月薪27k,我有95%的信心,克萊的好感度會落在這個範圍


看的懂吧?

那如果要增加信心,那你就把範圍變大一點。

如果你要100%信心,那你就說,好感度一定會在0~無限

如果你要收窄範圍,那就説,我有50%,好感度會在(一個比95%更小的範圍)



流程跟原因就是這樣

看看你們有什麽意見,都可以講

我知道會有一堆問題想問,例如説超過一個輸入怎麽辦,不一定是直綫怎麽辦,那些在完整版會講
引用網址:https://home.gamer.com.tw/TrackBack.php?sn=5005934
All rights reserved. 版權所有,保留一切權利

相關創作

同標籤作品搜尋:萱弟

留言共 14 篇留言

LOVe高橋李依

克萊歐(FF口味 居然被拿來當範例,好害羞>///<
然後萱弟好用心整理出回歸直線的內容0_0
這個在醫學上也很常應用
雖然因為它要求要控制到兩組變數,以及必須有連續性所以還是有模型的限制
因此後續才會有T檢定 Z檢定 ANOVA那些出來

12-08 17:18

LOVe高橋李依

萱弟w(゚Д゚)w 我本來想用膚色跟犯罪率的,但想想,it's too white(X,所以采用這個

對對,基本上biostat或是很多領域都有用,所以知道概念對不是理科的人來説也挺重要的

連續性不用啊?var x y可以是binary,還是我們在講不同的東西XDD

我有想過要不要講ttest,但太煩了,anova就...........如果沒有數學證明會很難講,連我們哈佛統計博士的教授都被學生評超差了XD,證明只講原理是沒人聽得懂的XD12-08 17:18
LOVe高橋李依

克萊歐(FF口味 對誒,非連續也能夠用,畢竟回歸直線是表現趨勢
太久沒看了都快忘記了XD
ANOVA真的不好講,好在醫學生多是記住結論知道怎麼用就好,還不用去推導那些看起來很可怕的原理

12-08 17:18

カc〃òᴗóノン
首先看到訊號即時打寒顫,我的1200...然後這個其實概念就類似實驗報告要做的line of best-fit吧

還説得挺詳細的,但是又不會太抽象或者太專業。作爲engine仔的我都看得懂,不錯嘛

12-08 18:10

LOVe高橋李依
電子那些真的很難讀.....我上完第一顆..完全不懂他在共三小QQQQQQQ

best fit 只是其中一個考慮,但不是一定要best fit

主要是有圖,然後帶著走一次就比較好懂,但心力也用不少QQ

感覺有點奇妙Xd,商人解釋一個理科的概念給工人XD12-08 18:23
カc〃òᴗóノン
可以這樣講吧,同一個概念應用,商科跟工程的切入點也可能會有不同,所以也沒衝突

12-08 19:40

LOVe高橋李依
這問題將來有的搞了...12-08 19:42
LOVe高橋李依
我知道error去CI哪裏的銜接是不好的,如果對有學過RM的人來説,但因爲不能涉及任何數學,所以也就只能這樣了,從講故事的角度來看,會順一點

12-08 20:24

伍德‧瓦懷特
Regression基本上是計量經濟學(Econometrics)的核心,本來也想找時間寫一篇XD
您的說法基本上問題不大;不過我們學門一般的看法是能不能用x(月薪)來「解釋」y(好感度),比較少用訊號這種語言。
.
CI嚴格上是一個一個係數看和建構的,不過我同意背後數學有點複雜。
此外樓上提到ANOVA,它的公式不好記,操作起來也很麻煩。實際上它在多元線性回歸(Multiple Regression)下可以看成對Dummy variables的複合檢定。至於一般的檢定軟體做F-test(或Wald test)已經非常簡單了,就沒必要做ANOVA表。

12-08 21:39

LOVe高橋李依
欸我記得你沒訂閲我啊,是不是從yuki那邊來的

不止是他的核心啦,很多東西都會用SR MR的

那你寫好了XDD,其實我不是很想寫XDD,一方面我説了不會扯到任何公式,這樣就要重新想排版,剛才冰雪也跟我討論error接CI是不是不太合適,但真沒辦法。另一方面是我打字好慢...

「不過我們學門一般的看法是能不能用x(月薪)來「解釋」y(好感度),比較少用訊號這種語言」,對我懂你想説什麽,我也知道是這麽做,因爲我們也要做功課跟考試的嘛。但這裏blog呀...肯定沒人想看的,只好用故事去模擬我想做什麽。

訊號不是專有名詞,只是一個比喻,他們能懂就好。

CI我有想過怎麽去解釋會比較smooth,但不管怎樣,sd跟std error一定會碰到,所以決定提供一個情景,然後直接去結論。

ANOVA可能會講,説實話他的math proof不算最難,比起eigenvalues、ortho這些已經很輕鬆了,但問題是很煩,每步不難但要做很多步,如果沒統計背景+只想看悠閑文的讀者,看完SR,如果再給他們解釋這個我覺得他們會走XDDDDD,那就不太好了XDD

Ftest我很少用就不説了,我也不太記得概念XDD





12-08 21:53
LOVe高橋李依
話說,你們數學係學這麼多東西的嘛xd12-08 21:59
伍德‧瓦懷特
我很神出鬼沒的(X?)
數學系也不是所有人都攻這塊;而我也是在念經濟後才接觸比較多。
提到「解釋」這個概念是因為我們一般是把y=bx+e中的bx看成x能解釋的部分,而e(雜訊)是不能解釋的部分。只是好奇像是資工、生醫等背景切入點會不會不太一樣。
.
有需要用到Eigenvalue那類的線性代數概念嗎?印象中不大需要?
其實ANOVA就是把F-test硬算一遍(所以才「很多步」),但既然F-test把ANOVA也包在裡面,自然用F-test就夠了。而且一般操作F-test是用矩陣,運算上快很多。
(對Error有Normal Distribution的假設才是用F-test,否則是用Asymptotic Theory做Wald test。形式看起來一樣,但背後用到的假設不同。)
簡單來說,t-test是檢測單一假設(例如beta=0),F-test是檢測多重假設(Joint hypothesis)(例如beta0=1 AND beta1=2)。要小心別用兩個(或多個)t-test來代替F-test,Power是錯的。
以應用來說,不懂數學也沒關係,在大部分軟體內都是一兩行的指令而已;重點是要會看結果、會解釋結果,不要做出錯誤的推論。

12-08 22:08

LOVe高橋李依
先回一點,那個...我現在的身份是商科XDDD12-08 22:09
LOVe高橋李依
想不到吧XDDDd
12-08 22:09
LOVe高橋李依
果然帥哥就是比較神秘XD

碩經是真的難讀...一堆經濟學概念,然後還要配一堆數學模型,我覺得在科學領域裏面除了純數第二難就是這個了。尤其是微觀

因爲我學SR的時候,人已經在商科了,所以我也不知道別的科系怎麽看的XD,不過商科只要知道signal跟noise就夠interpret了。

沒,我只是說anova的proof比起綫代的proof,相對簡單很多,不過正如你所説,因爲很多步,所以無論是學的時候,還是自己下手proof時,都感覺很煩躁XD,就是一種我明明知道終點在哪裏,但怎麽還沒走到的感覺

然後中間都是fact我就不回了,我這部分沒太熟,也補充不了什麽(對,我就是混的

説起這個,這年頭「會看結果、會解釋結果,不要做出錯誤的推論。」已經不夠了,business analytics的工作是要跟data science畢業的人搶的,如果不盡量學多點,打不過他們XD。
12-08 22:23
伍德‧瓦懷特
微觀都是從公理和假設一步一步建立起來,對我來說要顧及很多現實因素的宏觀比較難咧。
(順帶一提,台灣習慣的翻譯是「個體經濟學」(微觀)和「總體經濟學」(宏觀))
.
商科應該比較著重Regression的Prediction(預測)功能;經濟學一開始著重Casual Inference(因果推論),近年被機器學習影響,開始因果推論和推測並重。
Regression一開始的證明確實不難,但是很繁複;而若真要深入研究,也需要很深的機率論和線性代數。
當然,以Blog科普來說這樣就差不多了(高中生不讀相關科系,記得這樣也就好了)
不過如果你的目標是Analyst,確實要懂Regression背後的原理,以及實務上操作容易犯的錯誤及修正法呢。即使程式一列就解決,沒有經過思考就執行的迴歸分析只是Garbage-in-garbage-out而已。

12-08 22:34

LOVe高橋李依
幹你勒,我怎麽感覺你concept很清晰RRR,果然這就是PHd的實力嗎QQ,看來我也要再努力一點學清概念才行

反正用micro跟 macro就看的懂了

可能我做事常常偏離常識吧XD,所以感覺micro更加難理解XD。macro雖然多東西背,但至少他對現實世界的描述還是比較合理的,相對容易理解一點。而且有趣啊,mon bank那裏有不少有真實例子,上課還會講金融風暴XD(其實就是聼他説當年虧了多少wwwwwwwwwww。

analyst是考慮到前景跟薪水而已,我還沒想好目標欸XD,只是有肯定的方向跟知道喜歡的工作一定有那些特點,你有興趣可以給點建議,畢竟你見的比我多,我會很感謝的XD。

我自己的出發點是,要能試東西,而且做的事情一定是爲了去找那個未知的答案。

例如說,以前我們頁游RPG游戲不就一堆裝備嘛,然後有攻防敏幸。然後就會很有興趣去算什麽裝備能打出最高傷害,攻擊跟防禦跟實際造成傷害,是怎麽算出來的,就一直試和記錄答案,去找那個關係的公式,再看看最優解。那個過程真的很開心

從上,目前確定喜歡的職業就是物流路綫、供應鏈營收、markov chain monte carlo等,都是隨機預測或是最佳化的方向。有沒有其他我就不知道了,還在試XD

真的,記得有senior跟我們說,有時候他會遇到data science master的人去應徵ds/quant的工作,然後就只會說要R^2最高就會讓model fit better,背後完全不知道爲什麽要這樣做,讓他覺得很不行。所以學什麽科目,就算是文科,也要養成思考背後原理跟目的習慣,不然到後面就變成我這樣
12-10 22:56
曲蘿幻
統計學QQ
統統忘記
沒有啦,還是有一點記得

12-09 00:25

LOVe高橋李依
其實文科的話不用用到這些啦,而且在你那個年代還不如學好中英文跟MS的工具XD12-09 09:35
神無月 若葉
這是甚麼ಠ_ಠ?

12-09 01:04

LOVe高橋李依
數學模型XD12-09 09:35
(๑˘• ¸•)˘{鳴aiRN7⁆
原本認真看著內容,突然!室友叫床!?? XDD 就笑了。

12-09 01:06

LOVe高橋李依
我是說這是不想接收的噪音之一啦XD12-09 09:36
(๑˘• ¸•)˘{鳴aiRN7⁆
例子滿好懂的。這可能代表 萱弟 屬於,

自己學習得來也教導得了他人,這樣的類型吧。

個人的話,應該就是沒有那種傳授才能了。

12-09 01:11

LOVe高橋李依
例子基本上就是符合我的惡趣味,當然上課不能這樣,但就悠閑來説是不錯啦

教人嘛,被我教過的都説好,但我不太喜歡教人....XDDD

教人跟聽人講話所花費的心理不一樣R12-09 09:38
曲蘿幻
企管系有用到啊
要分析
統計必修

例如你說關聯性好了,怎麼知道贈送什麼禮品,可以成長多少業績

12-09 22:43

LOVe高橋李依
你們的企管也太理科了XDD

我們這邊的企管跟純文科差不多XD(研究院另計),統計好像有學一點點,但挺走馬看花的
12-19 23:16
曲蘿幻
企管基本上是社會"科學"
我是指國外分類
既然是科學,那一定就是需要一些驗證的結果
只是社會科學變數太多,驗證結果很難吧

12-20 00:23

我要留言提醒:您尚未登入,請先登入再留言

22喜歡★acgllkotori 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:【備份】測試效果不錯的讀... 後一篇:大二冬季時間表...

追蹤私訊切換新版閱覽

作品資料夾

chanxin95107所有老師們
翻譯菜鳥一枚,放了些蔚藍檔案的翻譯作品在小屋裡,有興趣的歡迎挑看選看( • ̀ω•́ )✧看更多我要大聲說3小時前


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】