創作內容

2 GP

DAY 15 決策樹(Decision Tree)

作者:看了感覺真可憐 廠廠│2020-08-07 00:02:20│贊助:4│人氣:54
好懶得看論文RRR,教授又給我了2-3篇論文,還有4-5個github叫我試著跑看看程式,但是我一篇都還沒看完= =。
但我心想著還是花點時間更新一下文章,絕對不是因為我懶得看論文~"~。

今天的主題是決策樹,我相信大家小時候都玩過猜數字這個遊戲吧?就是從1-99猜一個數字,那通常我們會怎麼猜? 應該都是先從中間的50剖一半吧?那現在就有1-49跟51-99兩群,在接下來就繼續猜1-49,猜25後,又會再分為兩群,可能是1-24,26-49之類的就一直到猜中為止,那這個就很像決策樹的概念。更日常的例子,像是醫生問診,醫生通常會問,有沒有咳嗽? 讓我們回答有或沒有,若有,醫生可能會在接著問,有沒有發燒?等等,然後最後給你個結論,可能只是單純感冒而已,這也是決策樹的概念。

講那麼多,直接上圖片可能更好懂。
圖片來源:https://www.google.com/url sa=i&url=https%3A%2F%2Fscitechvista.nat.gov.tw%2Fc%2FsT59.htm&psig=AOvVaw2Vs8Mknc_J4AO1vEf8U6Gx&ust=1596811018403000&source=images&cd=vfe&ved=0CAIQjRxqFwoTCLi13uDmhusCFQAAAAAdAAAAABAw

再來說一下名詞,香蕉的顏色是根節點,就是一開始分類的節點,黑斑是內部節點,也就是可以再繼續分類下去的節點,過熟是葉節點,也就是無法再繼續分類的節點。
那每個內部節點表示評估欄位,每個葉節點代表不同的分類標記,當然也不一定只能二分,也可以分為很多類。

那假設現在我們有24筆顧客資料,綠點是好顧客,紅點是奧客,那我們可以根據該顧客的收入或年齡來對這些客人做區分,如下所示,那哪一種特徵可以分類的比較好呢?
看起來是年齡能夠區分的比較好,在分割結果中,同質性較高的類別節點,分割效果越佳,因此需要檢測節點的"不純度(Impurity)",希望不純度越低越好。

常用資訊值的計算方式有這3種ID3(Information Gain)、C4.5(Gain ratio)、CART(Gini Index)。 ID3演算法是以"熵(Entropy)"為基礎,C4.5算是ID3升級版,CART則是以Gini作為基礎。

熵(Entropy)的公式:
p+就是正確機率,p-則是失敗機率。

Gini的公式: p2+q2
p為成功機率,q為失敗機率。

那分類會從先從熵最小的開始,或是gini最大開始分類。



引用網址:https://home.gamer.com.tw/TrackBack.php?sn=4874278
All rights reserved. 版權所有,保留一切權利

相關創作

留言共 0 篇留言

我要留言提醒:您尚未登入,請先登入再留言

2喜歡★paul20217 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:DAY 14 支援向量機... 後一篇:DAY 16 隨機森林(...

追蹤私訊

作品資料夾

emeke6608貓狗鳥糞 貓狗蛔蟲
勤洗手重衛生動物糞便病毒寄生蟲勿入口 請搜尋 宿主を支配する微生物 新型隱球菌之感染與流行病學看更多我要大聲說昨天02:04


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】