日期 2017/04/18
開啟R i386
程式套件 > 安裝 > Taiwan > 從Rcmdr 到 RcmdrPlugin.UCA 和 rattle都要載入
開啟rattle介面
到Rconsole 輸入> library (rattle) > rattle()
隨機森林
隨機森林是一個包含多個決策樹的分類氣,並且其輸出的類別是由個別樹輸出的眾樹而定,將上百棵決策樹的結果整併成一個森林。隨機森林演算處理辨識度不足的決策樹,處理得相當好,例如在二元分類中,其中一個類別的樹木太少,好比低於5%,隨機森林依照最大深度建構個別決策樹,然後在最低偏誤情況之下,結束演算成為決策樹。
氣象預測實作
1.載入資料
2.切換到模組頁 選擇森林 在按執行 意思是當這模型被用到新資料時,有14.45%會錯;
換句話說,有85.55%是正確的。
再下來的confusion matrix 測量了他的全面度
27的意思是: 理論上預測沒下雨,實際上卻有27天有下雨
所以主對角線為正確預測數量。
Class.error 0.465
實際沒下雨,卻預測下雨的比率為 10/(205+10)
Class.error 0.658
實際有下雨,卻預測沒下雨的比率為 27/(27+15)
3.一個500顆的決策樹的結果很難一顆一顆去評估。
所以需要一些簡化的指標來指出相對重要性。
4.繪製視覺化圖表
5.變數重要性的呈現圖
產生樹量為500顆
產生樹量為100顆
比較樹量變化的結果,相當明顯,數量多時,前三名的指標是一致的
數量減少時兩個指標差異就會大
4.整合預測誤差圖
將500顆樹的誤差率結果畫出來,同時也提列OOB數字
從圖形中可以看出明天下雨為YES的狀況預測誤差比較高
遠高於預測明天不會下雨(NO)
5.
操作特徵曲線圖操作特徵曲線是比對
1.正確的預測「會」下雨
2.錯誤預測「會」下雨
這兩者的關係。這樣的圖命中率(HIT) 越接近上端越好
AUC代表是曲線下方面積可以測量操作特徵曲線接近上端方框線的程度。
條件決策樹森林
1.切換到模組頁 選擇條件決策樹森林 並產生100棵樹與500棵樹
按下重要性呈現圖
2.
樹量=100
樹量=500
可以發現最重要的是下午3點所測量到的大氣壓力,關鍵變數很快就找出來
而且沒有變動。在傳統隨機森林法也是如此,隨著樹木增加
整體的結果就會開始改變,等500棵樹都處理完
最重要的4個變數,除了第1個不便之外,其餘則是改變很多。
推進法Boosting
原理
Boosting方法,對Training samples內的每一個觀察值都給一個權重,每次蝶袋後,對分類錯誤的資料加大權重,以使下一次疊代演算時有較多的關注。推進法是一種抽樣方法,以取後不放回為基準。這種不重複抽樣又稱無放回抽樣,即先被抽選的單位不再放回到母體中去,即任何單位一經抽出,就不會再有第二次被抽取的可能性。
(待更新.......)
推薦書 : R資料採礦與數據分析 / 作者 : 何宗武 教授