資工心理人的理財筆記: 機器學習演算法—隨機森林（Random Forest）懶人包

2018年7月1日星期日

機器學習演算法—隨機森林（Random Forest）懶人包

會發這篇文章，主要是因爲前陣子針對研究案期中報告時，整個會場中只有我是寫程式出身的，感受到如果你有再好的技術，如果沒有辦法讓決策者理解，那如何能讓這個計畫推展下去呢？不能去埋怨長官們不懂，他們過去又沒有學過，怎麼可能會懂呢？當然，那種食古不化又不願意聽取專業意見的就另當別論了！

簡單介紹隨機森林（Random Forest）顧名思義，是用隨機的方式建立一個森林。

隨機森林的用途，主要是處理分類與回歸問題，並且在沒有提高運算量的情況下提高了精確度。
優點如下
1.有效的處理缺失值，並且填補缺失值，即使有大量數據缺失仍然可以維持高精確度
2.有效的處理少量資料。
3.對於數據挖掘、檢測離群點和數據可視化非常有用。

缺點
1.在某些雜訊較大的分類和回歸問題上會過擬合（overfitting）

簡單的說，隨機森林可以視為決策樹(Decision Tree)的延伸

什麼是決策樹呢？我們可以想想我們的人生，每做一個決策，就會出現不同的結果，種種不同的決策下，長成了現在的我們，這個分叉出去的人生，就像一棵樹倒過來一樣，用下面這個圖比較明瞭。

決策樹-取自維基百科

而隨機森林呢？可以想像是用隨機的方式建立一個森林，森林裡面有很多的決策樹，而每一棵決策樹之間是沒有關聯，最後再用這些樹去投票，來決定結果。

以下用幾張圖來讓大家簡單明瞭

一般很多的決策樹算法都一個重要的步驟 – 剪枝，但是隨機森林不會。（剪枝的意義是：防止決策樹生成過於龐大的子葉，避免實驗預測結果過擬合，在實際生產中效果很差）

隨機森林裡面的每棵樹的產生的過程中，都已經考慮了避免共線性，避免過擬合，剩下的每棵樹需要做的就是盡可能的在自己所對應的數據(特徵)集情況下盡可能的做到最好的預測結果。

用隨機森林對一個新的對象進行分類判別時，隨機森林中的每一棵樹都會給出自己的分類選擇，並由此進行「投票」，森林整體的輸出結果將會是票數最多的分類選項；而在回歸問題中，隨機森林的輸出將會是所有決策樹輸出的平均值。

以上，希望可以幫助大家快速了解隨機森林及用途，如果有寫得不夠詳細的部分，也歡迎留言討論，最後～希望可以讓長官深入淺出快速理解並支持（？

資工心理人的理財筆記

2018年7月1日星期日

機器學習演算法—隨機森林（Random Forest）懶人包

沒有留言:

張貼留言

將探吉帶去日本系列-1(赫曼陸龜Testudo hermanni)

搜尋此網誌

2018年7月1日 星期日

機器學習演算法—隨機森林（Random Forest）懶人包

沒有留言:

張貼留言

將探吉帶去日本系列-1(赫曼陸龜Testudo hermanni)

2018年7月1日星期日