資源簡介
C5.0是決策樹模型中的算法,79年由J R Quinlan發展,并提出了ID3算法,主要針對離散型屬性數據,其后又不斷的改進,形成C4.5,它在ID3基礎上增加了隊連續屬性的離散化。 C5.0是C4.5應用于大數據集上的分類算法,主要在執行效率和內存使用方面進行了改進。
C4.5算法是ID3算法的修訂版,采用GainRatio來加以改進方法,選取有最大GainRatio的分割變量作為準則,避免ID3算法過度配適的問題。
C5.0算法則是C4.5算法的修訂版,適用于處理大數據集,采用Boosting方式提高模型準確率,又稱為BoostingTrees,在軟件上計算速度比較快,占用的內存資源較少。
決策樹模型,也稱規則推理模型。通過對訓練樣本的學習,建立分類規則;依據分類規則,實現對新樣本的分類;屬于有指導(監督)式的學習方法,有兩類變量:目標變量(輸出變量),屬性變量(輸入變量)。
決策樹模型與一般統計分類模型的主要區別:決策樹的分類是基于邏輯的,一般統計分類模型是基于非邏輯的。
常見的算法有CHAID、CART、Quest和C5.0。對于每一個決策要求分成的組之間的“差異”最大。各種決策樹算法之間的主要區別就是對這個“差異”衡量方式的區別。
代碼片段和文件信息
評論
共有 條評論