1、决策树的算法框架 决策树的主函数
计算最优特征子函数:ID3用信息增益、C4.5用信息增益率、CART用节点方差的大小等。 信息熵:用来表示任何一种能量在空间中分布的均匀程度。能量分布得越均匀,熵就越大。在决策树中,它不仅能用来度量类别的不确定性,也可以用来度量包含不同特征的数据样本与类别的不确定性。 CART算法是目前决策树算法中最为成熟的一类算法,应用范围也比较广泛。
在回归树中,数据集均为连续性的。连续数据的处理方法与离散数据不同,离散数据是按每个特征的取值来划分,而连续特征则要计算出最优划分点。但在连续数据集上计算线性相关度非常简单,算法思想来源于最小二乘法。 剪枝策略:因为使用连续性数据,CART可以生长出大量的分支树,为了避免过拟合的问题,预测树采用了剪枝的方法。主流的剪枝方法有两类:先剪枝和后剪枝。先剪枝给出一个预定义的划分阈值,当节点的划分子集某个标准低于预定义的阈值时,子集划分将终止。后剪枝在完全生成的决策树上,根据一定的规则标准,剪掉树中不具备一般代表性的子树,使用叶子节点取而代之,进而形成一颗规模较小的新树。
【转载】原文地址: https://blog.csdn.net/QFire/article/details/80951432
|