A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

1、决策树的算法框架

决策树的主函数


计算最优特征子函数:ID3用信息增益、C4.5用信息增益率、CART用节点方差的大小等。

信息熵:用来表示任何一种能量在空间中分布的均匀程度。能量分布得越均匀,熵就越大。在决策树中,它不仅能用来度量类别的不确定性,也可以用来度量包含不同特征的数据样本与类别的不确定性。

CART算法是目前决策树算法中最为成熟的一类算法,应用范围也比较广泛。



      在回归树中,数据集均为连续性的。连续数据的处理方法与离散数据不同,离散数据是按每个特征的取值来划分,而连续特征则要计算出最优划分点。但在连续数据集上计算线性相关度非常简单,算法思想来源于最小二乘法。

剪枝策略:因为使用连续性数据,CART可以生长出大量的分支树,为了避免过拟合的问题,预测树采用了剪枝的方法。主流的剪枝方法有两类:先剪枝和后剪枝。先剪枝给出一个预定义的划分阈值,当节点的划分子集某个标准低于预定义的阈值时,子集划分将终止。后剪枝在完全生成的决策树上,根据一定的规则标准,剪掉树中不具备一般代表性的子树,使用叶子节点取而代之,进而形成一颗规模较小的新树。





【转载】原文地址: https://blog.csdn.net/QFire/article/details/80951432


2 个回复

倒序浏览
回复 使用道具 举报
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马