A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

一、集成学习

(1)EasyEnsemble算法:通常效果还不错

思想:单一的容易丢失,那么就多来几次,尽量将样本都用上。

对于多数样本,通过有放回抽样,形成一份子集。然后与少数样本合并训练一个模型(C1)。重复N次操作,得到N个模型(CN),最终对N个模型的结果取平均。

注意:C1到CN可以并行。

(2)BalanceCascade算法:效果也行

对于多数样本,有效的选择一些样本,形成一份子集。然后与少数样本合并训练一个模型(C1)。用C1对多数样本进行判断,如果正确,说明C1已经能处理这些样本了,就不需要再学习了。

然后将 C1没有预测对的样本 作为多数样本,重复前面操作(得到C2C3....)。直到满足某一条件停止(模型都学过了,或者模型效果还可以),最终的模型是多次迭代模型的组合。

C1C2有什么关联关系吗?应该是独立的吧?最后怎么联合在一起?

说的再简单一点,类似手头有100道题,EasyEnsemble算法类似 题海战术,全都做一遍。

BalanceCascade算法类似 先做10道题,对于做对的题,那一类题型就不用做了。

二、SMOTE


1 个回复

倒序浏览
奈斯
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马