一、集成学习 (1)EasyEnsemble算法:通常效果还不错 思想:单一的容易丢失,那么就多来几次,尽量将样本都用上。 对于多数样本,通过有放回抽样,形成一份子集。然后与少数样本合并训练一个模型(C1)。重复N次操作,得到N个模型(CN),最终对N个模型的结果取平均。 注意:C1到CN可以并行。 (2)BalanceCascade算法:效果也行 对于多数样本,有效的选择一些样本,形成一份子集。然后与少数样本合并训练一个模型(C1)。用C1对多数样本进行判断,如果正确,说明C1已经能处理这些样本了,就不需要再学习了。 然后将 C1没有预测对的样本 作为多数样本,重复前面操作(得到C2C3....)。直到满足某一条件停止(模型都学过了,或者模型效果还可以),最终的模型是多次迭代模型的组合。 C1C2有什么关联关系吗?应该是独立的吧?最后怎么联合在一起? 说的再简单一点,类似手头有100道题,EasyEnsemble算法类似 题海战术,全都做一遍。 BalanceCascade算法类似 先做10道题,对于做对的题,那一类题型就不用做了。 二、SMOTE
|