本帖最后由 三胖的减肥之路 于 2017-9-12 16:25 编辑
1、模型状态
1.0模型状态
过拟合(overfitting/high variance)
欠拟合(underfitting/high bias)
1.1小笑话两则
一个非洲酋长到伦敦访问,一群记者在机场截住了他。
早上好,酋长先生,其中一人问到,你的路途舒适吗?
酋长发出来一连串刺耳的声音哄、哼、啊、吱、嘶嘶,
然后用纯正的英语说到:是的,非常的舒适。
那么!您准备在这里呆多久?
他发出了同样的一连串噪音,然后答:大约三星期,我想。
酋长,告诉我,你是在哪学的这样流利的英语?迷惑不解的记者问。
又是一阵哄、吭、啊、吱、嘶嘶声,酋长说:从短波收音机里。
欠拟合:觉得自己将来的白马王子又会赚钱又有颜
过拟合:遇到几个渣男就得出结论"男人没一个好东西"
欠拟合:"你太天真了"
过拟合:"你想太多了"
1.2模型状态验证工具:学习曲线
1.3不同模型状态处理
1)过拟合
- 找更多的数据来学习
- 增大正则化系数
- 减少特征个数(不推荐)
注意:不要以为降维可以解决过拟合问题
2)欠拟合
2、权重分析
2.1过线性或者线性kernel的model
- Linear Regression
- Logistic Regression
- LinearSVM
- .......
2.2对权重绝对值高/低的特征
3、bad-case分析
3.1分类问题
- 哪些训练样本分错了?
- 我们那部分特征是他做出了这个判断
- 这些bad cases有没有共性
- 是不是还有没挖掘的特性
3.2回归问题
4、模型融合
4.1是什么?
Ensemble Laerning 是一组individual learner的组合
如果individual learner同质,称为base learner
如果individual learner异质,称为component learner
4.2为什么?
4.3信奉的信条
1)群众的力量是伟大的,集体的智慧是惊人的
- Bagging
- 随机森林/Random forest
2)站在巨人的肩膀上,能看得更远
3)一万小时定律
- Adaboost
- 逐步增强树/Gradient Boosting Tree
|
-
1.png
(81.77 KB, 下载次数: 30)
-
2.png
(95.27 KB, 下载次数: 14)
-
3.png
(147.63 KB, 下载次数: 22)
|