[学习交流] 【上海校区】机器学习--scikit-learn（3）

1.什么是交叉验证？

交叉验证就是不单单把数据集分成测试集和训练集，而是把数据集分成n组，每一组中都有训练集和测试集，每一组都会得到一个score，这个score可以是准确性（accuracy），也可以是MSE（标准均方误差）等。

例子回到第一篇文章中讲到的花的分类，最简单的是利用train_test_split将数据集分成了测试集与训练集。

现在我们要对此例子进行进阶，讨论当knn中的参数n_neighbors为多少时此分类模型的准确率最高。当然k折交叉验证（将数据划分为多少个集合就是k折）只是验证方式中的一种，还有其他的后续学习时再提。

from sklearn import datasetsfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot as plt#加载数据iris = datasets.load_iris()iris_x = iris.datairis_y = iris.target#将参数k范围规定在1-30k_range = range(1,30)k_scores = []for k in k_range: knn =KNeighborsClassifier(n_neighbors=k) scores = cross_val_score(knn,iris_x,iris_y,cv=10,scoring='accuracy') k_scores.append(scores.mean())#对每一组的accuracy求平均plt.plot(k_range,k_scores)plt.xlabel('Value of K for KNN')plt.ylabel('Cross-Validated Accuracy')plt.show()运行后的结果为：

可以看出在k范围在10-20中间时，准确性最高。

此外，模型的参数有很多，要看参数对模型性能的影响可以按照这样的方法进行调试。

2.度量模型性能的指标有哪些？

自己想肯定想不出来，凡是搞不懂的先谷歌，谷歌还是没有的，那就去官方文档找。

上面的程序中我们用到了这段话：scores = cross_val_score(knn,iris_x,iris_y,cv=10,scoring='accuracy')

意思是用knn模型，10组数据，性能测量参数为accuracy。

度量一个模型好与坏的指标有很多，如下图，召回率，准确性，mse之类的任选。

比如你选mse时，那么scores = cross_val_score(knn,iris_x,iris_y,cv=10,scoring='accuracy')这句话就可以改成：

loss = -cross_val_score(knn,iris_x,iris_y,cv=10,scoring='neg_mean_squared_error'))

之所以取负是因为计算出来的是负数。

不二晨 · 不二晨

奈斯，加油加油

帐号		自动登录	找回密码
密码			加入黑马

[学习交流] 【上海校区】机器学习--scikit-learn（3）

1 个回复