【郑州校区】机器学习第三天笔记分享 机器学习第三天内容重难点:
Python基础部分学习:
1.Python2和Python3两个版本的区别
2.Python2和Python3中对应区别和联系对比学习
3.python中数据结构的学习(list、tuple、dict、set)
4.列表的表达式、原则表达式(难点)
5.python的其他语法--if_else\while\for\GUI\面向对象
机器学习第二天的内容:
神经网络:MP神经元模型---感知机模型---BP神经网络---CNN
存在问题:模型没有学习能力---误差反向传播(XOR)----具有两层神经元的神经网络结构---深度神经网络
如何设计一个神经网络结构?
1.确定神经元的层数?
输入层1层--输出层1层---隐藏层N层
2.确定每层神经元的个数?
输入层个数-输入样本的个数---输出层个数-任务的输出个数----隐藏层个数1.准备率2.交叉验证
对于如何够构建机器学习系统?
1.数据层面:有类别标签数据,采取监督学习方法进行处理,也可以做无监督学习
2.业务层面:制定业务,是否有预测,如果有预测监督学习,反之非监督学习
构件流程:
数据探索
特征工程(数据预处理、特征处理)
数据集切分为测试集合训练集
训练集+算法==>模型
通过测试数据X灌入模型中得到一个预测值Y1
形成误差|Y-Y1|
模型训练过程使得训练误差最小
评价指标
机器学习的三要素:
数据+机器学习算法+策略(损失函数)==>模型
策略:损失函数(目标函数)
0-1损失----分类
平方损失---回归
负log损失--分类
模型选择:
模型的泛化能力:模型对于新数据的适应能力
欠拟合:模型过于简单
解决办法:1.增加特征项
2.增加多项式的项
3.减少正则罚项
过拟合:模型过于复杂
解决办法:1.加正则罚项
2.对数据重新采样
3.重新清洗数据
基于python的sklearn库学习:
基于python的数据科学环境安装:
1.简单的python的IDE安装
2.eclipse+python环境安装
3.IDEA+Python的环境安装
4.Anaconda数据科学环境+Pycharm=数据科学环境
为什么使用Anaconda科学环境?
Anaoconda集成了大部分的数据科学工具包,numpy、pandas、matplotlib
import numpy as np
5.jupyter+notebook---启动一个web服务,在页面交互式的进行代码书写过程
Python简单了解---人生苦短、我用python
Python特点:1989年有Python版本
面向对象解析性语言
python有四种解析器-CPython、Jpython、ironPython、PYPY
应用广泛:网络爬虫、数据科学计算、图像处理、语音处理等方面
使用python作为开发语言:豆瓣网、youtube等
Python2和Python3区别:
1.print语句 函数
2.字符编码ascii unicode
3.数据类型:整形、str类型、复数类型、type查看类型
“” ‘’ 双引号 三引号 单引号
4.输入和输出:input(在python3中合二为一)
格式输出 %d %s {0}.format(str) + ,
如何使用python来产生随机数?
随机数---随机产生的一系列的数字
为什么要有随机数?
1)利用正态分布产生一些列的随机数,模拟现实生活中一些场景
2)二项分布、beta分布
创建随机数的两种方式:python自带的random包、通过numpy中的random包(建议学会这一种)
Python的数据结构
list列表:[]
tuple元祖:()
dict字典:{k:v}
set集合:{}
推导式:
列表推导式
元祖推导式--生成器推导式
字典推导式--k:v
传智播客·黑马程序员郑州校区地址 河南省郑州市 高新区长椿路11号大学科技园(西区)东门8号楼三层
|