【郑州校区】机器学习第一天笔记分享 机器学习阶段:
分为6天课程:
机器学习第一天:
(1)学习计划
(2)大数据和机器学习什么区别?
(3)大数据架构?
(4)机器学习架构(推荐系统)
(5)人工智能、机器学习各种概念的学习
(6)什么是机器学习?
(7)机器学习的应用场景?
重难点:大数据架构
搞清楚各种概念之间的区别和联系
机器学习的基本概念
掌握:机器学习的应用场景
机器学习的基本概念
机器学习、人工智能、数据挖掘之间究竟有什么关系?
1.明确了学习目标
2.以电信项目为例讲解大数据和机器学习的关系
大数据做的是数据的存储和简单的统计计算,而机器学习是为了发现数据的规律
或模型,使用机器学习算法从数据中学习得到一个模型,从而能够对真实事件
能够做出预测或决策。
3.在大数据架构中机器学习位于那一部分?
在大数据架构中,机器学习处于上层阶段
基于大数据做完数据存储和数据分析之后,进一步挖掘数据存在的模式
得到一个对应于数据的模型,这个模型可以给我们提供一些决策或预测结果
4.机器学习系统构建(以推荐系统为例)
基于协同过滤推荐
构建用户和商品矩阵
基于用户的推荐:
基于商品的推荐:
5.究竟大数据时代究竟改变了什么?
更多的是一种思维方式的转变
1.数据的重要性:
数据资源---->数据资产(增值)
2.方法论角度:
基于知识----基于数据
3.数据分析:
统计学------数据科学(数据科学家)
---更多的是在业务上面非常精通的,在数据分析和数据挖掘或数据领域
---可以提供更多的基于数据的决策
4.决策:
基于目标的决策---->基于数据的决策
5.管理方式:
基于业务的数据化---->基于数据的业务化
6.产业竞合方面:
以战略为中心---->以数据为中心
6.大数据4V特征
1.数据量大---更大存储----HDFS
TP---PB---ZB
2.数据多样化变化----借助更多的技术处理半结构化和非结构化数据---HBASE
结构化数据---非结构化数据---半结构化数据
关系型数据库-视频、音频-----XML HTML文件
3.价值密度低
密度=有价值的数据/总体数据 大数据量---分母增加---分数值较小
价值高----有了大量数据,有价值的数据变得更多
4.增长速度快
1.数据的增长速度快-----横向扩展Hadoop
2.数据处理速度快-------MR-HIVE--storm---spark
总结部分:
1.大数据架构:
数据获取(爬虫、本身业务数据)
数据存储(HDFS分布式文件系统、HBASE)
数据清洗(Mapreduce、Hive、Spark)
数据分析(Mapreduce、Hive、Spark、Hbase、Impala)
机器学习/数据挖掘
关系型数据库
Web数据展示层
2.数据的重要性:
数据资源--数据资产
基于知识--基于数据
统计学--数据科学
目标决策--数据决策
基于业务的数据化--基于数据的业务化
基于战略---基于数据
3.数据的4V
数据量大
数据多样化
数据速度快
价值大 价值密度低
4.机器学习框架
以推荐系统为例进行讲解
协同过滤算法、基于内容的推荐算法(基于文本方式的推荐)
5.机器学习的应用场景
1.人脸识别
2.无人驾驶
3.自然语言处理
4.推荐系统
5.计算广告
6.语音识别
人工智能发展和概念
图像识别、语音识别、智能翻译、医疗智能诊断、数据挖掘、无人驾驶
跳棋、国际象棋、围棋发展
人工智能、机器学习和深度学习的关系
机器学习是人工智能的一个分支,深度学习是实现机器学习的一种技术。
数据----观测值
信息----数据分析,可信的数据
有价值信息----数据挖掘,进行数据的价值化的提取
深度学习--->机器学习--->数据挖掘、模式识别
什么是机器学习?
1.机器学习,致力于研究如何通过计算的手段(GPU和CPU),利用经验(数据)来改善自身的性能的过程
2.机器学习,专门研究计算机如何能够模拟或实现人类的学习行为,以获取新的知识或技能
从而重新组织这些新的技术或技能提高自身的性能或能力。
3.数据Data+机器学习算法==>Model(预测的能力)
4.当有新的数据需要预测,只需要提供给Model模型即可得到结果信息。
5.对于数值计算、确定性的问题不是机器学习问题。
6.基于规则的学习和基于模型的学习
基于规则的学习---利用人从业务中发现规律--->规则--->其余数据只需要
做一个判断就可以得出当前的邮件是否为垃圾邮件
基于模型的学习---利用数据集(训练集和测试集)--->
训练集+分类算法---训练模型Model
有新的邮件数据+Model=Predict-->是垃圾邮件or不是垃圾邮件
机器学习的基本概念:
训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
数据集---城市数据集
行---样本数据
列---特征或属性数据(除去最后一列的标签列)
属性空间:属性张成的空间
特征向量:每一个样本中的数据组成的向量
训练集:用于模型训练的数据集,X+Y
测试集:用于校验模型的优劣程度,X+Y
训练过程:(学习过程)使用训练数据集+机器学习算法==>模型
模型:将测试集中除去Y部分灌入模型中进行预测Y1
误差:Y-Y1
测试误差:模型在测试集上的误差
训练误差:模型在训练集上的误差
泛化误差:对新数据的适应能力
准确率:预测争取的个数/全部个数个数
错误率:预测错误的个数/全部样本个数
以西瓜数据集为例:
数据集名称---西瓜数据集
样本个数、属性或特征个数
特征空间
特征向量
训练集、测试集
模型---判断西瓜是好西瓜还是坏西瓜(二分类问题)
当有新的数据来的时候,通过模型做预测
误差:预测值和真实值有误差
准确率和错误率
引入:
分类和回归差别:
输出变量是否是连续值--是-->回归 不是--->分类
监督学习(有类别标签的学习行为):
将分类和回归统称为监督学习
无监督学习(没有类别标签的数据集学习方式)
半监督学习(有的数据集有标签有的数据集没有标签)
总结:
首先使用iris鸢尾花数据集对机器学习基础概念强化
什么数据集、样本、特征、特征空间、特征向量
训练集、测试集、测试误差、训练误差、泛化误差
对机器学习的分类的详解
1.监督学习---带有类别标签
2.无监督学习--没有类别标签的数据
3.半监督学习--一部分数据有标签,一部分数据没有标签
基于聚类的假设--->纯半监督学习或直推学习
---差别:是否将没有标签的数据作为待测数据
4.强化学习:主要用来解决连续决策问题 无人车、AlphaGo
5.深度学习(特征)+强化学习(连续决策)+迁移学习(适应)
6.迁移学习--(1)小数据问题(2)个性化问题
使用手写体识别案例讲解整个机器学习处理流程
1.搞清楚机器学习对应的任务类型--监督or无监督---分类、回归、聚类、降维
2.监督学习中的分类问题
3.数据集---手写体数据集
4.灰度化和二值化处理
5.对图形中数值进行切割
6.每个图形形成特征向量
7.转化特征向量
8.通过机器学习分类算法,形成模型
9.做预测,并且考验模型准确性
通过python的sklearn中引入的load_digits手写体识别数据集进行处理
1.对数据集进行探索性分析
2.对数据进行切分
3.拿训练数据集训练模型
4.使用测试数据集来预测
5.通过模型在训练集上的误差--训练误差
通过模型在测试集上的误差--测试误差
传智播客·黑马程序员郑州校区地址 河南省郑州市 高新区长椿路11号大学科技园(西区)东门8号楼三层
|