A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

【郑州校区】机器学习第一天笔记分享
机器学习阶段:
        分为6天课程:
机器学习第一天:
        (1)学习计划
        (2)大数据和机器学习什么区别?
        (3)大数据架构?
        (4)机器学习架构(推荐系统)
        (5)人工智能、机器学习各种概念的学习
        (6)什么是机器学习?
        (7)机器学习的应用场景?
重难点:大数据架构
                搞清楚各种概念之间的区别和联系
                机器学习的基本概念
掌握:机器学习的应用场景
          机器学习的基本概念
          机器学习、人工智能、数据挖掘之间究竟有什么关系?
1.明确了学习目标
2.以电信项目为例讲解大数据和机器学习的关系
                大数据做的是数据的存储和简单的统计计算,而机器学习是为了发现数据的规律
        或模型,使用机器学习算法从数据中学习得到一个模型,从而能够对真实事件
        能够做出预测或决策。
3.在大数据架构中机器学习位于那一部分?
        在大数据架构中,机器学习处于上层阶段
        基于大数据做完数据存储和数据分析之后,进一步挖掘数据存在的模式
        得到一个对应于数据的模型,这个模型可以给我们提供一些决策或预测结果
4.机器学习系统构建(以推荐系统为例)
        基于协同过滤推荐
                构建用户和商品矩阵
                基于用户的推荐:
                基于商品的推荐:
5.究竟大数据时代究竟改变了什么?
        更多的是一种思维方式的转变
        1.数据的重要性:
                数据资源---->数据资产(增值)
        2.方法论角度:
                基于知识----基于数据
        3.数据分析:
                统计学------数据科学(数据科学家)
                ---更多的是在业务上面非常精通的,在数据分析和数据挖掘或数据领域
                ---可以提供更多的基于数据的决策
        4.决策:
                基于目标的决策---->基于数据的决策
        5.管理方式:
                基于业务的数据化---->基于数据的业务化
        6.产业竞合方面:
                以战略为中心---->以数据为中心
6.大数据4V特征
        1.数据量大---更大存储----HDFS
                TP---PB---ZB
        2.数据多样化变化----借助更多的技术处理半结构化和非结构化数据---HBASE
                结构化数据---非结构化数据---半结构化数据
                关系型数据库-视频、音频-----XML HTML文件
        3.价值密度低
                密度=有价值的数据/总体数据  大数据量---分母增加---分数值较小
                价值高----有了大量数据,有价值的数据变得更多
        4.增长速度快
                1.数据的增长速度快-----横向扩展Hadoop
                2.数据处理速度快-------MR-HIVE--storm---spark
               
总结部分:
        1.大数据架构:
                数据获取(爬虫、本身业务数据)
                数据存储(HDFS分布式文件系统、HBASE)
                数据清洗(Mapreduce、Hive、Spark)
                数据分析(Mapreduce、Hive、Spark、Hbase、Impala)
                机器学习/数据挖掘
                关系型数据库
                Web数据展示层
        2.数据的重要性:
                数据资源--数据资产
                基于知识--基于数据
                统计学--数据科学
                目标决策--数据决策
                基于业务的数据化--基于数据的业务化
                基于战略---基于数据
        3.数据的4V
                数据量大
                数据多样化
                数据速度快
                价值大 价值密度低
        4.机器学习框架
                以推荐系统为例进行讲解
                协同过滤算法、基于内容的推荐算法(基于文本方式的推荐)
        5.机器学习的应用场景
                1.人脸识别
                2.无人驾驶
                3.自然语言处理
                4.推荐系统
                5.计算广告
                6.语音识别
人工智能发展和概念
        图像识别、语音识别、智能翻译、医疗智能诊断、数据挖掘、无人驾驶
        跳棋、国际象棋、围棋发展
人工智能、机器学习和深度学习的关系
        机器学习是人工智能的一个分支,深度学习是实现机器学习的一种技术。
        数据----观测值
        信息----数据分析,可信的数据
        有价值信息----数据挖掘,进行数据的价值化的提取
        深度学习--->机器学习--->数据挖掘、模式识别
什么是机器学习?
        1.机器学习,致力于研究如何通过计算的手段(GPU和CPU),利用经验(数据)来改善自身的性能的过程
        2.机器学习,专门研究计算机如何能够模拟或实现人类的学习行为,以获取新的知识或技能
                从而重新组织这些新的技术或技能提高自身的性能或能力。
        3.数据Data+机器学习算法==>Model(预测的能力)
        4.当有新的数据需要预测,只需要提供给Model模型即可得到结果信息。
        5.对于数值计算、确定性的问题不是机器学习问题。
        6.基于规则的学习和基于模型的学习
                基于规则的学习---利用人从业务中发现规律--->规则--->其余数据只需要
                        做一个判断就可以得出当前的邮件是否为垃圾邮件
                基于模型的学习---利用数据集(训练集和测试集)--->
                        训练集+分类算法---训练模型Model
                        有新的邮件数据+Model=Predict-->是垃圾邮件or不是垃圾邮件
机器学习的基本概念:
                训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
                        数据集---城市数据集
                        行---样本数据
                        列---特征或属性数据(除去最后一列的标签列)
                        属性空间:属性张成的空间
                        特征向量:每一个样本中的数据组成的向量
                        训练集:用于模型训练的数据集,X+Y
                        测试集:用于校验模型的优劣程度,X+Y
                        训练过程:(学习过程)使用训练数据集+机器学习算法==>模型
                        模型:将测试集中除去Y部分灌入模型中进行预测Y1
                        误差:Y-Y1  
                        测试误差:模型在测试集上的误差
                        训练误差:模型在训练集上的误差
                        泛化误差:对新数据的适应能力
                        准确率:预测争取的个数/全部个数个数
                        错误率:预测错误的个数/全部样本个数
        以西瓜数据集为例:
                        数据集名称---西瓜数据集
                        样本个数、属性或特征个数
                        特征空间
                        特征向量
                        训练集、测试集
                        模型---判断西瓜是好西瓜还是坏西瓜(二分类问题)
                        当有新的数据来的时候,通过模型做预测
                        误差:预测值和真实值有误差
                        准确率和错误率
        引入:
        分类和回归差别:
                输出变量是否是连续值--是-->回归  不是--->分类
        监督学习(有类别标签的学习行为):
                将分类和回归统称为监督学习
        无监督学习(没有类别标签的数据集学习方式)
        半监督学习(有的数据集有标签有的数据集没有标签)
总结:
        首先使用iris鸢尾花数据集对机器学习基础概念强化
                什么数据集、样本、特征、特征空间、特征向量
                训练集、测试集、测试误差、训练误差、泛化误差
        对机器学习的分类的详解
                1.监督学习---带有类别标签
                2.无监督学习--没有类别标签的数据
                3.半监督学习--一部分数据有标签,一部分数据没有标签
                        基于聚类的假设--->纯半监督学习或直推学习
                        ---差别:是否将没有标签的数据作为待测数据
                4.强化学习:主要用来解决连续决策问题 无人车、AlphaGo
                5.深度学习(特征)+强化学习(连续决策)+迁移学习(适应)
                6.迁移学习--(1)小数据问题(2)个性化问题
        使用手写体识别案例讲解整个机器学习处理流程
                1.搞清楚机器学习对应的任务类型--监督or无监督---分类、回归、聚类、降维
                2.监督学习中的分类问题
                3.数据集---手写体数据集
                4.灰度化和二值化处理
                5.对图形中数值进行切割
                6.每个图形形成特征向量
                7.转化特征向量
                8.通过机器学习分类算法,形成模型
                9.做预测,并且考验模型准确性
        通过python的sklearn中引入的load_digits手写体识别数据集进行处理
                1.对数据集进行探索性分析
                2.对数据进行切分
                3.拿训练数据集训练模型
                4.使用测试数据集来预测
                5.通过模型在训练集上的误差--训练误差
                        通过模型在测试集上的误差--测试误差
传智播客·黑马程序员郑州校区地址
河南省郑州市 高新区长椿路11号大学科技园(西区)东门8号楼三层
联系电话 0371-56061160/61/62
来校路线  地铁一号线梧桐街站A口出

0 个回复

您需要登录后才可以回帖 登录 | 加入黑马