本帖最后由 小江哥 于 2018-5-25 18:01 编辑
大数据时代什么是大数据? 其实大数据这个概念,在上世纪九十年代就有人提出来了当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导商业决策。比如保险行业,人寿保险会通过大数据的统计计算,根据人均寿命来计算保费与回报率。这是在特定的环境,特定的时间下,对数据做一些商业化的尝试,还算不上真正的大数据。 想要系统认知大数据,必须要全面而细致的分解它,如果你听别人说大数据就是数据大,或者侃侃而谈4个v,也许很有深度的谈到BI(商务智能)或预测的价值,又或者拿Google和Amazon举例,技术流可能会聊起Hadoop之类,不管对错,只是无法勾勒对大数据的整体认知,不说是片面,但至少有些隔衣瘙痒了。下面从三个层面来展开认知: 第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。将会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。将分别从云
计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、
存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。将分别从互联网的大数据,
政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的
美好景象及即将实现的蓝图。
1.大数据相关的理论
1.1.特征定义
业界(IBM 最早定义)将大数据的特征归纳为 4 个“V”(量 Volume,多样Variety,价值Value,速 Velocity):第一,数据体量巨大。大数据的起始计量单位至少是 P(1000 个 T)、E(100 万个 T)或 Z(10 亿个 T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。
1.2. 价值探讨
大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上
市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。如果把大数
据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,
通过“加工”实现数据的“增值”。
Target 超市以 20 多种怀孕期间孕妇可能会购买的商品为基础,将所有用户
的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推
断出孕妇的具体临盆时间,这样 Target 的销售部门就可以有针对的在每个怀孕
顾客的不同阶段寄送相应的产品优惠卷。
Target 的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提
过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。
Target 通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是
对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的 GPS 数据,就
可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽
车的 GPS 位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着
较为活跃的人群,这些分析数据适合卖给广告投放商。
从大数据的价值链条来分析,存在三种模式: Ø 手握大数据,但是没有利用好;典型的是金融机构,电信行业,政府机构等。
Ø 没有数据,但是知道如何帮助有数据的人利用它;比较典型的是 IT 咨询和服务企业,比如,埃森哲,IBM,Oracle 等。
Ø 既有数据,又有大数据思维;比较典型的是 Google,Amazon 等。未来在大数据领域最具有价值的两种事物:
Ø 拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;
Ø 还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。
1.3. 现在和未来
先看看大数据在当下有怎样的杰出表现:
其实,这些还远远不够,未来大数据的身影应该无处不在。比如,Amazon 的
最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”
Google 也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内
容,而这并不需要用户给予 Google 太多的提示。
未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,
还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的
数据都与人类有关,要通过大数据解决人的问题。
比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网
络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那
一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分
的利用:
1.4. 大数据隐私
用户隐私问题一直是大数据应用难以绕开的一个问题。在大数据的背景下,
很多人都在积极的抵制无底线的数字化,这种大数据和个体之间的博弈还会一直
继续下去……
当下,很多人依然没有建立对于信息隐私的保护意识,让自己一直处于被滋
扰,被精心设计,被利用,被监视的处境中
2.大数据相关的技术
2.1. 云技术
大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理
框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革
命时期的发动机的角色,而大数据则是电。
云计算思想的起源是麦卡锡在上世纪 60 年代提出的:把计算能力作为一种
像水和电一样的公用事业提供给用户。
如今,在 Google、Amazon、Facebook 等一批互联网企业引领下,一种行之
有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。
那么大数据到底需要哪些云计算技术呢?
这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和
管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语
言理解)等。
2.2. 分布式处理技术
分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多
台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息
处理任务—这就是分布式处理系统的定义。
举个实际的例子,虽然这个例子有些陈旧,但是淘宝的海量数据技术架构还
是有助于我们理解对于大数据的运作处理机制:
淘宝的海量数据产品技术架构分为五个层次,从上至下来看它们分别是:数据源,计算层,存储层,查询层和产品层。
数据来源层。存放着淘宝各店的交易数据。在数据源层产生的数据,通过
DataX,DbSync 和 Timetunel 准实时的传输到下面第 2 点所述的“云梯”。
计算层。在这个计算层内,淘宝采用的是 Hadoop 集群,这个集群,我们暂
且称之为云梯,是计算层的主要组成部分。在云梯上,系统每天会对数据产品进
行不同的 MapReduce 计算。
存储层。在这一层,淘宝采用了两个东西,一个是基于 MySQL 的分布式关
系型数据库的集群 MyFox,Prom 是基于 Hadoop Hbase 技术的一个 NoSQL 的存
储集群。
查询层。在这一层中,Glider 是以 HTTP 协议对外提供 restful 方式的接口。
数据产品通过一个唯一的 URL 来获取到它想要的数据。同时,数据查询即是通
过 MyFox 来查询的。
最后一层是产品层,这个就不用解释了。
2.3. 存储技术
大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据
存储的目的是支撑大数据分析。到目前为止,这是两种截然不同的计算机技术领
域:大数据存储致力于研发可以扩展至 PB 甚至 EB 级别的数据存储平台;大数据
分析关注在最短时间内处理大量不同类型的数据集。
2.4. 感知技术
大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,
RFID 技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基
石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递
着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海
量的数据信息。
而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置
信息被广泛的应用外,一些新的感知手段也开始登上舞台,比如,“iPhone”在
home 键内嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,用于手机
的嗅觉传感器面世可以监测从空气污染到危险的化学药品,微软正在研发可感知
用户当前心情智能手机技术,谷歌眼镜 InSight 新技术可通过衣着进行人物识别。
这些感知被逐渐捕获的过程就是世界被数据化的过程,一旦世界被完全数据化了,
那么世界的本质也就是信息了。就像一句名言所说,“人类以前延续的是文明,
现在传承的是信息。”
3.大数据相关的实践
3.1. 互联网的大数据
互联网上的数据每年增长 50%,每两年便将翻一番,而目前世界上 90%
以上的数据是最近几年才产生的。据 IDC 预测,到 2020 年全球将总共拥有
35ZB 的数据量。互联网是大数据发展的前哨阵地,随着 WEB2.0 时代的发展,
人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并
回忆。互联网上的大数据很难清晰的界定分类界限,我们先看看 BAT 的大数
据:
百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获
取的公共web 数据。搜索巨头百度围绕数据而生。它对网页数据的爬取、网
页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据
中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、
组织、分析和挖掘的过程。
阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商
业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数
据。如微博和高德。
腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人
们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,
甚至预测未来。
简要归纳一下,在互联网大数据的典型代表性包括:
Ø 用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等) Ø Ø 用户消费数据(精准营销、信用记录分析、活动促销、理财等) Ø Ø 用户地理位置数据(O2O 推广,商家推荐,交友推荐等) Ø Ø 互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等) Ø Ø 用户社交等 UGC 数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)
3.2. 政府的大数据
国内来说,政府各个部门都握有构成社会基础的原始数据,比如,气象
数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通
数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,
旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门
里面看起来是单一的,静态的。但是,如果政府可以将这些数据关联起来,
并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,
其价值是无法估量的。
具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、
智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智
慧的核心能源。
3.3. 企业的大数据
企业的 CXO 们最关注的还是报表曲线的背后能有怎样的信息,他该做
怎样的决策,其实这一切都需要通过数据来传递和支撑。
哪些传统企业最需要大数据服务呢?举几个例子:
1) 对大量消费者提供产品或服务的企业(精准营销);
2) 做小而美模式的中长尾企业(服务转型);
3) 面临互联网压力之下必须转型的传统企业(生死存亡)。
对于企业的大数据,还有一种预测:随着数据逐渐成为企业的一种资产,
数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。
这里有两个明显的现象:
1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;
2) 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。
3.4. 个人的大数据
个人的大数据概念很少有人提及,简单来说,就是与个人相关联的各种
有价值数据信息被有效采集后,可由本人授权提供第三方进行处理和使用,
并获得 第三方提供的数据服务。
未来,每个用户可以在互联网上注册个人的数据中心,以存储个人的大
数据信息。用户可确定哪些个人数据可被采集,并通过可穿戴设备或植入芯
片等感知技术来采集捕获个人的大数据。
推荐阅读
|