大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含
数据生产者真实意图、喜好的,非传统结构和意义的数据
。
2013
年
5
月
10
日,阿里巴巴集团董事
局主席马云在淘宝十周年晚会上,将卸任阿里集团
CEO
的职位,并在晚会上做卸任前的演讲,马云
说,
大家还没搞清
PC
时代的时候,
移动互联网来了,
还没搞清移动互联网的时候,
大数据时代来了。
从海量数据中
“
提纯
”
出有用的信息,
这对网络架构和数据处理能力而言也是巨大的挑战。
在经
历了几年的批判、质疑、讨论、炒作之后,大数据终于迎来了属于它的时代。
2012
年
3
月
22
日,奥
巴马政府宣布投资
2
亿美元拉动大数据相关产业发展,将
“
大数据战略
”
上升为国家战略。奥巴马政府
甚至将大数据定义为
“
未来的新石油
”
。
大数据就是互联网发展到现今阶段的一种表象或特征而已,有必要神话它或对它保持敬畏之
心,
在以云计算为代表的技术创新大幕的衬托下,
这些原本很难收集和使用的数据开始容易被利用起
来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
大多数传统
BI
工具都受到以下两个方面的局限:
首先,它们都是
“
预设
-
抓取
”
工具,由分析师预先确定收集什么数据用于分析。
其次,它们都专注于报告
“
已知的未知
”
(
Known unknowns
)
,也就是我们知道问题是什么,然
后去找答案。
(而大数据会给而大数据会给出一些未知的未知,
也就是你没有想到的一些问题的结果)
。
传统
BI
工具主要用于企业运营,侧重于成本控制和计划执行报告。而大数据技术最主要的功能
/
应用
是
ETL
(
Extract
、
Transform
、
Load
)
。将近
80%
的
Hadoop
应用都与
ETL
有关,
例如在导入
Vertica
这样的分析数据库之前对日志文件或传感器数据的处理。
今天计算和存储硬件变得非常便宜,配合大量的开源大数据工具,人们可以非常
“
奢侈
”
地先抓
取大量数据再考虑分析命题。可以说,低廉的计算资源正在改变我们使用数据的方式。
此外,处理性能的大幅提高(例如内存计算)使得实时互动分析更加容易实现,而
“
实时
”
和
“
预
测
”
将
BI
带到了一个新的境界
――
未知的未知。这也是大数据分析与传统
BI
之间最大的区别 |
|