本帖最后由 小江哥 于 2018-5-25 18:11 编辑
时代的变革
古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句
话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中
举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数
据思维去发掘大数据的潜在价值。书中,作者提及最多的是 Google 如何利用人
们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon
如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提
升销售量;Farecast 如何利用过去十年所有的航线机票价格打折数据,来预测用
户购买机票的时机是否合适。
4.思维变革
4.1.需要全部数据样本而不是抽样
当数据处理技术己经发生了翻天覆地的变化时,在大数据时代进行抽样
分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,
“样本=总体”。
我们要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
小数据时代的随机采样,源自记录、存储、和分析数据的工具不够好,用最
少的数据获得最多的信息。然而随机采样毕竟有随机性,而且会丧失一些微
观细节的信息,甚至还会失去对某些特定子类别进行进一步研究的能力。而
现在,因为有了大数据存储,处理的能力,我们开始关注整体数据中价值。
“大”是相对意义的大,也就是相对所有数据来说的。拥有全部或者几乎全
部的数据,我们就能够从不同的角度,更细致地观察研究数据的方方面面。
4.2.关注效率而不是精确度
数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。“大数据”时代,我们需要与各种各样的混乱做斗争。混乱,简单地说就是随着数据的增加,错误率也会相应增加。混乱还可以指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。
“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间。其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。
大数据时代要求我们重新审视精确性的优劣。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。值得一提的是,错误并不是大数据固有的特性.而是一个亟需我们去处理的现实问题,并且有可能
长期存在。
4.3.关注相关性而不是因果关系
相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当
一个数据值增加时,其他数据值很有可能会随之增加。比如谷歌流感趋势:在
一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多
的人患了流感。相反,相关关系弱就意味着当一个数据值增加时,其他数据
值几乎不会发生变化。例如,我们可以寻找关于个人的鞋码和幸福的相关关
系,但会发现它们几乎扯不上什么关系。
在小数据世界中,相关关系也是有用的,但在大数据的背景下,相关关
系大放异彩。通过应用相关关系,我们可以比以前更容易、更快捷、更清楚
地分析事物。关联物,预测的关键。
通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉
现在和预测未来。如果 A 和 B 经常一起发生,我们只需要注意到 B 发生了,
就可以预测 A 也发生了。这有助于我们预测 A 可能会发生什么,即使我们不
能直接测量或观察到 A。更重要的是,它还可以帮助我们预测未来可能发生
什么。当然,相关关系是无法预知未来的,他们只能预测可能发生的事情。
建立在相关关系分析法基础上的预测是大数据的核心。它告诉你的是会
发生什么,而不是为什么发生。事实上,就是因为不受限于传统的思维模式
和特定领域里隐含的固有偏见,大数据才能为我们提供如此多新的视野。
5.商业变革
5.1.数据化:一切皆可“量化”
大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。数据,会
从最不可能的地方提取出来,很多从不被认为是数据、甚至不被认为和数据沾边
的事物转化成了可以用数值来量化的数据模式。比如日本的越水重臣研究的坐姿
和汽车防盗系统,很少有人会认为一个人的坐姿能表现什么信息,但是它真的可
以。当一个人坐着的时候,他的身形、姿势和重量分布都可以量化和数据化。这
样根据人体对座位的压力差异识别乘坐者的身份。
新工具和开放的思维促进了测量事物和记录数据的繁荣。计算机的出现带来
了数字测量和存储设备,这样就大大提高了数据化的效率。计算机也使得通过数
学分析挖掘出数据更大的价值变成了可能。有了大数据的帮助,我们不会再将世
界看做是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世
界是由信息构成的。将世界看作信息,看作可以理解的数据的海洋,为我们提供
了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。
5.2.价值:“取之不尽用之不竭”的数据创新
在数字化时代,数据支持交易的作用被掩盖,数据只是被交易的对象。而在大数据时代,事情再次发生变化。数据的价值从它最基本的用途转变为未来的潜在用途。这一转变意义重大,它影响了企业评估其拥有的数据及访问者的方式,促使甚至是迫使公司改变他们的商业模式,同时也改变了组织看待和使用数据的方式。
数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。要了解大数据时代究竟有多少信息对我们有价值,后面这一点尤其重要。过去,一旦数据的基本用途实现了,我们便认为数据已经达到了它的目的,准备将其删除让它就此消失。毕竟,数据的首要价值已经得以提取。而在大数据时代,数据是就像一个神奇的钻石矿,在其首要价值被发掘之后仍能不断给予。数据的价值是其所有可能用途的总和。
数据价值的关键是看似无限的再利用,即它的选择价值。收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。
5.3.角色定位:数据、技术与思维的三足鼎立
如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终
大部分的价值还是必须从数据本身来挖掘。来自于电子商务网站和互联网的公开
数据很多,每个人都可以利用。技术上,谁也并没有无可替代的技术人才。虽然
数据和技术是不可或缺的,但是真正使得某家公司取得成功的是拥有大数据的思
维观念。所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为
千百万人急需解决的问题提供答案。
6.管理变革
6.1.风险:让数据主宰一切的隐忧
进行大数据分析的人可以轻松地看到大数据的价值潜力,这极大地刺激着他
们进一步采集、存储、循环利用我们个人数据的野心。随着存储成本继续暴跌而
分析工具越来越先进,采集和存储数据的数量和规模将突飞猛进地增长。大数据
时代正在加深我们隐私的威胁。毕竟,大数据的核心思想就是用规模剧增来改变
现状。
大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用。更
重要的是,大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却
产生了很多创新性的用途。所以,公司无法告知个人尚未想到的用途,而个人亦
无法同意这种尚是未知的用途。但是只要没有得到许可,任何包含个人信息的大
数据分析都需要向个人征得同意。但是这又是何其之难的事啊?
在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策
略都失效了。如今很多用户都觉得自己的隐私已经受到了威胁.当大数据变得更
为普遍的时候,情况将更加不堪设想。大数据大大地威胁到了我们的隐私和自由,
这都是大数据带来的新威胁。但是与此同时,它也加剧了一个旧威胁:过于依赖
数据,而数据远远没有我们想象的那么可靠。
在由“小数据”时代向大数据时代转变的过程中,我们对信息的一些局限性
必须给予高度的重视。数据的质量可能会很差;可能是不客观的;可能存在分析错
误或者具有误导性;更糟糕的是,数据可能根本达不到量化它的目的。尽量避免
收到数据的统治。
6.2.掌控:责任与自由并举的信息管理
随着世界开始迈向大数据时代,社会也将经历类似的地壳运动。在改变我们
许多基本的生活和思考方式的同时,大数据早已在推动我们去重新考虑最基本的
准则,包括怎样鼓励其增长以及怎样遏制其潜在威胁。大数据时代,对原有规范
的修修补补已经满足不了需要,也不足以抑制大数据带来的风险,我们需要全新
的制度规范,而不是修改原有规范的适用范围。
推荐阅读
|