大数据时代已经到来。你因它收益,也受其所害。与传统小数据的样本随机性、数据精确度、因果关系论、结果群体化相比;在大数据时代, “样本=总体”(全数据模式)、数据混杂、探索相关关系、放弃群体追求个体。大数据时代有不同的参与者,匿名都无法保证你的隐私,它还威胁着自由意志。——《大数据时代——生活、工作于思维的大变革》读后感
为什么关注大数据
不管承认与否,大数据已经扑面而来。当我们抱怨各种网站在窥探窃取我们的各种隐私时,实际上已经在承受大数据带来的一些负面后果。但在抱怨之后,我们也可以关注、拥抱大数据的到来。事实上,大数据已无处不在,只是我们可能把它的存在看作理所当然,或者已经在信息化前进的道路上忽略了这点。
想想我们每天用的各种输入法或者搜索引擎,在他们智能化地根据我们敲打的前两个字或前几个音节就知道我们的想法时,我们已经是大数据的受益者。还有很多我们所不知的大数据的用处,谷歌翻译也是其产物之一,还有各种《大数据时代》时代中所列举的例子,例如基于大数据的飞机票价预测系统(就是告诉你什么时候订机票最便宜)。
大数据已经悄然存在,这不仅仅是基于互联网的发展使数据的产生出现了指数级的增长,也是物联网逐渐显现的后果(尽管以物联网为标志的时代还未到来,但各种传感器的存在已经在构建一个数据庞杂的系统)。更为重要的是,我们已经在享受大数据所带来的更为效率、更为便捷的生活,《大数据时代》从公共卫生、社区安全等多方面展示了大数据时代的更好生活。当然,大多数描述的似乎在国内并不多见。
大数据的核心——预测(大数据&小数据)
大数据的存在目的是什么?显然不是因为我们有了更好的收集和存储能力。为数据而数据是对技术进步的极大讽刺。当大数据有益于做出某种改善时,它的存在和发展才有动力。而这种改善,在书的作者看来就是大数据的核心——预测。大数据可以改善预测的结果,或者说,对传统小数据时代的预测进行颠覆性的变革。
小数据时代的特点是什么,样本随机性、数据精确度、因果关系论、结果群体化。但凡做过点研究的人,都知道抽样,统计学为我们证明了对于一项研究,样本选择的随机性比样本数量更重要。但是其成功所依赖的随机抽样本身就是个难以实现的命题。也正因为如此,我们要求抽样数据尽量精确,因为对于较少的样本量而言,这是减少错误、保证质量的必要条件。(所以很多时候,对于问卷中调查者不愿填写的一些个人信息,我们要不不舍地把它作为无效样本,或者很自觉地将其补充完整)。小数据时代,我们总是在做各种各样的因果关系验证,尤其是基于某种假设的验证。这种因果关系也成为我们现今生活的一个基础。我们总愿意为各种现象找寻原因,或者在两种现象中建立简单的你因我果的关系,放佛因此世界才会简单明了。小数据时代的另一个特点就是,基于上述分析方法得出的预测结果针对的是群体,我们为这一群体内定了一个“画像”,然后用这一标准的画像去衡量远大于样本的一类人。就像在车站等人群集中的场所,警察会对某些人进行身份检查,而这些人绝不是随机产生的,很可能是根据过往的一定范围(或数据)的经验描绘出的“画像”。
大数据时代颠覆了上述的一些情况,尽管这种颠覆还未完成或者仅仅是刚开始。在大数据时代,数据收集、存储和分析工具的极大提升使“样本=总体”得以实现,即作者所谓的“全数据模式”。为什么有必要进行全数据的分析,它克服了小数据时代的一些限制,也为更为复杂的世界的预测提供了可能。首先就是它包容了数据的不精确性,因为结果的预测不依赖于部分数据的精确,它也能容忍小数据时代无法容忍的错误数据。更进一步的是,它拥抱数据的混杂性,这在小数据时代似乎是无法容忍的。在论证因果关系的小数据时代,需要控制变量,剔除“干扰”的数据,而在大数据时代,是探索各种变量之间的相关关系,借由各种似是而非的相关关系,预测各种后果的可能性。在相关关系下,大数据回答的是“是什么”的问题,而非“为什么”。或者说,大数据时代更接受复杂性,而非简单的线性因果逻辑。大数据的上述颠覆改变了传统基于群体的预测,它更为个性化,也为单个个体而定制。因为数据的量大、混杂,以及各种关联交叉分析,使得它区分不仅仅是概念上的群体,而是个人,“将群体特征附加于个人”在大数据时代似乎显得不合时宜。
大数据时代的参与者
大数据的发展需要有商业的推动。书的作者根据所提供价值的不同来源,将大数据公司分为三种:1. 基于数据本身的公司,他们拥有或者有能力收集到大量数据;2. 基于技能的公司,他们掌握分析使用数据或对数据进行创新性用途的才能;3. 基于思维的公司,他们有怎样挖掘数据新价值的独特想法。更明白的说,就是有数据、有想法、有分析工具。这也从三个方面提出了企业在大数据时代的生存法则,善于收集数据、知道用数据的目的、有能力用数据。当然,这并不代表着亲力亲为。
大数据时代与个人隐私
如果说网络时代是对个人隐私的极大冲击,那么大数据时代的到来无疑又将这种冲击向前推了一大步。因为过去个人身份信息所包含的内容相对较少,只要确保这些信息不被使用即可,而在大数据时代,即使是没有危害的数据,只要被采集到足够的里昂,也会暴露个人身份。匿名化在大数据时代变得无效:一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。因此,大数据时代也要求新的准则的建立。
大数据与人的自由意志
看似没有多大关联的两个事物,但如果把大数据作为技术进步的一部分,技术之于人类社会的作用就是一个长久讨论的问题了。大数据的核心是预测,极端的情况就是包括人类的行为和态度也可以因此被预测(也许这并不极端)。当个人的犯罪率或者再犯罪率可以预测的时候(书中的例子),我们因此采取的各种预防措施也理所当然,这时就是直面大数据与人的自由的矛盾冲突。当大数据成为限制人们自由的佐证,或者成为对人们态度或行为的决断,那我们追寻的人类进步又被至于了何处?
书中的一句话很好的诠释了大数据时代的意义。“拥有知识曾意味着掌握过去,现在则更意味着预测未来。”关于大数据的种种,更多的答案还在未来。 |
|