本帖最后由 jieyu90 于 2014-7-24 08:35 编辑
现在大数据的火热程度应该不用楼主多说了,伴随着大数据一起火起来的还有Hadoop、Storm、Spark等大数据的处理工具,什么,作为物联云班级的准程序员,你竟然没听过Storm、Spark,下面让楼主用几句话带你综览一下这三门技术:
Hadoop、Spark、Storm都是JVM上的语言写成的,其中Storm由java和clojure编写,Spark由Scala编写,Hadoop你知道的,他们的区别在于各自应用的侧重点不同:
- Hadoop主要用于离线计算(历史数据分析),如服务器上的日志数据,这种数据的特点就是数据量大,但是对时间要求不高。
- Spark可以做的事和Hadoop差不多,只是Spark的中间数据放到内存中,对于迭代运算效率更高,对于某些计算的性能据说超Hadoop百倍。现在也有很多公司正在尝试部署Spark集群代替Hadoop集群。(详见:http://www.searchbi.com.cn/showcontent_76540.htm)
- Storm用于对实时性要求较高的场合,全内存计算,速度快时延小,这种计算框架的想象空间较Hadoop更大。目前不少互联网企业都有这方面的要求(详见:http://www.zhihu.com/question/20098507)
楼主现在在学校就是做实时计算这块的研究(主要是Storm框架,还有一些zookeeper、kafka之类的工具),如果有什么疑问,可以在下面一起讨论,另外附上前阵子做的一个关于Storm的报告(很基础):
|