A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区
传智教育官网黑马程序员官网
不二晨
金牌黑马
黑马币:2115
帖子:19972
精华:0
© 不二晨 金牌黑马 / 2018-8-7 10:17 / 1468 人查看 / 1 人回复 / 0 人收藏 转载请遵从CC协议 禁止商业使用本文
从系统的高层讲,每一个Spark应用程序都包含着一个驱动程序,驱动程序执行用户的main方法和执行在集群上的不同的parallel操作。Spark提供的一个主要的抽象是RDD(弹性分布式集合, resilient distributed dataset)。RDD是多个可在集群中分片的元素的集合。因此,它们可以被并行操作。RDD的创建可以是由HDFS中的一个文件开始创建(或者任何其他hadoop支持