从系统的高层讲,每一个Spark应用程序都包含着一个驱动程序,驱动程序执行用户的main方法和执行在集群上的不同的parallel操作。Spark提供的一个主要的抽象是RDD(弹性分布式集合, resilient distributed dataset)。RDD是多个可在集群中分片的元素的集合。因此,它们可以被并行操作。RDD的创建可以是由HDFS中的一个文件开始创建(或者任何其他hadoop支持
作者: 不二晨 时间: 2018-8-16 17:08
奈斯
欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/)
黑马程序员IT技术论坛 X3.2