环境:win7 + IntelliJ IDEA 2018.1.2 + jdk1.8 + maven-3.3.9 + scala插件,机器要求可以联网(需要下载各种依赖包) 1. IDEA新建一个maven+scala的project
点击Finish之后静待项目初始化完成。
2. 修改pom.xml配置文件2.1 修改<properties>标签配置scala版本、spark版本以及hadoop版本
<properties>
<scala.version>2.11.8</scala.version>
<spark.version>2.2.0</spark.version>
<hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
</properties>
其中,scala版本为我们计划使用的scala版本号,scala版本要支持spark版本; spark版本为spark源码编译时指定的版本号,在生产服务器上可以通过echo $SPARK_HOME查看; hadoop版本为hadoop源码编译时产生的版本号,在生产服务器上可以通过echo $HADOOP_HOME查看。
2.2 修改<dependencies>标签 添加spark和hadoop依赖
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>${hadoop.version}</version>
</dependency>
其中spark和hadoop的依赖从spark官方文档里面可以找到,版本信息在上面<properties>标签里面已经定义好了。
2.3 修改<repositories>标签因为我们使用的hadoop是cdh版本,需要为其添加cdh的repository。
<repositories>
<repository>
<id>cloudera</id>
<name>cloudera</name>
<url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
</repository>
其中,id和name可以随便写,url为正确的cdh repository地址。
修改完以上配置以后,maven会解析dependency然后下载相关的jar包及源码。
下载完成。
【转载】原文地址: https://blog.csdn.net/wawa8899/article/details/81033646
|