当前位置 : 主页 > 编程语言 > java >

集群模式执行Spark程序(第七弹)

来源:互联网 收集:自由互联 发布时间:2022-08-15
#添加打包插件 在pom.xml文件中添加所需插件 插入内容如下: build sourceDirectorysrc/main/scala/sourceDirectory testSourceDirectorysrc/test/scala/testSourceDirectory plugins plugin groupIdnet.alchim31.maven/groupId artif

#添加打包插件

在pom.xml文件中添加所需插件

插入内容如下:

<build>

<sourceDirectory>src/main/scala</sourceDirectory>

<testSourceDirectory>src/test/scala</testSourceDirectory>

<plugins>

<plugin>

<groupId>net.alchim31.maven</groupId>

<artifactId>scala-maven-plugin</artifactId>

<version>3.2.2</version>

<executions>

<execution>

<goals>

<goal>compile</goal>

<goal>testCompile</goal>

</goals>

<configuration>

<args>

<arg>-dependencyfile</arg>

<arg>${project.build.directory}/.scala_dependencies</arg>

</args>

</configuration>

</execution>

</executions>

</plugin>

<plugin>

<groupId>org.apache.maven.plugins</groupId>

<artifactId>maven-shade-plugin</artifactId>

<version>2.4.3</version>

<executions>

<execution>

<phase>package</phase>

<goals>

<goal>shade</goal>

</goals>

<configuration>

<filters>

<filter>

<artifact>*:*</artifact>

<excludes>

<exclude>META-INF/*.SF</exclude>

<exclude>META-INF/*.DSA</exclude>

<exclude>META-INF/*.RSA</exclude>

</excludes>

</filter>

</filters>

<transformers>

<transformer implementation=

"org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">

<mainClass></mainClass>

</transformer>

</transformers>

</configuration>

</execution>

</executions>

</plugin>

</plugins>

</build>

等待加载

集群模式执行Spark程序(第七弹)_spark

步骤1 将鼠标点在WordCount ,ctrl+c后ctrl+v复制,重新命名为WordCount_Online

集群模式执行Spark程序(第七弹)_java_02

步骤2 修改代码

3. 读取数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型

val data : RDD[String] = sparkContext.textFile(args(0))

7. 把结果数据保存到HDFS上

result.saveAsTextFile(args(1))

修改以上这2行代码

集群模式执行Spark程序(第七弹)_jar包_03

步骤3 点击右边【maven projects】 —> 双击 【lifecycle】下的package,自动将项目打包成Jar包

[图片上传失败...(image-d48c38-1660375399984

集群模式执行Spark程序(第七弹)_spark_04

打包成功标志: 显示BUILD SUCCESS,可以看到target目录下的2个jar包

集群模式执行Spark程序(第七弹)_jar包_05

步骤4 启动Hadoop集群才能访问web页面

$ start-all.sh

集群模式执行Spark程序(第七弹)_maven_06

步骤5 访问192.168.196.101(master):50070 点击【utilities】—>【browse the file system】

集群模式执行Spark程序(第七弹)_jar包_07

步骤6 点击【spark】 —>【test】,可以看到words.txt

集群模式执行Spark程序(第七弹)_java_08

集群模式执行Spark程序(第七弹)_java_09

集群模式执行Spark程序(第七弹)_spark_10

步骤7 将words.txt删除

$ hadoop fs -rm /spark/test/words.txt

集群模式执行Spark程序(第七弹)_java_11

步骤8 刷新下页面。可以看到/spark/test路径下没有words.txt

集群模式执行Spark程序(第七弹)_java_12

步骤9 Alt+p,切到/opt/software,把含有第3方jar的spark_chapter02-1.0-SNAPSHOT.jar包拉进

先将解压的两个jar包复制出来

集群模式执行Spark程序(第七弹)_jar包_13

集群模式执行Spark程序(第七弹)_jar包_14

集群模式执行Spark程序(第七弹)_maven_15

步骤10 也把F盘/word/words.txt直接拉进/opt/software

集群模式执行Spark程序(第七弹)_jar包_16

步骤11 查看有没有words.txt和spark_chapter02-1.0-SNAPSHOT.jar

集群模式执行Spark程序(第七弹)_maven_17

步骤12 执行提交命令

$ *bin/spark-submit *

--master spark:// master:7077 \

--executor-memory 1g \

--total-executor-cores 1 \

/opt/software/spark_chapter02-1.0-SNAPSHOT.jar \

/spark/test/words.txt \

/spark/test/out


【本文由:湖北阿里云代理 http://www.558idc.com/aliyun.html提供,感恩】
上一篇:Spring Boot实现文件上传功能
下一篇:没有了
网友评论