当前位置 : 主页 > 操作系统 > centos >

Linux下安装Hadoop集群详细步骤

来源:互联网 收集:自由互联 发布时间:2023-07-28
下面是“Linux下安装Hadoop集群详细步骤”的完整攻略: 步骤一:安装JDK和SSH 安装JDK(版本 1.8或以上): $ sudo apt-get update $ sudo apt-get install openjdk-8-jdk 安装SSH: $ sudo apt-get install ssh 步骤

下面是“Linux下安装Hadoop集群详细步骤”的完整攻略:

步骤一:安装JDK和SSH
  1. 安装JDK(版本 1.8或以上):
    $ sudo apt-get update
    $ sudo apt-get install openjdk-8-jdk
  2. 安装SSH:
    $ sudo apt-get install ssh
步骤二:配置主机名和IP地址
  1. 打开/etc/hosts文件:
    $ sudo nano /etc/hosts
  2. 添加以下内容,其中替换[IP地址]和[主机名]为你的实际IP地址和主机名:
    [IP地址] [主机名]
  3. 保存并退出/etc/hosts文件。
步骤三:下载Hadoop并解压
  1. 下载Hadoop:
    $ wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
  2. 解压Hadoop:
    $ tar -zxvf hadoop-3.3.1.tar.gz
  3. 将解压后的Hadoop文件夹移动到指定目录:
    $ sudo mv hadoop-3.3.1 /usr/local/hadoop
步骤四:配置Hadoop环境变量
  1. 打开/etc/profile文件:
    $ sudo nano /etc/profile
  2. 添加以下内容到文件的末尾:
    export HADOOP_HOME=/usr/local/hadoop
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  3. 保存并退出/etc/profile文件。
  4. 命令行输入以下命令使得刚才的配置生效:
    $ source /etc/profile
步骤五:配置Hadoop
  1. 打开$HADOOP_HOME/etc/hadoop目录下的hadoop-env.sh文件:
    $ sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
  2. 找到Java库的路径,确保下面代码所指的路径正确,如果你的Java版本不是1.8,请修改并配置好JAVA_HOME变量:
    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
  3. 保存并退出hadoop-env.sh文件。
  4. 打开$HADOOP_HOME/etc/hadoop目录下的core-site.xml文件,添加以下配置:
    <configuration>
    <property>
    <name>fs.defaultFS</name>
    <value>hdfs://[主节点IP地址]:9000</value>
    </property>
    </configuration>
  5. 打开$HADOOP_HOME/etc/hadoop目录下的hdfs-site.xml文件,添加以下配置:
    <configuration>
    <property>
    <name>dfs.replication</name>
    <value>3</value>
    </property>
    <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop/data/namenode</value>
    </property>
    <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop/data/datanode</value>
    </property>
    </configuration>
  6. 打开$HADOOP_HOME/etc/hadoop目录下的mapred-site.xml文件,添加以下配置:
    <configuration>
    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>
    <property>
    <name>mapreduce.application.classpath</name>
    <value>
    $HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*:$HADOOP_HOME/share/hadoop/common/*:$HADOOP_HOME/share/hadoop/common/lib/*
    </value>
    </property>
    </configuration>
  7. 打开$HADOOP_HOME/etc/hadoop目录下的yarn-site.xml文件,添加以下配置:
    <configuration>
    <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    </property>
    <property>
    <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    </configuration>
步骤六:格式化HDFS
  1. 运行以下命令格式化HDFS:
    $ hdfs namenode -format
步骤七:启动Hadoop集群
  1. 执行以下命令启动Hadoop集群:
    $ start-all.sh
  2. 等待Hadoop集群启动完成,可以通过以下命令查看Hadoop的状态:
    $ jps
    如果看到与Hadoop相关的进程,表示启动成功。
步骤八:测试Hadoop集群
  1. 创建一个HDFS目录并上传文件:
    $ hdfs dfs -mkdir /input
    $ hdfs dfs -put /etc/hosts /input
  2. 运行MapReduce作业:
    $ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /input /output
  3. 查看MapReduce作业的结果:
    $ hdfs dfs -cat /output/*

以上就是“Linux下安装Hadoop集群详细步骤”的完整攻略。示例说明包括:

自由互联热门推荐:PDF电子发票识别软件,一键识别电子发票并导入到Excel中!10大顶级数据挖掘软件!人工智能的十大作用!

  1. 在步骤五中,示例展示了如何修改core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml文件;
  2. 在步骤八中,示例演示了如何创建HDFS目录、上传文件和运行MapReduce作业。
网友评论