hadoop单机版安装

羽落风起

1815人浏览 · 2022-11-08 14:27:24

羽落风起 · 2022-11-08 14:27:24 发布

文章目录

说明
分享
环境
步骤
总结

说明

单机版是hadoop的基础安装方式，在三种安装方式：单机、伪分布式、集群中，常作为MapReduce功能的测试环境，没必要开启hdfs和yarn。
本文介绍hadoop单机版MapReduce测试环境安装方式。

大数据博客列表
开发记录汇总
个人java工具库项目https://gitee.com/wangzonghui/object-tool
- 包含json、string、集合、excel、zip压缩、pdf、bytes、http等多种工具，欢迎使用。

环境

系统 centos 7.9 2009
hadoop 3.3.4 下载地址
- 需要软件ssh和pdsh，ssh系统自带，pdsh未用过。
jdk java 8.201

步骤

安装目录：/opt/module，操作用户可以是root或其他。

安装jdk

解压jdk：tar -zxvf jdk-8u201-linux-x64.tar.gz -C /opt/module/
centos7 配置环境变量，创建自己环境变量文件：vi /etc/profile.d/my_env.sh

#JAVA_HOME export是全局变量
export JAVA_HOME=/opt/module/jdk1.8.0_201
export PATH=$PATH:$JAVA_HOME/bin

如果为centos6 编辑文件：vi /etc/profile，内容如上，需重新加载环境文件：source /etc/profile
验证jdk，查看版本：java -version

安装hadoop

官网下载hadoop 地址
- wget下载：wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
- curl下载：curl https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz -o hadoop-3.3.4.tar.gz
解压到指定目录：tar -zxvf hadoop-3.3.4.tar.gz -C /opt/module/，单机版安装就添加到系统环境变量。

目录说明

目录名	说明
bin	存放hadoop相关服务（hdfs、yarn、mapred）进行操作脚本
etc	存放hadoop配置文件
lib	存放hadoop本地库
sbin	启动或停止hadoop各服务脚本
share	存放hadoop依赖jar、文档、官方实例。

MapReduce测试

数据准备

创建数据目录：mkdir /opt/data /opt/data/input
创建数据文件：vi /opt/data/input/data.txt，内容如下：

hello world
hello year
work and happy

执行MapReduce

执行MapReduce任务进行文本单词统计：/opt/module/hadoop-3.3.4/bin/hadoop jar /opt/module/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /opt/data/input/ /opt/data/output，为方便理解此处使用物理路径。
- 参数说明：
  - jar：标识执行jar，后面跟jar包路径
  - wordcount：为参数，表示执行单词统计
  - /opt/data/input：为数据源目录
  - /opt/data/output：结果输出目录，不要创建，输出目录必须不存在，否则会报错。
出现如图 success 表示执行成功：

结果验证

程序自动创建输出目录：/opt/data/output，查看结果目录：ll /opt/data/output/，查看文件内容：cat /opt/data/output/part-r-00000

hdfs服务

添加hadoop环境变量

修改环境变量，添加hadoop环境变量，编辑文件：vi /etc/profile.d/my_env.sh ，增加如下内容：

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.3.4

export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

查看hadoop版本，控制台执行刷新配置打印hadoop版本：source /etc/profile && hadoop version

创建数据目录

控制台执行命令创建目录：mkdir -p /opt/data/hadoop/name /opt/data/hadoop/data

修改hadoop配置文件

修改文件：vi /opt/module/hadoop-3.3.4/etc/hadoop/core-site.xml，修改为如下内容

<configuration>
        <!-- NameNode 地址设置-->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://localhost:9000</value>
        </property>
        <!-- 数据存储目录 -->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/opt/module/hadoop-3.3.4/data</value>
                <description>Abasefor other temporary directories.</description>
        </property>
          <!-- HDFS网页登录静态用户-->
        <property>
          <name>hadoop.http.staticuser.user</name>
          <value>root</value>
        </property>
</configuration>

修改文件：vi /opt/module/hadoop-3.3.4/etc/hadoop/hdfs-site.xml，修改为如下内容

<configuration>
        <!--NameNode web访问地址 -->
        <property>
          <name>dfs.namenode.http-address</name>
          <value>localhost:9870</value>
        </property>
        <!-- NameNode数据目录 -->
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/opt/data/hadoop/name</value>
        </property>
        <!-- DataNode数据目录 -->
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/opt/data/hadoop/data</value>
        </property>
        <!-- 数据副本数量 -->
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
</configuration>

编辑文件：vi /opt/module/hadoop-3.3.4/sbin/start-dfs.sh 和 vi /opt/module/hadoop-3.3.4/sbin/stop-dfs.sh ，增加如下内容配置用户启动信息

HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

启动hdfs并验证

首次格式化hdfs：hdfs namenode -format
启动hdfs：start-dfs.sh
查看服务进程：jps
访问web页面：http://ip:9870/
上传文件：hadoop fs -put 本地文件 /
查看文件：hadoop fs -ls /

总结

单机版只能辅助理解hadoop，正式上线小集群使用伪分布式，正常集群使用集群安装，绝大多数大数据公司，使用第三方集群安装管理工具CDH或HDP（现停止更新，合并为一家公司CDP，开始收费），个别公司自己开发hadoop安装工具，正式平台组件很多如hbase、hive、kafka、spark、flink等，根据业务需要组装，将会非常复杂，这里不做说明。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git