hadoop单机版安装
hadoop单机版安装
·
文章目录
说明
单机版是hadoop的基础安装方式,在三种安装方式:单机、伪分布式、集群中,常作为MapReduce功能的测试环境,没必要开启hdfs和yarn。
本文介绍hadoop单机版MapReduce测试环境安装方式。
分享
- 大数据博客列表
- 开发记录汇总
- 个人java工具库 项目https://gitee.com/wangzonghui/object-tool
- 包含json、string、集合、excel、zip压缩、pdf、bytes、http等多种工具,欢迎使用。
环境
- 系统 centos 7.9 2009
- hadoop 3.3.4 下载地址
- 需要软件ssh和pdsh,ssh系统自带,pdsh未用过。
- jdk java 8.201
步骤
- 安装目录:
/opt/module,操作用户可以是root或其他。
安装jdk
- 解压jdk:
tar -zxvf jdk-8u201-linux-x64.tar.gz -C /opt/module/ - centos7 配置环境变量,创建自己环境变量文件:
vi /etc/profile.d/my_env.sh
#JAVA_HOME export是全局变量
export JAVA_HOME=/opt/module/jdk1.8.0_201
export PATH=$PATH:$JAVA_HOME/bin
-
如果为centos6 编辑文件:
vi /etc/profile,内容如上,需重新加载环境文件:source /etc/profile -
验证jdk,查看版本:
java -version
安装hadoop
- 官网下载hadoop 地址
- wget下载:
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz - curl下载:
curl https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz -o hadoop-3.3.4.tar.gz
- wget下载:
- 解压到指定目录:
tar -zxvf hadoop-3.3.4.tar.gz -C /opt/module/,单机版安装就添加到系统环境变量。
目录说明
- hadoop各目录说明
| 目录名 | 说明 |
|---|---|
| bin | 存放hadoop相关服务(hdfs、yarn、mapred)进行操作脚本 |
| etc | 存放hadoop配置文件 |
| lib | 存放hadoop本地库 |
| sbin | 启动或停止hadoop各服务脚本 |
| share | 存放hadoop依赖jar、文档、官方实例。 |
MapReduce测试
数据准备
- 创建数据目录:
mkdir /opt/data /opt/data/input - 创建数据文件:
vi /opt/data/input/data.txt,内容如下:
hello world
hello year
work and happy
执行MapReduce
-
执行MapReduce任务进行文本单词统计:
/opt/module/hadoop-3.3.4/bin/hadoop jar /opt/module/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /opt/data/input/ /opt/data/output,为方便理解此处使用物理路径。- 参数说明:
jar:标识执行jar,后面跟jar包路径wordcount:为参数,表示执行单词统计/opt/data/input:为数据源目录/opt/data/output:结果输出目录,不要创建,输出目录必须不存在,否则会报错。
- 参数说明:
-
出现如图
success表示执行成功:
结果验证
- 程序自动创建输出目录:
/opt/data/output,查看结果目录:ll /opt/data/output/,查看文件内容:cat /opt/data/output/part-r-00000
hdfs服务
添加hadoop环境变量
- 修改环境变量,添加hadoop环境变量,编辑文件:
vi /etc/profile.d/my_env.sh,增加如下内容:
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
- 查看hadoop版本,控制台执行刷新配置打印hadoop版本:
source /etc/profile && hadoop version
创建数据目录
- 控制台执行命令创建目录:
mkdir -p /opt/data/hadoop/name /opt/data/hadoop/data
修改hadoop配置文件
- 修改文件:
vi /opt/module/hadoop-3.3.4/etc/hadoop/core-site.xml,修改为如下内容
<configuration>
<!-- NameNode 地址设置-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<!-- 数据存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>file:/opt/module/hadoop-3.3.4/data</value>
<description>Abasefor other temporary directories.</description>
</property>
<!-- HDFS网页登录静态用户-->
<property>
<name>hadoop.http.staticuser.user</name>
<value>root</value>
</property>
</configuration>
- 修改文件:
vi /opt/module/hadoop-3.3.4/etc/hadoop/hdfs-site.xml,修改为如下内容
<configuration>
<!--NameNode web访问地址 -->
<property>
<name>dfs.namenode.http-address</name>
<value>localhost:9870</value>
</property>
<!-- NameNode数据目录 -->
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/data/hadoop/name</value>
</property>
<!-- DataNode数据目录 -->
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/data/hadoop/data</value>
</property>
<!-- 数据副本数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
- 编辑文件:
vi /opt/module/hadoop-3.3.4/sbin/start-dfs.sh和vi /opt/module/hadoop-3.3.4/sbin/stop-dfs.sh,增加如下内容配置用户启动信息
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
启动hdfs并验证
-
首次 格式化hdfs:
hdfs namenode -format -
启动hdfs:
start-dfs.sh -
查看服务进程:
jps -
访问web页面:
http://ip:9870/ -
上传文件:
hadoop fs -put 本地文件 / -
查看文件:
hadoop fs -ls /
总结
- 单机版只能辅助理解hadoop,正式上线小集群使用伪分布式,正常集群使用集群安装,绝大多数大数据公司,使用第三方集群安装管理工具CDH或HDP(现停止更新,合并为一家公司CDP,开始收费),个别公司自己开发hadoop安装工具,正式平台组件很多如hbase、hive、kafka、spark、flink等,根据业务需要组装,将会非常复杂,这里不做说明。
更多推荐
所有评论(0)