学习一门语言,或者学习一种应用,都学要把运行环境给搭建起来,这就是基础,可不能绕过啊

一、安装VMWare,步骤略,网上好多啊,而且我用的是vm virtualbox

Ubuntu(我用的centos),安装3台,一台Master,另外2台Slave

安装JDK:主要配置环境变量

安装Hadoop:

1、首先配置jdk运行环境



2、配置hadoop的核心文件



3、配置mapreduce文件



4、配置hdfs文件



5、配置hadoop的目录到profile文件中,然后执行source命令让更改的内容生效


6、配置hosts文件



7、利用scp命令把hadoop和profile文件传给另外两台Slave

scp -r /opt/install/hadoop-2.5.2 root@Slave1:/opt/install/

scp -r /opt/install/hadoop-2.5.2 root@Slave2:/opt/install/

scp /etc/profile root@Slave1:/etc/

scp /etc/profile root@Slave2:/etc/

scp /etchosts root@Slave1:/etc/

scp /etc/hosts root@Slave2:/etc/


二、安装scala

1、下载scala-2.11.8.tgz

2、解压 tar zxvf scala-2.11.8.tgz

3、把存放目录配置到profile文件中


4、用scp复制文件和配置文件到其他两个机器


三、安装Spark

安装步骤同上,值提供配置文件截图


配置spark的运行环境

进入到/opt/install/spark-1.4.0-bin-hadoop2.6/conf

找到spark-env.sh,如果没有复制 cp spark-env.sh.template spark-env.sh

在spark-env.sh文件中加入如下内容


四、测试Spark集群

1、先格式化Hadoop系统

hadoop namenode -format

2、格式化后如果没问题接着启动

进入hadoop的sbin目录运行命令 ./start-all.sh(因为在spark的bin目录下也有这个执行脚本)

3、把spark中的README.md文件上传到hdfs中

运行命令 hadoop fs -put /opt/install/spark-1.4.0-bin-hadoop2.6/README.md hdfs://master:9000/

上传后打开hdfs的web页面查看 访问地址http://master:50070/explorer.html#/

首先需要关闭linux防火前,执行命令 service firewalld stop



3、启动spark

进入spark的sbin目录 运行命令 ./start-all.sh

4、进入spark命令行 运行spark-shell



当看到上图的时候,说明这几天的功夫没有白费

5、上图中有一段文字


6、读取README.md文件内容,计算存在Spark这个单词出现的次数



结果Spark单词出现了19次

模拟hadoop的wordcount



然后在查看spark-shell控制台(web页面)



接着查看hadoop中生成的文件




Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐