spark学习之路------spark安装和部署
学习一门语言,或者学习一种应用,都学要把运行环境给搭建起来,这就是基础,可不能绕过啊一、安装VMWare,步骤略,网上好多啊,而且我用的是vm virtualboxUbuntu(我用的centos),安装3台,一台Master,另外2台Slave安装JDK:主要配置环境变量安装Hadoop:1、首先配置jdk运行环境2、配置had
学习一门语言,或者学习一种应用,都学要把运行环境给搭建起来,这就是基础,可不能绕过啊
一、安装VMWare,步骤略,网上好多啊,而且我用的是vm virtualbox
Ubuntu(我用的centos),安装3台,一台Master,另外2台Slave
安装JDK:主要配置环境变量
安装Hadoop:
1、首先配置jdk运行环境
2、配置hadoop的核心文件
3、配置mapreduce文件
4、配置hdfs文件
5、配置hadoop的目录到profile文件中,然后执行source命令让更改的内容生效
6、配置hosts文件
7、利用scp命令把hadoop和profile文件传给另外两台Slave
scp -r /opt/install/hadoop-2.5.2 root@Slave1:/opt/install/
scp -r /opt/install/hadoop-2.5.2 root@Slave2:/opt/install/
scp /etc/profile root@Slave1:/etc/
scp /etc/profile root@Slave2:/etc/
scp /etchosts root@Slave1:/etc/
scp /etc/hosts root@Slave2:/etc/
二、安装scala
1、下载scala-2.11.8.tgz
2、解压 tar zxvf scala-2.11.8.tgz
3、把存放目录配置到profile文件中
4、用scp复制文件和配置文件到其他两个机器
三、安装Spark
安装步骤同上,值提供配置文件截图
配置spark的运行环境
进入到/opt/install/spark-1.4.0-bin-hadoop2.6/conf
找到spark-env.sh,如果没有复制 cp spark-env.sh.template spark-env.sh
在spark-env.sh文件中加入如下内容
四、测试Spark集群
1、先格式化Hadoop系统
hadoop namenode -format
2、格式化后如果没问题接着启动
进入hadoop的sbin目录运行命令 ./start-all.sh(因为在spark的bin目录下也有这个执行脚本)
3、把spark中的README.md文件上传到hdfs中
运行命令 hadoop fs -put /opt/install/spark-1.4.0-bin-hadoop2.6/README.md hdfs://master:9000/
上传后打开hdfs的web页面查看 访问地址http://master:50070/explorer.html#/
首先需要关闭linux防火前,执行命令 service firewalld stop
3、启动spark
进入spark的sbin目录 运行命令 ./start-all.sh
4、进入spark命令行 运行spark-shell
当看到上图的时候,说明这几天的功夫没有白费
5、上图中有一段文字
6、读取README.md文件内容,计算存在Spark这个单词出现的次数
结果Spark单词出现了19次
模拟hadoop的wordcount
然后在查看spark-shell控制台(web页面)
接着查看hadoop中生成的文件
更多推荐
所有评论(0)