spark学习之路------spark安装和部署

学习一门语言，或者学习一种应用，都学要把运行环境给搭建起来，这就是基础，可不能绕过啊一、安装VMWare，步骤略，网上好多啊，而且我用的是vm virtualboxUbuntu（我用的centos），安装3台，一台Master,另外2台Slave安装JDK：主要配置环境变量安装Hadoop：1、首先配置jdk运行环境2、配置had

温润如风

1509人浏览 · 2016-09-29 16:38:41

温润如风 · 2016-09-29 16:38:41 发布

学习一门语言，或者学习一种应用，都学要把运行环境给搭建起来，这就是基础，可不能绕过啊

一、安装VMWare，步骤略，网上好多啊，而且我用的是vm virtualbox

Ubuntu（我用的centos），安装3台，一台Master,另外2台Slave

安装JDK：主要配置环境变量

安装Hadoop：

1、首先配置jdk运行环境

2、配置hadoop的核心文件

3、配置mapreduce文件

4、配置hdfs文件

5、配置hadoop的目录到profile文件中,然后执行source命令让更改的内容生效

6、配置hosts文件

7、利用scp命令把hadoop和profile文件传给另外两台Slave

scp -r /opt/install/hadoop-2.5.2 root@Slave1:/opt/install/

scp -r /opt/install/hadoop-2.5.2 root@Slave2:/opt/install/

scp /etc/profile root@Slave1:/etc/

scp /etc/profile root@Slave2:/etc/

scp /etchosts root@Slave1:/etc/

scp /etc/hosts root@Slave2:/etc/

二、安装scala

1、下载scala-2.11.8.tgz

2、解压 tar zxvf scala-2.11.8.tgz

3、把存放目录配置到profile文件中

4、用scp复制文件和配置文件到其他两个机器

三、安装Spark

安装步骤同上，值提供配置文件截图

配置spark的运行环境

进入到/opt/install/spark-1.4.0-bin-hadoop2.6/conf

找到spark-env.sh,如果没有复制 cp spark-env.sh.template spark-env.sh

在spark-env.sh文件中加入如下内容

四、测试Spark集群

1、先格式化Hadoop系统

hadoop namenode -format

2、格式化后如果没问题接着启动

进入hadoop的sbin目录运行命令 ./start-all.sh(因为在spark的bin目录下也有这个执行脚本)

3、把spark中的README.md文件上传到hdfs中

运行命令 hadoop fs -put /opt/install/spark-1.4.0-bin-hadoop2.6/README.md hdfs://master:9000/

上传后打开hdfs的web页面查看访问地址http://master:50070/explorer.html#/

首先需要关闭linux防火前，执行命令 service firewalld stop

3、启动spark

进入spark的sbin目录运行命令 ./start-all.sh

4、进入spark命令行运行spark-shell

当看到上图的时候，说明这几天的功夫没有白费

5、上图中有一段文字

6、读取README.md文件内容，计算存在Spark这个单词出现的次数

结果Spark单词出现了19次

模拟hadoop的wordcount

然后在查看spark-shell控制台（web页面）

接着查看hadoop中生成的文件

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git