hive报错 spark_Hive(十三)【Hive on Spark 部署搭建】

一.安装Hive安装和Spark对应版本一起编译的Hive，当前官网推荐的版本关系如下：HiveVersionSparkVersion1.1.x1.2.01.2.x1.3.12.0.x1.5.02.1.x1.6.02.2.x1.6.02.3.x2.0.03.0.x2.3.0master2.3.0二.安装Spark①在Hive所在机器安装Spark，配置Spark on Yarn模式。可以将spar

为了晴子

963人浏览 · 2021-01-12 11:53:17

为了晴子 · 2021-01-12 11:53:17 发布

一.安装Hive

安装和Spark对应版本一起编译的Hive，当前官网推荐的版本关系如下：

HiveVersion

SparkVersion

1.1.x

1.2.0

1.2.x

1.3.1

2.0.x

1.5.0

2.1.x

1.6.0

2.2.x

1.6.0

2.3.x

2.0.0

3.0.x

2.3.0

master

2.3.0

二.安装Spark

①在Hive所在机器安装Spark，配置Spark on Yarn模式。

可以将spark的日志，集成到Yarn上

②配置Spark的环境变量。

export SPARK_HOME=/opt/module/spark

export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile.d/my_env.sh

三.向HDFS上传Spark纯净版jar包

使用不带hadoop的spark的包：spark-3.0.0-bin-without-hadoop.tgz

①解压

tar -zxvf /opt/software/spark/spark-3.0.0-bin-without-hadoop.tgz

②上传只HDFS的/spark-jars目录，该目录在下面需要配置

hadoop fs -put spark-3.0.0-bin-without-hadoop/jars/* /spark-jars

四.修改hive-site.xml文件

添加如下内容

spark.yarn.jars

hdfs://hadoop102:8020/spark-jars/*

hive.execution.engine

spark

hive.spark.client.connect.timeout

10000ms

注意: hive.spark.client.connect.timeout的默认值是1000ms，如果执行hive的insert语句时，抛如下异常，可以调大该参数到10000ms

FAILED: SemanticException Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session d9e0224c-3d14-4bf4-95bc-ee3ec56df48e

五.测试

①启动hive的metstore服务和hive客户端

[root@hadoop102 ~]$ hive --service metastore

[root@hadoop102 hive]$ bin/hive

②创建一张测试表

hive (default)> create table student(id int, name string);

③通过insert测试效果

hive (default)> insert into table student values(1,'abc');

若结果如下，则说明配置成功,第一次初始化spark session比较费时间，下次执行就很快了。

hive on spark 的相关原理可参考

FAQ

1.执行sql语句，报错信息。

hive> insert into table student values(1,'abc');

Query ID = atguigu_20200814150018_318272cf-ede4-420c-9f86-c5357b57aa11

Total jobs = 1

Launching Job 1 out of 1

In order to change the average load for a reducer (in bytes):

set hive.exec.reducers.bytes.per.reducer=

In order to limit the maximum number of reducers:

set hive.exec.reducers.max=

In order to set a constant number of reducers:

set mapreduce.job.reduces=

Job failed with java.lang.ClassNotFoundException: org.apache.spark.AccumulatorParam

FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed during runtime. Please check stacktrace for the root cause.

原因：由于当前的hive的版本3.1.2，spark版本3.0.0，只能自己编译。

建议用官方发布的hive+spark版本搭配。

2.启动hive的metstore服务，不然可能报错

hive> insert into table student values(1,'abc');

FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git