java读spark hive_Spark如何读写hive

原文引自：http://blog.csdn.net/zongzhiyuan/article/details/78076842hive数据表建立可以在hive上建立，或者使用hiveContext.sql(“create table ....")1) 写入hive表caseclassPerson(name:String,col1:Int,col2:String)valsc=neworg....

weixin_39596720

924人浏览 · 2021-02-17 01:50:04

weixin_39596720 · 2021-02-17 01:50:04 发布

原文引自：http://blog.csdn.net/zongzhiyuan/article/details/78076842

hive数据表建立可以在hive上建立，或者使用hiveContext.sql(“create table ....")

1) 写入hive表

case class Person(name:String,col1:Int,col2:String)

val sc = new org.apache.spark.SparkContext

val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

import hiveContext.implicits._

hiveContext.sql("use DataBaseName")

val data = sc.textFile("path").map(x=>x.split("\\s+")).map(x=>Person(x(0),x(1).toInt,x(2)))

data.toDF().insertInto("tableName")

2)写入hive分区中

case class Person(name:String,col1:Int,col2:String)

val sc = new org.apache.spark.SparkContext

val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

import hiveContext.implicits._

hiveContext.sql("use DataBaseName")

val data = sc.textFile("path").map(x=>x.split("\\s+")).map(x=>Person(x(0),x(1).toInt,x(2)))

data.toDF().registerTempTable("table1")

hiveContext.sql("insert into table2 partition(date='2015-04-02') select name,col1,col2 from table1")

将数据写入分区表的思路是：首先将DataFrame数据写入临时表，之后是由hiveContext.sql语句将数据写入hive分区表中。

3)优化

将文件存为符合hive table文件的格式，然后使用hive load将产生的结果文件直接move到指定目录下。代码如下：

result.rdd.map { r => r.mkString("\001") }.repartition(partitions).saveAsTextFile(output_tmp_dir)

sql(s"""load data inpath '$output_tmp_dir' overwrite into table $output partition (dt='$dt')""")

hive column默认分隔符在scala/java中的表示为“/001”，r.mkString("/001")既是将column以分隔符/001进行分割，hive在导入时会自动识别。使用hive load data命令，将hdfs文件load到hive表中。后台操作为直接将目录下的文件移到hive table所在目录，所以只是hdfs move数据的过程，执行非常快。

需要注意的是，此处要求hive建表时，以textfile格式建表。

参考：

http://blog.csdn.net/zgc625238677/article/details/53928320

如果是命令行操作，可以参考http://blog.csdn.net/fansy1990/article/details/53401102

《如何解决spark写hive慢的问题》http://blog.csdn.net/lulynn/article/details/51543567

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git