Spark：json日志文件通过spark转存成parquet方案

花和尚也有春天

698人浏览 · 2018-09-20 00:02:03

花和尚也有春天 · 2018-09-20 00:02:03 发布

收集的业务数据为json格式，准备利用parquet 格式重新存储到hive表，以节约空间并方便后续通过spark 或 hive 进行分析查询。
(示例代码是用python)
具体步骤是：
1. 用spark读取json数据后，得到一个dataframe

path = '/xx/xxx/xxx.json'
df = sqlContext.read.json(path)

2. dataframe 经过filter 、select 等操作再以parquet格式写入hdfs指定路径

df = df.filter(‘xxx’).select(‘xxx’)

3. 目录是按天分区，类似 /parquet/xxxxxx/dt=2017-06-06 这样

df.write.parquet(“/parquet/xxxxxx/dt=2017-06-06”,”overwrite”)

4. 建立对应hive表

CREATE  TABLE xxxxxx(
`xx` string, 
`xxx` bigint,
`xxxxx` string
... ...
...
) 
partitioned by (dt string ) 
STORED as PARQUET 
LOCATION '/parquet/xxxxxx';

5.这样建立完以后，hive还需要执行一步数据加载，才能查到数据

load data  inpath '/parquet/xxxxxx/dt=2017-06-06' into table xxxxxx partition(dt='2017-06-06')

或者

alter table xxxxxx add partition(dt='2017-06-06') location '/parquet/xxxxxx/dt=2017-06-06';

load 和 alter 的主要区别是：
load 会创建分区目录，并移动数据到分区下，alter 的方式不会创建分区目录，也不会移动数据。
个人场景alter 方式添加分区更适合。

把json 存储为parquet,不但可以节省50%左右的存储空间，更方便后续工作中的数据查询，并且查询效率比文本方式更高。

原文参考：https://blog.csdn.net/jobschen/article/details/77196092

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git

腾讯云开发者社区

所有评论(0)

查看更多评论

花和尚也有春天

@weixin_38750084

已为社区贡献14条内容