kettle实现MySQL数据库向hive数据仓库大数据同步经验分享

一、同步性能测试1、测试环境信息kettle：版本8.2，carte独立部署，内存参数-Xms1024m -Xmx4096mmysql数据库：8核CPU，CPU主频2.20GHz，16G内存，版本号5.7.25大数据环境采用CDH，包含HDFS、hive等组件CDH集群服务器（共4台）：8核CPU，CPU主频2.20GHz，16G内存，CDH版本5.14.42、性能测试结果...

tomalun

2967人浏览 · 2020-01-15 14:06:30

tomalun · 2020-01-15 14:06:30 发布

一、同步性能测试

1、测试环境信息

kettle：版本8.2，carte独立部署，内存参数-Xms1024m -Xmx4096m

mysql数据库：8核CPU，CPU主频2.20GHz，16G内存，版本号5.7.25

大数据环境采用CDH，包含HDFS、hive等组件

CDH集群服务器（共4台）：8核CPU，CPU主频2.20GHz，16G内存，CDH版本5.14.4

2、性能测试结果

全量同步

3000万xxx_log表数据，14个字段，从MySQL数据库同步导入hive仓库，第一次同步耗时290秒，平均10.34万条/秒

第二次同步耗时186秒，平均16.13万条/秒，472天数据按天动态分区，加载到hive分区表耗时179秒

增量同步

3000万xxx_log表历史数据，14个字段，每天100万增量数据，从MySQL数据库按天增量同步到hive仓库，按天静态分区，同步耗时8.689秒，平均11.51万条/秒，加载到hive分区表耗时1.142秒(与同步并行执行)，总耗时8.689秒

二、性能优化点

1、不能直接将MySQL数据库查询出来的数据写入hive仓库，需要先导出到HDFS文件，再通过hive的load命令导入hive仓库。因为hive数据仓库插入数据很慢，插入1条数据可能要10来秒钟；而通过load方式加载HDFS数据文件的方式导入数据，数据量即使有几千万条也只要几百毫秒时间。

2、导出到HDFS文件，字段要选择最小宽度，可以提升几倍性能。因为默认未选择最小宽度，从MySQL中导出的数据存到HDFS文件时每个字段可能会填充空格值使字段长度达到MySQL表结构定义的最大长度值，特别是varchar类型的字段空格很多，这样导出的数据量就很大，都是空格撑的，严重影响同步性能和HDFS存储性能。

3、一般大数据表需要用到hive分区，日志表数据全量数据一般按天动态分区，增量数据按天静态分区。动态分区会用到hive计算引擎，需要对大数据平台做性能优化，比如选择hive on spark执行引擎并进行相应的性能参数优化；静态分区很简单也很快，直接load到指定分区表就可以了。

4、hive动态分区需要优化的配置参数：

在hive配置中调整“Spark 执行程序最大 Java 堆栈大小”参数spark.executor.memory，配置2GB以上

在hive配置中调整“Spark 执行程序内存开销”参数spark.yarn.executor.memoryOverhead，配置2GB以上

5、如果同步到hive的数据表不用分区，增量同步时直接往已有的HDFS文件append方式写入数据就可以了，不用再执行load加载

三、kettle关键配置

在kettle可视化开发工具spoon界面上配置转换或作业

1、数据同步可视化配置：

2、数据库配置

MySQL数据库配置：

需要将MySQL驱动包jar文件传到kettle的lib目录下

hive数据库配置：

多个转换和作业文件可以共享数据库配置，只需在右边主对象树上选择数据库，再右键菜单选择共享

3、CDH插件配置

编辑data-integration/plugins/pentaho-big-data-plugin/plugin.properties配置文件，配置指定Hadoop版本对应的文件夹名，如下：
active.hadoop.configuration=cdh514

将Hadoop master服务器上的配置文件拷贝到对应的文件夹，替换对应配置文件：
hive-site.xml
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml

如果core-site.xml里面配置的是主机名，还需修改本地hosts文件配置，加上主机名域名映射配置

kettle配置Hadoop集群，新增集群：

4、上传HDFS配置

在以上界面“内容”标签页，设置分隔符为分号，封闭符为双引号，追加方式、头部、尾部等都不勾选

在“字段”标签页，点击“获取字段”按钮获取字段，再点击“最小宽度”按钮去掉字段左右两端空格

5、导入hive仓库配置

hive已建表不分区配置：

hive动态分区配置：

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Js分割字符串(单个分割符、多个分割符、正则)

1.单个分割符1.1定义和用法split() 方法用于把一个字符串分割成字符串数组。1.2语法stringObject.split(separator,howmany)参数描述separator必需。字符串或正则表达式，从该参数指定的地方分割 stringObject。howmany可选。该参数可指定返回的数组的最大长度。如果设置了该参数，返回的子串不会多于这个参数指定的数组。如果没有设置该参数，

腾讯云开发者社区

curl

什么是curl命令？curl是利用URL语法在命令行方式下工作的开源文件传输工具。它被广泛应用在Unix、多种Linux发行版中，并且有DOS和Win32、Win64下的移植版本。如何在windows下使用curl命令？第一步：进入curl下载官网，下载合适的版本，我这里下载的是windows 64位的curl。其中我下载的zip文件。另外CAB文件也是压缩文件，这...

腾讯云开发者社区

Zynq7000 USB2.0协议解析及USB控制器详解

USB 2.0规范及控制器文章目录USB 2.0规范及控制器USB2.0Univerasl Serial BusUSBHostUSB总线接口标准总线信号USB拓扑结构数据流模型数据编解码和位填充USB逻辑部件USB时间基准USB 描述符USB设备USB设备供电方式USB设备分层USB设备插入检测机制USB设备状态USB总线枚举USB传输传输类型包(Packet)事务(transaction)传输(