11-学习笔记尚硅谷数仓搭建-Maxwell实时流单个表全量数据同步到Kafka

2401_87177990

628人浏览 · 2026-01-17 09:55:50

2401_87177990 · 2026-01-17 09:55:50 发布

备注：一般Maxwell用作实时流增量数据传输，但也可以全量数据传输，比如本文演示的那样。但整个数仓项目是用Maxwell作增量数据传输，用DataX离线作全量数据传输。这里演示全量数据同步的原因是：在同步增量数据的第一天应该先将数据库中的数据先全量同步一次，然后以后每天才是增量同步，这样做就可以保证整个流程的数据同步

备注：没有特别说明都在atguigu用户执行命令

备注：没有特别说明都在atguigu用户执行命令

一、启动服务（如果没有）

1.查看进程（hadoop102执行下面命令）

xcall jps

如果有下面的进程就不用启动服务，如果没有就输入下面命令启动服务

2.启动服务（hadoop102执行下面命令）

# 启动服务
zk.sh start
kf.sh start
mxw.sh start

二、单个表全量数据同步

1.解释概念：历史数据全量同步是指将初始MySQL数据通过Maxwell全部抓取到Kafka（只用项目开始的时候执行一次就行，保证Kafka中有数据库的初始数据），然后以一天为时间间隔，将当天的变更数据也抓取到Kafka，实现Kafka数据与MySQL数据同步，同时保证了Kafka中既有实时数据也有全部数据，且节约了内存。

2.历史数据同步（以activity_info表为例，因为是学习流程所以不用将所有初始数据都同步）（hadoop102执行下面命令）

/opt/module/maxwell/bin/maxwell-bootstrap --database gmall --table activity_info --config /opt/module/maxwell/config.properties

3.验证数据是否成功同步

先查看activity_info表的数据如图：

再去Kafka tool工具查看数据是否一致

我们运行后滑到最下面，看到有六条activity_info相关的数据

4.为什么我们数据库中是4条数据，而在Kafka上却显示了6条数据？

解释：

我们选择第一条和最后一条，选择message查看数据，发现它们里面根本没有数据

那没有数据为什么要它们呢？因为它们是界定全量数据的一个标志，在在它们之间的数据就是全量数据，是为了与实时数据分隔开。

第二个就与我们的数据库数据保持一致了。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git