真实面试:大数据开发岗

大摇不摆

103人浏览 · 2026-04-01 16:02:21

大摇不摆 · 2026-04-01 16:02:21 发布

在使用flink的时候如何保证数据的一致性

错误示范（苦涩干燥版）

Flink 主要靠 Checkpoint 机制保证一致性，支持最多一次、至少一次、精确一次三种语义，要实现端到端一致性的话，source 支持重放、sink 支持幂等或者两阶段提交就可以了。[你说错了吗?并没有, 你回答的好吗? 不润!!!!!!!!!!!!!!!!!!!!!!]

叙事式高分回答版

这个我印象特别深，去年我们做电商实时对账系统的时候，一致性要求卡得特别死 —— 要把用户端的支付订单和微信 / 支付宝的回调流水做实时匹配，差 1 毛钱财务都要追着我们查一下午。最早上线的时候图省事，我们只开了 Flink 默认的 At-Least-Once 语义，结果上线第二周就碰到宿主机硬件故障，作业重启之后对账结果直接差了 2376 块，排查了整整两个小时才定位到是数据重复计算导致的一致性问题，后来我们就把 Flink 全链路一致性的方案彻底优化了一遍：首先是 Flink 内部的一致性保障，我们直接把 Checkpoint 语义改成了 Exactly-Once，它的底层其实是基于 Chandy-Lamport 分布式快照算法实现的：JobManager 会周期性往数据流里插入 barrier 屏障，每个算子收到所有上游分区的 barrier 之后就会做当前状态的快照，我们当时用的是 RocksDB 增量 Checkpoint 把状态持久化到 HDFS，哪怕作业全挂，重启之后直接从最近一次完成的快照恢复状态，内部计算的结果 100% 是准确的。然后是端到端的一致性，我们分了三段做适配：

Source 端用的是 Kafka，Flink 会把消费的 offset 作为状态的一部分存到 Checkpoint 里，重启之后自动从上次提交的 offset 重新拉取数据，既不会丢数也不会多拉数据；
Sink 端我们当时有两个输出：一个是对账结果写 MySQL，我们直接用了 Flink 提供的 JDBC 两阶段提交 Sink，预提交阶段先把数据打到 MySQL 的临时事务里，等整个 Job 的 Checkpoint 全链路都完成之后再正式提交事务，如果中间任何环节失败直接回滚临时事务，不会落脏数据；另一个是对账异常数据要写到 Redis 做报警推送，Redis 不支持事务，我们就做了幂等设计，写入的 key 直接用「订单号 + 第三方流水号 + 对账时间戳」的唯一组合，就算重复写入也只会覆盖同一条数据，不会产生冗余的异常记录。后来我们还加了非对齐 Checkpoint 的配置，就算作业出现短时背压，也不会因为 barrier 对齐超时导致 Checkpoint 失败，进一步保证了一致性的可靠性。这套方案上线快 1 年了，中间碰到过两次机房网络波动、三次作业因资源不足重启，从来没出现过一次数据不一致的问题，对账准确率一直是 100%，财务再也没找过我们麻烦。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git