Apache SeaTunnel 2.3.13 重磅发布!最值得关注的 Top 10 功能更新
Apache SeaTunnel 社区正式发布 2.3.13 版本!本次发版对于 Apache SeaTunnel 来说是一个里程碑式的进展,带来了诸如 Checkpoint API、Flink 引擎升级、大文件并行处理、多表同步能力、AI Embedding Transform、更加丰富的连接器扩展 等多项重要能力。无论是批量数据处理还是实时 CDC,同步到 Lakehouse,SeaTunne

Apache SeaTunnel 社区正式发布 2.3.13 版本!本次发版对于 Apache SeaTunnel 来说是一个里程碑式的进展,带来了诸如 Checkpoint API、Flink 引擎升级、大文件并行处理、多表同步能力、AI Embedding Transform、更加丰富的连接器扩展 等多项重要能力。无论是批量数据处理还是实时 CDC,同步到 Lakehouse,SeaTunnel 都能更高效、更稳定、更智能地支持你的数据集成工作。
感谢 50+ 社区贡献者 的辛勤付出,本次版本包含 100+ PR 的功能新增、优化与 Bug 修复。如果你正在构建 数据仓库、实时同步平台或 AI 数据管道,这个版本的更新值得关注。
没有时间细读完整 Release Notes?没关系,下面整理了 本次版本最值得关注的 10 个更新,并标注了对应的 PR,供大家参考。
- 完整版 Release Note: https://github.com/apache/seatunnel/releases/tag/2.3.13
01 新增 Checkpoint API,任务容错能力进一步增强
在数据同步任务中,Checkpoint 是保证任务可靠性的核心机制之一。SeaTunnel 2.3.13 新增 Checkpoint API(#10065),让任务状态管理更加灵活,也为后续调度系统和运维能力提供了更好的扩展基础。Zeta 引擎支持 Checkpoint 最小间隔 min-pause 配置(#9804),可以避免频繁 checkpoint 带来的系统压力。
监控能力也得到加强,例如新增 Sink 提交指标并计算 commit rate(#10233),同时在任务概览接口中返回 PendingJobs 信息(#9902),并提供查看 Pending 队列的 REST API(#10078)。
这些能力可以帮助用户更好地理解任务执行状态并优化 checkpoint 策略。
02 支持 Flink 1.20.1 并增强 CDC 能力
在引擎生态方面,本版本增强了对 Apache Flink 的支持。SeaTunnel 现在已经支持 Flink 1.20.1(#9576),同时 CDC 同步能力也得到提升,例如 CDC Source 支持 Schema Evolution(#9867),可以在源表结构变化时自动适配同步任务。
此外 NO_CDC Source 也支持 checkpoint(#10094),提升了任务恢复能力。这些改进让 SeaTunnel 在数据库结构变更频繁的场景下更加稳定。
03 大文件并行读取能力大幅提升
在实际数据平台中,大量数据往往以文件形式存在,例如 HDFS、对象存储或本地文件系统。
本次版本对文件处理性能进行了明显优化。HDFS File Connector 支持真正的大文件并行切分(#10332),LocalFile Connector 支持 CSV、Text、JSON 大文件并行读取(#10142),Parquet 文件也支持 Logical Split(#10239)。
此外 HDFS File 还支持多表读取能力(#9816)。这些能力可以显著提升 TB 级文件处理场景中的读取吞吐量。
04 File Connector 新增 Update 同步模式
在文件同步场景中,过去往往只能通过追加或覆盖方式写入数据。本版本中多个文件类连接器新增 sync_mode=update 模式支持,包括 FTP、SFTP 和 LocalFile Source(#10437),HdfsFile Source 也新增同样能力(#10268)。这意味着文件同步任务可以支持更新语义,从而更好地适应增量数据处理场景。
05 连接器生态扩展
SeaTunnel 2.3.13 在连接器生态上继续扩展和增强。在分析型数据库方面,新增 DuckDB Source 与 Sink 支持(#10285),适合本地分析和数据探索。
本版本还新增或增强了多个数据库和 Lakehouse 连接器,包括 Apache HugeGraph Sink(#10002)、AWS DSQL Sink(#9739)、Lance Dataset Sink(#9894)、IoTDB 2.x Source 与 Sink(#9872)。
同时多个已有连接器能力得到提升,例如 PostgreSQL 支持 TIMESTAMP_TZ 类型(#10048)、Hive Sink 支持 SchemaSaveMode 与 DataSaveMode(#9743)、MongoDB Sink 支持多表写入并新增 SaveMode(#9958 / #9883)。
这些更新显著提升了 SeaTunnel 在数据库与 Lakehouse 场景的适配能力和数据管道构建效率。
| 类别 | Connector | 类型 | 功能亮点 | PR号 |
|---|---|---|---|---|
| 分析型数据库 | DuckDB | Source/Sink | 支持从 DuckDB 读取数据和写入数据,适合本地分析和数据探索 | #10285 |
| 图数据库 | Apache HugeGraph | Sink | 支持将数据写入 HugeGraph | #10002 |
| SQL Lakehouse | AWS DSQL | Sink | 支持将数据写入 AWS DSQL | #9739 |
| 文件/数据集 | Lance Dataset | Sink | 支持写入 Lance Dataset | #9894 |
| 时序数据库 | IoTDB 2.x | Source/Sink | 新增 IoTDB 2.x 源和写入支持 | #9872 |
| 关系型数据库 | PostgreSQL | Source | 支持读取 TIMESTAMP_TZ 类型 | #10048 |
| 数据仓库 | Hive | Sink | 支持 SchemaSaveMode 和 DataSaveMode | #9743 |
| 文档数据库 | MongoDB | Sink | 支持多表写入并新增 SaveMode | #9958 / #9883 |
06 Kafka 支持 Protobuf Schema Registry
在实时数据处理场景中,Kafka 通常与 Schema Registry 结合使用。本版本中 Kafka Connector 新增 Protobuf Schema Registry Wire Format 支持(#10183),使 SeaTunnel 能够直接解析通过 Schema Registry 管理的 Protobuf 数据格式,从而更方便地构建实时数据管道。
07 新增 AI Embedding Transform
随着 AI 与数据工程的融合,越来越多企业需要构建向量数据管道。
SeaTunnel 在 Transform 组件中新增 Multimodal Embedding Transform(#9673),可以在数据管道中直接生成向量数据,用于向量数据库、RAG 系统以及 AI 检索应用。同时新增 RegexExtract Transform(#9829),进一步增强数据清洗能力。
08 新增 Markdown Parser 支持 RAG 场景
在 AI 数据准备场景中,Markdown 文档是一类常见数据源。本版本新增 Markdown Parser(#9760),并补充了相关文档(#9834),用于支持 Markdown 文档解析与结构化处理。这一能力可以帮助用户更方便地构建 RAG 数据管道。
09 稳定性与性能优化
除了新功能,本版本还进行了大量稳定性优化。例如:
- ClickHouse Connector 优化并行读取策略(#9801)
- MySQL Connector 优化分片计算策略(#9975)
- JSON 解析支持多层嵌套结构(#10000)
- Zeta 引擎优化任务指标统计(#9833)
- …
同时,本版本还修复了大量生产环境问题,例如:
- Zeta 引擎取消任务时的内存泄漏(#10315)
- ClickHouse Connector ThreadLocal 内存泄漏(#10264)
- MongoDB 多任务提交问题(#10116)
- HBase Source 扫描异常(#10287)
- Hive Sink 初始化失败问题(#10331)
- …
这些修复进一步提升了系统在复杂生产环境中的稳定性。
10 Bug 修复和文档优化亮点
本次版本修复了以往版本的遗留问题,包括
- 修复了 CDC Snapshot Split 空指针 (#10404)
- ClickHouse Connector 内存泄漏 (#10264)
- MongoDB 多任务提交问题 (#10064, #10116)
- HBase Source 扫描异常 (#10336, #10287)
- JDBC Schema 合并溢出 (#10387, #9942, #10093)
- Hive Sink 覆盖语义问题 (#10279, #9823, #9743)
- Elasticsearch Sink 任务无法退出 (#10038)
- 及其他多个 Connector、Transform、Engine、UI、CI 相关问题 (#10422, #10013 等。
在文档与开发者体验方面,本版本进行了系统性完善,包括:
- 新增 SeaTunnel MCP 与 x2SeaTunnel 文档 (#10108)
- 连接器配置示例完善 (#10283, #10250, #10241, #10202)
- 多表同步示例增加 (#10241)
- 版本升级不兼容说明 (#10068)
- 文档结构优化 (#10262, #10395, #10351, #10420, #10438, #10424, #10109, #10382, #10385)
完善后的版本可帮助新用户快速上手,开发者更易理解架构与能力。
感谢贡献者 ❤️
特别感谢本次发版经理 @xiaochen-zhou 的全力支持,使本次版本得以快速规划与高效执行。同时,感谢所有志愿者的辛勤付出与支持,正是有了你们,SeaTunnel 社区才能不断发展壮大!
Adam Wang, AzkabanWarden.Gf, Bo Schuster, cloud456, CloverDew, corgy-w, CosmosNi, Cyanty, David Zollo, dotfive-star, dy102, dyp12, Frui Guo, Jarvis, Jast, Jeremy, JeremyXin, Jia Fan, Joonseo Lee, krutoileshii, 老王, Leon Yoah, Li Dongxu, LiJie20190102, limin, LimJiaWenBrenda, liucongjy, loupipalien, mengxpgogogo-eng, misi, 巧克力黑, shfshihuafeng, silenceland, Sim Chou, Steven Zhao, wanmingshi, wtybxqm, yzeng1618, zhan7236, zhangdonghao, zhuxt2015, zy
下载与体验
- 下载地址:https://seatunnel.apache.org/download
- 版本升级指南:https://seatunnel.apache.org/docs/upgrade-guide
Note:升级建议
如果你当前使用的是 Apache SeaTunnel 2.3.x 版本,升级到 2.3.13 通常是安全的,因为该版本主要是功能增强与稳定性优化。建议在升级前先备份配置文件并在测试环境验证任务运行情况。对于使用 Checkpoint 的任务,建议在升级前停止任务并确认状态一致性,避免在升级过程中产生状态兼容问题。
同时建议关注连接器配置参数的变化,例如 Hive、MongoDB、Kafka 等连接器在本版本中新增了一些配置选项。
如果你正在使用 Flink 引擎,也可以考虑同步升级到 Flink 1.20.x,以获得更好的兼容性与 CDC 能力。
更多推荐
所有评论(0)