大数据核心框架更新周报|ClickHouse多版本齐发、Fluss0.9发布、Delta Lake引入Catalog管理表
表级查询超时是一个实用的运维能力补充,对于存在个别慢查询表的集群有直接价值。:一周发布 5 个版本,看起来密集,但实际上是 ClickHouse 多分支并行维护策略的常规节奏,主要内容是各分支的安全补丁和 Bug 修复。Delta Lake 4.1.0 的 Catalog 管理表和 ClickHouse 26.2 的 BigLake 集成反映了同一个方向:Catalog 的角色正在从被动的"表在哪
大家好,我们又见面了。
在春节这段时间,数据领域多个框架进行了大量更新,我们今天将这些更新进行汇总一起发出来。后续每周/每月都会有一个更新周报,方便大家及时了解数据领域内的最新进展。
最近一个月内,ClickHouse 多分支并行推出 5 个维护版本,Apache Fluss 0.9.0 落地 Schema 演进和多租户能力,Delta Lake 4.1.0 将表管理提升到 Catalog 层级。
📊 本期更新一览
|
框架 |
最新版本 |
发布日期 |
更新级别 |
|---|---|---|---|
|
ClickHouse |
v26.2.3.2-stable 等 5 个版本 |
2026-03-01 ~ 03-02 |
🔥 多分支维护 |
|
Apache Fluss |
v0.9.0-incubating |
2026-03-02 |
🔥 Major Release |
|
Apache DolphinScheduler |
3.4.1 (prerelease) |
2026-03-01 |
🚀 Bugfix + Feature |
|
Delta Lake |
v4.1.0 |
2026-02-26 |
🔥 Major Release |
|
Apache Pulsar |
v4.1.3 / v4.0.9 / v3.0.16 |
2026-02-19 |
🛡️ 安全更新 |
|
StarRocks |
4.0.6 / 3.5.13 |
2026-02-13 ~ 02-16 |
🚀 Feature Update |
|
Apache Doris |
4.0.3-rc03 |
2026-01-30 |
🚀 RC 阶段 |
🔥 重点更新
1. ClickHouse:一周内 5 个版本并行发布,覆盖三个稳定分支和 LTS
发布时间:2026-03-01 ~ 03-02 | 更新类型:功能更新与安全修复 | LTS 版本:v25.8.18.1-lts
一周之内,ClickHouse 发布了 v26.2.3.2-stable、v26.2.2.9-stable、v26.1.4.35-stable、v25.12.8.9-stable 和 v25.8.18.1-lts 共 5 个版本,覆盖了 v26.2、v26.1、v25.12 三个稳定分支以及 v25.8 LTS 分支[ClickHouse Releases]。
其中 v26.2 是当前最新稳定大版本(首版于 2026-02-26 发布),主要新增能力包括:
-
ClickStack 内嵌可观测 UI:在 ClickHouse 内部集成了监控面板,可直接查看集群性能指标和查询 Profile,无需额外部署 Grafana 等外部监控组件[ClickHouse Changelog 2026]。
-
TOTP 认证:原生支持基于时间的一次性密码(Time-based One-Time Password)认证,适用于对身份验证有合规要求的生产环境。
-
Google BigLake 集成:新增 BigLake Catalog 支持,可以直接在 ClickHouse 中查询 Google Cloud 数据湖中的数据。
-
Iceberg 表 RENAME COLUMN:此前仅支持 ADD/DROP/MODIFY 操作,本版本补充了 RENAME 能力。
-
Insert 去重行为变更:所有 insert(同步和异步)默认开启去重,行为统一。已显式关闭去重的存量集群需要设置
deduplicate_insert='backward_compatible_choice'以保持兼容。 -
向量搜索分布式化:向量索引支持利用集群副本分摊搜索负载,解决了单机内存不足以容纳大规模向量索引的问题。
-
QBit 数据类型和文本索引转正:从 experimental 状态正式 GA。
💡 点评:一周发布 5 个版本,看起来密集,但实际上是 ClickHouse 多分支并行维护策略的常规节奏,主要内容是各分支的安全补丁和 Bug 修复。对于生产环境,LTS 用户建议优先评估 v25.8.18.1-lts;关注新特性的团队可以跟进 v26.2,ClickStack 内嵌监控对日常运维有实际帮助,TOTP 认证则解决了安全合规场景的实际需求。需要注意 insert 去重的默认行为在新版本中发生了变化,存量集群在升级前应在测试环境验证兼容性,避免数据写入行为异常。
相关链接:Changelog 2026 | February Newsletter
2. Fluss v0.9.0-incubating:Schema演进落地,生产级部署能力进一步补齐
发布日期:2026-03-02 | 更新类型:Major Release
Fluss 0.9.0 是进入 Apache 孵化器后的第二个版本,合并了 100+ PR,重点方向是生产可用性增强[Apache Fluss 0.9.0 Release]。
核心改动:
-
Schema 演进(Add Column):支持在线添加列操作,表结构变更不再需要停机重建。但当前存在一个限制——开启 Lake 功能的表暂不支持 Schema 变更,需要在流存储和湖存储之间的元数据同步完善后才能放开。
-
Array 类型支持:Log 表(Arrow Row 格式)和 Flink Connector 均已支持 Array 类型,满足嵌套数据结构的存储需求。
-
自增列(Auto Increment Column):KV 表新增自增列能力,适用于需要全局唯一 ID 的场景,upsert 操作也做了相应的约束处理。
-
LakeCatalog 多租户:支持不同租户间的数据隔离,是企业级多租户部署的基础能力。
-
Compacted Row 作为 Changelog:KV 表支持将压缩后的行直接作为 changelog 输出给下游消费,减少数据冗余。
-
TCP 级背压机制:通过 RequestChannel 引入 TCP 级别的背压控制,防止 EventLoop 阻塞导致节点不可用。
-
依赖升级:Flink 1.20.3 / 2.1.1,Paimon 1.3.1,Iceberg 1.10.0,Hadoop 3.4.0。
-
关键稳定性修复:修复了 ISR 状态泄漏引发的滚动升级死锁、ReplicaFetcher 在 leader 选举期间的忙循环问题、以及 LookupSender 的元数据不一致问题。这些都是生产环境中可能触发的严重故障。
💡 点评:Fluss 在半年内完成了从 0.6 到 0.9 的三个大版本迭代,核心方向是补齐生产级部署的必备能力。Schema 演进和多租户在本版本落地,但 Lake 表暂不支持 Schema 变更这一限制需要留意——依赖 Iceberg/Paimon 湖表同步的场景,在线加字段仍然需要额外处理。0.8 版本中暴露的 ISR 死锁和忙循环等稳定性问题在 0.9 中得到修复,正在运行 0.8 的用户建议评估升级。从生态角度看,StarRocks 2026 Roadmap 已将 Fluss Catalog 支持纳入计划[StarRocks Roadmap 2026],流式存储与分析引擎的整合正在推进中。
相关链接:GitHub Release | 官网
3. Delta Lake v4.1.0:Catalog 管理表上线,提交协调从文件系统转移到目录服务
发布日期:2026-02-26 | 更新类型:Major Release
Delta Lake 4.1.0 的核心变化是引入 Catalog 管理表(Preview),将表的提交协调机制从文件系统(_delta_log)迁移到 Unity Catalog 目录服务[Delta Lake 4.1.0 Release]。
核心改动:
-
Catalog 管理表(Preview):通过 Unity Catalog 的
catalogManaged特性,Delta Spark 支持完整的表操作——建表、批/流读写(含 Time Travel 和 DML)、历史查询和 OAuth 认证。提交协调从文件系统转移到 Catalog 服务后,多表事务等此前无法实现的能力有了技术基础[Delta Catalog-Managed Tables]。 -
Delta V2 Spark Connector:基于 Delta Kernel API 重写的 Spark DataSource V2 Connector,支持 Catalog 管理表的流式读取。
-
Server-Side Planning(Preview):将扫描规划委托给外部 Catalog 服务器(遵循 Iceberg REST Catalog API),支持过滤器、投影和 Limit 下推,客户端不再需要自行解析 _delta_log 目录。
-
无冲突特性启用:Deletion Vectors 和 Column Mapping 可以在不阻塞或冲突并发写入的情况下在现有表上启用。此前启用这些特性需要找一个无写入的维护窗口,对高频写入的大表难以操作。
-
原子 CTAS:Unity Catalog 管理的 Delta 表支持完全原子化的 CREATE TABLE AS SELECT 操作(配合 UC 0.4.0)。REPLACE TABLE 等操作在不满足条件时直接报错(fail fast),不再使用 best-effort 模式。
-
Type Widening 增强:新增 decimal 强制模式(如 integer → decimal 的自动宽化),默认自动宽化模式改为
always。 -
兼容性变化:Java 17 成为最低要求;不再支持 Spark 3.5;Catalog 管理表不允许手动执行 VACUUM。Maven artifact 命名方式有调整,新增 Spark 版本后缀。
💡 点评:Catalog 管理表是 Delta Lake 在架构层面的一次重要升级。此前 Delta 表的元数据存储在文件系统的 _delta_log 目录中,并发写入协调依赖文件锁或对象存储的原子操作,能力受限。迁移到 Catalog 服务后,跨表事务和细粒度权限控制有了实现基础。不过该功能目前仍处于 Preview 阶段,官方明确不建议在生产环境使用。相比之下,无冲突启用 Deletion Vectors 和 Column Mapping 是一个可以立即获益的改进,长期困扰高频写入场景的问题得到了解决。升级前需要确认 Java 17 环境和 Spark 4.0+ 兼容性,尤其是仍在 Spark 3.5 上运行的团队需要先完成 Spark 版本升级。
相关链接:GitHub Release | Catalog 管理表 Blog
4. StarRocks 4.0.6:Iceberg 集成持续深化,新增表级查询超时控制
发布日期:2026-02-16 | 更新类型:Feature Update
StarRocks 4.0.6 包含 15 项功能改进和 8 个 Bug 修复,其中 Iceberg 相关改动占较大比重[StarRocks 4.0.6 Release Notes]。
核心改动:
-
Iceberg 分区灵活度提升:支持带括号的 Partition Transform 语法(如
PARTITION BY (bucket(k1, 3))),分区列不再强制位于列定义末尾。 -
Host 级排序写入:新增
connector_sink_sort_scope变量,可控制写入 Iceberg 表时的数据排序粒度,有助于提升后续查询性能。 -
表级查询超时:新增
table_query_timeout参数,优先级为 Session > Table > Cluster,支持对特定表设置独立的超时策略。 -
自动化快照管理:支持
ADMIN SHOW AUTOMATED CLUSTER SNAPSHOT语句,查看自动快照的状态和调度情况。 -
FE 内存监控 API:新增
/api/memory_usage接口,方便运维监控 FE 的内存使用状况。 -
Bug 修复:Skew Join V2 runtime filter 导致 BE 崩溃、低基数重写导致 Join 谓词类型不匹配(INT = VARCHAR)、Flat JSON 扩展列 unique_id 冲突等问题得到修复。
💡 点评:StarRocks 4.0.6 延续了在 Iceberg 方向的持续投入。分区约束放开、排序写入控制、RENAME COLUMN 等改动单独看是小幅改进,但汇总来看,StarRocks 对 Iceberg 的支持正在从"能用"向"好用"推进。表级查询超时是一个实用的运维能力补充,对于存在个别慢查询表的集群有直接价值。结合 2026 Roadmap 来看,Iceberg Merge Into、V3 格式支持以及 Fluss Catalog 集成均在计划中,StarRocks 作为湖仓分析引擎的定位越来越明确。
相关链接:GitHub Release | 3.5.13
🚀 快速更新
-
Apache Pulsar v4.1.3 / v4.0.9 / v3.0.16(2026-02-19)— 三条分支同步发布安全更新,修复了多个 CVE 漏洞:log4j CVE-2025-68161、lz4-java CVE-2025-12183/CVE-2025-66566、jose4j CVE-2024-29371 等。依赖升级方面,BookKeeper 升至 4.17.3,Netty 升至 4.1.131.Final。Broker 端修复了 chunked 消息在无消费者时丢失、compaction horizon 中断后重置、replicated subscriptions 竞态条件等问题。建议生产环境根据所在分支版本跟进升级[Pulsar 4.1.3 Release Notes]。
-
Apache DolphinScheduler 3.4.1(2026-03-01,prerelease)— 基于 3.4.0 的维护版本。新增工作流/任务实例的可配置最大运行时间、worker group 不存在或无可用 worker 时的调度超时检查。修复了任务超时告警失败、PostgreSQL 依赖任务 SQL 错误、Java 任务 JVM 参数位置不正确、HTTP 告警插件超时单位不一致等 15+ 个问题。目前标记为 prerelease,尚未正式 GA[DolphinScheduler 3.4.1]。
-
StarRocks 3.5.13(2026-02-13)— 3.5 系列常规维护版本。
-
Apache Doris 4.0.3-rc03(2026-01-30)— 仍在 Release Candidate 阶段,尚未 GA。
🌐 趋势观察
1. Catalog 从元数据索引演进为表生命周期管理服务
Delta Lake 4.1.0 的 Catalog 管理表和 ClickHouse 26.2 的 BigLake 集成反映了同一个方向:Catalog 的角色正在从被动的"表在哪里"索引,转变为主动的表生命周期管理服务——负责提交协调、扫描规划、权限控制和跨表事务。Unity Catalog 和 Iceberg REST Catalog 是目前这一领域的两个主要实现方向,它们的竞争和演进将直接影响湖仓架构的标准化进程。
2. 流式存储赛道快速演进,但生产成熟度仍需验证
Apache Fluss 在半年内完成了三个大版本迭代(0.7 → 0.8 → 0.9),Schema 演进和多租户等企业级能力逐步到位。但 Lake 表不支持 Schema 变更这一限制也说明,流存储和湖存储之间的元数据同步仍是一个尚未完全解决的难题。StarRocks 已将 Fluss Catalog 列入 2026 Roadmap,Flink 生态也在持续跟进,流式存储与分析引擎的整合趋势已经明确,但实际的生产验证还需要更多案例积累。
3. 安全合规成为框架版本更新的常规内容
Pulsar 4.1.3 一次修复 6+ 个 CVE、ClickHouse 引入 TOTP 认证、DolphinScheduler 收紧权限校验——安全能力已经不再是可选项,而是每次版本更新中的常规组成部分。对于需要通过企业安全审计的团队,及时跟进安全更新是持续运营的基本要求。
📚 延伸阅读
-
ClickHouse Changelog 2026 — v26.2 完整变更记录
-
The Next Evolution of Delta — Catalog-Managed Tables — Delta Lake 官方对 Catalog 管理表的设计思路
-
StarRocks Roadmap 2026 — 包含 Iceberg V3、Fluss Catalog 等规划
-
Apache Fluss 官方文档 — 架构概述和 Quickstart 指南
-
ClickHouse February 2026 Newsletter — 包含融资动态和 K8s Operator 等消息
更新来源:GitHub Releases、官方博客、Apache邮件列表。如有遗漏或错误,欢迎留言指正。
最后,欢迎加入我们的知识星球小圈子:
如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

更多推荐
所有评论(0)