传统数据治理，要死了

能干这活的，只有一线的王牌销售、资深风控、老机修工——不是写ETL脚本的工程师。传统权限管"谁能看数据"，AI还得管"谁能改训练集"以及"改了之后模型行为会怎么变"。更别说大模型时代，你要治理的对象从数据库里的行与列，变成了PDF、录音、会议视频——传统数据团队对这些东西的治理手段。严格来说，偏见、投毒、记忆泄露这些已经不全是传统意义上"数据治理"的地盘了——它们需要跟模型治理、应用治理联动。传统

傅一平

285人浏览 · 2026-03-24 07:31:19

傅一平 · 2026-03-24 07:31:19 发布

你是搞数据的。

前几年大模型起来的时候，你心里挺兴奋。大模型要跑起来得喂数据吧？数据要好用得治理吧？

你做了十几年的数据清洗、标准、质量、血缘、元数据——这不就是AI时代最稀缺的基本功吗？

但三年过去了。大模型换了一代又一代，Agent、各种AI应用让人目不暇接。

你突然发现——这些东西跟你没有任何关系。

没有AI团队来找你提供数据。你的数据团队和公司的AI团队，像两根平行线，没有交集。

你困惑：为什么我们不再被需要了？

先说清楚：不是数据治理要死。

真正要死的，是拿治理报表那套方法去治理AI数据的旧范式。

就像你手里有一套造拖拉机的全套图纸，零件全认识，但现在要造的是飞机。

不是手艺不行，是底层的操作系统过时了。

差距有多大？拆成六条。每条背后都藏着一个大道。

一、传统数据治理追求干净，AI治理追求例外

"完整、准确、一致、及时——六维指标全绿，巡检报告漂亮。这些数据拿给AI用，质量肯定没问题吧？"

这个误解太正常了。

过去二十年，BI系统把每个数据团队规训出了同一套本能：空值就是错，异常值就该删，口径不一致就必须清洗。

但你仔细想想：你做的那些"清洗"，到底清掉了什么？

如果你做过风控，你大概率见过这种情况：

交易数据质量评分常年95分以上，BI视角堪称优等生。

但拿去训练欺诈检测模型，正常交易和欺诈交易的比例10000:1，模型根本找不到欺诈长什么样。

数据质量巡检全绿，模型效果全红。

大模型场景更典型。

不少企业做内部知识库RAG，数据团队按传统习惯把几万份PDF全剥离了版式，变成纯文本丢给模型，觉得这样最干净。

结果模型频繁产生幻觉——财报里的关键数据在原文档是表格，剥离格式后数字全串行了；各级标题的层级关系也全丢了。

你以为洗掉的是排版噪音，其实是抠瞎了模型的眼睛。

更别说大模型时代，你要治理的对象从数据库里的行与列，变成了PDF、录音、会议视频——传统数据团队对这些东西的治理手段几乎是空白的。

为什么会这样？因为传统数据质量和AI数据质量，压根考的不是同一张试卷。

传统数据质量 vs AI数据质量

传统数据质量回答的是"报表能不能看"——字段完整吗？口径一致吗？这是一个对错分明的世界。

AI数据质量回答的是"模型能不能学"——样本分布均衡吗？标注一致性够吗？少数类别有没有被严重低估？

这是一个概率的世界，没有绝对的对错，只有"对这个任务更有效"还是"更没用"。

翻译一下：传统数据质量是在检查一本账记得清不清楚，AI数据质量是在检查一套教材适不适合教学。

账记得再漂亮，教材例题偏了、案例少了，学生照样学不会。

传统数据清洗像给无菌室消毒，AI数据处理更像培养免疫系统——你把真实世界的皱褶全熨平了，模型学到的就只是实验室语言。

如果说这条是"评分标准不对"，下面这条是"出发点搞反了"。

二、传统数据治理为人服务，AI治理为机器服务

很多人觉得：AI数据不就是更大量、更复杂的数据吗？治理方法差不多，只是规模变了。

但这个判断漏掉了一个根本性变化——数据的消费者换了。

过去的数据是给人看的。人有容错能力——报表延迟一天、数字差一点，大方向对就能拍板。

你可以按季度做稽核，因为人的工作节奏就是这个速度。

AI时代，数据是给机器"吃"的。Schema漂移了、管道断了，上一秒还好好的，下一秒模型就开始产生幻觉。

消费者一换，整个时间观都跟着变了。

快照 vs 流

传统治理的世界观是静态的——数据像拍好的照片，采集、清洗、入库、归档，每一步都假设数据在那个节点是"定"的。

你的工作本质是给照片修图。

AI治理的世界观是动态的——数据是一条不停流的河，模型在持续学习，特征在漂移，标签在过时。

你不可能"治好"一条河，你只能持续监测、持续引导。

传统数据治理治的是快照，AI治理治的是流。快照可以精修，流只能持续引导。

你的整套工作方式是为"人看数据"设计的，现在坐在数据面前的是一台永不下班的机器。

消费者都换了，还在用老菜单做菜，端出来客人当然不买账。

315的投毒成功，源于信源的失控，这种实时的毒，传统方法拦不住。

更要命的是，不只消费者换了——"谁说了算"也变了。

三、传统数据治理追求规则，AI治理追求共识

传统治理的范式你闭着眼都能背：先定标准→按标准治理→交付使用。

方向从上往下，治理委员会定规则，数据团队执行。

到了AI这儿，因果方向反了。

AI治理的逻辑是：先跑模型看效果→发现哪里不行→倒推看数据什么问题→再决定该治什么。

传统治理从标准出发找问题，AI治理从效果出发定标准。一个演绎法，一个归纳法。

但比方向更让人头疼的是："谁有资格定标准"这件事变了。

谁能拍板？

传统治理的规则由数据团队或IT部门制定——字段怎么命名、口径怎么统一，有确定答案，一个人能拍板。

AI治理中最关键的判断，没有一个人能单独拍板。

什么叫"好标签"？边界案例算不算违规？需要业务、运营、风控、法务、数据多个团队坐在一起掰扯。

做过质检类模型的人应该深有体会：技术团队拼命优化特征工程，效果上不去。

复盘才发现根因不是算法——是标注人员对同一个判断标准理解不一致。

模型不是学不会，是老师们自己没统一答案。

前沿论文里常见的"RLHF"——基于人类反馈的强化学习。

翻译成人话：大模型需要懂行的老法师手把手教它什么是对什么是错。能干这活的，只有一线的王牌销售、资深风控、老机修工——不是写ETL脚本的工程师。

把判定AI数据好坏的任务甩给写代码的工程师，等于让印刷厂的装订工人去编写神经外科教材。

在很多AI项目里，定义数据好坏的主导权正在从IT部门向业务侧转移。

仅靠规则已经不够，必须补上共识。

四、传统数据治理强调全域，AI治理任务为王

"先打地基再盖楼。先把全域数据治理好，再做AI。成熟组织该有的做法。"

翻译成人话：先别做AI。

因为"全域先治好"几乎是个无限任务。系统太多，口径太杂，历史包袱太重。你真按这逻辑排期，AI永远停在"准备中"。

这是行业里极其常见的剧本：

数据团队花几个月推进全域文档标准化，文件编号统一了，目录层级统一了，汇报时很漂亮。

但上线测试时，最影响AI效果的关键知识散落在会议纪要、流程邮件和一线FAQ里——压根没被纳入治理范围。

治了几个月的"全域数据"，模型基本没用上。

Gartner预测到2027年80%的数据治理项目将失败，首因是"缺乏与真实业务危机的关联"（Gartner, Predicts 2024: Data and Analytics Governance）。

全域先治，恰恰是这种脱节的典型症状。

底层错误跟上一条一脉相承——还是因果方向搞反了。

AI的逻辑是"从任务出发"：

你做合同审核，需要合同文本、条款标签、风险样本
你做智能客服，需要多轮对话、知识库、满意度标注

这些东西"全域治一遍"永远覆盖不到。

"先全域治理再做AI"，在很多企业里的真实效果是：治理成了目的，AI成了借口。

AI数据治理的起点不是标准，是任务。

前四条拆的都是方法论层面。接下来这条更隐蔽，也更危险——关于安全的盲区。

五、传统数据治理只防泄漏，AI治理要防偏见、防投毒、防记忆

分级分类做了，脱敏做了，等保也过了。至少安全这块是稳的吧？

这可能是六条里最危险的自信。

传统数据安全的核心逻辑就四个字：别让数据出去。

但AI带来的风险，不是从外面攻进来的，是从数据内部长出来的。

三种全新风险

偏见放大。 训练数据里某个群体的负面标注比例偏高，模型照单全收并放大。数据没泄露一个字节，歧视已经发生。
数据投毒。 恶意篡改少量训练数据就能操纵模型行为。传统权限管"谁能看数据"，AI还得管"谁能改训练集"以及"改了之后模型行为会怎么变"。
模型记忆泄露。 大语言模型会"记住"训练数据中的敏感信息，推理时脱口而出。你把原始数据脱敏锁进保险柜了，但模型这台复印机已经把内容印脑子里了。

出了事找谁？

出了事你可能都不知道找谁。

传统治理责任是分段切割的——各扫门前雪。AI场景下，数据的问题可能在模型训练三个月后才暴露，追溯回去可能是标注团队在最初定义标签时的一个微妙分歧。

谁的锅？说不清。但后果，所有人一起扛。

严格来说，偏见、投毒、记忆泄露这些已经不全是传统意义上"数据治理"的地盘了——它们需要跟模型治理、应用治理联动。

但问题在于：如果数据团队还是只管到"数据交付"就收手，这些新风险就掉进了三不管地带。

传统数据安全是防盗门——管的是"别让人偷东西"。AI数据安全是免疫系统——要防的是身体内部长出肿瘤。

以上五条拆的都是某个具体维度。最后这条，是所有误解的总根源。

六、传统数据治理管字段，AI治理要管结果

"数据团队准备数据，模型团队训练，业务团队等结果。各管一段，分工明确。"

这恰恰是最深层的范式错误。

"做没做" vs "好没好"

传统治理的价值怎么证明？标准覆盖率、元数据完整率、工单关闭率。

翻译一下：我做了，而且做完了。

这全是"过程指标"——只能证明你做了某件事，证明不了这件事有什么用。

当AI团队真正需要数据支持时，没有一个指标能回答"这份数据对训练这个模型到底有没有帮助"。

传统治理用"做没做"证明价值，AI治理必须用"好没好"证明价值。前者是过程正义，后者是结果正义。

管的边界也被强制扩大了

传统治理只管数据本身。AI治理还得管模型产出的东西——RAG召回准不准？输出有没有幻觉？有没有放大偏见？

传统治理管的是"食材"，AI治理还得管"厨师做出来的菜有没有毒"。

数据的价值也不是在你交出去那一刻盖棺定论的。它在"训练→评估→上线→反馈→再采集"的循环里被反复重新定义。

整理档案，交完就完了。教一个学徒，你得持续看他哪里不会，再补教材、补反馈。

AI数据治理是后者。

治理的终点不是"数据交付"，而是"模型持续学对"。

回到最开始的问题

六条拆完。

为什么你的数据团队跟AI团队像两根平行线？

不是数据治理不重要了——是你手里那套旧操作系统，跟AI这个新工作负载之间出现了六个维度的根本性错配。

你过去治的是"表"，现在要治的是"料"。

表的任务是把事实记清楚。料的任务是让模型学明白。

底层假设、评价标准、组织分工、工作节奏，完全不同。

六个本质差异

维度	传统数据治理	AI数据治理
追求什么	干净——消灭例外	例外——保留真实
给谁用	人——静态快照	机器——动态流
靠什么	规则——从标准到执行	共识——从效果到标准
怎么铺	全域覆盖——先治后用	任务牵引——先用后治
防什么	泄漏——各扫门前雪	偏见+投毒+记忆——连坐制
管什么	字段——做了就算完成	结果——好了才算完成

AI时代的数据治理，不是传统治理的升级版，而是从目标、假设、标准、组织到协作模式全面重建的新物种。

过去十几年，数据团队最擅长的，是把事实记清楚。
接下来十年，真正拉开差距的，是谁能把模型教明白。

不会"治料"的团队，治理能力再强，也可能只是AI时代的旧工匠。

好消息是，你手上十几年的数据经验没有作废。

坏消息是，你必须在这些经验之上换一套操作系统。

器官还在，但旧OS已经撑不住新的工作负载了。

说实话，写完这篇文章，我自己也捏了把汗。想明白不难，难的是真动手换那套OS。

最后一个问题留给你：你的数据团队，现在跟AI团队是平行线，还是已经找到交点了？评论区说说。

附赠：思维转变清单、自查五问

思维转变清单

检查自己完成了几个：

从"对错分明" → 到"概率思维"

从"快照修图" → 到"持续引流"

从"标准先行" → 到"效果倒推"

从"全域铺开" → 到"任务牵引"

从"防泄漏就够" → 到"防偏见+防投毒+防记忆"

从"做了就完" → 到"好了才算"

自查五问

你们评估数据质量的标准，是跟BI团队借的，还是根据模型任务专门定义的？

你们的治理KPI，能回答"对模型效果有没有帮助"吗？还是只能证明"我们做了治理"？

标签的好坏谁说了算？写代码的工程师，还是最懂行的业务老兵？

模型上线后发现数据有问题，能追溯回数据团队吗？还是交付完就各回各家？

你们的安全体系，有偏见、投毒、模型记忆泄露的防线吗？还是只防传统的数据泄漏？

如果五个问题有三个答不上来——你的数据团队和AI团队之间那条平行线，短期内不会有交点。

欢迎加入「与数据同行」专业群：
第一时间推送数据领域的深度文章，
并围绕真实问题进行专业讨论。

适合：数据治理 / 数据技术 / AI/ 数智化/数据负责人
不适合：闲聊 / 拉广告 / 求资料

「与数据同行」为求职者和招聘方提供了一个交流场所，欢迎加入。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git