你是搞数据的。

前几年大模型起来的时候,你心里挺兴奋。大模型要跑起来得喂数据吧?数据要好用得治理吧?

你做了十几年的数据清洗、标准、质量、血缘、元数据——这不就是AI时代最稀缺的基本功吗?

但三年过去了。大模型换了一代又一代,Agent、各种AI应用让人目不暇接。

你突然发现——这些东西跟你没有任何关系。

没有AI团队来找你提供数据。你的数据团队和公司的AI团队,像两根平行线,没有交集。

你困惑:为什么我们不再被需要了?

先说清楚:不是数据治理要死。

真正要死的,是拿治理报表那套方法去治理AI数据的旧范式。

就像你手里有一套造拖拉机的全套图纸,零件全认识,但现在要造的是飞机。

不是手艺不行,是底层的操作系统过时了

差距有多大?拆成六条。每条背后都藏着一个大道。


一、传统数据治理追求干净,AI治理追求例外

"完整、准确、一致、及时——六维指标全绿,巡检报告漂亮。这些数据拿给AI用,质量肯定没问题吧?"

这个误解太正常了。

过去二十年,BI系统把每个数据团队规训出了同一套本能:空值就是错,异常值就该删,口径不一致就必须清洗。

但你仔细想想:你做的那些"清洗",到底清掉了什么?

如果你做过风控,你大概率见过这种情况:

交易数据质量评分常年95分以上,BI视角堪称优等生。

但拿去训练欺诈检测模型,正常交易和欺诈交易的比例10000:1,模型根本找不到欺诈长什么样。

数据质量巡检全绿,模型效果全红。

大模型场景更典型。

不少企业做内部知识库RAG,数据团队按传统习惯把几万份PDF全剥离了版式,变成纯文本丢给模型,觉得这样最干净。

结果模型频繁产生幻觉——财报里的关键数据在原文档是表格,剥离格式后数字全串行了;各级标题的层级关系也全丢了。

你以为洗掉的是排版噪音,其实是抠瞎了模型的眼睛。

更别说大模型时代,你要治理的对象从数据库里的行与列,变成了PDF、录音、会议视频——传统数据团队对这些东西的治理手段几乎是空白的

为什么会这样?因为传统数据质量和AI数据质量,压根考的不是同一张试卷。

传统数据质量 vs AI数据质量

传统数据质量回答的是"报表能不能看"——字段完整吗?口径一致吗?这是一个对错分明的世界。

AI数据质量回答的是"模型能不能学"——样本分布均衡吗?标注一致性够吗?少数类别有没有被严重低估?

这是一个概率的世界,没有绝对的对错,只有"对这个任务更有效"还是"更没用"。

翻译一下:传统数据质量是在检查一本账记得清不清楚,AI数据质量是在检查一套教材适不适合教学。

账记得再漂亮,教材例题偏了、案例少了,学生照样学不会。

传统数据清洗像给无菌室消毒,AI数据处理更像培养免疫系统——你把真实世界的皱褶全熨平了,模型学到的就只是实验室语言。

如果说这条是"评分标准不对",下面这条是"出发点搞反了"。


二、传统数据治理为人服务,AI治理为机器服务

很多人觉得:AI数据不就是更大量、更复杂的数据吗?治理方法差不多,只是规模变了。

但这个判断漏掉了一个根本性变化——数据的消费者换了

过去的数据是给人看的。人有容错能力——报表延迟一天、数字差一点,大方向对就能拍板。

你可以按季度做稽核,因为人的工作节奏就是这个速度。

AI时代,数据是给机器"吃"的。Schema漂移了、管道断了,上一秒还好好的,下一秒模型就开始产生幻觉

消费者一换,整个时间观都跟着变了。

快照 vs 流

传统治理的世界观是静态的——数据像拍好的照片,采集、清洗、入库、归档,每一步都假设数据在那个节点是"定"的。

你的工作本质是给照片修图。

AI治理的世界观是动态的——数据是一条不停流的河,模型在持续学习,特征在漂移,标签在过时。

你不可能"治好"一条河,你只能持续监测、持续引导

传统数据治理治的是快照,AI治理治的是流。快照可以精修,流只能持续引导。

你的整套工作方式是为"人看数据"设计的,现在坐在数据面前的是一台永不下班的机器。

消费者都换了,还在用老菜单做菜,端出来客人当然不买账。

315的投毒成功,源于信源的失控,这种实时的毒,传统方法拦不住。

更要命的是,不只消费者换了——"谁说了算"也变了。


三、传统数据治理追求规则,AI治理追求共识

传统治理的范式你闭着眼都能背:先定标准→按标准治理→交付使用。

方向从上往下,治理委员会定规则,数据团队执行。

到了AI这儿,因果方向反了

AI治理的逻辑是:先跑模型看效果→发现哪里不行→倒推看数据什么问题→再决定该治什么。

传统治理从标准出发找问题,AI治理从效果出发定标准。一个演绎法,一个归纳法。

但比方向更让人头疼的是:"谁有资格定标准"这件事变了。

谁能拍板?

传统治理的规则由数据团队或IT部门制定——字段怎么命名、口径怎么统一,有确定答案,一个人能拍板。

AI治理中最关键的判断,没有一个人能单独拍板

什么叫"好标签"?边界案例算不算违规?需要业务、运营、风控、法务、数据多个团队坐在一起掰扯。

做过质检类模型的人应该深有体会:技术团队拼命优化特征工程,效果上不去。

复盘才发现根因不是算法——是标注人员对同一个判断标准理解不一致

模型不是学不会,是老师们自己没统一答案。

前沿论文里常见的"RLHF"——基于人类反馈的强化学习。

翻译成人话:大模型需要懂行的老法师手把手教它什么是对什么是错。能干这活的,只有一线的王牌销售、资深风控、老机修工——不是写ETL脚本的工程师。

把判定AI数据好坏的任务甩给写代码的工程师,等于让印刷厂的装订工人去编写神经外科教材。

在很多AI项目里,定义数据好坏的主导权正在从IT部门向业务侧转移。

仅靠规则已经不够,必须补上共识


四、传统数据治理强调全域,AI治理任务为王

"先打地基再盖楼。先把全域数据治理好,再做AI。成熟组织该有的做法。"

翻译成人话:先别做AI

因为"全域先治好"几乎是个无限任务。系统太多,口径太杂,历史包袱太重。你真按这逻辑排期,AI永远停在"准备中"。

这是行业里极其常见的剧本:

数据团队花几个月推进全域文档标准化,文件编号统一了,目录层级统一了,汇报时很漂亮。

但上线测试时,最影响AI效果的关键知识散落在会议纪要、流程邮件和一线FAQ里——压根没被纳入治理范围

治了几个月的"全域数据",模型基本没用上。

Gartner预测到2027年80%的数据治理项目将失败,首因是"缺乏与真实业务危机的关联"(Gartner, Predicts 2024: Data and Analytics Governance)。

全域先治,恰恰是这种脱节的典型症状。

底层错误跟上一条一脉相承——还是因果方向搞反了。

AI的逻辑是"从任务出发":

  • 你做合同审核,需要合同文本、条款标签、风险样本

  • 你做智能客服,需要多轮对话、知识库、满意度标注

这些东西"全域治一遍"永远覆盖不到

"先全域治理再做AI",在很多企业里的真实效果是:治理成了目的,AI成了借口。

AI数据治理的起点不是标准,是任务

前四条拆的都是方法论层面。接下来这条更隐蔽,也更危险——关于安全的盲区。


五、传统数据治理只防泄漏,AI治理要防偏见、防投毒、防记忆

分级分类做了,脱敏做了,等保也过了。至少安全这块是稳的吧?

这可能是六条里最危险的自信

传统数据安全的核心逻辑就四个字:别让数据出去。

但AI带来的风险,不是从外面攻进来的,是从数据内部长出来的

三种全新风险

  • 偏见放大。 训练数据里某个群体的负面标注比例偏高,模型照单全收并放大。数据没泄露一个字节,歧视已经发生。

  • 数据投毒。 恶意篡改少量训练数据就能操纵模型行为。传统权限管"谁能看数据",AI还得管"谁能改训练集"以及"改了之后模型行为会怎么变"。

  • 模型记忆泄露。 大语言模型会"记住"训练数据中的敏感信息,推理时脱口而出。你把原始数据脱敏锁进保险柜了,但模型这台复印机已经把内容印脑子里了。

出了事找谁?

出了事你可能都不知道找谁。

传统治理责任是分段切割的——各扫门前雪。AI场景下,数据的问题可能在模型训练三个月后才暴露,追溯回去可能是标注团队在最初定义标签时的一个微妙分歧。

谁的锅?说不清。但后果,所有人一起扛

严格来说,偏见、投毒、记忆泄露这些已经不全是传统意义上"数据治理"的地盘了——它们需要跟模型治理、应用治理联动。

但问题在于:如果数据团队还是只管到"数据交付"就收手,这些新风险就掉进了三不管地带

传统数据安全是防盗门——管的是"别让人偷东西"。AI数据安全是免疫系统——要防的是身体内部长出肿瘤。

以上五条拆的都是某个具体维度。最后这条,是所有误解的总根源


六、传统数据治理管字段,AI治理要管结果

"数据团队准备数据,模型团队训练,业务团队等结果。各管一段,分工明确。"

这恰恰是最深层的范式错误

"做没做" vs "好没好"

传统治理的价值怎么证明?标准覆盖率、元数据完整率、工单关闭率。

翻译一下:我做了,而且做完了。

这全是"过程指标"——只能证明你做了某件事,证明不了这件事有什么用

当AI团队真正需要数据支持时,没有一个指标能回答"这份数据对训练这个模型到底有没有帮助"。

传统治理用"做没做"证明价值,AI治理必须用"好没好"证明价值。前者是过程正义,后者是结果正义。

管的边界也被强制扩大了

传统治理只管数据本身。AI治理还得管模型产出的东西——RAG召回准不准?输出有没有幻觉?有没有放大偏见?

传统治理管的是"食材",AI治理还得管"厨师做出来的菜有没有毒"。

数据的价值也不是在你交出去那一刻盖棺定论的。它在"训练→评估→上线→反馈→再采集"的循环里被反复重新定义。

整理档案,交完就完了。教一个学徒,你得持续看他哪里不会,再补教材、补反馈。

AI数据治理是后者。

治理的终点不是"数据交付",而是"模型持续学对"。


回到最开始的问题

六条拆完。

为什么你的数据团队跟AI团队像两根平行线?

不是数据治理不重要了——是你手里那套旧操作系统,跟AI这个新工作负载之间出现了六个维度的根本性错配

你过去治的是"表",现在要治的是"料"。

表的任务是把事实记清楚。料的任务是让模型学明白。

底层假设、评价标准、组织分工、工作节奏,完全不同。

六个本质差异

维度

传统数据治理

AI数据治理

追求什么

干净——消灭例外

例外——保留真实

给谁用

人——静态快照

机器——动态流

靠什么

规则——从标准到执行

共识——从效果到标准

怎么铺

全域覆盖——先治后用

任务牵引——先用后治

防什么

泄漏——各扫门前雪

偏见+投毒+记忆——连坐制

管什么

字段——做了就算完成

结果——好了才算完成

AI时代的数据治理,不是传统治理的升级版,而是从目标、假设、标准、组织到协作模式全面重建的新物种。


过去十几年,数据团队最擅长的,是把事实记清楚。

接下来十年,真正拉开差距的,是谁能把模型教明白

不会"治料"的团队,治理能力再强,也可能只是AI时代的旧工匠。

好消息是,你手上十几年的数据经验没有作废。

坏消息是,你必须在这些经验之上换一套操作系统。

器官还在,但旧OS已经撑不住新的工作负载了。

说实话,写完这篇文章,我自己也捏了把汗。想明白不难,难的是真动手换那套OS。

最后一个问题留给你:你的数据团队,现在跟AI团队是平行线,还是已经找到交点了?评论区说说。


附赠:思维转变清单、自查五问

思维转变清单

检查自己完成了几个:

  • 从"对错分明" → 到"概率思维"

  • 从"快照修图" → 到"持续引流"

  • 从"标准先行" → 到"效果倒推"

  • 从"全域铺开" → 到"任务牵引"

  • 从"防泄漏就够" → 到"防偏见+防投毒+防记忆"

  • 从"做了就完" → 到"好了才算"

自查五问

  1. 你们评估数据质量的标准,是跟BI团队借的,还是根据模型任务专门定义的

  2. 你们的治理KPI,能回答"对模型效果有没有帮助"吗?还是只能证明"我们做了治理"?

  3. 标签的好坏谁说了算?写代码的工程师,还是最懂行的业务老兵

  4. 模型上线后发现数据有问题,能追溯回数据团队吗?还是交付完就各回各家?

  5. 你们的安全体系,有偏见、投毒、模型记忆泄露的防线吗?还是只防传统的数据泄漏?

如果五个问题有三个答不上来——你的数据团队和AI团队之间那条平行线,短期内不会有交点

图片

欢迎加入「与数据同行」专业群:
第一时间推送数据领域的深度文章,
并围绕真实问题进行专业讨论。

适合:数据治理 / 数据技术 / AI/ 数智化/数据负责人
不适合:闲聊 / 拉广告 / 求资料

Image

「与数据同行」为求职者和招聘方提供了一个交流场所,欢迎加入。

Image

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐