数据治理与人工智能治理的本质差异

说实话,我们问错了问题。两者真正的区别不在于哪个团队拥有什么,也不在于先做哪件事,而在于更根本的问题:究竟想要管理什么?

一方面,管理的是已存在的事物,像表、记录、管道和文件,可查看、追踪、修复。另一方面,管理的事物由随时间演变的模型生成,这些模型对同一问题答案不同,还越来越多地自主决策,甚至会根据决策行动。这不是范围差异,而是本质差异,一旦明白就无法忽视。

数据治理体系的特点

数据治理是成熟学科,能确保数据干净、安全、易访问且合规。它管理的数据,如客户记录、交易表和主数据,早已存在,有人收集、存储并编目,能知道输入和验证输出。

出现问题时,可追溯根源,检查模式,应用质量规则(完整性、准确性、一致性),得到“是”或“否”答案,流程清晰,行为可预测。这很重要,若数据架构混乱,其他都无从谈起,人工智能会继承数据层问题,所以务必从数据架构入手。

数据治理核心假设是稳定性,无论何时,输入、管道和输出都要一致。现代数据治理虽处理概率数据,但只是稳定系统内的有限例外,期望系统一段时间内运行状态相同。

人工智能治理的不同之处

人工智能工作原理不同。当对人工智能进行治理时,会发生什么变化?GoodData的白皮书指出:“人工智能治理不是数据治理的微小延伸,而是根本性转变。”

因为人工智能系统打破传统治理依赖的三个假设。首先,人工智能系统会不断演进,机器学习模型不像数据库表那样静止,会通过重新训练、反馈循环和与真实世界数据交互而变化,三个月后模型行为可能改变,这是因周围世界变化。美国国家标准与技术研究院 (NIST) 的生成式人工智能概况(AI 600 - 1,2024年7月)指出生成式人工智能的十二项风险,不符合传统质量规则。

其次,人不可能审查每个决定。传统管理模式假定有人判断,但面对每小时处理1万份申请的信用评分模型或客服人员处理成千上万次对话,没人逐一审查,决策自动化、数据量大,但仍需有人负责。

第三,质量不再是非此即彼。数据治理验证可验证属性,答案是“是”或“否”,而人工智能治理要管理置信度阈值、统计指标、业务权衡等,如欺诈检测模型判定交易欺诈概率为73.6%,是否可接受取决于具体情况、阈值和企业对误报漏报的承受损失,这是系统固有判断。

两者分歧的五个维度

从运营层面对比数据治理和人工智能治理,差距明显。

1. 自然界的数据治理追求稳定性,相同输入有相同输出,将例外作边界情况管理;人工智能治理基于不确定性是常态的假设,同样提示每次运行答案可能不同。

2. 可见性方面,数据管道透明,可追踪记录全过程;人工智能模型通常是黑匣子,无法总是解释其决策原因,生成式人工智能推理过程隐藏在数十亿参数中,无法检查。

3. 稳定性上,数据仓库在季度审计间行为不变,人工智能模型会漂移、退化。NIST AI RMF将人工智能治理定位为持续生命周期过程,与多数治理团队习惯的运营模式不同。

4. 规模上,数据管理员可检查数据集,分析师可验证报告,但人工智能系统每秒做数千个自主决策时,人工审核不现实,需要自动化监控。

5. 起源是最大问题。数据治理管理已存在的数据,人工智能治理要处理刚生成的数据,生成模型运行时创建新内容,大语言模型(LLM)和智能体每天产生数百万条新记录,无适当标签,合成数据会泄露回主数据库,用其训练未来模型会导致模型崩溃。

例如,营销团队用大语言模型(LLM)生成10,000条产品描述存入数据仓库,无标签表明是人工智能生成,六个月后另一团队基于此训练模型,新模型会将错误当事实学习,这是数据治理失误,传统数据质量规则无法发现。

智能体人工智能带来的挑战

能动浪潮包含前面描述的情况,还增加了自主性。当人工智能代理能自主行动时,管理的是自主系统。

麦肯锡报告指出企业不能只关注人工智能系统说错话,还要应对做错事的情况。OutSystems报告显示96%的组织使用人工智能代理,94%担心无序扩张,但只有12%的组织部署集中式平台管理。这与影子IT危机类似,但风险更高,人工智能代理会决策、执行命令和采取行动。

两者的联系与区别

数据治理和人工智能治理有很多共同之处,都重视信任、明确所有权和责任、追求质量、关注安全和隐私,有强大数据治理能力的组织有先发优势。

但没有健全的数据治理,人工智能治理只是幻觉,数据不可靠,模型也不可靠,针对人工智能的治理措施无法解决问题。单靠数据治理也无法解决人工智能治理的问题,需要人工智能治理解决方案,如NIST AI RMF 1.0及其GenAI Profile,或ISO/IEC 42001。

人工智能治理吸收、扩展并超越了数据治理。它吸收数据治理,因为干净数据是基础;扩展数据治理,因为模型等需要溯源和质量控制;超越数据治理,因为要治理漂移、行为等。

监管压力与紧迫性

数据治理有时间发展成稳定体系,人工智能治理没有这样的机会。监管时钟不再抽象。

2026年8月2日,欧盟人工智能法案大部分规则生效,第50条透明度义务适用,附件三高风险人工智能系统规则实施,但具体时间表有变数,通用人工智能模型规则自2025年8月实施,成员国处罚机制已到位。该法案有域外效力,适用于在欧盟境内使用输出的人工智能系统。加拿大、科罗拉多州和中国也在推进类似治理要求,欧盟最后期限最具体。

如果治理项目抱着“到时候再说”的心态,时间窗口迅速关闭,2026年治理是合规最后期限。

可采取的三件事

如果组织有数据治理计划并部署人工智能,可从以下方面入手。

1. 从定期审计转向持续监控。季度数据质量审查对偏差系统不够,NIST AI RMF的测量功能可实时跟踪模型性能等,持续测量能发现单次审计无法发现的偏差。

2. 构建能捕捉行为的模型和代理注册表。数据目录告知数据情况,AI注册表要涵盖预期行为等,ISO/IEC 42001提供框架,有38项控制措施,可审计性与ISO 27001相同,要达到此标准,仅依靠版本号不够。

3. 在源头为人工智能生成的内容添加标签并强制执行。这成为法律要求,欧盟《人工智能法案》第50条2026年8月生效,要求人工智能生成内容透明,进入数据存储前要添加标签,禁止用未标记内容训练,C2PA标准是新兴来源基准,Adobe等已采用,此策略可防止模型崩溃并符合法规。

思维方式的转变

真正的问题不是“哪个先出现”或“如何重叠”,而是组织是否理解管理人工智能需要不同思维方式。

数据治理前提是稳定,人工智能治理前提是变化。一个验证已知信息,一个监测正在发生的事;一个检查质量,一个监控偏差;一个追溯血统,一个预测行为;一个决定系统是什么,一个决定系统做什么。

数据治理建立对信息资产的信任,人工智能治理建立对系统运行方式的信任。若将人工智能治理视为数据治理附加组件,当模型偏差、智能体行动或生成数据破坏训练流程,或监管机构要求提供证据时,会毫无准备。

做得好的组织构建应对不确定性的治理体系,有持续监控、反馈循环、内置可解释性和有效问责机制。

在组织中,数据治理和人工智能治理的界限在哪里?是定义明确还是自然演变?很想听听想法。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐