在移动互联网时代,“数据飞轮”效应深入人心:场景催生应用,应用生成数据,继而这些数据反馈优化算法,再反哺应用本身,进入迭代优化的良性循环。

随着生成式人工智能的兴起,许多人认为这一飞轮效应将延续,中国凭借其丰富的应用场景,能够生成大量的数据,进而为模型提供养分,这也被视为中美人工智能竞争中关键的比较优势,推动模型应用的发展显得尤为重要。

然而,要回应这些社会关注的问题,我们必须**从大模型训练对数据利用的新方式着手,逐类分析应用产生的数据对模型训练的贡献,对比与传统推荐系统的异同,才能确认“数据飞轮”是否依然存在,**本文旨在为大模型时代的数据利用和应用发展提供翔实的佐证和清晰的建议。

01、决策式人工智能时代的数据飞轮

提起数据飞轮,人们的第一印象是以搜推系统为代表的决策式人工智能。神经网络技术推动了数据驱动的应用模式,依靠丰富的场景和海量数据积累,以实现个性化和实时性的迭代,让用户有越用越好的体验。

推荐系统在需求侧可以通过获取、学习和分析海量的用户行为数据,判断用户的需求,实现对用户的认知和洞察。用户使用越多,用户行为数据越丰富(包含用户的实时性操作,如浏览、点击等),将这些作为特征输入到模型中,系统对用户个性化、实时性的偏好判断就越精准。

其背后的技术原理,是以大量的用户使用记录、用户画像、商品画像等原始数据为基础,提炼出用户和商品标签等不同维度的信息,进而抽象出特征向量,用向量的空间距离计算出用户和商品的相似度、对内容的偏好度,进行“人-商品/内容”的匹配推荐。基于上述方式,搜推系统呈现出明显的规模效应和自驱效应:越丰富和细致的用户使用数据,就能实现越有效的供需匹配,而且得到数据反馈的算法会越用越准,并不需要人类去干预。

由此,应用数据飞轮的特征可归纳为三条:自我驱动、个性化、实时性。

首先,自我驱动体现在随着应用数据的积累,系统可以通过用户的反馈不断学习和优化,形成“应用数据→优化效果→反哺应用”的闭环。

其次,个性化体现在系统通过积累与特定用户交互的经验,更有效构建用户间的相似性关系,挖掘每个用户潜在感兴趣的对象,提供越来越精准的个性化服务。

再次,实时性体现在对用户的应用数据的实时采集和处理,将这些实时特征转化为输入,系统可以实现动态调整和优化。

来源 / ToB行业头条 (ID:wwwqifu) 作者 / 头条 · 编辑 / 头条

02、生成式人工智能对数据利用**的新模式

1、大模型应用数据的提出

我国在大模型训练中,经常面临高质量训练数据供给不足的问题。对此,我们讨论过公共数据“应开尽开”、社会力量“应试尽试”、版权数据“合理使用”,以及合成数据“应补尽补”,作为训练数据供给不足的新方案。

今天将讨论另一种数据类型:大模型应用数据,即用户在使用大模型过程中产生的数据。根据现阶段的发展情况,可以将应用数据分为对话类和行为类两种。

对话类数据常见于以智能客服为例的企业通用场景,包含用户在应用大模型产品中产生的输入信息、与模型对话交互的记录等。而行为类数据包含人类对模型回答的反馈(点赞或点踩)、点击、浏览、操作记录等。与公众的直觉判断相反,应用数据并不能作为训练语料的直接和主要来源,我们期待的数据飞轮在大模型时代并不存在,而以发展应用来提升模型能力也需要更细致的方案。

2、应用数据与模型能力的关系

○ 2.1 大模型训练所需的语料类型

大模型能力的提升来自于训练阶段的优化,所需的数据根据训练阶段有所不同,其特点可以归纳为“广”、“齐”、“专”。 在预训练阶段需要各种类型的世界知识,包括网页、书籍、新闻、论文期刊、对话文本、代码等形式,目的是为了“融汇贯通”以掌握世界规律,提升模型基础能力。

在对齐阶段通过给予大模型有针对性的问答对(典型例题-答案对),以及对模型回答进行打分排序,更好激发模型在相应任务中的能力,让模型知道“怎么说更好”。如果将模型部署于特定场景形成行业大模型,则需要满足行业专业度需求的语料,一方面可应用于预训练以使模型掌握领域知识,另一方面作为对齐阶段的行业语料可以更好激发专业领域的能力。

从规律的学习方式看,大模型对训练数据的需求类型和使用方式都产生了根本性变化,属于一种创造知识增量的创新使用方式。

决策式人工智能的训练数据属于原始数据(Data),是对事物、事件、活动的基本描述和记录(比如用户行为数据),其数量级别十分庞大但价值无法确定。而生成式人工智能的训练语料属于知识类(Knowledge),是人类通过对原始数据进行格式化组织分析形成信息,进而从信息中获得见解所形成的内容。

大模型训练需要知识类语料,并不依赖用户行为数据, 可见在生成式人工智能时代,模型对数据的利用变得更有效率。以工业制造为例,工艺生产中的操作行为或时序数据等非自然语言描述的内容属于原始数据,通常不能直接用于训练。

而将其转化为一条条可读的操作记录等结构化信息,并将多条结构化信息与行业的知识图谱、专家经验相结合,产出成有价值的行业知识(如在什么温度下应该如何操作,好处是什么),才可以用于大模型训练。当然,模型训练所需的语料类型也可能随着技术发展而不断演变。

○ 2.2 应用数据的提炼与转化

对话类的应用数据需要人类加工处理后才能用于模型训练。

大量用户与模型多轮交互问答并不会直接让模型能力得到提升,而需要人类将其中的内容整合并提炼共性,才能形成高质量的可用于持续训练的问答对。行为类的应用数据也不能直接用于模型训练,相反,训练并不依赖大量的行为数据。

从ToB端基于模型开发的行业应用看, 在通用场景中,大量用户对智能客服回答的点赞和点踩,需要人类的统计和汇总才可能转化为适宜强化学习的排序语料。

在专业闭环场景中,用户驾驶装载了完全自动驾驶(FSD)模型的Tesla在道路上行驶,大量的操作记录等行为数据并不会使FSD版本自我迭代和优化,还需要技术人员通过对数据的收集和清洗,提炼出人类驾驶员应对稀有事件(如复杂路况、极端天气、异常行为的人或车辆等)的数据集用于持续训练,才能让模型性能更强大。

从ToC端的应用看,以大模型时代的搜推场景为例,在需求侧已经不再需要数亿的海量点击和浏览等用户行为数据作为训练,而仅仅需要从中找出几百或几千条消费者具有“发现性”的点击 (比如一个经常浏览或购买女装、童鞋品类下商品的消费者,首次对儿童玩具类商品的点击),将这些加工成知识性的微调语料,用于优化出更“好逛”的推荐系统。

由此看出,**即使问答对话是大语言模型所需的一种训练数据,但对话类应用数据,仍要人类提炼后才可能对训练有帮助。而行为类数据本身和大模型训练的基础需求并不匹配,对行为类应用数据的利用,要人类精选出和模型任务相匹配的少部分进行加工处理后,才可能对能力提升有帮助。**从目前发展阶段看,将应用数据提炼转化后用于提升模型性能,在产业中还处于各自探索的阶段,即使如OpenAI等头部公司也并没有完美的成功经验可供借鉴。

○ 2.3 大模型时代并不存在数据飞轮

图片

大模型时代应用数据与模型能力之间并没有自我驱动、个性化、实时性的关系,因此在大模型时代“应用发展→数据积累→模型能力提升”的飞轮并不存在。

一是应用数据对应模型能力提升并不存在“自我驱动”, 而是非常依赖人类的干预,对用户使用数据进行加工提炼,使其在知识层有边际贡献,而这种贡献也还需要在产业实践中积极尝试。

二是应用数据对模型能力提升并不是个性化的,大模型对于应用数据的使用方式并不是直接利用使用者的明细数据或个性化数据,而是需要将语料再提炼成“集合”的特征,才可供模型读取和训练。

比如利用人工进行打标和分组归类,又或是利用合成数据,结合知识图谱、专家经验将明细数据转化成知识。三是没有实时性的特点,通常是在积累一段时间与用户的交互后,才能将应用数据加工成作为可供持续训练的语料,对于模型参数的调整并不是实时的。

3、理性看待应用发展与模型能力提升的关系

虽然大模型时代并不存在应用数据带来的飞轮效应,是否意味着不需要发展模型应用了呢?答案是否定的。通过应用发展带来更可持续的盈利模式,让大模型研发企业积累资金,投入新一轮基础模型的迭代,这种商业逻辑依然成立,且对于我国大模型发展十分重要。

因此,大力发展应用,并不是为了积累大量的数据用于提升模型能力,而是为了建立更健康、更可持续的商业生态。

最后,对于“模型能力提升→应用发展”,该正向反馈是成立的。

目前看,随着通用基础大模型能力的提升,其应用场景已经从社交、消费等ToC应用、扩展到办公、编程、营销等通用ToB应用,以及在融合专业场景核心数据后应用于金融、制造、能源等专业ToB领域。

随着模型能力提升,基于Transformer架构的模型还会以“领域数据+独立模型+专项应用”的形式更多在独立ToB领域中得到应用,比如具身机器人、药物研发、自动驾驶等。

来源 / ToB行业头条 (ID:wwwqifu) 作者 / 头条 · 编辑 / 头条

03、对应用数据和应用发展的思考**

从微观的数据层面,在理解应用数据与模型能力的关系后,我们应该更科学和客观地看待模型应用数据的开发和治理。

从治理侧看,一是对应用数据要在认识上“祛魅”,不要过于神化其价值。 海量的用户使用数据大部分是底层数据,用于训练模型还需要人类加工、提炼成为知识类语料,且最终的效果还存在诸多不确定性。它们对模型自身能力提升并不起决定作用,不存在应用数据的飞轮。

二是对应用数据的提炼和转化,要相信市场的力量。 将应用数据转化成模型训练语料,本质是不同模型厂商结合各自对产业的理解和技术的判断,利用不同方法探索应用数据的最佳利用方式,从而优化自身模型性能的过程。在这种没有成功先例可循、具有专业性和需要试错迭代的领域,基于市场优胜劣汰可以更高效的判断好坏、配置资源。在应用数据的开发侧,要结合模型的应用场景与所需的数据类型,更巧妙地设计软件和硬件。

以具身智能场景为例,“插、拉、拧、拔、推”是机器人的关键动作,由此决定了训练数据需要“力量-空间位置”混合的数据类型。而对相关应用数据的获取可以分为两个阶段:一种是由较低成本方式(传感器生成和采集)获取的,规模大但质量一般的数据用于预训练;另一种是由较高成本方式(人类带外骨骼收集)获取的,数量少但精度高的数据做对齐训练。

从中观的产业视角看模型应用的发展,本质上是模型在不同行业生产Token(模型理解和生成的最小数据单元)**能力不断提升的过程。**正如黄仁勋所说:Token可以是单词、图像、图表、表格,甚至是歌曲、文字、语音和视频,可以代表任何具有明确价值的事物。

这种生成式AI的崛起意味着人类可以学习并模拟物理现象,让大模型理解并生成物理世界的各种现象。而模型在应用领域的拓展,就是为越来越多有价值的事物生产Token,无论是蛋白质、基因、天气模式,还是汽车的转向盘控制、机械臂的关节运动等等。

符合Token视角的数据利用模型,需要我们通过新的技术方法和商业模式的设计,把各个领域沉淀的数据更好利用起来,让更多领域知识先以Token的方式被模型学习和理解,进而再由模型生成更多有价值的新Token。

从宏观视角看模型对数据的利用方式,我们发现大模型是数据释放价值的最短路径。

根据经典的DIKW金字塔理论,数据发挥价值的路径是从原始数据(Data-D)形态出发,通过对原始素材类数据进行格式化组织和分析,将其转化为人类可以理解的信息(Information-I),从信息中获得见解进而形成知识(Knowledge-K),再由知识升华为更加抽象的智慧形态(Wisdom-W)。决策式人工智能时代,数据要素发挥价值的路径需要从D逐层到W,而通常在D和I之间的转化就需要耗费大量的中间过程才能完成。

而大模型在训练时的语料就已经以K层为主,输出的内容大多也直接从K层起步,极大缩减了中间的转化过程,最大程度提升了数据的使用效率。可见,数据发挥价值的机制正在随着技术的发展而不断演化。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐