前言

对本博客比较熟悉的朋友知道,我司论文项目组正在基于大模型做论文的审稿、翻译,且除了审稿翻译之外,我们还将继续做修订、对话、idea提炼(包含论文检索),是一个大的系统,包含完整的链路(截止到24年9月份,论文审稿、翻译、修订系统均已上线七月官网,至于论文对话、idea提炼则将24年11月份上线)

由于论文项目组已壮大到18人,故目前在并行多个事,且我也针对idea提炼做一下技术探索

  1. 一开始有注意到这篇论文《Ideas are Dimes a Dozen:Large Language Models for Idea Generation in Innovation》

    此篇论文什么来历呢
    23年7月,GPT4才刚推出几个月,便有来自麦克技术创新研究所(宾夕法尼亚大学沃顿商学院)和康奈尔大学的研究者们(他们为Karan Girotra, Lennart Meincke, Christian Terwiesch, and Karl T. Ulrich),提出了让chatgpt生成创意
  2. 后来,我司论文项目组三太子在内部18人大群里4.14发的这篇:ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Model

    不过,这篇论文不太好实现,此话怎讲呢
    比如虽然「idea要参考新paper」这个问题,可以通过实时爬取相关论文(爬取过程中解决相关访问限制),或者通过Semantic Scholar API解决
    但比较麻烦的是涉及构建知识图谱,需要大量且长久的数据处理工作,且论文中,对于图数据怎么设计和存储它没讲(有点类似假定已经有图数据方案了)
  3. 再之后,24年9.11日,我在微博上看到斯坦福NLP研究组的一个工作:Can LLMs Generate Novel Research Ideas?A Large-Scale Human Study with 100+ NLP Researchers,简称AI-Researcher

    9.14日,我让项目组同事青睐初步看了下,发现AI-Researcher大致的过程为: 
    需要给定一个研究主题, 然后使用使用claude-3-5 以RAG的方式调用Semantic Scholar API, 搜索一些动作: {KeywordQuery(keywords), PaperQuery(paperId), GetReferences(paperId)},
    然后,汇总生成的结果去重、排序并进行打分评估等操作
    之后,使用一定的模版生成出idea报告, 模版有:标题, 问题陈述, 动机, 提议的方法, 步骤分解实验计划, 测试用例示例, 备用计划等
  4. 再后来,24年11.3日,项目组同事文弱在群内说,上海AI实验室一团队也搞了个idea提炼系统:VIRSCI
    我看了之后,​虽然我司的实现方式和他们不一样(本月会和论文对话 视频问答一块上线),但类似的工作,我们肯定是高度关注的
    故在本文的第三部分 也解读下,权当做个分享

此外,除了机器人之外,我司24年10月正在疯狂开发之前既定计划中的各种项目

  • 比如复现了上面这个斯坦福AI-Researcher,且基于其改进出我司的idea提炼系统
  • 再比如论文对话、字幕生成、视频总结、视频内容提问VLM,都将在近期逐一上线七月官网首页..
    至于,已经迭代了两个版本的AI论文生成,还没确定是否对外开放

第一部分 ResearchAgent: 围绕论文和引用提炼idea

1.1 从ResearchAgent到ReviewingAgent:idea的生成与其迭代

考虑到LLMs可以处理和分析大量的文献资料,并以超越人类能力的速度和规模处理数据,还可以识别人类研究者可能立即无法察觉的模式、趋势和相关性,从而使LLM能够发现原本未被发现的新的研究机会。 此外,LLM还可以通过进行实验和解释结果来协助实验验证,从而显着加快研究周期

24年4月份,来自韩国的一研究团队便基于LLM做了相关尝试,即研究思路生成,其中包括问题识别、方法开发和实验设计(research idea generation, which involves problem identification, method development, and experiment design),其对应论文为:《ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models

那基于LLM如何提炼idea呢?其实和科研人设计idea的过程差不太多,比如首要的第一步便是阅读大量相关领域的paper,然后提炼出一个初步的idea,最后针对这个初步的idea反复自我审视及让同行给予反馈、评价,以不断完善该idea

换言之,只阅读某篇论文及其对应的参考文献,从而根据references and citation relationship提炼idea可能不太够

  1. 首先构建一个知识存储,从科学文章中找到并聚合实体共现。 这个以实体为中心的知识存储捕捉了不同实体之间的相互关联性,并通过潜在的概念和原则为其检索到的知识提供了有价值的见解;我们将展示这些见解对我们的问题非常有价值。
  2. 此外,为了通过迭代改进增强生成的研究创意,我们设计了多个审查代理,每个代理都对开发的创意生成评论和反馈,具有自己的评估标准

1.1.1 ResearchAgent的流程:基于LLM确定问题、方法、实验

为了完成上述步骤,现有的文献(例如学术出版物)被用作主要来源,提供关于现有知识以及差距和未解答问题的见解

首先,形式上,设\mathcal{L}为文献, O为由问题p、方法m和实验设计d组成的想法,表示如下:o= [p, m, d],其中每个项目由一系列tokens组成,[\cdot]表示连接操作

然后,idea生成模型 f 可以表示如下:\boldsymbol{o}=f(\mathcal{L}),进一步分解为三个子模块步骤:

  1. \boldsymbol{p}=f(\mathcal{L})用于确定问题
  2. l_{0}\boldsymbol{m}=f(\boldsymbol{p}, \mathcal{L})用于开发方法
  3. 以及\boldsymbol{d}=f(\boldsymbol{p}, \boldsymbol{m}, \mathcal{L})用于设计实验

在这项工作中,依赖LLMs来操作 f,利用它们理解和生成学术文本的能力(we operationalize f with LLMs, leveraging their capability to understand and generate academic text)

具体而言,LLM接受一个输入token序列 x并生成一个输出token序列 y,表示为:\boldsymbol{y}=\operatorname{LLM}_{\theta}(\mathcal{T}(\boldsymbol{x})),其中 \theta是模型参数,在训练后固定不变(毕竟进一步微调的成本很高), T是提示模板(prompt template),是一个结构化的格式,概述了上下文(包括任务描述和指示)以指导模型生成所需的输出

从而,上述三个子模块便变成了

  1. 确定问题:\boldsymbol{p}=\operatorname{LLM}\left(\mathcal{T}_{p}(\mathcal{L})\right.
  2. 确定方法:\boldsymbol{m}=\operatorname{LLM}\left(\mathcal{T}_{m}(\boldsymbol{p}, \mathcal{L})\right.
  3. 确定实验:\boldsymbol{d}=\operatorname{LLM}\left(\mathcal{T}_{e}(\boldsymbol{p}, \boldsymbol{m}, \mathcal{L})\right.

对于 LLM,我们通过提供一篇核心论文l_{0}\mathcal{L}开始,然后根据citation graph选择性地纳入后续论文\left\{l_{1}, \ldots, l_{n}\right\},这些论文与核心论文直接相关,从而使得用于生成研究想法的 LLM输入更加可管理和连贯「we initiate its literature review process by providing a core paper l0 from L and then selectively incorporating subsequent papers {l1, ..., ln} that are directly related to it based on a citation graph

,对于核心论文及其相关引文(relevant citations)的选择,侧重以下两点

  1. 核心论文基于其引用计数进行选择(例如,在3个月内超过100次),通常表示具有高影响力
  2. 其相关论文(可能非常多)根据其摘要与核心论文的相似性进一步缩小范围,确保得到更加专注和相关的相关paper集合

1.1.2 ResearchAgent的增强:通过实体链接方法提取术语数据库

然后,核心论文及其引用的数量毕竟有限,所能带来的上下文知识范围过于局限,而使得无法提出更好的idea

  1. 好在我们可以使用现有的现成实体链接方法(实体链接是一个将文本中的不同实体识别并映射到知识库中实体的过程)在任何论文中提取术语数据库(term database),并将这些链接的出现聚合到一个知识库中
    we can easily extract the term database whenever it appears in any paper, using existing off-the-shelf entity linking methods and then aggregate these linked occurrences into a knowledge store.
  2. 然后,如果术语数据库在医学科学领域中普遍存在,但在血液学(医学科学的一个子领域)中不太常见,构建的知识库基于除数据库之外的重叠实体捕捉了这两个领域之间的相关性,然后便可在制定有关血液学的想法时提供术语数据库
    Then, if the term database is prevalent with in the realm of medical science but less so in hematology (which is a subdomain of medical science), the constructed knowledge store captures the relevance between those two domains based on overlapping entities (other than the database) and then offers the term database when formulating the ideas about hematology.

    换句话说,这种方法通过利用各个领域之间的相互关联性,能够提供新颖和跨学科的见解
    In other words, this approach enables providing novel and interdisciplinary insights by leveraging the interconnectedness of entities across various field

具体的执行步骤为

  1. 将知识存储设计为一个二维矩阵\mathcal{K} \in \mathcal{R}^{m \times m},其中 m是已识别的唯一实体的总数,而K以稀疏格式实现
    这个知识存储是通过从所有可用的科学文献\mathcal{L}(由于无法提取所有可用文章中的实体,故这里的目标是针对2023年5月1日之后出现的论文)中提取实体构建的,它不仅计算了个别论文中实体对的共现次数,还量化了每个实体的计数
  2. 此外,为了操作化实体提取,我们使用了现有的实体链接器 EL(即BLINK,Wu et al., EMNLP 2020,地址为:Scalable zeroshot entity linking with dense entity retrieval),它在特定论文l\mathcal{L}中标记和规范化实体,形式化如下: \mathcal{E}_{l}=\mathrm{EL}(l)
    其中\mathcal{E}_{l}表示出现在l (且由于科学出版物的长度较长,实体提取的目标是标题和摘要) 中的实体的多重集(允许重复),从每篇论文中提取的实体数量最少为3个
  3. 在提取实体\mathcal{E}后,为了将它们存储到知识存储\mathcal{K}中,我们考虑了所有可能的\mathcal{E}对,表示如下: \left\{e_{i}, e_{j}\right\}_{(i, j) \in \mathcal{C}(|\mathcal{E}|, 2)},其中e \in \mathcal{E},然后将其记录到 \mathcal{K}

    鉴于这个知识库\mathcal{K},下一个目标是基于“一组相互连接的论文”增强基于语言模型的研究想法生成过程(Given this knowledge store K, our next goal is to enhance the vanilla research idea generation process based on a group of inter connected paper),表示如下:\boldsymbol{o}=\operatorname{LLM}\left(\mathcal{T}\left(\left\{l_{0}, l_{1}, \ldots, l_{n}\right\}\right)\right)

    使得我们可以通过“知识库\mathcal{K}中的相关实体”这个额外的知识来源来扩展LLM的上下文知识。 换句话说,这些知识在当前的论文组中没有出现,但与之相关,在\mathcal{K}中基于实体(共现)信息进行识别(this knowledge is not seen in the current group of papers but is relevant to it, identified based on entity (co-)occurrence information stored in K)
  4. 形式上,定义从相互连接的论文组中提取的实体如下:
    \mathcal{E}_{\left\{l_{0}, \ldots, l_{n}\right\}}=\bigcup_{i=0}^{n} \operatorname{EL}\left(l_{i}\right)

    因此,检索前k个相关外部实体的概率形式可以表示如下
    \operatorname{Ret}\left(\left\{l_{0}, \ldots, l_{n}\right\} ; \mathcal{K}\right)=\underset{I \subset[m]:|I|=k}{\arg \max } \prod P\left(e_{i} \mid \mathcal{E}_{\left\{l_{0}, \ldots, l_{n}\right\}}\right)
    其中[m]=\{1, \ldots, m\},且e_{i} \notin \mathcal{E}_{\left\{l_{0}, \ldots, l_{n}\right\}}

    此外,为了简化起见,通过应用贝叶斯规则并假
    设实体是独立的,上面的检索前k个相关外部实体的操作可以近似表示如下:
    \left.\underset{I \subset[m]:|I|=k}{\arg \max } \prod_{e_{j} \in \mathcal{E}_{\left\{l_{0}, \ldots, l_{n}\right\}}} P\left(e_{j} \mid e_{i}\right)\right) \times P\left(e_{i}\right)
    其中P\left(e_{j} \mid e_{i}\right)P\left(e_{i}\right)可以从二维\mathcal{K}中的值中推导出来,适当进行归一化
  5. 最终,使用相关实体为中心的知识增强的研究提案生成实例
    表示如下:o = \operatorname{LLM}\left(\mathcal{T}\left(\left\{l_{0}, l_{1}, \ldots, l_{n}\right\}, \operatorname{Ret}\left(\left\{l_{0}, \ldots, l_{n}\right\} ; \mathcal{K}\right)\right)\right)

总之,将这种知识增强的LLM驱动的思路生成方法称为ResearchAgent

  • 首先,通过ResearchAgent提出问题

  • 其次,通过ResearchAgent生成方法

  • 最后,通过ResearchAgent生成实验设计

1.1.3 ReviewingAgent给验证:通过与人类偏好对齐的LLM Agents迭代研究思路

当拿到初步的idea之后(包括其对应的问题、方法、实验设计),ReviewingAgents还会根据特定的标准提供review和反馈,以验证生成的研究思路

具体而言,类似于我们使用LLM和模板T实例化ResearchAgent的方法,ReviewingAgents也是类似地实例化,但使用不同的模板,如下面的三个图所示,分别涉及
 

  • 对ResearchAgent所提出问题的评价
    现有研究(目标论文和相关论文)如下:
    目标论文标题:{paper['title']}
    目标论文摘要:{paper['abstract']}
    相关论文标题:{relatedPaper['titles']}
    相关论文摘要:{relatedPaper['abstracts']}
    现在,按照系统的方式进行您的{指标}评估方法:- 首先彻底阅读研究问题及其基本原理,牢记上述现有研究提供的背景信息。
    - 接下来,生成一篇评论和反馈,应该是建设性的、有帮助的和简明的,重点关注问题的{指标}。
    - 最后,使用5分Likert量表给出一个评分,1表示最低,请确保进行有鉴别力和批判性的评估,避免倾向于统一高分(4-5),除非完全有理由:{标准}
    我将提供研究问题及其理论基础,如下所示:
    研究问题:{研究问题}
    理论基础:{研究问题理论基础}
    在您评估上述内容之后,请以以下格式提供您的评论、反馈和评分:
    反馈:
    评分(1-5):
  • 对ResearchAgent所提出方法的评价
    研究问题和现有研究(目标论文和相关论文)如下:
    研究问题:{researchProblem}
    理由:{researchProblemRationale}
    目标论文标题:{paper[’title’]}
    目标论文摘要:{paper[’abstract’]}
    相关论文标题:{relatedPaper[’titles’]}
    相关论文摘要:{relatedPaper[’abstracts’]}
    现在,继续你的{度量}评估方法,应该是系统的:- 首先,彻底阅读提出的方法及其基本原理,牢记研究问题所提供的背景和上述现有研究。
    - 接下来,生成一个评论和反馈,应该是建设性的、有帮助的和简洁的,重点关注方法的{度量}。
    - 最后,使用5分Likert量表给出一个评分,1表示最低,请确保进行有鉴别力和批判性的评估,避免倾向于统一高分(4-5),除非完全有理由:{标准}
    我将提供以下关于提出的方法及其基本原理的信息:
    科学方法:{科学方法}
    基本原理:{科学方法基本原理}
    在您评估上述内容之后,请以以下格式提供您的评论、反馈和评分:
    反馈:
    评分(1-5):
  • 对ResearchAgent所提出的实验设计的评价
    研究问题、科学方法和现有研究(目标论文和相关论文)如下所示:
    研究问题:{researchProblem}
    理由:{researchProblemRationale}
    科学方法:{scientificMethod}
    理由:{scientificMethodRationale}
    目标论文标题:{paper['title']}
    目标论文摘要:{paper['abstract']}
    相关论文标题:{relatedPaper['titles']}
    相关论文摘要:{relatedPaper['abstracts']}
    现在,继续你的{度量}评估方法,应该是系统的:- 首先,彻底阅读实验设计及其基本原理,牢记研究问题、科学方法和上述现有研究所提供的背景。
    - 接下来,生成一个评论和反馈,应该是建设性的、有帮助的和简明扼要的,重点关注
    实验的{度量}。
    - 最后,使用5分Likert量表给出一个评分,1表示最低,请确保进行有鉴别力和批判性的评估,避免倾向于统一高分(4-5),除非完全有理由:{标准}
    我将提供设计好的实验及其基本原理,如下所示:
    实验设计:{实验设计}
    基本原理:{实验设计基本原理}
    在您评估上述内容之后,请以以下格式提供您的评论、反馈和评分:
    反馈:
    评分(1-5):

然后,使用ReviewingAgents,根据其各自的五个特定标准对生成的研究思路(问题、方法和实验设计)进行单独评估,这些标准如下图所示

以下则是分别针对问题、方法、实验设计的各个标准下何以评分1-5分的的详细说明

最后,根据ReviewingAgents的审查和反馈,ResearchAgent进一步更新已生成的研究思路

值得一提的是,为了获得与人类对齐的评估标准

  1. 首先,筛选了10个人类专家「每个人至少自己发表过三篇论文(要不然,何以称为专家呢)
    然后,10个人类专家面对一篇篇论文时,针对每篇论文的问题、方法、实验设计在五个标准上进行评分,从而得到ResearchAgent针对每篇论文在问题、方法、实验设计这三个层面的10对分数(on a 5-point Likert scale)的标注
    比如对于某一篇论文paperA而言,会有:
    paperA-problem-score1 score2 score3 score4 score5 score6 score7 score8 score9 score10
    paperA-method-score1 2 3 4 5 6 7 8 9 10
    paperA-experiment design-score1 2 3 4 5 6 7 8 9 10
    we first collect 10 pairs of the research idea and its score (on a 5-point Likert scale annotated by human researchers with at least 3 papers) on every evaluation criterion
    最后,针对每篇论文的这个评分过程做三轮,相当于每篇paper在不同的思路下都会出来三个问题、三个方法、三个实验设计
  2. 总之,针对每一篇论文,对ResearchAgent生成的3个问题、3个方法、3个实验设计做评判,然后每个问题、每个方法、每个实验设计均有5个标准
    在每个标准上,由10个人类专家来针对论文提炼出来的3个问题、3个方法、3个实验设计进行打分
    To conduct evaluations with human judges, we recruited 10 annotators, each with a minimum of 3 published papers. On average,with in an hour, they evaluated 3 sets of research ideas, with each set comprising three sub-ideas(problem, method, and experiment design) from three different approaches (i.e., a total of 9 ideas for one hour)

    为方便大家快速理解以一目了然,我再画一个示意图,如下所示(A B C D E代表标准,_ _ _ _ _ _ _ _ _ _代表人类打的分数)

1.2 实验部分

1.2.1 数据

生成研究思路的主要来源是科学文献 L,具体而言

  1. 首先,从Semantic Scholar Academic Graph API(https://www.semanticscholar.org/product/api)获取,且选择在2024年5月1日之后出版的论文
  2. 然后,我们选择具有超过20次引用的高影响力论文作为核心论文,以确保生成的思路具有高质量,这与人类研究人员倾向于利用有影响力的工作相一致
  3. 我们进一步随机抽取300篇论文作为核心论文(以获得一个合理大小的基准数据集),这意味着我们随后为每个模型生成和评估300个研究思路
    其中,每篇核心论文的平均参考文献数量为87,每篇论文的摘要平均有2.17个实体

所有论文的学科分布如下图所示

1.2.2 几个对比标准与评估方法

由于我们的目标是研究思路的生成,因此没有直接可供比较的基线。 因此,完整的ResearchAgent模型与以下削弱版本进行比较:

  1. Naive ResearchAgent- 仅使用核心论文生成研究思路
  2. 没有实体检索的ResearchAgent- 使用核心论文及其相关参考文献,但不考虑实体
  3. ResearchAgent- 完整模型,使用相关参考文献实体以及核心论文,以增强语言模型

基于模型的评估根据最近在使用LLMs评判输出文本质量方面的趋势(尤其是在无参考评估设置中),我们使用GPT-4来评判研究思路的质量

我们注意到,每个问题、方法和实验设计都使用五个不同的标准进行评估

然后,我们要求评估模型对每个标准上生成的思路进行on a 5-point Likert scale的评分,或者在不同模型的两个思路之间进行两两比较

// 待更

1.3 ResearchAgent的三个完整示例

1.3.1 标题:用于零样本知识图问题回答的知识增强语言模型提示摘要

  1. 输入
    标题:用于零样本知识图问题回答的知识增强语言模型提示摘要:大型语言模型(LLMs)能够根据它们在预训练期间存储在参数中的内部知识执行零样本闭书问题回答任务。 然而,这种内部化的知识可能是不足和不正确的,这可能导致LLMs生成错误的答案。 此外,对LLMs进行微调以更新它们的知识是昂贵的

    为此,我们提出直接在LLMs的输入中增加知识
    具体而言,我们根据问题和相关事实之间的语义相似性从知识图中检索与输入问题相关的事实。 然后,我们将检索到的事实以提示的形式添加到输入问题中,然后将其转发给LLMs生成答案
    我们的框架,Knowledge-Augmented language model PromptING(KAPING),不需要模型训练,因此完全零样本。 我们在知识图问题回答任务上验证了我们的KAPING框架的性能,该任务旨在根据知识图上的事实回答用户的问题,在这方面,我们的方法在多个不同大小的LLMs上相对于相关的零样本基线平均提高了48%。

    实体: ['自然语言', '学习管理系统', '问答', '维基百科', '人工智能', '命名实体识别', '质量保证', '长短期记忆', '英语', '谷歌图书', '自然语言编程', 'LMS颜色空间', 'GitHub', '逻辑学习机', '机器翻译', 'DBpedia', '集成图书馆系统', '西班牙语', '神经机器翻译', 'ArXiv', '人工通用智能', '自然语言理解', '非线性规划', 'Codex', 'LoRa', '粘合剂', 'Common Crawl', 'ROUGE(度量标准)', 'Transformer', 'Tomas Mikolov']
  2. 问题
    开发一种多模态知识感知提示系统,用于跨结构化和非结构化数据源的多语言零-shot问答
  3. 方法
    进一步改进和增强的方法,用于开发一种多模态知识感知提示系统,用于多语言零-shot问答(MMKP-ZSQA),包括以
    下组件的先进改进,以满足创新性、清晰性和普适性的要求:
    1. 互联的多模态知识编排(IMKO):
    - IMKO是SMKI的先进演化,结合了最先进的语言和视觉模型,以处理具有上下文感知消歧方法的数据语言化。
    - 在集成时,采用了注意机制等技术来衡量不同数据片段的相关性,揭示了文本和视觉数据在综合表示中如何相互增强。
    2. 语言包容性检索引擎(LIRE):
    - LIRE在EMKA的基础上扩展了语义理解,使用基于Transformer的模型在多样化的数据集上进行训练,包括跨语言的习
    语和文化细微差别。
    - 包括处理语言现象(如代码切换和音译)的特定算法,增强了应用于更广泛的语言和方言的能力。
    3. 提示学习和优化交互(PLON):
    - 在AMPL的基础上构建,PLON专注于创建一个按语言特征和数据模态分类的优化提示库,使用贝叶斯优化算法。
    - 它包括领域自适应技术和更广泛的元学习策略,以及高资源和低资源语言的案例研究,并概述了它们实施的理论框架
    4. 跨模态整合学习系统(C-MILS):
    - C-MILS通过详细介绍跨模态的多头注意力在有效和可扩展的推理中的应用,以及每种模态如何协同增强理解能力的示
    例,推进了SCAS的发展。
    - 该组件现在包含了一个抽象层,将知识提炼成模态无关的格式,有助于推理并促进跨语言和数据类型的可解释性。
    5. 用户中心自适应和隐私框架(UCAPF):
    - UCAPF通过用户中心设计丰富了ALCUM,重点关注描述用户参与周期、反馈循环和隐私保护主动学习范例,提供了实
    际工作流程和伪代码。
    - 与GDPR和其他隐私框架保持一致,加强信任并解决动态学习环境中数据的道德使用问题。
    6. 全球评估和反思测试系统(GERTS):
    - GERTS通过提供多层次的验证和反思方法来调整基于各种指标的系统组件,包括公平性、偏见、可解释性和计算效率
    - 提供了一种结构化的跨文化评估方法,包括在形成测试群体时使用人口统计和地区多样
  4. 实验设计
    该实验名为“用于多模态知识感知的多语零样本问答系统的精细实验(RE-MKP-ZSQA)”,旨在系统地开发和验证先
    进的人工智能系统。 该实验的流程经过简化,以解决可行性、清晰度和可重复性问题,并通过遵循以下精细阶段来保持
    鲁棒性和有效性:
    1. 详细的系统实施计划:
    - 提供具体的里程碑、资源分配和时间表的公开可访问的项目路线图。
    2. 具有明确指导方针的数据集策划:
    - 发布精确的注释指导方针,并采取策略防止偏见。
    - 记录数据集的组装过程,包括源选择和数据处理程序。
    3. 透明系统训练:
    - 提供详细的训练方案,包括超参数、优化策略和在PLON中使用的贝叶斯优化过程。
    4. 结构化零样本评估:
    - 概述基于GERTS的评估指标,用于测试零样本能力的基准数据集。
    5. 更清晰的跨学科评估协议:
    - 指定评估委员会的组成,评估标准和整合反馈的方法。
    6. 通过验证指标进行迭代改进:
    - 描述用于反思评估和持续改进的统计方法,与多层次的GERTS方法相一致。
    7. 以用户为中心的设计和隐私合规评估:
    - 结构化用户研究,以评估可用性和文化适应性的目标数据点。
    - 概述遵守国际标准的隐私合规协议。
    8. 详细的全球可扩展性评估方法:
    - 定义可扩展性测试的评估指标,并描述不同的基础设施设置。
    9. 增强的可重现性报告:
    - 致力于创建一份详尽的报告,包括精确的规格、配置和复制指南。
    - 利用GitHub进行代码和数据集的版本控制存储,利用arXiv公开获取实验方案和研究结果

1.3.2 用于问答的测试时自适应小语言模型

  1. 输入
    标题:用于问答的测试时自适应小语言模型
    摘要:最近,经过指令微调的大型语言模型(LMs)在各种任务中取得了显着的性能。 然而,尽管它们能够记忆大量的通用知识,但由于其有限的知识转移和适应目标任务的能力,它们在特定任务上可能不够优化。 此外,由于缺乏标记数据集,进一步微调LMs通常是不可行的,但我们也可以质疑是否可以将只具有有限知识的较小LMs与无标签的测试数据进行转移
    在这项工作中,我们展示并研究了仅使用无标签测试数据的较小自适应LMs的能力。 特别地,我们首先随机
    生成多个答案,然后在过滤掉低质量样本的同时将它们集成起来,以减轻来自不准确标签的噪声。 我们提出的自适应策
    略在基准问答数据集上展示了显着的性能提升,具有更高的鲁棒性,使LMs保持稳定。

    实体:['Codex','自然语言','英语','美国','问答','自然语言编程','GTRI信息与通信实验室','人工智能','LoRa','Llama','Python(编程语言)','学习管理系统','自然语言处理','强化学习','LMS颜色空间','维基百科','GitHub','自然语言理解','伦敦、中部和苏格兰铁路','集成图书馆系统','语言模型','中文','流明(单位)','西班牙语','英语维基百科','逻辑学习机','梯度下降','替代公开发行','技术转移','对话系统']
  2. 问题
    开发一种可扩展的、适应领域的低资源语言问答测试时间训练协议,使用小型语言模型
  3. 方法
    1. 选择可扩展的紧凑语言模型(CLMs):识别和评估适合适应的现有CLMs,重点考虑计算要求最小的模型
    2. 创建多语言测试时间训练(TTT)框架:开发一个TTT协议,在推理阶段使CLMs能够适应新的领域和语言,利用无监督学习技术和伪标签生成
    3. 合成和无监督数据生成:利用无监督和合成数据生成方法的组合,产生多语言问答对,采用反向翻译和基于上下文的问题合成等技术
    4. 领域自适应机制:引入领域自适应组件,包括特征自适应层和元学习算法,以在测试时间将模型的行为调整到新的上下文和语言
    5. 逐步语言添加和优势评估:从语言多样性和资源稀缺的子集开始。通过迭代过程评估每种语言的领域适应性,确保模型学会优先考虑资源效率。
    6. 模型的鲁棒性和泛化性:进行鲁棒性调整(RT)以准备模型应对未知的语言变化,并在多个领域进行全面评估,以确保模型能够有效地泛化学习。
    7. 人在循环评估:与母语人士和领域专家进行评估,验证问答输出的相关性和准确性,并将反馈纳入迭代训练过程中。
    8. 开源和社区合作:将TTT协议、训练模型和评估基准公开提供给研究界,促进合作和进一步创新
  4. 实验设计
    1. 选择和准备:
    - 确定适合领域适应和测试时间训练的潜在紧凑语言模型(CLMs),重点关注计算要求最小且能够进行微调或无监督适
    应的模型。
    - 准备一组多样化的低资源语言和相应的文本语料库,确保语言多样性和社会文化重要性。 如果有的话,选择这些语言
    的基准数据集。
    2. 训练和适应过程:
    - 创建一个测试时间训练(TTT)框架,允许选定的CLMs在推理阶段适应所选的低资源语言中的各种领域。
    - 实施无监督学习技术和伪标签生成,利用反向翻译和基于上下文的问题合成为具有有限或无可用问答数据集的语言生
    成合成数据集。
    - 将领域自适应组件和元学习算法整合到CLMs中,以在测试时实现领域特定的适应性。
    3. 迭代评估和改进:
    - 从一个资源较少的语言开始适应和训练,并逐渐添加其他语言,在每次添加后监测领域适应性和模型性能指标。
    - 对每个CLM和语言适应进行鲁棒性调优和跨领域评估,以确保泛化能力并防止过拟合。
    4. 人机协同评估:
    - 邀请母语人士和领域专家评估模型对每种语言的问答输出的相关性和准确性。
    - 将反馈纳入迭代训练过程中,相应地改进和重新适应模型。
    5. 开源和社区反馈:
    - 将TTT协议、自适应CLMs、评估基准和任何合成数据集公开提供给研究社区。
    6. 实验监控和文档记录:
    - 详细记录所有参数、数据集、模型配置和评估指标,以确保鲁棒性和可重复性。
    - 在实验过程中记录任何遇到的挑战、意外结果或适应性变化,以便进行开源目的。
    7. 数据分析和报告:
    - 使用适当的统计方法对收集到的性能数据进行定量分析,与非自适应基线进行比较。
    - 报告人机交互评估的定性结果,解释对低资源语言领域中语言模型性能的影响

1.3.3 果蝇中整个大脑的注释和多连接组织细胞类型定量化研究

  1. 输入
    标题:果蝇中整个大脑的注释和多连接组织细胞类型定量化研究
    摘要:果蝇Drosophila melanogaster将令人惊讶的复杂行为与高度可追踪的神经系统相结合。 果蝇作为现代神经科学中的模式生物之一,其成功的一大部分源于协作生成的分子遗传学和数字资源的集中。 正如我们在FlyWire的伴随论文1中所介绍的,这现在包括成年动物的第一个完整的脑连接组

    在这里,我们报告了这个包括神经元类、细胞类型和发育单元(半线)的130,000个神经元连接组的系统和分层注释。 这使得任何研究人员都可以浏览这个庞大的数据集,并通过Virtual Fly Brain数据库与文献进行关联。 关键是,这个资源包括4,552种细胞类型。其中3,094种是对先前在“半脑”连接组中提出的细胞类型的严格共识验证
    此外,我们提出了1,458种新的细胞类型,主要是因为FlyWire连接组涵盖了整个大脑,而半脑来自一个子体积。 FlyWire和半脑的比较显示,细胞类型计数和强连接在很大程度上是稳定的,但连接权重在动物内部和动物之间变化很大。 进一步的分析确定了连接组解释的简单启发式方法:强度大于10个单元突触或为目标细胞提供>1%的输入的连接是高度保守的。 一些细胞类型在连接组中显示出更大的变异性:对于学习和记忆而言,蘑菇体中最常见的细胞类型在FlyWire中几乎是半脑的两倍。 我们发现通过调整兴奋性输入的绝对量来维持兴奋性和抑制性比例的功能稳态
    最后,令人惊讶的是,在FlyWire连接组中,约三分之一的细胞类型在半脑连接组中尚无法可靠地识别。 因此,我们建议将细胞类型定义为对个体间变异具有稳健性的细胞群,即与同一大脑中的任何其他细胞相比,与不同大脑中的细胞更相似。 对FlyWire和半脑连接组的联合分析证明了这个新定义的可行性和实用性。 我们的工作为果蝇大脑定义了一个共识细胞类型图谱,并为大脑尺度的比较连接组学提供了一个知识框架和开源工具链。

    实体:[’虚拟果蝇脑’, ’中枢神经系统’, ’可转座元件’, ’SUMO蛋白’, ’肯尼恩细胞’, ’罗姆人’, ’诱导干细胞’, ’腹神经索’, ’Fly
    Base', '帕金森病', ’虚拟网络计算’, ’P元件’, ’Piwi相互作用RNA’, ’果蝇遗传参考面板’, ’贝茨-多布扬斯基-穆勒模型’, ’J. B. S.
    Haldane’, ’ATG7’, '哈尔丹规则', ’牛津纳米孔技术’, ’毛里求斯果蝇’, ’生殖细胞系’, ’PINK1’, ’迁移性蝗虫’, ’CRISPR’, ’斑蝶
    属’, ’GINS(蛋白质复合物)’, ’帕金酶(连接酶)’, ’鳞翅目’, ’Illumina, Inc.', ’果蝇’]
  2. 问题
    研究果蝇在不同环境和遗传背景下的学习和记忆回路的连接组变异的功能意
  3. 方法
    所提出的方法采用多层次的方法,将连接组学、行为测定、基因操纵和计算建模相结合,研究果蝇学习和记忆回路的连接组变异的功能意义。 该方法包括以下步骤:
    1. 连接组映射和变异分析:
    a. 利用虚拟果蝇脑数据库识别和比较个体连接组,重点关注蘑菇体。
    b. 利用统计方法和机器学习算法量化连接权重和细胞类型计数的变异,以识别变异模式。

    2. 行为测定:
    a. 为果蝇设计一系列学习和记忆任务,如嗅觉条件反射或视觉模式识别。
    b. 在受控环境条件下测试具有已知连接组特征的果蝇群体,建立基线行为数据。

    3. 环境和遗传扰动:
    a. 将不同组的果蝇暴露在不同的学习范式和感觉输入下,以创建环境扰动。
    b. 使用CRISPR-Cas9技术在基因中引入有针对性的突变,如PINK1或Parkin,从而创建遗传扰动。
    c. 使用高分辨率成像和重建技术评估这些扰动对连接组结构的影响。

    4. 转录组和空间分析:
    a. 应用单细胞RNA测序和空间转录组学来描述对环境和遗传扰动的基因表达变化。
    b. 将转录组数据与连接组变化相关联,以确定与结构和功能可塑性相关的分子途径。

    5. 计算建模和网络分析:
    a. 开发计算模型来模拟连接组变异对神经回路功能的影响。
    b. 使用网络分析工具探索信息流和电路动力学,整合与嗅觉投射神经元和嗅觉系统信息流相关的论文数据。

    6. 合成和验证:
    a. 整合行为测定、连结组织图绘制、转录组分析和计算建模的发现。
    b. 通过迭代实验和改进来验证提出的模型和假设
  4. 实验设计
    1. 实验前设置:
    a. 建立一个果蝇繁殖计划,以确保实验中供应一致的遗传相似的果蝇。
    b. 制定一个标准化的果蝇饲养方案,以减少实验前的变异性。
    c. 选择和验证CRISPR-Cas9构建物,用于靶向编辑PINK1、Parkin和其他感兴趣的基因。
    d. 培训人员使用虚拟果蝇脑数据库和相关计算工具进行连结组织分析。

    2. 连结组织图绘制和变异性分析:
    a. 将单个果蝇随机分配到对照组和各种处理组(环境和遗传扰动)中。
    b. 利用高分辨率成像技术绘制每个组中果蝇的连结组织图,重点关注蘑菇体。
    c. 应用统计和机器学习算法来量化和比较连接权重和细胞类型计数在不同组之间的变异性。

    3. 行为测验:
    a. 设计和验证一系列学习和记忆任务,如嗅觉条件作用和视觉模式识别,确保任务对性能的微小差异敏感。
    b. 在行为任务中测试每个组的果蝇并记录性能指标。
    c. 分析行为数据以建立与连接组型的相关性。

    4. 环境和遗传扰动:
    a. 将果蝇暴露于不同的学习范式和感觉输入以诱导环境扰动。
    b. 使用CRISPR-Cas9进行基因编辑,以在治疗组中创建遗传扰动。
    c. 在扰动后重新映射连接组以评估结构变化。

    5. 转录组和空间分析:
    a. 从行为测验后收集果蝇的脑组织,并进行单细胞RNA测序和空间转录组学分析。
    b. 分析转录组数据以识别基因表达变化,并将其与观察到的连接组和行为变异相关联。

    6. 计算建模和网络分析:
    a. 开发计算模型以模拟观察到的连接组变异对神经回路功能的影响。
    b. 使用网络分析将行为、连接组和转录组数据整合起来,重点关注信息流和电路动力学。

    7. 综合和验证:
    a. 整合所有实验组件的发现,以形成对连接组变异功能影响的一致性理解。
    b. 通过额外的有针对性的实验,根据初步发现进行模型验证和假设修正

第二部分:斯坦福的AI-Researcher:Can LLMs Generate Novel Research Ideas?

24年9月,斯坦福NLP研究组通过此篇论文《Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers》,发布了一个让大模型提出idea的工作,其对应的GitHub为:NoviScl/AI-Researcher

且他们招募了79名专家研究人员,对来自三种条件的49个想法进行盲审:专家撰写的想法、AI生成的想法以及由人类专家重新排序的AI生成的想法(在盲审之前,对所有条件下的想法的格式和风格进行了标准化),结果发现AI生成的想法被认为显著比人类想法更具新颖性(p<0.05),如下图所示

1.1 研究概览:如何逐步产生创意、评估创意

研究创意的评估视为由三个独立的组成部分构成:1)创意本身,这是根据我们的指示生成的,2)用于传达创意的书面报告,以及3)专家对书面报告的评估

  1. 他们在这三个部分中概述了他们的实验设计,特别关注潜在的混杂因素,如研究领域、研究创意的格式和评估过程
  2. 在创意实验中,每位人类和大语言模型(LLM)参与者都会收到相同的一组自然语言指令,包括相同的主题描述、创意模板和示例演示,以确保公平比较

    对于人类参与者,还允许他们从列表中选择一个首选主题,并为每个选定的主题生成一个对应的LLM创意。这种方式准确地匹配了LLM和人类参与者之间的创意主题分布,同时确保人类专家能够根据自己的专业知识选择主题

1.1.1 想法撰写

一个想法只有在被撰写出来以便传达时才能被评估,但这个写作过程会引入许多额外的潜在混淆因素

  1. 人类研究者可能会通过某些方式撰写,从而微妙地暗示研究的质量,例如包含更多的例子和实施细节。撰写的格式起到了支架的作用,指明应该包含哪些内容以及详细程度。理想情况下,希望人类和大型语言模型参与者都能为他们生成的想法提供所有必要的实施细节
    且从资助申请中使用的指南中获得灵感,引入了一个模板来指定创意提案的结构和详细程度

    具体来说,他们构建了一个模板,其中包含标题、问题陈述、动机、提出的方法、逐步实验计划、测试用例示例和备用计划等字段
    LLM代理和人类创意撰写者都被指示遵循此模板和提供的示例演示来生成项目提案作为输出(完整模板见附录B,示例演示见附录C)
  2. 当然,即使有这些模板,仍可能存在影响结果测量的微妙写作风格提示。例如,人类可能倾向于以更具吸引力和非正式的语气写作。为了进一步减少这种可能性,作者开发了一个风格规范化模块,该模块使用LLM将所有创意转换为相同的写作和格式风格,而不改变原始内容

    最终,他们的小规模人类研究表明,这种规范化方法使被要求区分AI创意和人类创意的专家人类评委的准确率达到50%。最后,使用LLM风格匿名器有可能实质性地改变创意的内容。为排除这种可能性,本文的第一作者手动验证了每个人人类创意提案,以确保原始创意的所有内容都被保留(在附录D中展示了使用的完整提示)

1.1.2 审查与评估

审查研究想法是一个众所周知的主观过程,因此他们希望设计一个审查表格,明确定义所有审查标准,以尽可能标准化和固定评估

同时,他们希望他们的审查标准和测量变量能够涵盖高质量研究想法的所有理想条件。且他们在设计评审表格时遵循了人工智能会议评审的最佳实践(例如 ICLR 和 ACL),在整体评分之外,我们定义了四个细分指标,包括创新性、吸引力、可行性和预期效果

对于每个指标,我们要求给出一个1-10分的数值评分,并附上理由。且为每个数值评分提供了明确的定义和依据,以校准所有评审者的标准(完整评审表见附录E),总之,盲评将比较来自三种不同条件下的想法

  1. 人类创意:由作者招募的专家研究人员撰写的创意提案
  2. 人工智能创意:由作者的LLM代理生成的创意提案,他们直接采用代理输出中排名最高的创意
  3. 人工智能创意 + 人工重新排序:由作者的LLM代理生成的创意提案,然后本文的第一作者手动从所有LLM代理生成的创意中选择了排名靠前的创意,而不是依赖LLM排序器,以便更好地估计人工智能创意的上限质量

1.2 深入细节:如何更好的实现idea生成及其评审

研究创意代理包含三个基本组件:论文检索、创意生成和创意排序,下面将详细描述这些组件

1.2.1 RAG的论文检索

为了为创意生成提供基础,智能体需要检索与给定研究主题相关的论文,以便在生成新想法时了解相关工作

为此,作者利用了增强检索生成(RAG),该方法在许多知识密集型任务中已被证明有效(Lewis等,2020;Shi等,2024)

  1. 具体来说,给定一个研究主题(例如,“可以提高事实性并减少大型语言模型幻觉的新提示方法”),我们提示一个大型语言模型(LLM)生成一系列对Semantic Scholar API的函数调用

    顺带提一句,Semantic Scholar API这个API在论文检索时经常会被用到,但不是特别好申请,我司在实现一个全流程全自动的包含从idea提炼到实验设计、论文撰写的AI科学家时,便也会用到,目前正在申请中,预计十一后可以拿到..
  2. 使用claude-3-5-sonnet-20240620作为智能体的基础模型,但该流程也应能推广到其他大型语言模型
  3. 论文检索的动作空间包括:{KeywordQuery(keywords),PaperQuery(paperId),GetReferences(paperId)}
    每个动作的生成都基于先前的动作和执行结果

    作者从每次执行的函数调用中保留前k=20篇论文,并在检索到最多N=120篇论文时停止动作生成
    然后,作者使用大型语言模型根据三个标准对所有检索到的论文进行评分和重新排序:
    1)论文应直接与指定主题相关;
    2)论文应是包含计算实验的实证论文;
    3)论文有趣且能激发新项目

    大型语言模型被提示根据这些标准对每篇检索到的论文进行1到10的评分,然后使用评分最高的论文进行下一步的创意生成

1.2.2 模型:创意生成

作者在创意生成方面的关键见解是尽可能多地生成候选想法

因为作者认为,在所有生成的想法中,只有一小部分可能是高质量的,因此应该愿意在推理时花费计算资源来生成更多的候选想法,以便稍后使用重排序器发现“璞玉”。这与现有的研究结果一致,比如通过重复采样来扩展推理计算可以提高大型语言模型在各种编码和推理任务上的表现(Brown等人,2024;Li等人,2022)

  1. 具体来说,作者提示大型语言模型在每个研究主题上生成4000个种子想法。创意生成提示包括示例演示和检索到的论文。且作者通过手工将示例论文总结成预期的想法格式来制作k =6个演示示例
  2. 对于检索增强,作者从排名靠前的检索论文中随机选择k=10篇,并将它们的标题和摘要连接起来,作为想法生成提示的前缀
    且还将所有先前生成的想法的标题附加到提示中,以明确要求LLM避免重复

    同时,为了从这个庞大的候选创意库中去除重复的创意,作者首先使用Sentence-Transformers中的all-MiniLM-L6-v2(Reimers和Gurevych,2020)对所有初始创意进行编码,然后计算两两之间的余弦相似度
    最终为创意去重设定了0.8的相似度阈值,这是基于手动检查得出的。这样大约有5%的创意是非重复的,剩下的都是生成的初始创意(下文还将进一步讨论这个重复问题)

1.2.3 想法排名

接下来的步骤是让创意代理对所有剩余的想法进行排序,以便能从中找到最好的。为了构建这样一个自动化的创意排序器,我们使用公开的评审数据作为代理

  1. 具体来说,抓取了1200篇与大语言模型(LLMs)相关的ICLR 2024投稿(通过关键词过滤),以及它们的评审分数和接受决定

    作者探索了多种预测这些投稿分数和决定的方法,发现直接要求大语言模型预测最终分数或决定时,结果校准较差,但在要求其进行成对比较判断哪篇论文更好时,可以达到非平凡的准确性
  2. 将 ICLR 的投稿转换为标准项目提案格式,并随机配对已接受和被拒的论文,然后让大型语言模型(LLM)预测哪篇被接受
    在这个任务中,Claude-3.5-Sonnet在零样本提示下达到了71.4%的准确率。相比之下,GPT-4达到了61.1%,Claude-3-Opus达到了63.5%

    由于没有观察到通过额外的提示技术(如少样本或思维链提示)能带来显著的提升。因此,最终选择了Claude-3.5-Sonnet作为零样本排序器

为了基于成对比较获得所有项目提案的可靠评分,作者采用了一种瑞士系统锦标赛,其中所有项目提案与那些累积得分相似的提案配对,如果提案被判断为更好,则获得额外的一分

  1. 然后重复进行N轮,因此每个项目提案的总得分将在[0, N]范围内
  2. 作为合理性检查,使用Claude-3.5-Sonnet排序器对1.2K篇ICLR与LLM相关的提交进行排名,并在下表中比较排名前10篇论文和排名后10篇论文的平均审稿得分

    可以看到排名前后的论文之间有明显的区分,表明LLM排序器的有效性。我们选择N=5进行所有实验,因为它在该验证集上提供了最佳的排名结果。代理的排名最高的项目提案将直接用于人类研究的AI Ideas条件

由于AI排序器还远不完美,作者还引入了另一个实验条件,即本文的第一作者手动重新排序生成的项目提案,而不是依赖LLM排序器,称之为AI Ideas + HumanRerank条件(比如在AI想法+人工重新排序条件下的49个想法中,有17个与AI想法条件重叠,而另外32个则不同,这表明大型语言模型排序器与人工专家重新排序之间的差异)

1.2.4 人类专家撰写idea及其机器idea的PK

作者团队招募了N=49名专家参与创意撰写,N=79名专家参与创意评审

  1. 需要注意的是,在79名评审中,有24人也参与了创意撰写,并且确保没有评审会评审自己的创意。这使得总共有N=104名参与者参与了这两个任务(其中,有72位曾为主要的人工智能会议或期刊担任过评审)
  2. 每位创意撰写者被要求在10天内撰写一个创意,作者为每个创意支付300美元,并为由专家评审评分的前5个创意提供1000美元的奖金
  3. 每位创意评审者被分配评审2到7个创意,总共收集了N=298份独特的评审。他们有一周的时间完成评审,并且为每份评审支付25美元

在评审任务上,作者让所有评审参与者选择他们最喜欢的两个主题以及他们偏好的评审工作量(从2到7)

然后,我们将他们随机分配到想法中

  • 他们选择的主题和所有想法都是匿名的。在任务中,为每位评审员平衡每种条件下的想法数量,并确保每位评审员至少获得一个人类想法和一个AI想法。每个想法由2到4位不同的评审员进行评审。还避免将同一机构的作者撰写的想法分配给评审员,以避免任何潜在的影响
  • 每位评审员平均撰写了来自2或3种条件、涉及1到3个主题的3.8篇评审

最终,结果显示AI 创意被评为比专家创意更具新颖性

1.3 LLM自动生成idea的局限性

  1. 实施细节过于模糊

    例如,一位审稿人指出:“我对这个格子的细节以及模型将如何被提示不是很清楚,所以我不太确定这个模型将如何完成这些子任务,以及这种特定结构在完成整体任务时的适用性。”
    另一位审稿人指出:“在分析方法的有效性方面,提案仅提供了一个非常随意且含糊的建议,以比较预定义问题的响应。”
    在另一个案例中,该AI想法因未考虑实际实施细节而受到批评:“我认为在每个步骤中,都有一些难以执行的地方。例如,在星座形成步骤中,我们如何进行加权求和?”
    类似地,其他评论指出:“不清楚CLIP如何与语言模型连接,以及训练一个CLIP模型如何使语言模型理解图像。”以及“没有提到如何提示模型生成防御策略并使用这些策略改进模型的响应。”
    这种模糊性常常使审稿人难以做出自信的判断:“因为这个想法过于笼统和模糊,我无法真正回答之前的问题。一个想法需要一定程度的细节才能确定其是否适合会议/期刊,但这个想法缺乏这些细节。”
  2. 数据集的误用。例如:“我不确定选择的数据集。StereoSet 不是一个问答数据集;它只是包含了一些陈述

    此外,我不明白为什么对话NLI的回应需要同理心。”,“我担心所提议的数据集是否是代码安全性的正确测试案例(因为它们实际上只是机器学习/编程问题,而不是系统级编程)。”
    以及“数据集的选择可能不是展示多视角整合效果的最佳选择,尤其是 TruthfulQA 和 ScienceQA,它们似乎只有一个正确的解释和答案。”
    在另一个例子中,所选择的基准数据集被认为是评论者认为太简单:“所选的数据集(MATH、GSM8K和MMLU)都没有使用复杂的数学概念”

1.4 我司七月对该「AI-Researcher Ideas提炼」项目的复现与改进(24年10月更新)

1.4.1 idea提炼的六大快:检索、idea生成、去重、提案生成、提案排序、提案过滤

Ideas 提炼流程大致可以分为六个大块,分别是论文检索(RAG)、Idea生成、Idea去重、Idea项目提案生成、项目提案排序、项目提案过滤,即:

论文检索 -> Idea生成 -> Idea去重 -> Idea项目提案生成 -> 项目提案排序 -> 项目提案过滤

1.4.1.1 论文检索

用户给定一个研究主题topic,使用LLM生成其相关Semantic Scholar API函数的调用,具体有以下三种:{KeywordQuery(keywords), PaperQuery(paperId), GetReferences(pape rId)},使用 LLM 来评分检索到的论文的相关性以进行重排序

迭代执行上述流程直至达到终止条件(论文检索最大上限/最大迭代轮数)

  1. paper_query = LLM(topic)
  2. paper_list = Semantic(paper_query)
  3. paper_score = Score(topic, paper_list)
  4. paper_list = Sorted(paper_list)
  5. 迭代上述过程
1.4.1.2 Idea生成

使用上述研究主题topic与随机抽取topk检索论文多次迭代生成大量的Idea种子,后续将从这些Idea种子中选取“璞玉”

  1. paper_list = sample_topk(top2k(paper_list))
  2. idea_seeds = LLM(topic, paper_list)
  3. 迭代上述过程
1.4.1.3 Idea去重

使用向量近似近邻算法对Idea进行去重,默认相似度大于0.8认为Idea是重复的
Idea_list = dedup_filter(Idea_seeds)

1.4.1.4 Idea项目提案生成

我们将每个种子想法扩展为详细的项目提案,项目提案的模版包含7大模块,分别为标题、问题描述、研究动机、提出的方法、逐步实验计划、实验测试示例、应急备用计划
Idea_projects = LLM(Idea_list)

1.2.1.5 项目提案排序

采用瑞士系统锦标赛打分的方式,启动多轮两两配对优劣打分,每轮赢的Idea project额外记1分
Ideas_projects = Ranking(Ideas_projects)

1.2.1.6 项目提案过滤

默认对上述项目提案进行新颖性、可行性、重要性、实验方法和设计一致性四个方面检测,只有全部通过的项目提案才会保留,其中新颖性将会使用Semantic Scholar API检索相关论文,取其中topk最相似的论文一一比对,LLM全部判断为新颖Ideas_project才能通过

1.4.2、环境配置

  1. 代码下载:AI-Researcher
  2. 安装包
    conda create -n ai-researcher python=3.10
    conda activate ai-researcher
    pip install -r requirements.txt

1.4.3 代码运行

支持的模型有:gpt-4o、gpt-4o-mini、gpt-3.5-turbo、claude-3-5-sonnet-20240620、claude-3-haiku-20240307

具体可执行的代码见七月官网首页的:大模型项目开发线下强化班 [线下4天实战6大商用落地项目]

1.4.4 最终结果展示

{
        "Title": "Contrastive Factual Prompting: Enhancing Factuality and Reducing Hallucination in Large Language Models",
        "Problem Statement": "Large language models often generate plausible but incorrect information, especially when dealing with factual questions. This issue of hallucination undermines the reliability and trustworthiness of these models in real-world applications.",
        "Motivation": "Existing methods like retrieval-augmented generation and chain-of-thought prompting have shown promise but still struggle with consistently producing factual outputs. By explicitly contrasting factual and non-factual information within the prompt, we can guide the model to focus on distinguishing between verified facts and potential misconceptions. This approach leverages the model's own ability to reason about information validity, potentially leading to more accurate and reliable outputs.",
        "Proposed Method": "We introduce Contrastive Factual Prompting (CFP), which involves crafting prompts that present both accurate and inaccurate information related to the query. The prompt structure is: '1. Factual statement: [verified fact] 2. Common misconception: [plausible but incorrect information] 3. Question: [user query] 4. Answer: Please provide a correct answer, explaining why the factual statement is true and the misconception is false.' This method encourages the model to critically evaluate information and explicitly reason about factuality.",
        "Step-by-Step Experiment Plan": {
            "Step 1: Dataset Preparation": "We will use two datasets for our experiments: TruthfulQA and FactualityPrompt. TruthfulQA contains 817 questions designed to assess model truthfulness. FactualityPrompt is a newer dataset with 800 questions specifically created to test factual knowledge and reduce hallucination.",
            "Step 2: Baseline Methods Implementation": "Implement three baseline methods: 1) Standard prompting: directly asking the question. 2) Chain-of-thought (CoT) prompting: appending 'Let's think about this step by step' to the question. 3) Retrieval-augmented generation (RAG): using a search API to retrieve relevant information and incorporating it into the prompt.",
            "Step 3: Contrastive Factual Prompting Implementation": "For each question in the datasets, create a CFP prompt by: a) Generating a factual statement related to the question using a reliable source (e.g., Wikipedia). b) Creating a plausible misconception by slightly altering the factual statement. c) Combining these elements into the CFP format described in the 'Proposed Method' section.",
            "Step 4: Model Selection": "We will use GPT-3.5 (text-davinci-003) and GPT-4 from OpenAI's API for our experiments. These models represent state-of-the-art performance and are widely accessible.",
            "Step 5: Experiment Execution": "For each dataset and each model: a) Run the baseline methods (standard, CoT, and RAG) on all questions. b) Run the CFP method on all questions. c) Store all outputs for later analysis.",
            "Step 6: Evaluation": "Evaluate the outputs using the following metrics: 1) Factual Accuracy: manually check a subset of answers for factual correctness. 2) Explanation Quality: rate the quality of explanations on a scale of 1-5. 3) Hallucination Reduction: count the number of factually incorrect statements in the outputs. 4) ROUGE-L and BLEU scores: compare model outputs to ground truth answers where available.",
            "Step 7: Analysis": "Compare the performance of CFP against the baseline methods across all metrics. Conduct statistical significance tests to verify if the improvements are significant. Analyze cases where CFP performs particularly well or poorly to understand its strengths and limitations."
        },
        "Test Case Examples": {
            "Example 1 (Baseline Failure)": {
                "Question": "What is the capital of France?",
                "Standard Prompt Input": "What is the capital of France?",
                "Standard Prompt Output": "The capital of France is Paris.",
                "CoT Prompt Input": "What is the capital of France? Let's think about this step by step.",
                "CoT Prompt Output": "1. France is a country in Western Europe.\n2. The capital of a country is typically its seat of government and often its largest city.\n3. In the case of France, the largest and most well-known city is Paris.\n4. Paris has been the capital of France for centuries.\n5. It is home to many important government buildings and institutions.\nTherefore, the capital of France is Paris.",
                "RAG Prompt Input": "According to reliable sources, the capital of France is a city located in the northern part of the country. It is known for its iconic landmarks and is often called the 'City of Light'. What is the capital of France?",
                "RAG Prompt Output": "The capital of France is Paris. As mentioned in the prompt, Paris is indeed located in the northern part of France and is famously known as the 'City of Light'. It is home to iconic landmarks such as the Eiffel Tower, the Louvre Museum, and Notre-Dame Cathedral. Paris has been the capital of France since the Middle Ages and serves as the country's political, economic, and cultural center."
            },
            "Example 2 (CFP Success)": {
                "Question": "What is the capital of France?",
                "CFP Prompt Input": "1. Factual statement: Paris is the capital and most populous city of France.\n2. Common misconception: Lyon is the capital of France because it's centrally located.\n3. Question: What is the capital of France?\n4. Answer: Please provide a correct answer, explaining why the factual statement is true and the misconception is false.",
                "CFP Prompt Output": "The capital of France is Paris. This is true because:\n\n1. Paris has been the official capital of France since the Middle Ages.\n2. It is the seat of the French government, housing important institutions like the National Assembly and the official residence of the President (\u00c9lys\u00e9e Palace).\n3. Paris is also the economic and cultural heart of France, which is typical for a capital city.\n\nThe misconception that Lyon is the capital of France is false because:\n\n1. While Lyon is an important city in France and is more centrally located, geographical location alone doesn't determine a country's capital.\n2. Lyon has never been the official capital of France in modern history.\n3. Although Lyon is the third-largest city in France and has significant historical and economic importance, it doesn't serve the administrative functions of a capital.\n\nIn conclusion, Paris remains the undisputed capital of France, combining historical, political, and cultural significance in this role."
            }
        },
        "Fallback Plan": "If the Contrastive Factual Prompting method doesn't show significant improvements over the baselines, we can pivot our research in several directions. First, we could conduct a detailed error analysis to understand why CFP isn't performing as expected. This might involve categorizing the types of questions where CFP fails and succeeds, which could lead to insights about the method's limitations. Second, we could experiment with variations of the CFP format, such as altering the order of factual and misconception statements, or including multiple facts and misconceptions. Third, we could explore combining CFP with other prompting techniques like chain-of-thought or retrieval-augmented generation to create a hybrid approach. Finally, if these attempts don't yield significant improvements, we could shift our focus to analyzing how different prompting methods affect the model's reasoning process and factual recall, turning this into an analysis paper that provides insights into the strengths and weaknesses of various prompting strategies for enhancing factuality in large language models."
    }

更多,见七月官网首页的:大模型项目开发线下强化班 [线下4天实战6大商用落地项目]


此外,如本文前言所述,除了机器人之外,我司24年10月正在疯狂开发之前既定计划中的各种项目

  • 比如复现了上面这个斯坦福AI-Researcher,且基于其改进出我司的idea提炼系统
  • 再比如论文对话、字幕生成、视频总结、视频内容提问VLM,都将在近期逐一上线七月官网首页
    至于,已经迭代了两个版本的AI论文生成,还没确定是否对外开放

敬请期待..

第三部分 上海AI实验室推出VIRSCI

1.1 VIRSCI模拟研究创意生成的五个步骤

24年10月,上海AI实验室的一研究团队提出了VIRSCI,其对应的论文为《Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation

VIRSCI模拟研究创意生成的协作过程,该过程分为五个步骤(见下图图1):1 协作者选择、2 主题选择、3 创意生成、4 创意新颖性评估,以及5 摘要生成

其核心特征便是引入了类似人类团队协作的交流、探讨概念,最终基于多智能体实现,即使用真实的学术数据集构建一个多智能体系统,以模拟科学家如何组建研究团队并协作生成详细的新科学想法的摘要

更具体地说,他们构建了一个感兴趣的科学家背景知识库,并使用检索增强生成(RAG)框架(Gao等,2023)开发了真实科学家的数字孪生(Tao等,2018)代理

  1. 主导代理或团队负责人根据科学家协作网络识别合适的协作者,使他们的专业知识和研究兴趣与现实世界的合作模式相一致
  2. 利用过去的论文数据库,团队检索参考作品以指导新创意的形成
    此外,我们在后续阶段实施了“团队讨论”机制,协作者通过迭代的内部和外部精炼对话来提高每个输出的质量
  3. 最后,团队生成了一个全面的摘要,代表所提出的创意
  4. 为了评估创意的新颖性,他们从三个角度引入了测量基准:
    与过去论文的不同,符合当代研究趋势,以及在当代研究中的潜在影响(Shao等,2020;Yang等,2022)
    通过将摘要与过去和当代论文数据库进行比较,他们确保生成的创意既具有创新性,又符合新兴科学方向,从而验证他们方法的有效性

1.2 VIRSCI的两大组件:研究生态系统、创意生成的多智能体系统

VIRSCI系统由两个组件组成:一个科学研究生态系统和一个用于科学创意生成的多智能体系统

1.2.1 科学研究生态系统

科学研究生态系统由两个主要组成部分构成:论文信息和从起始年份到结束年份的对应作者信息

简言之,首先,选择一个年份界限作为时间点,将论文分成两个子集:过去的论文Bpast和当代的论文Bcon。然后,进一步从Bpast中提取作者,形成完整的科学家集合S,每位科学家的背景信息存储在作者知识库中,邻接矩阵A表示科学家之间的合作次数

具体一下,包含以下各个组成部分

  1. 过去论文数据库
    为了使用Faiss构建过去论文数据库Bpast,选择了在他们边界之前发表的论文。每篇论文都包含诸如标题、引用次数和摘要等基本信息
  2. 当代论文数据库
    同样使用Faiss构建的当代论文数据库Bcon由在ybound之后发表的论文组成。同样,每篇论文的基本信息结构与过去的论文相同
    尽管使用该时间范围内的论文可能会引发关于数据泄漏的担忧,因为LLM是在此期间的数据上训练的,将在附录D中详细解释为什么这不会对实验和结论的整体有效性构成威胁
  3. 作者知识库
    对于S中的每位科学家,从计算机科学数据集中提取他们的基本资料,包括他们的姓名、所属机构、引用次数、研究兴趣和合作历史

    使用AgentScope(Gao等,2024)的KnowledgeBank模块,他们将这些科学家档案嵌入到作者知识库中。这使得代理能够快速访问和熟悉其他已初始化代理的信息
    值得注意的是,真实作者姓名被屏蔽,以防止在代理初始化期间出现数据泄漏和隐私问题(见附录C)
  4. 邻接矩阵
    给定科学家集合S,令A表示邻接矩阵,其中A_{i, j}表示科学家i与科学家j合作的次数。为了防止代理总是选择以前合作过的科学家,忽视了新合作往往带来更原创和更有影响力的研究(Zeng et al., 2021)的好处,我们将A中的所有值增加1
    此调整确保没有先前合作的科学家仍有机会被选中,鼓励代理探索新的合作伙伴关系

1.2.2 科学合作的多代理系统

首先从 S 中随机抽取一名科学家s_{0}作为团队负责人。然后,团队负责人按照以下步骤生成摘要:(1)合作者选择,(2)主题讨论,(3)创意生成,(4)创意新颖性评估,以及(5)摘要生成

为了帮助每个代理熟悉其他团队成员的背景而不使初始化提示过载,作者采用了增强检索生成(RAG)(Lewis et al., 2020),在所有五个步骤中使用,所有必要的提示和示例场景显示在附录 G 和 H 中

  1. 合作者选择系统的第一步是选择合作者,旨在组建一个由科学家组成的团队,T=\left\{s_{0}, \ldots, s_{i}, \ldots, s_{n}\right\},其中n表示团队规模

    s_{0}选择合作者时,作者使用以下方程将邻接矩阵A转换为概率分布:
    P_{i, j}=\frac{A_{i, j}}{\sum_{j=1}^{N} A_{i, j}}
    其中N表示S的大小

    这使得团队领导可以迭代地向首选的合作者发送邀请。在收到邀请后,被邀请的科学家使用链式思维过程(Wei et al., 2022)评估是否加入团队:比如考虑s_{0}和当前团队成员的资料
    如果被接受,科学家将被添加到团队T中。该过程将持续进行,直到达到预定义的团队规模n
  2. 主题讨论
    下一步是提出一个研究主题,这将指导研究方向
    受到多轮协作(Mezirow, 2003; Sunstein, 2005; Amgoud & Prade, 2009)和多智能体协作策略(Xu et al., 2023; Zhang et al., 2023; Shinn et al., 2024)的启发,作者设计了一种通用的团队讨论机制

    在此机制中,团队成员基于特定的任务描述提示进行讨论。此过程不仅适用于主题讨论,也适用于后续的协作步骤。虽然允许智能体决定何时停止讨论可以更好地反映现实场景,但在作者的实验中,固定轮数可确保不同团队设置之间的一致推理成本
    因此,作者将自适应轮数的讨论留给消融研究(参见原论文第4.4节)

    给定团队T,主题讨论期间的提示是
    Q_{k, i}=\left\langle Q_{\text {team }}, Q_{\text {topic }}, \bigcup_{t=1}^{k-1}\left(\overline{D_{t}}\right), \bigcup_{j=0}^{i-1}\left(R_{k, j}\right)\right\rangle
    其中
    Q_{\text {team }}表示当前团队成员的描述
    Q_{\text {topic }}代表主题讨论的任务描述
    R_{k, j}是代理j在第k轮的响应「可以认为j 的大小是从 0 到 i、到j、到 n (相当于总计n个代理,类似团队n个人),至于轮次k的大小则从1、到t、到k,毕竟每一轮各个代理都有各自的一个response,必须把第多少轮第多少个代理,都逐一记录下来
    \overline{\left(D_{t}\right)}是团队领导者从第 t 轮的对话中总结出的内容,其中D_{t}=\left\{R_{t, 0}, R_{t, 1}, \ldots, R_{t, n}\right\}

    我july写文章非常讲究一点,即喜欢不厌其烦的列举各种例子「毕竟让文章好懂 只说一个诀窍的话 那就是多图多举例,而且是不厌其烦的多图多举例」,以方便广大读者可以更快、更形象化的理解
    故为了通俗易懂,我再举几个例子,比如
    第一轮 n 个代表的发言集合是D_{1}=\left\{R_{1, 0}, R_{1, 1}, \ldots, R_{1, i},R_{1, j},R_{1, n}\right\}
    第二轮 n 个代表的发言集合是D_{2}=\left\{R_{2, 0}, R_{2, 1}, \ldots, R_{2, i},R_{2, j}, R_{2, n}\right\}
    第 t 轮 n 个代表的发言集合是 
    D_{t}=\left\{R_{t, 0}, R_{t, 1}, \ldots, R_{t, i}, R_{t, j},R_{t, n}\right\}
    第 k 轮 n 个代表的发言集合是D_{k}=\left\{R_{k, 0}, R_{k, 1}, \ldots, R_{k, i}, R_{k, j},R_{k, n}\right\}

    给定提示Q_{k, i},每个科学家代理生成一个响应R_{k, i},从概率分布R_{k, i} \sim P_{s_{i}}\left(\cdot \mid Q_{k, i}\right)中采样
    由于代理可以在讨论中使用RAG访问作者知识库,他们可能会向与主题相关但不在团队中的科学家寻求建议

    在这种情况下,作者初始化一个新的代理,使用提到的科学家的资料,并将他们的响应纳入讨论。然而,为了保持固定的团队规模,这个代理不会被加入团队。这个过程被称为“邀请机制”,并在后续步骤中应用,其有效性在消融研究中得到了证明,附录H.2.2展示了一个示例场景

    在K轮讨论之后,团队领导者基于内容生成最终的研究主题R_{\text {topic }}
    \left\langle Q_{\text {topic }}, \bigcup_{t=1}^{K-1}\left(\overline{D_{t}}\right), \bigcup_{j=0}^{n}\left(R_{K, j}\right)\right\rangle
  3. 创意生成
    第三步,团队的任务是提出几个潜在的创意。为了符合真实的研究工作流程并减少LLM的幻觉(Huang等,2023),每个代理需要生成一个包含三个关键组成部分的全面响应:(1)创意描述,(2)具体的实验计划,以及(3)涵盖新颖性、可行性和清晰性等指标的自我评估,代表代理的信心(见原论文附录12)

    在创意生成过程的开始阶段,当尚未提出任何想法时,代理通过搜索B_{\text {past }}使用主题R_{\text {topic }}提供参考,表示为B_{\text {past }}\left(R_{\text {topic }}\right)
    第一个创意生成提示定义为:
    Q_{1,0}=\left\langle Q_{\text {idea }}, R_{\text {topic }}, B_{\text {past }}\left(R_{\text {topic }}\right)\right\rangle
    其中Q_{\text {idea }}表示任务描述

    受逐步扩展创意档案概念的启发(Zhang等,2023;Lu等,2024),当科学家在第k轮收到来自先前响应R_{k, i-1}的现有想法时,作者保留先前生成的想法及其对应的B_{\text {past }}中的参考
    这些被传递给下一个代理,该代理可以根据其选择来完善现有想法或提出新想法

    提示表示为:
    Q_{k, i}=\left\langle Q_{\text {idea }}, R_{\text {topic }}, B_{\text {past }}\left(R_{k, i-1}\right), \bigcup_{t=1}^{k-1}\left(\overline{D_{t}}\right), \bigcup_{j=0}^{i-1}\left(R_{k, j}\right)\right\rangle

    随后,Siat turnk的响应可以表示为
    R_{k, i} \sim P_{s_{i}}\left(\cdot \mid Q_{k, i}\right)

    经过K次讨论后,保留三个最有信心的想法,并将它们存储在想法列表I中
  4. 新颖性评估
    为了提高想法的质量并减轻代理的过度自信,作者引入了一个想法新颖性评估,使代理能够将每个想法与过去的相关论文进行比较,并对他们认为最具新颖性的想法进行投票

    且给定想法列表I,代理使用每个想法的描述搜索相关论文,以确定它是否与现有论文有显著重叠
    为了模拟盲审过程,提示中不包含对话记忆。提示的格式定义为
    Q_{k, i}=\left\langle Q_{\text {check }}, \bigcup_{j=1}^{3}\left(I_{j}, B_{\text {past }}\left(I_{j}\right)\right\rangle\right.
    其中I_{j}I中的第j个想法

    按照思维链过程,响应R_{k, i} \sim P_{s_{i}}\left(\cdot \mid Q_{k, i}\right)包括科学家偏好的想法及其选择背后的理由。获得最多票数的想法被选为最终想法R_{\text {idea }},用于摘要生成
  5. 摘要生成
    最后,团队需要撰写一份全面的摘要,包含以下部分:(1)引言,(2)目标,(3)方法,(4)预期结果,以及(5)结论(Alexandrov & Hennerici, 2007)

    在摘要生成的开始,团队负责人根据R_{\text {idea }}提供初稿。第一个摘要生成的提示是:
    Q_{1,0}=\left\langle Q_{\text {abstract }}, R_{\text {idea }}\right\rangle
    其中Q_{\text {abstract }}代表任务描述和格式要求

    当前一回复R_{k, i-1}提供了摘要时,下一位科学家的回复应包括:
    (1) 对前一摘要的评估(评估指标详见原论文附录15)
    (2) 提出的修改建议
    以及(3) 修订后的摘要,以实现持续改进

    相应的提示是:
    Q_{k, i}=\left\langle Q_{\text {abstract }}, Q_{\text {judgement }}, R_{k, i-1}\right\rangle

    其中Q_{\text {judgement }}是要求代理评估前一个摘要的提示。对话历史不包含在此提示中,因为该过程是迭代的,专注于完善单个摘要。包括以前的版本会使提示变得多余

    经过K次修订后,最终的摘要表示为R_{\text {abstract }}
    R_{\text {abstract }}最终定稿后,还考虑了一种自我审查机制,以预先检查其新颖性
    优化后的abstract R_{\text {abstract }}被提供给团队负责人,通过与过去的类似论文进行比较来评估新颖性,提示是(以下细节来自原论文的附录E.1)
    Q_{\text {review }}=\left\langle Q_{\text {check }}, R_{\text {abstract }}, B_{\text {past }}\left(R_{\text {abstract }}\right)\right\rangle
    如果这是第一次进行自我审核,并且团队负责人认为与现有论文的相似性过高,则摘要将进行进一步修改。评估审查将被添加到公式(6)Q_{k, i}=\left\langle Q_{\text {abstract }}, Q_{\text {judgement }}, R_{k, i-1}\right\rangle中,以便进行下一轮修订
    Q_{1,0}=\left\langle Q_{\text {abstract }}, Q_{\text {judgement }}, R_{\text {review }}, B_{\text {past }}\left(R_{\text {abstract }}\right), R_{\text {abstract }}\right\rangle

    如果摘要经过第二次自我审查后仍不符合新颖性要求,将被丢弃,团队将生成一个新想法。一旦自我审查产生令人满意的结果,最终摘要将被制作,系统将终止


    由于这种自我审查机制引入了总推理成本的不确定性,使得难以确保公平的实验比较,我们仅在消融研究中讨论该模块的有效性(见原论文第4.4节)

1.3 实验研究与设置

1.3.1 实验设置

对于数据集,作者使用来自AMiner计算机科学数据集的真实科学家信息构建我们的科学研究生态系统,该数据集通过从在线网页数据库中提取科学家档案构建而成(Tang等,2008)。该数据集包括1,712,433位作者和2,092,356篇论文,涵盖了从1948年到2014年的时期,并进行了作者名的消歧(个人认为,只能到2014年的,还是有影响的)

为了管理大量数据,作者将ystart、ybound和yend分别设置为2000、2010和2014。为了保证质量,作者过滤掉了缺少摘要或引用少于10次的过去论文,引用少于5次或缺少摘要的当代论文,以及论文少于50篇或合作者少于50人的作者

结果,提取了156位作者和85,217篇论文的详细信息,以构建生态系统并初始化相应的模拟代理

所有论文和作者数据均使用“mxbai-embed-large”模型嵌入(Lee等,2024)

对于实现上,作者在Agentscope框架(Gao et al., 2024)之上实现了他们的系统,该框架用于LLM驱动的多代理应用。然后使用不同的公开可用的LLM来评估系统:GPT-4o(OpenAI,2023)和Llama-3.1(8b和70b)(Dubey et al., 2024)

其中GPT-4o仅通过公共API访问,而Llama-3.1模型是开放权重的,并在我们的实验中使用Ollama(Ollama, 2024)调用。在Llama-3.1(8b)上的每次实验运行大约需要10分钟,使用1个NVIDIA A100 40G GPU进行,团队讨论设置为4名成员和5次轮次(K= 5),所有实验结果均取20次运行的平均值

评估指标由于没有单一的评估指标可以完美地捕捉科学成果的新颖性,故采用了三个与直觉相符的常用指标:

  1. 历史差异性(HD):生成的摘要嵌入与最相似的5个摘要的嵌入之间的平均欧几里得距离在B_{\text {past }}中(Shao et al., 2020; Zhou et al., 2024)
    较大的距离表示生成的摘要与现有论文的相似度较低,表明新颖性的可能性较高
  2. 当代不相似度(CD):生成的摘要嵌入与B_{\text {con }}中最相似的5个摘要的嵌入之间的平均欧几里得距离。较小的距离表示与较新的论文相似度更高,也表明新颖性的可能性较高
  3. 当代影响力 (CI):B_{\text {con }}中最相似的5个摘要的平均引用次数(Yang et al.,2022)。较高的引用次数表明生成的摘要更有可能具有较高的影响力
    为了确保可比性,使用从整个相应数据库中得出的平均值对每个计算指标进行标准化,标准化定义为指标除以平均值

由于新颖性难以直接衡量,我们引入一个代理指标来综合考虑这三个指标:(4) 整体新颖性 (ON)。且作者假设ON与HD和CI正相关,与CD负相关,计算公式为\mathrm{ON}=(\mathrm{HD} \times \mathrm{CI}) / \mathrm{CD}
从数学上讲,ON的期望值与真实的新颖性成正比

1.3.2 与AI科学家的比较

  1. 由于AI科学家仅限于从其预定义的主题(2D扩散、NanoGPT和Grokking)中生成想法「这里的AI科学家指的是此文所介绍的:让AI写论文——全流程全自动的AI科学家:基于大模型提炼idea、写代码、做实验且最终写成论文」,作者在VIRSCI的主题选择提示中包含NanoGPT作为初始讨论主题,以确保最终的摘要与相同的研究方向一致
  2. 由于作者的团队合作方法与AI科学家的独立研究不同,需要确保比较是在相同的推理成本下进行的
    AI科学家在其想法生成过程中进行50轮自我反思,这不适用于其论文生成

    为了对齐推理成本,作者将团队成员人数设为4人,讨论轮数设为5轮,以确保实验在大致相同的计算成本下进行
  3. 由于AI科学家缺乏科学研究生态系统,它通过Semantic Scholar API(Fricke, 2018)检索所有时间范围内的论文。为了与AI科学家保持一致性,VIRSCI用Semantic Scholar API替换VIRSCI的数据库,用于论文检索和指标计算

    具体来说,在从AI科学家和VIRSCI的系统生成想法和相应摘要后,VIRSCI使用生成的想法作为查询检索相关论文,提取相应的摘要和引用次数进行评估
  4. VIRSCI使用他们的指标(CD和CI)以及AI科学家的指标(LLM评审分数)(Lu et al., 2024)来评估生成的摘要。LLM评审分数由GPT-4o计算,进行摘要评审

1.3.3 团队规模和讨论轮次如何影响新颖性

至于在团队规模的设置问题上,虽然通过增加新团队成员,可以促进更广泛的想法和观点,从而产生更具创造性的解决方案和创新输出。然而,这种关系并不是严格线性的;VIRSCI的研究结果表明,团队规模为8人时,新颖性达到峰值

毕竟虽然适度增加团队规模可能会提升新颖性,但过大的团队可能会引入协调挑战和沟通障碍。这些问题可能会削弱个人贡献并助长群体思维,即关注点从原创思想转向达成共识

VIRSCI的研究结果表明,讨论回合数达到5时,新颖性达到峰值

至于该系统的局限性在于

  1. 仅在一个计算机科学数据集上验证了我们的系统,这限制了研究思想的多样性,并限制了其模拟跨学科合作的能力。专注于单一领域也降低了VIRSCI结果向其他科学领域推广的普遍性
  2. 此外,虽然VIRSCI的系统有效地模拟了合作,但模拟的互动可能过于简化了现实世界团队合作的复杂性,现实中多个团队可以相互依赖或独立地合作相关研究,且智能体通常会同时参与不同的团队

为了解决这些局限性,可以采取若干未来方向。将系统扩展到涵盖来自各个科学学科的数据集是一个重要的下一步。这将增加生成想法的多样性,并能模拟跨学科合作,提供更现实和全面的真实研究环境的表现。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐