Biomni：斯坦福大学团队打造首个生物医药领域的AI智能体，从设计实验、数据分析到药物发现全自动搞定。附最新 PPT。

努力的光头强

1189人浏览 · 2025-07-08 10:24:43

努力的光头强 · 2025-07-08 10:24:43 发布

Biomni: A General-Purpose Biomedical AI Agent

摘要

生物医学研究支撑了我们对人类健康和疾病理解、药物发现以及临床护理的进步。然而，随着复杂实验室实验的增长、大型数据集、众多分析工具和广泛文献的出现，生物医学研究越来越多地受到重复和分散的工作流程的制约，这些工作流程减缓了发现速度并限制了创新，这突显出需要一种根本性的新方法来扩展科学专业技能。在这里，我们介绍了Biomni，这是一种旨在自主执行各种生物医学子领域研究任务的通用生物医学人工智能代理。为了系统绘制生物医学行动空间，Biomni首先使用一个行动发现代理来创建第一个统一的代理环境——从25个生物医学领域的数以万计的出版物中挖掘关键工具、数据库和协议。在此基础上，Biomni具有一个集成大型语言模型（LLM）推理与检索增强规划和基于代码执行的通用代理架构，使其能够动态组合和执行复杂的生物医学工作流程——完全不需要依赖预定义模板或僵硬的任务流。系统基准测试表明，Biomni在异构生物医学任务上实现了强泛化能力——包括因果基因优先级排序、药物再利用、罕见病诊断、微生物组分析和分子克隆——而无需进行任何任务特定的提示调整。实际案例研究19例进一步展示了Biomni解读复杂的多模态生物医学数据集的能力，并能自主生成实验可验证的协议。Biomni设想了一个未来，虚拟AI生物学家将与人类科学家并肩工作并增强他们的工作，以显著提高研究生产力、临床洞察力和医疗保健水平。Biomni可在https://biomni.stanford.edu使用，我们邀请科学家探索其功能，测试其极限，并共同创造生物医学发现的新纪元。

柯基数据知识图谱

核心速览

研究背景

研究问题
：这篇文章要解决的问题是如何在生物医学研究领域中，通过人工智能（AI）代理来自动化和推进广泛的子领域研究任务。具体来说，Biomni旨在解决当前生物医学研究中的复杂工作流程、数据利用不足、专家资源短缺等问题。
研究难点
：该问题的研究难点包括：需要紧密耦合高级推理能力与高度专业化的生物医学动作执行能力；需要一个能够与生物医学环境自然交互的智能代理架构；以及需要在没有预定义模板或刚性任务流的情况下，动态组合和执行复杂的生物医学工作流。
相关工作
：该问题的研究相关工作包括专门针对狭窄生物医学任务的代理工作流程，这些方法限制了其在生物医学全领域中的流动性和泛化能力。尽管最近在大型语言模型（LLM）方面取得了显著进展，但现有的LLM需要明确定义的生物医学动作空间，这一空间本身是多样、领域特定且复杂的。

研究方法

这篇论文提出了Biomni，一种通用生物医学AI代理，用于自动化和推进广泛的生物医学研究任务。具体来说，

动作发现代理
：首先，Biomni使用一个动作发现代理来创建第一个统一的代理环境，从25个生物医学领域的数万篇出版物中挖掘必要的工具、数据库和协议。该代理通过处理每篇论文，提取出可重复的任务、软件和数据库。
Biomni-E1环境
：在此基础上，构建了Biomni-E1环境，这是生物医学AI代理执行广泛动作的基础环境。Biomni-E1包括150个专门的生物医学工具、105个软件包和59个数据库。每个工具都经过人类专家的严格验证，并附带相应的测试用例。
Biomni-A1代理
：然后，设计了Biomni-A1代理架构，该架构能够通过使用Biomni-E1提供的工具和数据库，灵活地执行广泛的生物医学任务。给定用户查询，代理首先使用检索系统识别最相关的工具、数据库和软件，然后应用基于LLM的推理和领域专业知识生成详细的逐步计划。每一步都通过可执行的代码表达，支持生物医学动作的精确和灵活组合。

实验设计

数据收集
：从bioRxiv收集了2024年发表的100篇最新出版物，并通过解析其PDF内容提取任务和工具。
实验设计
：构建了一个包含12.5%样本的LAB-Bench数据库问答和序列问答基准测试集，用于迭代优化Biomni的数据库集成和工具实现。对于人类最后的考试（HLE），选择了涵盖生物学/医学十四个子学科的52个问题进行全面评估。
样本选择
：在LAB-Bench中，每个基准测试集包括12.5%的完整参考，按比例分布在基准子任务中。在HLE中，从每个子学科中选择最多五个问题，最终评估集包括52个问题。
参数配置
：在Biomni-E1环境中，预装了105个广泛使用的生物软件包，支持Python、R和Bash脚本。数据库通过统一函数进行集成，支持通过Web API访问的大规模关系数据库。

结果与分析

基准测试
：在LAB-Bench的DbQA任务中，Biomni达到了74.4%的准确率，与人类专家表现一致（74.7%），并优于所有基线（包括编码代理ReAct+Code的40.8%）。在SeqQA任务中，Biomni达到了81.9%的准确率，超过了人类水平表现（78.8%）。
泛化能力
：在HLE的52个问题中，Biomni实现了17.3%的准确率，显著优于基础LLM（6.0%）、编码代理（12.8%）和文献代理（12.2%）。这表明Biomni能够在陌生的、开放的生物医学领域中泛化。
实际任务
：Biomni在分析458个可穿戴传感器文件、执行大规模单细胞RNA测序（scRNA-seq）和ATAC-seq数据的生物信息学分析、以及自主设计实验室协议等实际任务中表现出色。例如，Biomni在分析可穿戴传感器数据时，自动生成了轨迹图、热图、箱线图、PCA双图和聚类图，揭示了脂质、代谢物和蛋白质之间的紧密联系。

总体结论

Biomni标志着生物医学研究中的一个重大进步，展示了在多样化子领域中的强大泛化能力，并为AI代理作为科学发现中的不可或缺的合作伙伴奠定了基础。Biomni通过自动化复杂的、劳动密集型的工作流程，使研究人员能够将精力转向创造性假设生成、实验创新和跨学科合作。尽管Biomni在某些领域仍需改进，但其潜力巨大，有望加速研究、降低成本并扩大高级生物医学分析的获取。未来，Biomni及其继任者可能成为AI驱动的生物医学生态系统中的基础设施，与人类专家无缝合作，解锁健康和疾病的新见解。

论文评价

优点与创新

统一的生物医学动作空间
：通过系统分析数十万份生物医学研究论文，构建了第一个统一的代理环境，挖掘了数以万计的工具、数据库和协议。
通用代理架构
：集成了大型语言模型（LLM）推理、检索增强规划和基于代码的执行，能够动态组合和执行复杂的生物医学工作流程。
强泛化能力
：在异构生物医学任务上表现出色，无需特定任务的提示调优。
实际案例研究
：展示了Biomni解释复杂多模态生物医学数据集和自主生成实验性测试协议的能力。
用户友好的界面
：提供了直观的图形界面，使科学家能够无需编写代码即可利用Biomni的智能。
广泛的应用领域
：涵盖了遗传学、基因组学、微生物学、药理学和临床医学等多个子领域。
高效的工具选择机制
：基于LLM的工具选择机制，动态检索适合用户目标的资源子集。
代码作为通用操作接口
：使用代码作为通用操作接口，支持复杂工作流的组合和执行。
自适应规划策略
：采用自适应规划策略，初始计划基于生物医学知识，并在执行过程中不断迭代细化。

不足与反思

任务覆盖范围有限
：评估的任务仅代表领域的一部分，关键领域仍未探索。
文献选择的偏见
：在动作发现代理中，优先选择最新文献可能会忽略那些尽管重要但已从当前讨论中淡出的基础概念和技术。
临床判断的局限
：在某些需要微妙临床判断、新颖实验推理、分析发明或深度生物思维和合成的领域中，Biomni仍存在不足。
未来改进方向
：可以通过强化学习训练生物医学推理代理以实现持续的自我改进，整合多模态数据以加深推理能力，以及使Biomni能够自主发现和整合新工具和数据库来确保适应性和长期相关性。

关键问题及回答

问题1：Biomni如何通过动作发现代理创建统一的代理环境？

动作发现代理通过处理2024年在bioRxiv上发表的100篇最新出版物，提取出可重复的任务、软件和数据库，从而创建统一的代理环境。具体步骤如下：

文献收集
：从bioRxiv收集了100篇最新的出版物。
内容解析
：通过解析每篇论文的PDF内容，提取出任务和工具。
任务提取
：使用大型语言模型（LLM）处理每篇论文，识别出重复出现的任务。
工具提取
：提取出在生物医学研究中使用的重要软件和数据库。
环境构建
：将这些任务和工具整合到Biomni-E1环境中，形成一个包含150个专门工具、105个软件包和59个数据库的综合性环境。

问题2：Biomni-A1代理架构如何实现灵活的生物医学任务执行？

Biomni-A1代理架构通过以下几个核心创新实现灵活的生物医学任务执行：

工具选择机制
：基于LLM的工具选择机制，动态检索与用户目标相匹配的工具子集。
代码作为通用动作接口
：使用代码作为通用动作接口，支持复杂工作流的组合和执行，包括循环、并行和条件逻辑。
自适应规划策略
：采用自适应规划策略，初始计划基于生物医学知识，执行过程中不断迭代细化，实现响应式、上下文感知的行为。
环境交互
：Biomni-A1能够与Biomni-E1环境中的工具、数据和软件进行交互，支持灵活和动态的资源集成。

问题3：Biomni在实际任务中的表现如何？

Biomni在实际任务中表现出色，具体体现在以下几个方面：

可穿戴传感器数据分析
：Biomni分析了458个可穿戴传感器文件，生成了轨迹图、热图、箱线图、PCA双图和聚类图，揭示了脂质、代谢物和蛋白质之间的紧密联系。
单细胞RNA测序数据分析
：Biomni对大规模单细胞RNA测序（scRNA-seq）和ATAC-seq数据进行了生物信息学分析，揭示了基因调控机制。
实验室协议设计
：Biomni自主设计了多个实验室协议，协助湿实验室研究人员进行复杂的分子生物学实验，如基因编辑和克隆实验。
基准测试
：在LAB-Bench的DbQA任务中，Biomni达到了74.4%的准确率，与人类专家表现一致；在SeqQA任务中，Biomni达到了81.9%的准确率，超过了人类水平表现。在HLE的52个问题中，Biomni实现了17.3%的准确率，显著优于基础LLM和其他基线。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战项目来学习。（全套教程文末领取哈）
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型，我这份资料就可以无偿分享给你学习，我国在这方面的相关人才比较紧缺，大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git