KG-RAG 知识图谱+大模型:医疗问题输入 → 实体识别&链接 → 问题子图 → 子图文本化 → 相似度计算 → LLM问答

 


论文:Biomedical knowledge graph-optimized prompt generation for large language models

代码:https://github.com/BaranziniLab/KG_RAG

提出背景

KG-RAG框架通过结合知识图谱和大模型,旨在解决生物医学领域问答系统中的准确性、知识更新、可解释性和效率问题,提供基于可靠知识的精确答案。

秒懂大纲

├── 1 KG-RAG框架【主题】
│   ├── 目的【功能】
│   │   ├── 提供基于知识的LLM响应【主要目标】
│   │   └── 优化token使用【次要目标】
│   ├── 组成部分【结构】
│   │   ├── 知识图谱(SPOKE)【数据源】
│   │   ├── 大语言模型(LLM)【核心组件】
│   │   └── 检索增强生成(RAG)技术【方法】
│   ├── 工作流程【过程】
│   │   ├── 疾病实体识别【初始步骤】
│   │   ├── 上下文检索【中间步骤】
│   │   ├── 上下文剪枝【优化步骤】
│   │   └── LLM生成响应【最终步骤】
│   └── 优势【特点】
│       ├── 提供可信度高的生物医学响应【质量优势】
│       ├── 包含来源和统计证据【可靠性】
│       └── 显著减少token使用【效率优势】
├── 2 实验设计【方法】
│   ├── 超参数分析【优化】
│   │   ├── 上下文容量【参数】
│   │   └── 上下文嵌入模型【参数】
│   ├── 测试数据集【评估】
│   │   ├── 真假问题数据集【数据类型】
│   │   ├── 多选题数据集【数据类型】
│   │   └── RAG比较数据集【数据类型】
│   └── 比较方法【基准】
│       └── Cypher-RAG【对照组】
├── 3 实验结果【发现】
│   ├── KG-RAG性能【主要结果】
│   │   ├── 提高了LLM在生物医学问题上的表现【改进】
│   │   └── 显著提升了Llama-2模型在MCQ上的表现【具体提升】
│   ├── 与Cypher-RAG比较【对比结果】
│   │   ├── 更高的检索准确率【优势】
│   │   ├── 更强的输入扰动鲁棒性【优势】
│   │   └── 更低的token使用量【优势】
│   └── LLM性能比较【模型对比】
│       ├── GPT-3.5在某些任务上优于GPT-4【意外发现】
│       └── 开源模型与专有模型的性能差距缩小【趋势】
└── 4 讨论【分析】
├── KG-RAG的优势【总结】
│   ├── 结合显式和隐式知识【特点】
│   ├── 提供可靠的生物医学响应【优点】
│   └── 优化token使用【优点】
├── 局限性【不足】
│   └── 目前仅限于疾病相关问题【限制】
└── 未来方向【展望】
├── 扩展到更多生物医学概念【改进方向】
└── 应用于其他领域的知识图谱【扩展方向】

方法部分:

├── 工作流程【过程】
│   ├── 输入【起点】
│   │   └── 用户提问【原始数据】
│   ├── 疾病实体识别【初始步骤】
│   │   ├── 技术【方法】
│   │   │   ├── 零样本提示【提取方法】
│   │   │   └── 向量相似度搜索【匹配方法】
│   │   ├── 处理【过程】
│   │   │   ├── 实体提取【子步骤】
│   │   │   │   └── GPT-3.5-Turbo模型【工具】
│   │   │   └── 实体匹配【子步骤】
│   │   │       ├── MiniLM预计算嵌入【预处理】
│   │   │       └── Chroma向量数据库【存储】
│   │   └── 输出【结果】
│   │       └── SPOKE中匹配的疾病节点【识别实体】
│   ├── 上下文检索【中间步骤】
│   │   ├── 输入【数据源】
│   │   │   └── SPOKE知识图谱【知识库】
│   │   ├── 技术【方法】
│   │   │   └── 图遍历【检索方法】
│   │   ├── 处理【过程】
│   │   │   ├── 提取与疾病相关的三元组【子步骤】
│   │   │   └── 转换为自然语言【子步骤】
│   │   └── 输出【结果】
│   │       └── 疾病相关上下文【原始上下文】
│   ├── 上下文剪枝【优化步骤】
│   │   ├── 技术【方法】
│   │   │   ├── 句子转换器模型【嵌入工具】
│   │   │   └── 余弦相似度【相似度度量】
│   │   ├── 处理【过程】
│   │   │   ├── 嵌入用户提问和上下文【子步骤】
│   │   │   ├── 计算相似度【子步骤】
│   │   │   └── 筛选最相关上下文【子步骤】
│   │   └── 输出【结果】
│   │       └── 精简的相关上下文【优化上下文】
│   └── LLM生成响应【最终步骤】
│       ├── 输入【数据】
│       │   ├── 原始用户提问【问题】
│       │   └── 优化后的上下文【背景知识】
│       ├── 技术【方法】
│       │   └── 检索增强生成(RAG)【核心技术】
│       ├── 处理【过程】
│       │   ├── 合并提问和上下文【子步骤】
│       │   └── LLM处理输入【子步骤】
│       └── 输出【结果】
│           └── 基于知识的生物医学响应【最终答案】
└── 数据流【关系】
├── 用户提问 ---> 疾病实体识别【输入关系】
├── 疾病实体识别 ---> 上下文检索【实体引导】
├── 上下文检索 ---> 上下文剪枝【数据优化】
├── 上下文剪枝 ---> LLM生成响应【知识注入】
└── 用户提问 + 优化上下文 ---> LLM生成响应【综合输入】

KG-RAG框架是一个先进的生物医学问答系统,它巧妙地结合了知识图谱和大模型的优势。

这个框架的工作流程分为四个关键步骤,每一步都经过精心设计,以确保最终生成的答案既准确又富含深度的生物医学知识。

  1. 疾病实体识别:

    • 这是整个流程的起点。
    • 系统首先利用零样本提示技术和GPT-3.5-Turbo模型从用户提问中提取疾病实体。
    • 随后,通过MiniLM预计算嵌入和Chroma向量数据库,将提取的实体与SPOKE知识图谱中的疾病节点进行匹配。
    • 这一步为后续的知识检索奠定了坚实基础。
  2. 上下文检索:

    • 基于识别出的疾病实体,系统从SPOKE知识图谱中检索相关信息。
    • 通过图遍历技术,提取与疾病相关的三元组,并将其转换为自然语言。
    • 这一步为问题提供了丰富的背景知识。
  3. 上下文剪枝:

    • 为了提高效率和相关性,系统使用句子转换器模型和余弦相似度计算来筛选最相关的上下文。
    • 这个过程包括嵌入用户提问和上下文、计算相似度,以及筛选最相关的信息。
    • 这一步确保了只有最相关的信息会被用于生成答案。
  4. LLM生成响应:

    • 最后,系统使用检索增强生成(RAG)技术,将原始用户提问和优化后的上下文结合起来,输入到大语言模型中。
    • LLM处理这些输入,生成基于知识的生物医学响应。

整个流程中,数据在各个步骤之间有序流动,形成一个连贯的处理链:

  • 用户提问首先引导疾病实体识别
  • 识别出的实体继而引导上下文检索
  • 检索到的上下文经过优化后注入到LLM中
  • 最终,优化后的上下文与原始提问一起被用于生成最终答案

解法拆解

  1. 用户输入:
    两图都以用户提问开始:“与急性单核细胞白血病相关的基因有哪些?”

  2. 疾病实体识别:

    • 图1简单显示为"疾病实体识别"
    • 图2详细展示了使用GPT-3.5-Turbo进行"提示疾病提取",并引入了"疾病潜在空间"概念
  3. 图数据库查询:
    两图都显示了查询图数据库以获取疾病图谱上下文的过程

  4. 图到自然语言转换:
    两图都包含"图到自然语言"步骤,将图形数据转换为文本

  5. 上下文提取:

    • 图1称之为"提示感知上下文提取"
    • 图2更详细,引入了"上下文潜在空间"和"提示-上下文匹配"概念
  6. LLM处理:
    两图都显示将提取的上下文和原始问题输入到LLM中

  7. 输出生成:
    两图都显示了最终输出:“与AML相关的基因是RUNX1、SPRED1和ELANE”

主要区别:

  1. 图2更详细地展示了疾病实体识别和上下文提取过程
  2. 图2引入了潜在空间的概念,用于疾病实体和上下文的表示
  3. 图2明确显示了提示-上下文匹配步骤,这在图1中是隐含的

图2提供了KG-RAG框架更深入的技术细节,特别是在实体识别和上下文匹配方面,而图1提供了更简洁的整体流程概览。

 

  1. 逻辑拆解:

目的:提供准确、可靠、可解释且基于最新知识的生物医学答案

问题:

  • 准确性问题:LLMs可能产生"幻觉"
  • 知识更新问题:LLMs难以反映最新研究进展
  • 可解释性问题:LLMs难以提供答案来源
  • 效率问题:如何高效检索和利用相关知识
  • 特定领域适应性:如何让通用LLMs适应生物医学领域

解法:结合知识图谱和大模型的KG-RAG框架

子解法1(因为准确性和知识更新问题):使用SPOKE生物医学知识图谱

  • 之所以用SPOKE知识图谱,是因为它包含了经过严格审核的最新生物医学知识。
  • 例如:使用SPOKE中的疾病-基因关联信息来回答关于特定疾病相关基因的问题。

子解法2(因为可解释性问题):提供知识溯源

  • 之所以提供知识溯源,是因为它能增加答案的可信度和可解释性。
  • 例如:在回答药物作用机制时,同时提供相关研究文献的引用。

子解法3(因为效率问题):实施上下文剪枝

  • 之所以实施上下文剪枝,是因为它能提高相关知识的检索效率。
  • 例如:使用余弦相似度筛选出与用户问题最相关的知识图谱信息。

子解法4(因为特定领域适应性问题):使用检索增强生成(RAG)技术

  • 之所以使用RAG技术,是因为它能让通用LLM根据检索到的专业知识生成答案。
  • 例如:将SPOKE中检索到的疾病信息与用户问题结合,输入LLM生成专业答案。
  1. 逻辑链分析:

这些子解法形成了一个决策树形式的网络:

├── KG-RAG框架
│   ├── 使用SPOKE生物医学知识图谱
│   │   └── 提供知识溯源
│   ├── 实施上下文剪枝
│   └── 使用检索增强生成(RAG)技术
  1. 隐性特征分析:

在KG-RAG框架中,存在一个隐性的中间步骤特征:知识融合与转化。

这个特征体现在将结构化的知识图谱信息转化为LLM可处理的自然语言形式,并与用户问题进行融合的过程中。

这个步骤涉及多个子步骤,包括:

  1. 从知识图谱中提取相关三元组
  2. 将三元组转换为自然语言陈述
  3. 将这些陈述与用户问题合并

我们可以将这个隐性特征定义为"知识-语言桥接"方法。

这个方法是KG-RAG框架的关键创新点,它实现了结构化知识和非结构化自然语言之间的无缝转换,使得LLM能够有效利用知识图谱中的专业信息。

全流程分析

多题一解分析:

KG-RAG框架展现了"多题一解"的特性,主要体现在以下方面:

  • 特征:生物医学领域的专业性和知识密集性
  • 解法:使用SPOKE知识图谱和检索增强生成(RAG)技术
  • 名称:领域特化检索增强

适用题目:各种生物医学相关的问答任务,如疾病诊断、药物作用机制、基因功能等

一题多解分析:

KG-RAG框架也体现了"一题多解"的特性,主要针对不同的问题特征:

  1. 特征:需要最新知识
    解法:使用不断更新的SPOKE知识图谱

  2. 特征:需要可解释性
    解法:提供知识溯源,展示信息来源

  3. 特征:需要高效率
    解法:实施上下文剪枝,快速定位相关信息

  4. 特征:需要自然语言理解和生成
    解法:使用大语言模型(LLM)处理和生成回答

显性特征:

  1. 生物医学领域的专业性
  2. 知识密集型问题
  3. 需要最新知识
  4. 要求可解释性
  5. 效率要求高

隐性特征:

  1. 知识结构化程度:SPOKE知识图谱提供了高度结构化的知识
  2. 知识-语言转换需求:需要将结构化知识转换为自然语言
  3. 上下文相关性:不同问题需要不同的知识上下文

更直接的特征:知识图谱和自然语言之间的桥接需求

优化解法:

基于上述分析,可以提出一个更优化的解法:知识-语言动态桥接模型

这个优化解法包括以下步骤:

  1. 动态知识抽取:根据问题实时从知识图谱中抽取相关知识
  2. 自适应语言转换:将抽取的知识动态转换为适合LLM处理的自然语言形式
  3. 上下文感知融合:智能融合转换后的知识和原始问题,生成最优输入

优化分析:

  1. 环节优化:在知识检索和语言生成之间增加了动态桥接层
  2. 整体优化:提高了系统的灵活性和适应性,能更好地处理各种类型的问题
  3. 局部优化:改进了知识利用效率,减少了无关信息的干扰

通过这种优化,KG-RAG框架可以更有效地利用知识图谱的结构化优势,同时保持了大语言模型的灵活性,从而在准确性、效率和适应性方面都得到了提升。

创意视角

  1. 组合:
    创新点:将KG-RAG与虚拟现实(VR)技术结合
    描述:将KG-RAG框架与VR技术结合,创造一个沉浸式的生物医学知识探索环境。用户可以在虚拟空间中"漫步"于知识图谱,直观地看到概念之间的联系,并通过语音或手势与系统交互,获取信息。这种组合不仅能提高学习效率,还能使复杂的医学概念更容易理解和记忆。

  2. 拆开:
    创新点:模块化KG-RAG系统
    描述:将KG-RAG框架拆分为独立的模块,如实体识别模块、知识检索模块、上下文优化模块和响应生成模块。每个模块可以独立优化和升级,也可以根据不同的应用场景进行组合。这种模块化设计能够提高系统的灵活性和可扩展性,同时也方便针对特定任务进行优化。

  3. 转换:
    创新点:将KG-RAG转化为个人健康助手
    描述:将原本面向医疗专业人士的KG-RAG系统转化为面向普通用户的个人健康助手。这个助手可以根据用户的日常行为、饮食习惯和健康数据,结合医学知识图谱,提供个性化的健康建议和预防性医疗指导。

  4. 借用:
    创新点:借鉴社交网络的推荐算法
    描述:借鉴社交媒体平台的个性化推荐算法,优化KG-RAG的知识推荐功能。系统可以根据用户的查询历史和兴趣偏好,预测可能相关的医学知识,主动推送给用户,提高知识获取的效率和相关性。

  5. 联想:
    创新点:生物启发的知识图谱优化
    描述:联想到神经元之间的连接方式,设计一个动态的、自适应的知识图谱结构。像神经元会根据刺激强化或削弱连接一样,知识图谱中的概念关联也可以根据查询频率和相关性动态调整,使得常用和重要的知识路径更容易被访问。

  6. 反向思考:
    创新点:错误引导的学习系统
    描述:设计一个"反向KG-RAG"系统,故意提供错误或有争议的医学信息,然后引导用户去质疑、验证和纠正这些信息。这种方法可以培养用户的批判性思维,提高他们对医学知识的理解深度。

  7. 问题:
    创新点:患者症状反向推理系统
    描述:开发一个基于KG-RAG的反向诊断系统,用户输入一系列症状,系统不仅给出可能的诊断,还会追溯这些症状可能的起因和发展过程,帮助医生和患者更全面地理解疾病发展链。

  8. 错误:
    创新点:医疗错误预测与防范系统
    描述:利用KG-RAG分析历史医疗错误案例,建立一个预测和防范医疗错误的系统。它可以在医生做出诊断决策时,基于相似案例的历史错误,提供警示和建议,减少医疗失误的发生。

  9. 感情:
    创新点:情感感知的医疗咨询系统
    描述:在KG-RAG中加入情感分析模块,使系统能够识别和响应用户的情绪状态。例如,对焦虑的患者,系统会用更安抚的语气提供信息;对困惑的用户,则会使用更详细、通俗的解释。

  10. 模仿:
    创新点:模仿人类医生的诊疗过程
    描述:让KG-RAG系统模仿人类医生的诊疗思维过程,包括问诊、体检、检查建议、诊断和治疗计划。系统可以通过对话形式,逐步引导用户提供信息,模拟真实的就诊体验。

  11. 联想(量产方法):
    创新点:跨学科知识融合系统
    描述:将KG-RAG与其他学科知识库(如生物学、化学、物理学)联系起来,创造一个跨学科的知识推理系统。这可以帮助研究人员发现不同学科之间的潜在联系,促进学科交叉创新。

  12. 最渴望联结:
    创新点:健康愿望实现助手
    描述:将KG-RAG与用户最渴望的健康目标(如长寿、保持青春)联系起来,创建一个个性化的"健康愿望实现助手"。系统根据医学知识和用户的具体情况,提供实现这些愿望的科学建议和行动计划。

  13. 空隙填补:
    创新点:罕见病诊断支持系统
    描述:开发一个专门针对罕见病的KG-RAG子系统,填补现有医疗系统在罕见病诊断方面的空白。该系统可以整合全球罕见病案例和最新研究,帮助医生更快速、准确地诊断罕见病。

  14. 再定义:
    创新点:预防医学知识管理系统
    描述:将KG-RAG从一个被动的问答系统重新定义为主动的预防医学知识管理系统。它不仅回答问题,还主动预测可能的健康风险,并提供预防建议。

  15. 软化:
    创新点:游戏化医学学习平台
    描述:将KG-RAG的严肃医学知识软化为有趣的游戏化学习体验。用户可以通过解谜、角色扮演等方式,在轻松愉快的氛围中学习复杂的医学知识。

  16. 附身:
    创新点:多视角医疗决策系统
    描述:让KG-RAG能够"附身"于不同角色(如全科医生、专科医生、中医师、营养师等),从多个专业角度分析同一健康问题,提供全面的诊疗建议。

  17. 配角:
    创新点:生活方式影响分析器
    描述:开发KG-RAG的一个子模块,专注于分析通常被忽视的"配角"因素(如生活习惯、环境因素)对健康的影响。这可以帮助用户理解日常生活中的小细节如何影响整体健康。

  18. 刻意:
    创新点:极端情景医疗模拟器
    描述:创建一个基于KG-RAG的极端医疗情景模拟器。它可以模拟罕见的、极端的医疗情况,帮助医护人员在安全的环境中练习应对各种可能的紧急情况。

  19. 刻意省略:
    创新点:简化版KG-RAG
    描述:开发一个刻意省略复杂医学术语和详细解释的简化版KG-RAG,专门面向普通用户。这个版本只提供最基本、最关键的健康信息,使得普通人也能快速理解和应用医学知识。

这些创新点涵盖了不同的角度和应用场景。

要选择最佳的创新点,我们可以考虑以下几个关键标准:

  1. 实用性:对用户和医疗专业人士的实际帮助程度
  2. 创新程度:相对于现有解决方案的新颖性
  3. 技术可行性:在当前技术条件下实现的难易程度
  4. 市场潜力:潜在的用户群体和商业价值
  5. 社会影响:对改善医疗健康水平的潜在贡献

根据这些标准,我认为以下三个创新点最具潜力:

  1. 模块化KG-RAG系统(拆开):这个创新点在实用性、技术可行性和市场潜力方面都很出色。模块化设计可以大大提高系统的灵活性和可扩展性,使得KG-RAG能够适应不同的应用场景和需求。

  2. 情感感知的医疗咨询系统(感情):这个创新点在创新程度和社会影响方面表现突出。通过加入情感分析,系统可以提供更人性化的医疗咨询服务,有潜力显著改善患者体验和治疗效果。

  3. 预防医学知识管理系统(再定义):这个创新点在实用性、创新程度和社会影响方面都很强。通过将系统重新定义为主动的预防医学工具,它有潜力改变人们的健康管理方式,对提高整体公共卫生水平有重大意义。

这三个创新点结合起来,可以形成一个更全面、更智能、更人性化的新一代KG-RAG系统,既保持了原有系统的优势,又在多个方面实现了突破性的创新。

完全拆解

升维分析

背景:

  1. 生物医学领域知识密集且快速更新
  2. 大语言模型在通用领域表现出色,但在专业领域存在局限性
  3. 知识图谱能够有效组织和表示结构化知识

现状:

  1. 现有的生物医学问答系统准确性不足
  2. 大语言模型在生物医学领域容易产生"幻觉"
  3. 专业知识的可解释性和可追溯性不足

期望:

  1. 高准确性的生物医学问答系统
  2. 能提供最新、可靠的专业知识
  3. 答案具有可解释性和可追溯性
  4. 系统具有灵活性和可扩展性

问题本质:
如何有效地整合结构化的专业知识(知识图谱)和强大的自然语言处理能力(大语言模型),以提供准确、可靠、可解释的生物医学问答服务。

降维分析

  1. 公式拆解:
    KG-RAG = 知识图谱(KG) + 检索增强生成(RAG) + 大语言模型(LLM)

  2. 要素拆解:

  • 知识来源:SPOKE生物医学知识图谱
  • 实体识别:零样本提示技术、GPT-3.5-Turbo模型
  • 知识检索:图遍历技术
  • 上下文优化:句子转换器模型、余弦相似度计算
  • 答案生成:检索增强生成(RAG)技术、大语言模型
  1. 逻辑拆解:
  • IF 用户输入问题
    THEN 识别问题中的实体
    IF 实体匹配成功
    THEN 从知识图谱检索相关信息
    IF 检索到相关信息
    THEN 优化上下文
    IF 上下文优化成功
    THEN 生成答案
    ELSE 返回无法优化上下文错误
    ELSE 返回无相关信息错误
    ELSE 返回实体识别失败错误
  1. 流程拆解:
    a. 输入处理:
    • 接收用户问题
    • 使用零样本提示和GPT-3.5-Turbo提取实体
    • 将实体与SPOKE知识图谱匹配

b. 知识检索:

  • 使用图遍历技术在SPOKE中检索相关信息
  • 提取与实体相关的三元组
  • 将三元组转换为自然语言表述

c. 上下文优化:

  • 使用句子转换器模型嵌入用户问题和检索到的上下文
  • 计算余弦相似度
  • 筛选最相关的上下文信息

d. 答案生成:

  • 将优化后的上下文和原始问题输入RAG系统
  • 使用大语言模型生成最终答案

e. 输出处理:

  • 格式化答案
  • 添加知识来源和可解释性信息
  • 返回结果给用户
  1. 模型拆解:
    a. 知识表示模型:
    • 知识图谱(节点和边的结构)
    • 实体嵌入模型(用于实体匹配)

b. 自然语言处理模型:

  • 零样本学习模型(用于实体识别)
  • 句子转换模型(用于上下文优化)

c. 检索模型:

  • 图遍历算法(用于知识检索)
  • 相似度计算模型(用于上下文筛选)

d. 生成模型:

  • 检索增强生成(RAG)模型
  • 大语言模型(用于最终答案生成)

总结

KG-RAG框架的全流程如下:

  1. 输入处理:

    • 接收用户的生物医学问题
    • 使用零样本提示技术和GPT-3.5-Turbo模型从问题中提取关键实体
  2. 实体匹配:

    • 利用MiniLM预计算嵌入和Chroma向量数据库
    • 将提取的实体与SPOKE知识图谱中的疾病节点进行匹配
  3. 知识检索:

    • 基于匹配的实体,使用图遍历技术在SPOKE知识图谱中检索相关信息
    • 提取与疾病相关的三元组(主体-谓语-客体)关系
    • 将检索到的三元组转换为自然语言表述
  4. 上下文优化:

    • 使用句子转换器模型将用户问题和检索到的上下文嵌入到同一向量空间
    • 利用余弦相似度计算来筛选最相关的上下文信息
    • 选择相似度高于特定阈值的上下文
  5. 答案生成:

    • 使用检索增强生成(RAG)技术
    • 将优化后的上下文和原始用户问题结合
    • 输入到大语言模型(如GPT-3.5-Turbo或GPT-4)中
  6. 输出处理:

    • 生成基于知识的生物医学响应
    • 添加知识来源和可解释性信息
    • 格式化最终答案并返回给用户

KG-RAG框架通过实体识别和链接将问题映射到知识图谱,召回相关子图并转化为自然语言,通过向量相似度筛选最相关上下文,最后将优化的上下文与原问题一起输入大模型,生成准确且可解释的生物医学答案。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐