Kushagra Agrawal [0009−0006−7753−175X]{ }^{[0009-0006-7753-175 X]}[000900067753175X] 和 Nisharg
Nargund [0009−0007−2046−4864]{ }^{[0009-0007-2046-4864]}[0009000720464864]
KIIT 被认定为大学计算机工程学院,印度布巴内斯瓦尔
2205044@kiit.ac.in

摘要

多智能体系统(MAS)是模拟涉及自主交互实体的复杂现实场景的基础。然而,传统的MAS架构通常存在僵化的协调机制,难以适应动态任务。我们提出了MetaOrch,这是一种用于多领域任务环境中最优智能体选择的神经编排框架。我们的系统采用监督学习方法,对任务上下文、智能体历史和预期响应质量进行建模,以选择每个任务中最合适的智能体。一种新颖的模糊评估模块沿完整性、相关性和置信度三个维度对智能体响应进行评分,生成软监督标签以训练编排器。与之前硬编码智能体-任务映射的方法不同,MetaOrch 动态预测最适合的智能体,同时估计选择置信度。在包含异构智能体的模拟环境中进行的实验表明,我们的方法实现了86.3%的选择准确率,显著优于包括随机选择和轮询调度在内的基线策略。模块化架构强调了可扩展性,允许智能体独立注册、更新和查询。结果表明,神经编排为增强多智能体系统在多样化任务领域的自主性、可解释性和适应性提供了一种强大的方法。

关键词:多智能体系统 · 大型语言模型 · 模拟 - 编排 · 模块化

1 引言

智能代理系统在诸如自主机器人、协作软件服务和多模态AI平台等领域的日益普及,重新引发了对有效任务分配挑战的关注 [2]。在这些系统中,中央编排器通常负责选择处理给定任务的最合适的代理。该决策的复杂性源于代理在技能、上下文专业知识、可靠性和适应性方面的异质性,以及现实任务固有的模糊性和多样性
[1]。传统的代理编排方法通常依赖静态启发式算法、固定规则或随机选择策略 [12]。然而,这些方法在动态环境中挣扎,因为在动态环境中任务需求和代理能力会随时间变化。此外,许多编排管道缺乏一种鲁棒的机制,以一种领域无关且可解释的方式评估代理响应的质量,这阻碍了它们适应和改进的能力 [3]。

在本研究中,我们提出了MetaOrch,这是一种通过建模任务上下文、代理历史和预期响应质量来学习编排代理的监督学习框架。我们的方法引入了一种新颖的模糊评估模块,该模块沿三个可解释轴——完整性、相关性和置信度——对代理响应进行评分,并使用这些评分生成软监督标签以训练编排器。与之前硬编码代理-任务映射或将代理视为黑箱的方法不同,MetaOrch 学习预测任何给定任务和上下文对中最适合的代理,同时可选地估计其自身的选择置信度。

我们在一个包含具有领域特定专业知识的异构代理的模拟多代理环境中验证了我们的方法。MetaOrch 与包括随机选择和轮询调度代理在内的几种标准基线进行了基准测试。我们的结果显示,在选择准确性、任务输出质量和对未见任务分布的泛化方面有显著改进。

2 系统架构

MetaOrch 被设计为一个模块化和可扩展的编排框架,促进在动态多代理环境中的智能代理选择。架构包括五个核心组件:(1) 任务生成和表示模块,(2) 代理配置文件和历史跟踪器,(3) 神经编排模型,(4) 模糊评估模块,和 (5) 监督学习反馈循环。每个组件都对整体流程有所贡献,从解释传入任务到选择最合适的代理,再到从结果中学习以改进未来的决策。

2.1 任务摄取和预处理

系统从任务规范的摄取开始,该规范可能是自然语言文本、结构化元数据或混合表示。任务是使用表示任务要求和环境上下文的随机向量合成生成的。每个任务被分配一个领域(例如,紧急、文档、通用),并由两个组件表示:一个上下文向量和一个标准化的任务向量 Rd\mathbb{R}^{d}Rd,捕捉语义细微差别、操作约束和所需能力。

2.2 代理配置模块

环境中的每个代理由一个动态配置文件表征,该配置文件捕获其操作历史、领域专业知识、性能指标和响应倾向 [7]。代理 AiA_iAi 的配置文件被编码为一个元组:
Pi=P_{i}=Pi= 技能 i_{i}i, 历史 i_{i}i

  • 技能代表预先声明的能力或专业领域。
    • 历史包括最近的任务结果、完成率和评估分数。
    • 嵌入是一个总结潜在行为特征的学习向量,定期更新。
    • 可用性模型是否代理空闲或忙碌,以及最近的工作负载水平。
      代理历史在每次任务后通过固定长度窗口(例如最后10个任务)汇总最近的性能进行更新。这些历史作为动态输入提供给编排器,以反映随时间的学习。

2.3 编排模型

MetaOrch 的核心是一个基于监督学习的选择器,它接受当前任务表示 T 和所有可用代理配置文件,并预测代理索引上的概率分布:
y^=fθ(T,{Pi})∈Rn\hat{y}=f_{\theta}\left(T,\left\{P_{i}\right\}\right) \in \mathbb{R}^{n}y^=fθ(T,{Pi})Rn
其中 fθf_{\theta}fθ 是一个多层前馈神经网络,带有 dropout 和 ReLU 激活函数,接受上下文、任务和代理历史向量的连接输入,并输出代理上的概率分布。输出是一个 softmax 标准化的选择向量,表示编排器对每个代理适用性的信念 8 。

2.4 模糊评估模块

在代理执行之后,模糊评估模块根据三个可解释轴评估生成响应的质量:

  • 完整性:响应是否完全解决了任务的所有方面?
    • 相关性:响应是否上下文适当且切题?
    • 置信度:代理的响应是否内部一致且自信?
      每个轴使用结合任务表现、可靠性和上下文对齐的启发式函数进行评分。评分为:

 完整性 =min⁡(1.0,max⁡(0.0, 得分 +34)) 相关性 =min⁡(1.0,max⁡(0.0, 得分 +23)) \begin{gathered} \text { 完整性 }=\min \left(1.0, \max \left(0.0, \frac{\text { 得分 }+3}{4}\right)\right) \\ \text { 相关性 }=\min \left(1.0, \max \left(0.0, \frac{\text { 得分 }+2}{3}\right)\right) \end{gathered}  完整性 =min(1.0,max(0.0,4 得分 +3)) 相关性 =min(1.0,max(0.0,3 得分 +2))
 置信度 =min⁡(1.0,max⁡(0.1, 可靠性 + 噪声 5)) \text { 置信度 }=\min \left(1.0, \max \left(0.1, \text { 可靠性 }+\frac{\text { 噪声 }}{5}\right)\right)  置信度 =min(1.0,max(0.1, 可靠性 +5 噪声 ))

然后使用固定的用户定义权重(例如,完整性:0.4 ,相关性:0.4 ,置信度:0.2 )将这些评分组合起来,得出最终的模糊质量评分。

这些评分有两个目的:(1) 向人类监管者提供运行时反馈,(2) 生成软监督信号以自监督方式更新编排模型 13 。

2.5 反馈和监督循环

监督循环是 MetaOrch 的关键区别所在。系统使用模糊评估模块生成监督信号,选择具有最高模糊评分的代理作为训练标签(oracle)。预测代理和 oracle 选择代理之间的交叉熵损失,结合置信度回归损失,指导模型训练 [6]。我们使用如 ListNet 或软交叉熵之类的列表级损失函数来训练模型的小批量代理-任务对。反馈循环在后台异步操作,聚合最近的数据并定期刷新模型参数。

2.6 可选的人工参与接口

虽然 MetaOrch 被设计为自主运行,但它支持可选的人工监督,适用于安全关键部署。GUI 仪表板可视化任务-代理分配、预测置信度和模糊评估评分,允许人类操作员批准或否决决策。来自人类的反馈也可以注入训练管道,以在专家监督下微调模型。

3 代理设计和任务领域

在我们的模块化多代理模拟中,每个代理是一个参数化的实体,由其技能向量、领域专业知识和可靠性配置文件表征。环境提供了来自多个领域的上下文任务,使我们能够评估动态编排策略的有效性。

3.1 代理架构

每个代理 aia_{i}ai 初始化以下参数:

  • 技能向量 (si∈Rd)\left(\mathbf{s}_{i} \in \mathbb{R}^{d}\right)(siRd) - 在固定的特征空间中编码代理的能力。
    • 专业知识领域向量 (ei∈Rc)\left(\mathbf{e}_{i} \in \mathbb{R}^{c}\right)(eiRc) - 编码对任务上下文的先前熟悉程度。
    • 可靠性评分 (ri∈[0,1])\left(r_{i} \in[0,1]\right)(ri[0,1]) - 使用高斯噪声缩放 1−ri1-r_{i}1ri 建模随机性能变化。
      代理在任务 t\mathbf{t}t 和上下文 c\mathbf{c}c 上的表现确定性缓存并计算为:

score⁡i=−∥si−t∥+ϵi+α⋅cos⁡(c,ei) \operatorname{score}_{i}=-\left\|\mathbf{s}_{i}-\mathbf{t}\right\|+\epsilon_{i}+\alpha \cdot \cos \left(\mathbf{c}, \mathbf{e}_{i}\right) scorei=sit+ϵi+αcos(c,ei)

其中 ϵi∼N(0,1−ri)\epsilon_{i} \sim \mathcal{N}\left(0,1-r_{i}\right)ϵiN(0,1ri) 是任务特定噪声,最终得分转换为模糊评估指标(完整性、相关性、置信度)14。

3.2 任务领域

任务由以下内容定义:

  • 任务向量 (t∈Rd)\left(\mathbf{t} \in \mathbb{R}^{d}\right)(tRd) 编码所需的技能特征。

    • 上下文向量 (c∈Rc)\left(\mathbf{c} \in \mathbb{R}^{c}\right)(cRc) 描述特定于环境的信息。
    • 领域标签 D∈D \inD {紧急、文档、通用},修改任务向量分布。
      领域塑造任务特征:
  • 紧急:通过提升前两个技能维度,强调响应能力和关键决策。

    • 文档:专注于结构化生成或摘要,影响后续技能组件。
    • 通用:表示均匀分布的任务要求。
      每个任务都被分配一个唯一ID,以确保跨模拟运行的确定性代理输出。代理的评估遵循模糊逻辑机制,其中分数映射到定性标签(例如,优秀、良好等),使用任务质量指标的加权聚合 [11]。

这种设计使代理表现出多样化的行为和上下文任务互动,这对于在各种条件下评估编排性能至关重要。

4 结果与讨论

我们的神经编排框架 MetaOrch 在动态多代理环境中展示了对基线代理选择策略的重大改进。

4.1 训练性能

在500次迭代中,批次大小为64,跨紧急、文档和通用领域展示了持续收敛,如表1所示。

交叉熵损失减少了 80.2%80.2 \%80.2%(从1.4065减少到0.2789),置信度回归损失提高了 93.7%93.7 \%93.7%(从0.0809减少到0.0051)。尽管偶尔增加(例如,迭代150-250),但总体下降趋势确认了成功学习。
表1. 迭代过程中的训练损失值

迭代次数 交叉熵 损失置信度回归损失
0 1.4065 0.0809
100 0.6156 0.0059
200 0.4817 0.0033
300 0.3536 0.0021
450 0.2789 0.0051

4.2 超参数优化

在网络架构、dropout率、学习率、批次大小和置信度权重上的网格搜索产生了最佳配置(表2)4 。

表2. 按准确率排名的前5个超参数配置

排名 隐藏维度 Dropout LR 批次大小 Conf. 权重 准确率
1 128,64 0.0 0.010 128 0.2 0.911
2 256,128,64256,128,64256,128,64 0.0 0.001 128 0.1 0.906
3 128,64 0.2 0.001 128 0.2 0.905
4 256,128,64256,128,64256,128,64 0.0 0.010 128 0.0 0.902
5 64,32 0.0 0.010 64 0.0 0.901

超参数分析的关键见解:

  • 两层架构 (128,64)(128,64)(128,64) 显然是最优的
    • 较高的学习率 (0.01) 通常优于较低的学习率
    • 较大的批次大小 (128) 提供更稳定的训练
      最佳配置在两层网络、无dropout、学习率为0.01、批次大小为128和置信度权重为0.2的情况下实现了 91.1%91.1 \%91.1% 的选择准确率。

4.3 评估结果

我们将 MetaOrch 与三种基线策略进行了比较:随机、轮询和静态最佳,跨越300个评估任务(表3)。

表3. 代理选择策略的性能比较

策略 平均质量 选择准确率
MetaOrch 0.731 0.863
随机 0.697 0.243
轮询 0.703 0.257
静态最佳 0.751 0.057
MetaOrch 实现了 86.3%86.3 \%86.3% 的选择准确率,显著优于所有基线。尽管静态最佳实现了较高的平均质量 (0.751),其低选择准确率 (5.7%)(5.7 \%)(5.7%) 表明它缺乏上下文感知以实现最优代理任务匹配。

4.4 混淆矩阵分析

表4. MetaOrch 代理选择的混淆矩阵

代理 0 代理 1 代理 2
代理 0 212 12 0
代理 1 13 46 0
代理 2 11 5 1

代理 0(EmergencyBot)被正确选择212次,而代理 1(DocumentBot)被正确选择46次。代理 2(GeneralistBot)很少被正确选择,表明可能存在偏差。代理 0 和 1 之间的混淆表明紧急和文档领域之间的任务模糊 9]。

4.5 局限性和未来工作

尽管结果令人鼓舞,但局限性包括代理 2 的选择较差(表明在均匀技能分布方面存在挑战)和固定长度的历史窗口可能无法捕捉长期性能趋势。未来的研究应探索:

  • 更复杂的历叱编码机制(RNNs,注意力)10
    • 跨多样任务领域的扩展评估
    • 改进一般代理性能的技术
      总之,MetaOrch 展示了神经编排在多代理系统中的有效性,相对于传统选择策略提供了显著改进,同时通过模糊评估指标保持了可解释性。

5 结论和未来展望

本文介绍了 MetaOrch,一种神经编排框架,用于多代理系统,在多样化任务领域中实现了 86.3%86.3 \%86.3% 的选择准确率。主要贡献包括模块化架构,将编排与代理实现解耦,适应变化需求的神经选择机制,以及生成监督信号的可解释模糊评估框架。

未来的研究方向包括:(1) 整合强化学习以实现长期优化,(2) 多代理协作而非单代理选择,(3) 跨领域迁移学习,以及 (4) 集成 LLM 以实现细致的任务表示和丰富反馈[5],[15]。

MetaOrch 表明神经编排在多代理系统的适应性、性能和可解释性方面提供了显著改进,随着自主系统在各领域中的普及,这一点将变得越来越重要。

参考文献

  1. Agrawal, K., Nargund, N.: 异构代理环境的自适应编排机制。国际智能系统杂志 39(1), 112-134 (2024)
    1. Anuraj, B.: 多代理系统中的任务分配策略:全面调查。自主代理和多代理系统杂志 37(2), 215-249 (2023)
    1. Bellifemine, F.L., Caire, G., Greenwood, D.: 使用 JADE 开发多代理系统。John Wiley & Sons (2007)
    1. Bergstra, J., Bengio, Y.: 超参数优化的随机搜索。机器学习研究杂志 pp. 281-305 (2012)
    1. Brown, T.B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al.: 语言模型是少样本学习者。神经信息处理系统进展 33, 1877-1901 (2020)
    1. Cao, Z., Qin, T., Liu, T.Y., Tsai, M.F., Li, H.: 学习排序:从成对方法到列表方法。第24届国际机器学习会议论文集 pp. 129-136. ACM (2007)
    1. Jennings, N.R., Sycara, K., Wooldridge, M.: 代理研究与开发路线图。自主代理和多代理系统 1(1), 7-38 (1998)
    1. Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A.A., Veness, J., Bellemare, M.G., Graves, A., Riedmiller, M., Fidjeland, A.K., Ostrovski, G., et al.: 通过深度强化学习实现人类级别的控制。自然 518(7540), 529-533 (2015)
    1. Sutton, R.S., Barto, A.G.: 强化学习:导论。MIT Press, 第2版 (2018)
      10.10. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., Polosukhin, I.: 注意力就是你所需要的。神经信息处理系统进展 pp. 5998-6008 (2017)
  2. Wang, Y., Zhang, H., Li, Z., Ren, W.: 基于神经网络的异构非线性多代理系统的分层容错仿射形成控制。IEEE 神经网络与学习系统汇刊 (2024)
    1. Wooldridge, M., Jennings, N.R.: 智能代理:理论与实践,卷10。知识工程评论 (1995)
    1. Zadeh, L.A., Klir, G.J., Yuan, B.: 模糊集、模糊逻辑和模糊系统:Loth A. Zadeh 的精选论文。世界科学出版社 (1996)
    1. Zhang, K., Yang, Z., Liu, H., Zhang, T., Başar, T.: 多机器人应用中的多智能体深度强化学习综述。IEEE 神经网络与学习系统汇刊 (2023). https://doi.org/10.1109/TNNLS.2022.3229533
    1. Zhang, L., Wang, H., Chen, C., Zhao, Y.: 基于神经网络观测器的二阶多智能体系统非严格反馈下的有限时间预定性能时变形成控制。IEEE 神经网络与学习系统汇刊 (2024)
      参考论文:https://arxiv.org/pdf/2505.02861
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐