华为云 Flexus+DeepSeek 征文|CCE 高可用部署 Dify 搭建 AI Agent:进阶使用企业级医疗科普知识库、实时联网搜索与工作流搭建
华为云 Flexus+DeepSeek 征文|CCE 高可用部署 Dify 搭建 AI Agent:进阶使用企业级医疗科普知识库、实时联网搜索与工作流搭建
华为云 Flexus+DeepSeek 征文|CCE 高可用部署 Dify 搭建 AI Agent:进阶使用企业级医疗科普知识库、实时联网搜索与工作流搭建
CCE高可用部署流程
1、点击一键部署(CCE容器高可用部署)
2、选择模板(默认配置即可)
创建方式:已有模板
模板来源:URL
模板 URL:系统默认
3、参数配置
资源栈名称:资源栈名称以中文或英文开始,支持中文、大小写英文、数字、下划线、中划线,128个字符之内。 资源栈名称不能重名。
如下内容非常重要,请仔细检查,避免出错
按模板要求对部分资源加密:取消勾选
cce_node_pool_password:CCE集群node节点密码,用于集群节点登录
pgsql_password:PostgreSQL数据库的管理员密码,取值范围
pgsql_user_password:PostgreSQL数据库的database用户密码
redis_password:redis数据库密码
css_password:CSS向量数据库的密码
obs_bucket: 按照上面创建的桶名填写
access_key:填写访问密钥ID(AK)
secret_key:填写下载的.csv文件中查看秘密访问密钥(SK)
ecs_password:部署Embedding和Reranker模型的云服务器密码
完成如上配置,下一步即可,特别注意密码的格式要求,否者在执行任务的时候会回滚报错
4、资源栈设置
IAM权限委托:选择上面已经创建的委托
回滚设置和删除保护:可以根据需要开启,默认是关闭,建议开启回滚设置,如果创建失败华为云会自动删除创建的一些列配置,如果不开启需要手动删除非常麻烦
5、配置确认
确认自己所做的配置有没有问题,如果问题创建执行任务即可,创建执行任务确认即可
6、部署-执行
7、基本信息-状态等待部署完成即可(这个过程华为云正在创建CCE容器高可用部署所需要的一些列配置,可能会给手机频繁发短信,代表创建完成)
8、等待部署完成(预计10-20分钟)
9、浏览器地址访问
10、通过浏览器访问链接来访问Dify - LLM 应用开发平台,设置管理员账户Dify - LLM 应用开发平台
11、通过设置的管理员账户信息来登录
12、登录后显示如下页面,代表Dify - LLM 应用开发平台已经部署成功
Dify工作流搭建-Dify导入
1、Dify平台,导入DSL文件
2、导入 DSL 文件,选择 URL并粘贴到 DSL URL 路径
https://documentation-samples.obs.cn-north-4.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-moudle/building-a-dify-llm-application-development-platform/workflow/DeepSeek_%E8%81%94%E7%BD%91%E6%90%9C%E7%B4%A2_%E7%9F%A5%E8%AF%86%E5%BA%93.yml
3、安装插件
OpenAI-API-compatible插件:让应用适配 OpenAI 接口,便捷调用其模型功能(如文本生成等),简化开发集成。
SearXNG插件:扩展开源元搜索引擎功能,可整合数据源、优化展示或增强隐私保护,提升搜索体验。
4、安装完成-关闭
5、点击联网搜索插件,进行个人授权
6、个人内网 IP获取(弹性云服务器控制台,找到自己的服务器的内网 IP)
7、服务器8080端口开放(服务器放行8080端口确认默认放行)
8、SearXNG base URL配置
- URL格式:http://{内网 IP}:8080
9、配置成功
10、模型配置(更好别人的模型为自己的模型)
11、模型替换(替换为自己的模型)
12、模型参数配置
- 温度:核采样阈值。于决定结果随机性,取值越高随机性越强即相同的问题得到的不同答案的可能性越高。
- Top P:生成过程中核采样方法概率阈值。取值越大,生成的随机性越高;取值越小,生成的确定性越高。
- 频率惩罚:于控制模型已使用字词的鰒率。提高此项可以降低模型在输出中复相同字词的重复度。
- 存在惩罚:于控制模型生成时的复度。提高此项可以降低模型生成的重复复。
- 最大标记:模型回答的tokens的最大长度。
- 思考模式:是否开启思考模式,适用于vLLM和SGLang等推理框架部署的多种思考模式模型,例如Qwen3。
13、工作流无知识库测试,可以看到访问非常成功
搭建企业级医疗科普高质量知识库
快速部署Embedding及Rerank模型
高质量知识库搭建中,Embedding 模型与 Rerank 模型紧密协同 —— 前者将文本转化为语义向量,通过向量相似度快速从知识库召回候选内容,解决 “快速找相关” 的效率问题;后者则对候选结果进行二次排序,结合上下文、实体匹配等特征精细化调整顺序,解决 “精准排顺序” 的准确性问题。两者形成 “粗筛 + 精排” 的分层架构,既通过向量检索实现毫秒级响应,又借助深度语义理解提升结果相关性,共同优化知识检索的效率与精度,是现代智能检索系统的核心技术组合。
1、登录华为云解决方案实践,选择快速部署Embedding及Rerank模型
2、点击进入-下滑至方案架构
3、区域选择
成本预算:3~6元(按需计费:Flexus云服务器X实例2.28元/小时,弹性公网IP EIP0.80元/GB,体验本方案预计成本不超过6元)
4、选择模板
- 默认配置下一步
5、参数配置
- 按模板要求对部分资源加密取消勾选
- ecs_password:云服务器密码,长度为8-26位,密码至少必须包含大写字母、小写字母、数字和特殊字符(!@$%^-_=+[{}]:,./?)中的三种、
6、资源栈设置
开启回滚设置:开启回滚表示操作失败时,会自动回滚至系统所保存的上一个成功的资源状态。创建后可在资源栈详情页面修改。
7、配置确认
8、创建执行计划
9、部署
10、执行计划
11、基本信息中等待状态改变为部署完成即可完成部署
Dify平台模型供应商安装
1、ECS公网IP获取
1、安装bge-m3(embedding)和bge-reranker-v2-m3 (reranker)模型供应商
- Ollama安装
2、Ollama模型供应商配置
- 模型类型:Text Embedding
- 模型名称:bge-m3
- 基础URL:http://ECS公网IP:11434(如上前提有获取流程)
- 端口号:11434
3、Xorbits Inference模型安装
4、Xorbits Inference模型配置
模型类型: Rerank
模型名称与模型UID均填写:bge-reranker-v2-m3
服务器URL:http://ECS公网IP:9997
端口号:9997
5、模型成功配置
配置高质量知识库
1、创建知识库
2、选择数据源(导入已有文本)
- 导入已有文本:把本地或其他地方的文本(如 .txt/.doc 等格式)直接添加到当前平台,避免手动输入
- 同步自 Notion 内容:从 Notion 平台获取内容并保持更新同步,Notion 内容修改后,目标端自动跟进。
- 同步自 Web 站点:通过技术手段抓取网站内容(如页面文字、数据)并同步到另一平台,常受限于站点类型和抓取范围
3、文本分段与清洗
分段设置:可以根据自己知识库文本类型进行配置
索引方式:高质量调用嵌入模型处理文档以实现更精确的检索,可以帮助LLM生成高质量的答案
- Embedding 模型:将用户问题(Query)和候选文档(Document)分别编码为低维稠密向量(Embedding),实现语义的数学化表示
- Rerank 模型:重排序模型将根据候选文档列表与用户问题语义匹配度进行重新排序,从而改进语义排序的结果
- 向量检索:通过生成查询嵌入并查询与其向量表示最相似的文本分段
- 全文检索:索引文档中的所有词汇,从而允许用户查询任意词汇,并返回包含这些词汇的文本片段
- 混合检索:同时执行全文检索和向量检索,并应用重排序步骤,从两类查询结果中选择匹配用户问题的最佳结果,用户可以选择设置权重或配置重新排序模型。
4、采用混合索引方式检索-权重设置(知识库系统中进行检索设置时,进入高质量模块,在 Embedding 模型栏目选择刚创建的 bge - m3 模型,检索设置选择混合检索(可同时使用向量检索和关键词检索并控制两者权重),模型下拉窗口选择刚创建的 bge - reranker - v2 - m3,开启 Score 阈值开关并滑动选择推荐 0.5 的阈值(设置阈值可控制问题与文档分片匹配度最小值,如阈值设为 0.5 时,若 10 段文档分片中仅 3 段与用户问题匹配度超 0.5,则仅这 3 段会被检索出来),同时通过 TOP K 选项控制最终使用的文档分片最大数量。)
- 权重设置:通过调整分配的权重,重新排序策略确定是优先进行语义匹配还是关键字匹配
- Rerank 模型:重排序模型将根据候选文档列表与用户问题语义匹配度进行重新排序,从而改进语义排序的结果
5、选择权重设置(调整滑动按钮,推荐选择语义(向量检索)0.5,关键词(关键词检索)0.5)
Top K和Score 阈值配置默认即可
- Top K:用于筛选与用户问题相似度最高的文本片段。系统同时会根据选用模型上下文窗口大小动态调整分段数量
- Score 阈值:用于设置文本片段筛选的相似度阈值
6、点击保存,高质量知识库创建完成
7、召回测试(根据给定的查询文本测试知识的召回效果)
工作流配置医疗科普高质量知识库
1、知识检索插件配置
2、添加知识库
3、引用高质量知识库
4、完成引用
5、工作流测试
6、知识库以外的内容测试(测试知识库是否会联网搜索)
7、知识库内容测试(测试知识库调用知识库)
医疗科普高质量知识库工作流Agent体验
1、工作流发布更新
2、运行
3、高质量知识库工作流Agent体验
4、嵌入网址运行(选择一种方式嵌入个人网址运行)
- iframe嵌入
- 代码嵌入
- Dify Chrome浏览器拓展嵌入
5、探索打开
6、访问API
Agent监测与维护
1、日志(日志记录了应用的运行情况,包括用户的输入和 AI 的回复)
- 通过日志可以对智能体进行调优和优化
2、标注(可以在应用会话调试中编辑标注,也可以在此批量导入标注用于高质量回复)
- 日志:可记录智能体运行全流程数据,如交互对话、模型调用、工具使用等,帮助开发者实时监控状态、定位异常问题、分析性能瓶颈与用户行为模式,为系统调试和功能迭代提供依据
- 标注:通过对数据打标签(如问题类别、实体、意图等),为智能体注入领域知识、业务规则,既优化模型训练的监督样本质量,提升语义理解与回答准确性,又能强化特定场景下的专业能力,让智能体更精准适配业务需求,实现从数据到能力的闭环提升
3、监测
Dify 平台监测功能能:
- 实时监控智能体应用的运行状态,涵盖会话数量、活跃用户数等关键指标,帮助开发者直观掌握业务情况
- 追踪 Token 输出速度、资源消耗等性能数据,用于定位性能瓶颈,实现针对性优化
- 记录用户交互行为,便于分析用户需求和使用习惯,为智能体的功能迭代与体验升级提供有力支撑
总结
华为云平台上基于云容器引擎 CCE 高可用部署 Dify 平台,并结合 Flexus 实例与 DeepSeek - R1 模型搭建 AI Agent 的实践。借助华为云 “一键部署” 功能,降低部署门槛,Flexus 实例提供高性能计算服务,具备水平垂直伸缩、多种规格、数据持久化等优势。在此基础上,开发的 AI Agent 可进阶应用于企业级医疗科普知识库,实现实时联网搜索与工作流搭建,展示了大语言模型与企业知识管理融合的可行性与实用价值,为企业智能化转型提供有力支撑 。
更多推荐
所有评论(0)