|
医患沟通是临床诊疗的核心环节,良好的沟通能显著提升患者满意度、减少医疗纠纷。然而,传统医患沟通培训多依赖标准化病人(SP)或角色扮演,存在成本高、场景单一、反馈滞后等问题。本项目旨在利用人工智能与虚拟现实技术,开发一款基于UE的医患聊天模拟训练系统。医生(用户)通过与AI驱动的数字人患者进行多轮语音对话,训练在不同医疗场景(如解释病情、共同决策、坏消息告知)的沟通技巧,系统自动依据“医患沟通技能评价量表”(SEGUE)对沟通表现进行客观评分,为医学教育提供低成本、可重复、标准化的训练工具。
-
大语言模型驱动的患者角色:采用DeepSeek-V3大模型,通过精细的Prompt工程模拟不同性格、病情和心理状态的患者角色,使对话更真实、更具挑战性,突破传统脚本式对话的局限性。
-
端到端语音交互与实时口型同步:集成科大讯飞语音识别(STT)与语音合成(TTS),实现“语音输入-大模型生成-TTS播报”闭环。结合SALSA LipSync Suite插件,根据音频实时驱动数字人口型,提升沉浸感。
-
SEGUE量表自动评分:利用大模型的语义理解能力,结合预设评分规则,对医患对话历史进行结构化分析,自动计算SEGUE量表各维度得分,提供即时、客观的反馈。
-
多场景数字人快速构建:使用Metahuman生成高保真患者模型,配合Mixamo动作库和SALSA唇形同步,实现角色快速迭代与表情动画增强,降低美术开发成本。
-
WebSocket实时通信架构:前后端通过WebSocket保持长连接,实现低延迟的语音流式传输与对话状态同步,提升交互流畅度。
-
MetaHuman 虚拟患者接入与音频驱动
在 UE5中导入1~2款不同年龄/性别的 MetaHuman 模型(先做一款,视工作量决定)。接入 Audio2Face 或同类口型同步插件,使数字人说话时的嘴型与后端返回的 TTS 音频流精准匹配。增加待机动作(Idle,如揉太阳穴、深呼吸)。
量化考核标准:
唇形动画延迟时间(音频播放到嘴部动作反馈)< 100ms。
提供至少 3种 可被代码实时触发的面部微表情(痛苦、焦虑、微笑),无明显穿模。
- PC级画质渲染与UI交互
全面启用 Lumen 全局光照与影视级抗锯齿(TSR/DLSS)。主屏幕为主视角 3D 诊室画面,右侧为 2D 拟真“电子病历/化验单”系统,支持鼠标滚轮缩放、拖拽
量化考核标准:
性能基准:在主流配置电脑(如 RTX 3060 显卡 + 1080P 分辨率)下,保持稳定运行 ≥ 30 FPS。
UI 适配性:完美适配 16:9(1080P/2K/4K)与 16:10(轻薄本)分辨率,0 比例拉伸失真,所有 UI 按钮支持鼠标悬停(Hover)特效与文字提示(Tooltip)。
- PC 端麦克风采集与 ASR(语音转文本)接入
在 UE5 开发麦克风录音模块,支持两种模式:【长按空格键说话 (Push-to-Talk)】(基础功能)与【VAD 自动静音检测】(进阶功能,尝试去做)。后端集成医疗垂直领域的 ASR 接口,对医学名词增加热词偏好权重。
量化考核 (KPI):
常规对话语音识别准确率 > 90%;专业医学术语(如:阿莫西林、二甲双胍、CT造影)识别率 > 80%。
- TTS(文本转语音)模块流式传输
大模型边生成文本,边调用 TTS 接口合成语音,并以音频流的形式推送到 UE5 客户端播放,彻底消除“大模型长文本生成导致等待过久”的死穴。
量化考核 (KPI):
端到端响应延迟极值挑战:从医生松开空格键(停止说话),到听到电脑音箱发出虚拟患者的第一个音节,总延迟严格控制在 < 2.5秒。
- 多临床场景(剧本)配置系统搭建
在 PostgreSQL 中设计 scenarios 表,客户端提供剧本选择界面(例如:坏消息告知 SPIKES 模型、固执型高血压患者沟通、儿科家属安抚)。不同剧本需注入不同的患者隐藏属性、知识盲区和性格 Prompt。
量化考核 (KPI):
本期需完成并在数据库中配置1~2个差异化临床教学剧本,支持热更新(无需重新打包 exe 即可新增剧本)。
- SEGUE 评分引擎专业度调优 (Prompt Engineering)
引入 Few-Shot(少样本提示)和 RAG(检索增强生成),喂给大模型几段人类专家的标准评分案例。增加“医学黑话检测”,若医生对低文化设定的患者滥用晦涩专业缩写,需在 G(解释病情)维度强制扣分。
量化考核 (KPI):
选取 5~10 段真实测试对话进行对比,AI 自动打分的总分与真实带教老师(人类)的打分误差范围控制在 ±15% 以内。
AI 生成的点评报告必须包含不少于 2条 具体的、引用了上下文原话的改进建议。
报告生成时间(从点击结束问诊到界面渲染完毕) < 5秒
·游戏引擎:UE5.6.1
·音频输入:Unreal 原生 Audio Capture 组件
·音频输出:RuntimeAudioImporter 插件
·静音检测(可选):WebRTC VAD
·UI:UMG
·网络通信:VaRest,WebSocket
美术技术栈:
·角色生成:Metahuman/Maya
·场景:Maya/Blender或者买买买
·唇形同步:Audio2Face
·动画动作:Mixamo 库,Control Rig & Sequencer
后端技术栈:
·基础框架:Python+FastAPI
·缓存:Redis
·语音识别:科大讯飞语音听写API
·语音合成:科大讯飞在线语音合成
·大模型LLM:DeepSeek-V3
·数据库:PostgreSQL
数据流:
用户点击按钮开始录音 →
UE捕获音频 →
通过WebSocket发送音频流/文件到后端 →
后端接收音频,调用科大讯飞STT接口,返回文本 →
后端将文本与当前场景、历史对话组合成Prompt,调用DeepSeek-V3,获得患者回复文本 →
后端将回复文本发送至科大讯飞TTS,获取音频文件URL →
UE收到音频URL后下载并播放,同时触发口型同步;数字人播放对应说话动画 →
用户点击“结束聊天”按钮,后端基于完整对话历史调用SEGUE评分模块,返回评分结果并在UI展示
实施计划
第一阶段(1-2周):需求细化与技术验证。确认场景脚本、SEGUE量表细则;测试所有API(科大讯飞、DeepSeek)可用性及延迟;搭建基础通信框架。
第二阶段(3-6周):核心功能开发。后端实现STT→LLM→TTS串联及WebSocket服务;UE实现录音、播放、UI框架及基础通信;美术完成第一个角色及场景原型。
第三阶段(7-9周):功能完善与集成。后端完成评分模块、多场景Prompt配置;UE集成Audio2Face、动画控制,完成全部UI;美术完成全部角色、动画、场景并导入。
第四阶段(10-12周):测试、优化与部署。端到端联调,优化响应速度、评分准确性,打包UE客户端,编写用户手册。
预期成果
一套高可用、低延迟的“医患沟通模拟与评价系统” Demo,包含 1-2 个基于写实渲染管线的高精度 3D 虚拟病人模型,具备真实的呼吸动作与高精度的唇音同步,实现“按住说话 -> 智能理解 -> 语音回复”的顺畅体验,系统端到端交互延迟控制在极低水平,以及包含实时滚动的聊天记录界面和问诊结束后的打分系统
|
所有评论(0)