山东大学项目实训-医患沟通系统策划案

zqfzqfzqf123

517人浏览 · 2026-03-15 02:26:39

zqfzqfzqf123 · 2026-03-15 02:26:39 发布

项目背景

医患沟通是临床诊疗的核心环节，良好的沟通能显著提升患者满意度、减少医疗纠纷。然而，传统医患沟通培训多依赖标准化病人（SP）或角色扮演，存在成本高、场景单一、反馈滞后等问题。本项目旨在利用人工智能与虚拟现实技术，开发一款基于UE的医患聊天模拟训练系统。医生（用户）通过与AI驱动的数字人患者进行多轮语音对话，训练在不同医疗场景（如解释病情、共同决策、坏消息告知）的沟通技巧，系统自动依据“医患沟通技能评价量表”（SEGUE）对沟通表现进行客观评分，为医学教育提供低成本、可重复、标准化的训练工具。

技术创新

大语言模型驱动的患者角色：采用DeepSeek-V3大模型，通过精细的Prompt工程模拟不同性格、病情和心理状态的患者角色，使对话更真实、更具挑战性，突破传统脚本式对话的局限性。
端到端语音交互与实时口型同步：集成科大讯飞语音识别（STT）与语音合成（TTS），实现“语音输入-大模型生成-TTS播报”闭环。结合SALSA LipSync Suite插件，根据音频实时驱动数字人口型，提升沉浸感。
SEGUE量表自动评分：利用大模型的语义理解能力，结合预设评分规则，对医患对话历史进行结构化分析，自动计算SEGUE量表各维度得分，提供即时、客观的反馈。
多场景数字人快速构建：使用Metahuman生成高保真患者模型，配合Mixamo动作库和SALSA唇形同步，实现角色快速迭代与表情动画增强，降低美术开发成本。
WebSocket实时通信架构：前后端通过WebSocket保持长连接，实现低延迟的语音流式传输与对话状态同步，提升交互流畅度。

项目任务要点

MetaHuman 虚拟患者接入与音频驱动
在 UE5中导入1~2款不同年龄/性别的 MetaHuman 模型（先做一款，视工作量决定）。接入 Audio2Face 或同类口型同步插件，使数字人说话时的嘴型与后端返回的 TTS 音频流精准匹配。增加待机动作（Idle，如揉太阳穴、深呼吸）。

量化考核标准：

唇形动画延迟时间（音频播放到嘴部动作反馈）< 100ms。

提供至少 3种可被代码实时触发的面部微表情（痛苦、焦虑、微笑），无明显穿模。
PC级画质渲染与UI交互
全面启用 Lumen 全局光照与影视级抗锯齿（TSR/DLSS）。主屏幕为主视角 3D 诊室画面，右侧为 2D 拟真“电子病历/化验单”系统，支持鼠标滚轮缩放、拖拽
量化考核标准：

性能基准：在主流配置电脑（如 RTX 3060 显卡 + 1080P 分辨率）下，保持稳定运行 ≥ 30 FPS。

UI 适配性：完美适配 16:9（1080P/2K/4K）与 16:10（轻薄本）分辨率，0 比例拉伸失真，所有 UI 按钮支持鼠标悬停（Hover）特效与文字提示（Tooltip）。
PC 端麦克风采集与 ASR（语音转文本）接入
在 UE5 开发麦克风录音模块，支持两种模式：【长按空格键说话 (Push-to-Talk)】（基础功能）与【VAD 自动静音检测】（进阶功能，尝试去做）。后端集成医疗垂直领域的 ASR 接口，对医学名词增加热词偏好权重。
量化考核 (KPI)：
常规对话语音识别准确率 > 90%；专业医学术语（如：阿莫西林、二甲双胍、CT造影）识别率 > 80%。
TTS（文本转语音）模块流式传输
大模型边生成文本，边调用 TTS 接口合成语音，并以音频流的形式推送到 UE5 客户端播放，彻底消除“大模型长文本生成导致等待过久”的死穴。
量化考核 (KPI)：
端到端响应延迟极值挑战：从医生松开空格键（停止说话），到听到电脑音箱发出虚拟患者的第一个音节，总延迟严格控制在 < 2.5秒。
多临床场景（剧本）配置系统搭建
在 PostgreSQL 中设计 scenarios 表，客户端提供剧本选择界面（例如：坏消息告知 SPIKES 模型、固执型高血压患者沟通、儿科家属安抚）。不同剧本需注入不同的患者隐藏属性、知识盲区和性格 Prompt。
量化考核 (KPI)：
本期需完成并在数据库中配置1~2个差异化临床教学剧本，支持热更新（无需重新打包 exe 即可新增剧本）。
SEGUE 评分引擎专业度调优 (Prompt Engineering)
引入 Few-Shot（少样本提示）和 RAG（检索增强生成），喂给大模型几段人类专家的标准评分案例。增加“医学黑话检测”，若医生对低文化设定的患者滥用晦涩专业缩写，需在 G（解释病情）维度强制扣分。
量化考核 (KPI)：
选取 5~10 段真实测试对话进行对比，AI 自动打分的总分与真实带教老师（人类）的打分误差范围控制在 ±15% 以内。
AI 生成的点评报告必须包含不少于 2条具体的、引用了上下文原话的改进建议。
报告生成时间（从点击结束问诊到界面渲染完毕） < 5秒

技术路线
前端技术栈：

·游戏引擎：UE5.6.1

·音频输入：Unreal 原生 Audio Capture 组件

·音频输出：RuntimeAudioImporter 插件

·静音检测（可选）：WebRTC VAD

·UI：UMG

·网络通信：VaRest，WebSocket

美术技术栈：

·角色生成：Metahuman/Maya

·场景：Maya/Blender或者买买买

·唇形同步：Audio2Face

·动画动作：Mixamo 库，Control Rig & Sequencer

后端技术栈：

·基础框架：Python+FastAPI

·缓存：Redis

·语音识别：科大讯飞语音听写API

·语音合成：科大讯飞在线语音合成

·大模型LLM：DeepSeek-V3

·数据库：PostgreSQL

数据流：

用户点击按钮开始录音 →

UE捕获音频 →

通过WebSocket发送音频流/文件到后端 →

后端接收音频，调用科大讯飞STT接口，返回文本 →

后端将文本与当前场景、历史对话组合成Prompt，调用DeepSeek-V3，获得患者回复文本 →

后端将回复文本发送至科大讯飞TTS，获取音频文件URL →

UE收到音频URL后下载并播放，同时触发口型同步；数字人播放对应说话动画 →

用户点击“结束聊天”按钮，后端基于完整对话历史调用SEGUE评分模块，返回评分结果并在UI展示

实施计划

第一阶段（1-2周）：需求细化与技术验证。确认场景脚本、SEGUE量表细则；测试所有API（科大讯飞、DeepSeek）可用性及延迟；搭建基础通信框架。

第二阶段（3-6周）：核心功能开发。后端实现STT→LLM→TTS串联及WebSocket服务；UE实现录音、播放、UI框架及基础通信；美术完成第一个角色及场景原型。

第三阶段（7-9周）：功能完善与集成。后端完成评分模块、多场景Prompt配置；UE集成Audio2Face、动画控制，完成全部UI；美术完成全部角色、动画、场景并导入。

第四阶段（10-12周）：测试、优化与部署。端到端联调，优化响应速度、评分准确性，打包UE客户端，编写用户手册。

预期成果

一套高可用、低延迟的“医患沟通模拟与评价系统” Demo，包含 1-2 个基于写实渲染管线的高精度 3D 虚拟病人模型，具备真实的呼吸动作与高精度的唇音同步，实现“按住说话 -> 智能理解 -> 语音回复”的顺畅体验，系统端到端交互延迟控制在极低水平，以及包含实时滚动的聊天记录界面和问诊结束后的打分系统

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git