简介说明

本次升级围绕“更易用、更智能、更可控”三大核心目标,重点优化桌面端体验、音色管理、LLM台词处理、智能配音匹配等核心模块,

同时补齐运维脚本、调试能力与用户引导,全方位提升项目使用体验与稳定性,具体升级方向如下:

- 音色管理与批量导入能力增强

- LLM 拆分台词与情绪/强度解析稳定性提升

- 智能角色配音匹配能力升级

一.播放与调试能力升级

1. 后台听书能力增强,保障连续播放

在项目配音详情页新增“后台听书”开关,启用后将执行多重保活策略:禁用Electron窗口后台节流、主进程启用powerSaveBlocker、

播放器后台异常暂停时自动续播,有效防止后台播放被系统挂起。

2. 修复顺序播放中断问题,提升播放流畅度

针对长章节顺序播放到中段自动停止的问题,排查确认根源为虚拟列表仅渲染当前可见区域,导致后续行波形播放器实例未挂载,无法获取下一行播放器句柄。

本次优化新增兜底逻辑,当WaveCellPro实例不存在时,自动切换到全局audioPlayer继续播放下一条,大幅降低播放中断概率。

3. 新增媒体调试日志,便捷定位问题

新增media-debug.log日志文件,全面记录播放相关关键信息,包括Electron窗口事件、WebContents媒体播放/暂停事件、系统电源与锁屏事件、渲染层播放器状态、

顺序播放链路推进情况及fallback播放触发场景,可快速定位“最小化后停播”“播到某一行断掉”等问题,提升问题排查效率。

二、智能匹配与预览能力升级

1. 两阶段匹配升级,提升匹配准确性

将原单步匹配逻辑升级为“简单匹配+深度匹配”双入口模式,深度匹配引入更强的角色画像分析与候选排序逻辑:

先本地提取角色画像和音色画像并完成候选打分排序,再将候选列表交给LLM做小范围判断,若LLM返回异常则回退到本地排序结果,大幅提升匹配稳定性。

2. 新增匹配结果预览框,支持人工复核

深度匹配完成后弹出结果预览框,清晰展示每个角色的关键信息:角色名、推荐音色、推荐理由、判定性别、判定来源、命中的性别信号及性别冲突警告;

支持在预览框内直接改选其他候选音色,仅当点击“确认应用”后,才会正式写回绑定结果,避免误匹配直接生效。

3. 新增清空角色绑定功能,提升操作灵活性

新增“清除当前全部绑定角色”功能,当批量分配结果不满意时,可一键清空所有绑定关系,重新进行匹配操作,提升用户操作便捷性。

4. 强化性别判定,减少明显误匹配

新增硬性性别过滤策略:若角色性别已知,且音色库中存在同性候选,则优先排除异性候选;同时在预览框中展示角色判定性别、

判定来源(角色名优先/上下文优先/混合)及命中的男女信号与冲突提示,方便快速排查性别误判问题,减少“女角色配男声、男角色配女声”的情况。

三、台词拆分与LLM提示词升级

1. 重写默认拆分提示词,优化拆分准确性

针对原有提示词在短引号台词误判、混合句式拆分错误、动作与台词归属混乱等问题,重写默认拆分提示词,重点强化:引号内文本优先识别为台词、短句台词不因其简短而归入旁白、

小说常见“说着、笑道”等句式识别、引号前后动作/神态/旁白的边界拆分,同时将旁白统一标注为“平静/中等”。

2. 优化旁白与角色归属,保留原文完整性

优化动作、神态、环境描写的归属判断,将“说着,她看向某人”“轻轻叹了口气”等描述尽量分回旁白,避免整段内容被错误吞并到角色台词中,同时尽量保留原文完整性,减少角色与旁白的误分配。

3. 提升情绪与强度解析稳定性

针对“模型返回emotion/strength但页面显示缺失”的问题,修复两大根因:后端对情绪和强度名称匹配过于严格、精准填充流程在部分场景下写回空白占位。

本次优化增加情绪和强度别名映射,对常见同义词进行标准化处理,同时在精准填充时对空白字段做回退处理,降低结果缺失概率。常见别名示例:悲伤→伤心、恐惧→害怕、强→强烈、委屈→伤心等。

图片预览

下载地址


https://pan.baidu.com/s/1WARbEwP76bneBmfZtc5zjw?pwd=p8qj 提取码: p8qj

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐