Alexa如何掌握阿拉伯语:AI多方言技术解析
在2021年12月,阿拉伯语版本的Alexa在沙特阿拉伯王国和阿拉伯联合酋长国正式推出。与所有新增的Alexa语言一样,这套新语言模型在研发过程中面临了一系列独特的挑战。首要问题是确定Alexa应该使用何种形式的阿拉伯语。虽然沙特和阿联酋的官方书面语言是现代标准阿拉伯语(MSA),但在日常生活中,阿拉伯语使用者使用的是包含多种方言变体的口语形式。对于用户而言,使用母语方言与Alexa互动比使用标准
在2021年12月,阿拉伯语版本的Alexa在沙特阿拉伯王国和阿拉伯联合酋长国正式推出。与所有新增的Alexa语言一样,这套新语言模型在研发过程中面临了一系列独特的挑战。
首要问题是确定Alexa应该使用何种形式的阿拉伯语。虽然沙特和阿联酋的官方书面语言是现代标准阿拉伯语(MSA),但在日常生活中,阿拉伯语使用者使用的是包含多种方言变体的口语形式。对于用户而言,使用母语方言与Alexa互动比使用标准阿拉伯语更为自然。因此,Alexa AI团队(包括计算语言学家)决定,阿拉伯语Alexa将能够理解使用MSA和海湾方言(Khaleeji)提出的请求。
Alexa的语音输出也将同时支持MSA和一种海湾方言——在正式场合(如回复信息查询请求)使用MSA,在非正式场合(如确认闹钟时间和音乐选择)使用海湾方言。这意味着,用户用一种阿拉伯方言向Alexa发出请求,可能会收到另一种方言的回复,这恰恰反映了该地区阿拉伯语使用者之间的日常交流模式。
核心技术组件
全新Alexa语言模型的核心组件包括:自动语音识别(ASR),负责将语音转换为文本;自然语言理解(NLU),负责解读文本以启动相应操作;以及文本转语音(TTS),负责将NLU的输出转换为合成语音。
这三个组件共同面临一个关键问题:如何以文本形式呈现话语,这既是ASR的输出格式,也是TTS的输入格式。书面阿拉伯语通常会省略短元音,类似于英文单词"begin"被拼写为"bgn"。人们通常能从上下文中推断出缺失的元音。
然而,在正式和教育文本中(如儿童阅读启蒙书),元音和一些辅音会通过变音符来标示。因此,Alexa AI团队必须决定ASR输出是否应包含变音符。
方言之间的主要区别之一在于元音发音,因此省略变音符更容易创建适用于所有方言的语音表示,这对ASR和NLU模块非常有利。此外,除了MSA之外,其他形式的阿拉伯语没有公开发行的出版物,因此也没有标准的正字法。要求标注人员添加变音符反而可能引入更多歧义。最终,Alexa AI团队决定,ASR输出仅使用两种变音符(shaddah和maddah),因为它们有助于提升从ASR经NLU到TTS流程中实体名称的发音准确性。
这些设计决策对ASR、NLU和TTS各个团队产生了不同的影响,当然,每个团队也都面临着各自的特定挑战。
自动语音识别(ASR)
ASR团队的目标之一是在方言阿拉伯语和外来的音译词缺乏标准化正字法的情况下,提供一致的输出。他们的一个决策是使用拉丁字母来表示外来音译词,例如法语或美国音乐家及专辑的名称。
为此,他们使用了一种所谓的“目录摄入规范化器”(catalogue ingestion normalizer),该工具接收法语和英语的术语目录,并将ASR模型输出的相应阿拉伯语脚本转换为拉丁脚本。
应用科学经理及其Alexa语音团队的同事们从英语声学模型开始着手,这比随机初始化的模型能更好地适应人类语音。他们使用了目标海湾方言的公开阿拉伯语音频数据集,以及通过Cleo技能收集的数据来训练模型。Cleo是一项Alexa技能,允许使用多语言的用户通过开放式话语响应语音提示,来帮助训练新语言模型。Cleo数据包含了其他阿拉伯方言的带标签话语,使ASR模型能为更广泛的用户群体提供更一致的用户体验。
自然语言理解(NLU)
NLU模型接收由ASR转录的话语,并根据意图对其进行分类(如播放音乐)。它还需要识别话语中的所有“槽位”(如歌曲名或艺术家名)及其“槽位值”(如特定的艺术家名"Ahlam")。
NLU模型的首要任务是对输入进行分词,即将其分割成应独立处理的语义单元。在许多语言中,分词在ASR阶段就自然完成了。但阿拉伯语使用词缀(前缀和后缀)来表达上下文含义。其中一些词缀(如冠词和介词)与NLU无关,可以保留附着在词干上。但另一些(如所有格)则需要独立的槽位标签。
分词后的输入会传递给NLU模型,这是一个三语模型,能够处理阿拉伯语、法语或英语的输入。这不仅有助于模型处理阿拉伯语中使用的外来词,还能实现从目前训练数据更丰富的法语和英语中迁移知识。
研究科学经理及其团队对现有的阿拉伯语训练数据进行了重采样,以扩展训练样本的多样性。例如,他们的重采样工具会用曲库中的其他名称替换现有话语中的艺术家或歌曲名称。一个关键的考量因素是在训练数据中包含多少具有相同基本结构的重采样话语。使用过多基于同一模板的示例,可能会降低模型在其他类别话语上的性能。
为了计算每个话语模板的最佳示例数量,NLU研究人员构建了一个话语复杂度衡量指标,该指标综合考虑了话语模板中的槽位数量和每个槽位的可能取值数量。话语模板越复杂,所需的示例就越多。
模型训练过程始于一个基于BERT的语言模型,该模型使用未标记的数据和标准的语言建模目标,在所有三种语言上进行了预训练。在这一阶段,NLU团队使用了通过某云翻译服务从英语翻译而来的数据来扩充阿拉伯语数据集。随后,研究人员通过对大量带注释的法语和英语数据语料库进行微调,来训练模型执行NLU任务。其理念是利用这两种语言的丰富数据,来教授模型NLU处理的一般原则,然后将其迁移到针对较稀疏的带标签阿拉伯语数据进行微调的模型上。最后,该模型再次使用三种语言等量的带标签训练数据进行微调,以确保对阿拉伯语的微调不会降低模型在其他两种语言上的性能。
文本转语音(TTS)
尽管变音符可能对NLU造成干扰,但它们对TTS来说却不可或缺:Alexa语音合成器需要精确知道要输出哪些元音。因此,当阿拉伯语TTS模型从Alexa的某个功能(如来自音乐播放器的音乐选择确认)接收到文本字符串时,会先通过一个变音符添加器,将完整的变音符集添加回文本中。
TTS研究人员主要使用MSA文本来训练变音符添加器,并辅以Alexa团队自行编译的一些海湾方言数据。推断正确的变音符取决于整个话语的上下文:作为一个类比,“crw"代表的是"craw”、“crew"还是"crow”,通常可以根据上下文来确定。因此,变音符添加器模型采用了注意力机制,能够关注整个话语的上下文。
需要以海湾阿拉伯语输出的内容随后会通过一个模块,该模块将变音符转换为相应的短元音发音表示,并进行其他必要的转换。这是一个基于规则的转换系统,由语言工程师及其同事构建,用于捕捉MSA和海湾阿拉伯语之间可预测的对应关系。
TTS模型本身是一个神经网络,它接收文本作为输入,并输出声学波形。它利用了某机构TTS团队近期在情感语音表达方面的研究成果,使阿拉伯语TTS模型默认具备生动、对话式的风格。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
更多推荐
所有评论(0)