论文地址:《Improving Language Understanding by Generative Pre-Training》

论文介绍

本论文探索一种基于半监督解决语言理解任务方法,使用无监督预训练和监督微调。目标是从大量未标注语料库学习一种普遍的表征,不要求目标任务与未标注语料库在相同领域。训练分为两个阶段:首先,在未标注数据上使用语言建模来学习神经网络模型的初始化参数。随后,使用目标任务来进行监督学习。该模型体系结构基于Transformer,在四种类型语言理解任务上——自然语言推理、问题回答、语义相似性和文本分类均优于别的训练模型。

相关工作

相比word-level的嵌入词向量能够学习到更丰富的语义语境信息,相比传统的RNN网络能够建模更长距离的相关信息。

框架

第一阶段是在大型文本语料库上学习高容量语言模型。接下来是一个微调阶段,在那里我们使模型适应一个有标记数据的鉴别任务。

预训练阶段

使用multi-layer Transformer decoder,采用的优化任务是语言模型。

微调阶段

就是在具体任务的标注数据上进行调优,以文本分类任务为例,只需要将最后1个token的最上层的激活向量再过一层线性转换+softmax即可。论文发现,在fine-tuning阶段,引入辅助任务(例如还是语言模型),可以 a) 提升泛化能力,b) 加速收敛。针对其他一些任务的结构化输入数据,论文提出使用遍历(travelsal-style approach)的方法,模型框架改动小,灵活方便。具体见下图:这里插入图片描述](https://img-blog.csdnimg.cn/f3155dbf56f14a039910e7f07a7e5579.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARGlvYmxk,size_20,color_FFFFFF,t_70,g_se,x_16

实验分析

模型细节和Transformer的Decoder基本一致,有一些小改动,例如层数增大,激活函数改用GELU等。在Natural Language Inference, Question answering and commensense reasoning, Semantic Similarity, Classification等多个任务的多份数据集上均取得了很大提升。
在这里插入图片描述
左图表明了层数的关键。右图对比了Transformer和LSTM的zero-shot效果(不在监督数据上进行训练),证实Transformer能够学到更多信息。
在这里插入图片描述
对照实验(Ablation studies),第1行是采用模型的效果,第2行表明pre-training是必不可少的,第3行表明fine-tuning阶段的辅助任务不一定总是有效的(在一些小数据集上可能没有更好),第4行则再次对比说明Transformer对比LSTM的领先性

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐