论文阅读《Improving Language Understanding by Generative Pre-Training》

论文地址：《Improving Language Understanding by Generative Pre-Training》论文介绍本论文探索一种基于半监督解决语言理解任务方法，使用无监督预训练和监督微调。目标是从大量未标注语料库学习一种普遍的表征，不要求目标任务与未标注语料库在相同领域。训练分为两个阶段：首先，在未标注数据上使用语言建模来学习神经网络模型的初始化参数。随后，使用目标任务来

Diobld

1628人浏览 · 2022-03-05 22:23:46

Diobld · 2022-03-05 22:23:46 发布

论文地址：《Improving Language Understanding by Generative Pre-Training》

论文介绍

本论文探索一种基于半监督解决语言理解任务方法，使用无监督预训练和监督微调。目标是从大量未标注语料库学习一种普遍的表征，不要求目标任务与未标注语料库在相同领域。训练分为两个阶段：首先，在未标注数据上使用语言建模来学习神经网络模型的初始化参数。随后，使用目标任务来进行监督学习。该模型体系结构基于Transformer，在四种类型语言理解任务上——自然语言推理、问题回答、语义相似性和文本分类均优于别的训练模型。

框架

第一阶段是在大型文本语料库上学习高容量语言模型。接下来是一个微调阶段，在那里我们使模型适应一个有标记数据的鉴别任务。

预训练阶段

使用multi-layer Transformer decoder，采用的优化任务是语言模型。

微调阶段

就是在具体任务的标注数据上进行调优，以文本分类任务为例，只需要将最后1个token的最上层的激活向量再过一层线性转换+softmax即可。论文发现，在fine-tuning阶段，引入辅助任务（例如还是语言模型），可以 a) 提升泛化能力，b) 加速收敛。针对其他一些任务的结构化输入数据，论文提出使用遍历（travelsal-style approach）的方法，模型框架改动小，灵活方便。具体见下图：这里插入图片描述](https://img-blog.csdnimg.cn/f3155dbf56f14a039910e7f07a7e5579.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARGlvYmxk,size_20,color_FFFFFF,t_70,g_se,x_16

实验分析

模型细节和Transformer的Decoder基本一致，有一些小改动，例如层数增大，激活函数改用GELU等。在Natural Language Inference, Question answering and commensense reasoning, Semantic Similarity, Classification等多个任务的多份数据集上均取得了很大提升。
在这里插入图片描述
左图表明了层数的关键。右图对比了Transformer和LSTM的zero-shot效果（不在监督数据上进行训练），证实Transformer能够学到更多信息。

对照实验（Ablation studies），第1行是采用模型的效果，第2行表明pre-training是必不可少的，第3行表明fine-tuning阶段的辅助任务不一定总是有效的（在一些小数据集上可能没有更好），第4行则再次对比说明Transformer对比LSTM的领先性