- 选题背景和意义:
背景:
归纳迁移学习是一种新型的训练神经网络的技术,在计算机视觉方面已经有较大程度的影响。但是对于自然语言处理领域,目前没有一个较好的方法实现迁移学习。2015年一些计算机学家提出了一种微调语言模型的方法,但是需要百万个文件训练大量时间,严重限制了应用性能。在明确该种思路没有问题的前提下,我们可以认为我们缺少有效训练微调模型的知识。因为自然语言处理的模型对于计算机视觉模型来说相对更浅,对于小数据集的过拟合和灾难性的数据遗忘是急需被解决的问题。
通用语言模型微调是一种解决上述难题的方法。它期望对于一个大规模普通域的数据集训练出一个带有通用性的语言模型(比如在维基百科语料库上训练)。获得该模型的代价可能很大,但是仅需执行一次。之后对于特定的任务只需要对于这个通用性的模型进行微调即可。本课题高度依赖于语言模型。适合于本课题的语言模型是双向LSTM语言模型,它由RNN语言模型演化而来,对于具有远距离依赖性的长文本处理能力非常优秀。相比较传统统计学语言模型,基于网络的RNN语言模型不足之处在于训练时间可能比较长,可解释性比较差。
语言模型可以被认为由encoder和decoder组成。其中encoder获得输入文本的隐藏层状态(hidden state),借助不同的decoder可以实现不同的语言模型功能。例如接入普通语言模型使用的线性解码层可以用于文本预测,接入分类器可以完成文本分类的任务。
迁移学习的应用场景及意义:
该课题现实意义在于这是自然语言处理领域中非常先进的技术,迁移学习和自然语言处理的结合可以让自然语言处理的应用领域再一次扩大。
迁移学习的优势:1.收敛速度快。2.所需求域内文档较少。
语言模型捕获的知识可以分为两个方面:普通域的语言知识以及域内的文档信息。对于较少的域内文档,模型非常难以捕获普通域的语言知识,导致语言模型对于小规模数据集表现能力非常不稳定,过拟合的问题经常出现。迁移学习非常擅长于解决该项问题。
本课题实现了三个对于语言模型微调有积极作用的技术,这些技术可被应用至其他的相关研究中。
