摘要:卷积神经网络在自然语言处理中的应用是近年的研究热点。文章通过对几项典型工作的分析,研究了卷积神经网络在各项自然语言处理任务中的性能与效果。并对卷积神经网络语言模型的改进规律进行了总结。
关键词:卷积神经网络;语言模型;分析
引言
近年来,随着理论的发展与大数据的来临,人工智能、深度学习再度成为学术界研究的热点。本研究的主要目标是通过卷积神经网络实现对语言的分类,分析基于卷积神经网络语言模型应用。
一、卷积神经网络
1.1 卷积神经网络的起源与发展
卷积神经网络是人工智能神经网络的一种,Fukushima于1980年第一次提出了一个基于感受野的理论模型Neocognitron,Neocognitron是一个自组织的多层神经网络模型,也是卷积神经网络的理论基础;1998年,Lecun 等提出的LeNet-5采用了反向传播算法对神经网络网络进行有监督的训练,经过训练的网络通过交替连接的卷积层和下采样层将原始图像转换成一系列的特征向量,最后通过全连接的神经网络针对图像的特征表达进行分类,这就是最早的卷积神经网络模型;2012年,Krizhevsky 等提出的Alex Net 在大型图像数据库Image Net的图像分类竞赛中以准确度超越第二名11%的巨大优势夺得了冠军,使得卷积神经网络成为了学术界的焦点,至此卷积神经网络被广泛应用于语音分析和图像识别领域。
1.2 卷积神经网络的结构
卷积神经网络是一个多层的神经网络,由多个独立神经元彼此连接构成平面,又由多个二维平面构成完整的网络。卷积神经网络一般含有多个卷积层与特征映射层,其中卷积层是卷积神经网络最基本的结构,一般来说,一个典型的卷积层包括数据输入、卷积计算、激活、池化等部分组成。其中,数据输入层也包括可选择性的对原始数据的处理,主要是归一化等图像白化处理;卷积计算的目的是通过卷积核与输入数据的卷积来实现图像的特征提取,得到多个特征映射;激活通过非线性的激活函数处理,提高网络的表达能力;池化层通过最大池化或者平均池化等来减小参数的规模,降低网络的复杂程度。特征映射层上所有神经元的权重相同,通过Logistic回归与Re Lu激活映射图像特征,最后一个特征映射层通过soft max输出结果。以本研究为例,本文的卷积层共使用了18个卷积核,并采用最大池化来提取图像有效特征,防止过拟合,同时提高模型泛化能力;特征映射层通过Re Lu函数来约束Logistic回归中可能出现的负值,最后一层通过soft max来输出分类结果。
1.3 卷积神经网络的特点与优势
卷积神经网络的模型因其权值共享的结构类似于生物神经网络,使得网络模型的复杂度大大降低而被用于图像及语音的识别,并取得了卓越的效果。另外,由于引入了GPU,以前很复杂的模型现在通过并行计算能很容易地训练,大大缩短了训练调节参数的周期,大大增强了卷积神经网络的实用性。
二、卷积神经网络语言模型
CNN语言模型基本结构包括输入层、卷积层、池化层及后续的分类层。输入层是表示语言的矩阵,该矩阵可以是通过Google word2vec或GloVe预训练得到的词嵌入表示,也可以是从原始数据重新训练的语言的向量表示。输入层之后是通过线性滤波器对输入矩阵进行卷积操作的卷积层。在NLP问题中,输入矩阵总是带有固定顺序的结构,因为矩阵的每一行都表示离散的符号,例如单词或者词组等。因此,使用等宽的滤波器是非常合理的设置。在这种设置下,仅需要考虑滤波器的高度既可以实现不同尺寸的滤波器做卷积操作。由此可知,在处理NLP问题时,卷积神经网络的滤波器尺寸一般都是指滤波器的高度。
然后,将卷积层输出的特征映射输入池化层,通过池化函数为特征映射进行降维并且减少了待估计参数规模。一般的,CNN池化操作采用1-max池化函数。该函数能够将输入的特征映射统一生成维度相同的新映射。通过池化操作,可以将卷积层生成的特征连接成更抽象的高级特征,所得到的高级特征尺寸与输入的句子不再存在直接关系。
最后,将得到的高级特征输入soft max分类层进行分类操作。在soft max层,可以选择应用dropout策略作为正则化手段,该方法是随机地将向量中的一些值设置为0。另外还可以选择增加l2范数约束,l2范数约束是指当它超过该值时,将向量的l2范数缩放到指定阈值。
期刊文章分类查询,尽在期刊图书馆在训练期间,要最小化的目标是分类的交叉熵损失,要估计的参数包括滤波器的权重向量,激活函数中的偏置项以及soft max函数的权重向量。
三、卷积神经网络语言模型应用分析
CNN语言模型已经广泛应用于诸如文本分类,关系挖掘以及个性化推荐等NLP任务,下面将对这些应用进行具体的介绍与分析。
3.1 CNN在文本分类中的应用分析
利用CNN进行句子分类的方法。该方法涉及了较小规模的参数,并采用静态通道的CNN实现了效果很优异的句子分类方法。通过对输入向量的调整,进一步提高了性能实现了包括情感极性分析以及话题分类的任务。在其基础上为输入的词嵌入设计了两种通道,一种是静态通道,另一种是动态通道。在卷积层每一个滤波器都通过静态与动态两种通道进行计算,然后将计算结果进行拼接。在池化层采用dropout正则化策略,并对权值向量进行l2约束。最后将该算法应用于MR、SST-1与SST-2、Subj、TREC、CR以及MPQA等数据集。MR数据集为电影评论数据集,内容为一句话的电影评论,其分类包括积极情感极性与消极情感极性两类。SST-1与SST-2数据集为斯坦福情感树库是MR数据集的扩展,但该数据集已经划分好了训练集、验证集及测试集并给出了细粒度的标记,标记包括非常积极、积极、中性、消极、非常消极等情感极性。Subj数据集为主观性数据集,其分类任务是将句子分为主观句与客观句两类。TREC数据集为问题数据集,其分类任务是将所有问题分为六类,例如关于数字、人物或位置等信息的问题。CR数据集为评论数据集,包括客户对MP3、照相机等数码产品的评论,其分类任务是将其分为积极评价与消极评价两类。MPQA数据集是意见极性检测任务数据集。通过实验证明,该方法在这几个典型数据集上都能取得非常优异的效果。
3.2 CNN在关系挖掘中的应用分析
一种新的潜在语义模型,以词序列作为输入,利用卷积池化结构为搜索查询和Web文档学习低维语义向量表示。为了在网络查询或网络文本中捕捉上下文结构,通过输入单词序列上下文时间窗口中的每个单词来获取词汇级的n-gram语法特征,将这些特征聚合成句子级特征向量。最后,应用非线性变换来提取高级语义信息以生成用于全文字符串的连续向量表示。该模型的不同之处在于,输入层与卷积层之间加入了word-n-gram层与letter-trigram层,它们能够将输入的词序列转变为letter-trigram表示向量。在卷积层通过上下文特征窗口发现相邻单词的位置特征,并变现为n-gram形式。然后通过max池化将word-n-gram特征合并为句子级的高级特征。在池化层之后增加了语义层来提取更高级的语义表示向量。
3.3 CNN在个性化推荐中的应用分析
一种能够利用标签(hash tag)有监督的学习网络帖子短文本特征表示的卷织嵌入模型(Convolutional Embedding Model)。该方法利用提出的CNN模型在55亿词的大数据文本上通过预标注的100,000标签进行训练。该方法除了标签预测任务本身能取得好的效果外,学习到的特征对于其它的文本表示任务也能起到非常有效的作用。该模型与其它的词嵌入模型类似,输入层为表示文本的矩阵,但是,在用查找表表示输入文本的同时将标签也使用查找表来表示。对于给定的文档利用10万条最频繁出现的标签通过评分函数对任何给定的主题标签进行排序。
其中,econv(w)表示CNN的输入文档,elt(t)是候选标签t的词嵌入表示。因此,通过对分数f(w,t)进行排序可以获取所有候选主题标签中排序第一的话题进行推荐。实验数据集采用了两个大规模语料集,均来自流行的社交网络文本并带有标签。第一个数据集称作people数据集,包括搜集自社交网络的2亿1000万条文本,共含有55亿单词。第二个数据集被称作pages,包括3530万条社交网络文本,共含有16亿单词,内容包括企业、名人、品牌或产品。
结束语
卷积神经网络应用于语言模型已经取得了非常大的发展,对于自然语言处理中的各项任务均取得了优异的结果。本文通过对几项典型工作的分析,探讨了不同卷积神经网络模型结构在不同任务中的表现。通过综合分析可以得出以下结论。首先,CNN的输入采用原始数据训练的向量表示一般效果会优于预训练的词嵌入表示;其次,在卷积层滤波器的尺寸一般采用宽度与输入矩阵宽度相等的设置;最后,为了优化结果可以采用dropout正则化处理。
参考文献
[1] 向晴.卷积神经网络在语音识别中的应用.中国科学院声学研究所纪念建所50周年暨学术交流会,2014.
[2] 马增强.基于卷积神经网络 LeNet-5 的车牌字符识别研究.系统仿真学报,2010.12
论文作者:陈磊
论文发表刊物:《电力设备》2018年第11期
论文发表时间:2018/8/6
标签:卷积论文; 神经网络论文; 特征论文; 模型论文; 向量论文; 数据论文; 滤波器论文; 《电力设备》2018年第11期论文;