1.短文本摘要的必要性
随着信息化技术的发展,互联网信息量爆炸式增长,而人们的生活、工作与网络的依赖已经越来越大。在移动互联网取代传统互联网成为人们的主要信息获取渠道的现在,其带有的一些特性使得信息的获取效率反而有些下降(基于移动互联网的特性,信息变得碎片化并且长文本的阅读难度上升)。如何能够更高效率的进行此类信息获取,是目前研究的一个热点。自动摘要技术是该领域非常重要的一个分支,可以快速从短文本中获取重点、核心信息,节省了大量时间和精力。
自动摘要技术刚开始主要应用在一些长文本中;随着移动设备的发展,碎片化信息时代已经到来,人类时刻面对大量信息,短文本自动摘要技术也变得更加迫切。因此,深入研究基于社交媒体的短文本自动摘要,可以进一步促进自动摘要技术的发展。
2.基于神经网络的深度学习的原理及发展
通过对这类研究的开端和发展的研究我们可以发现,在人工智能的早期,研究的趋向是将问题格式化从而转变为可以使用计算机直接计算的问题,因此那些对人类来说非常难以处理(可以通过转变为一系列的数学公式混合在一起来计算的问题,唯一需要的就是非常巨大的运算量)对计算机来说就非常的容易。但对于人工智能来说,我们所需要的另一个方向的需求——那些无法量化为几个、几十个明确参数的问题的判断,例如人脸识别、语义分析、感情思考等对计算机来说是一件非常困难的事,但对人类来说也许只需要略加思考。
现代计算机的原理可以由冯.诺依曼原理来简单说明,而这种特性也决定了一般的计算机基本不可能完成程序赋予它的固定功能以外的任何事。而我们之所以研究人工智能,其根本目的还是使计算机能够像人一般的“智能”。其研究的参考对象,即人的大脑结构,便是一个很好的研究思路。从20世纪50年代至今,人工智能的问题基本上已经可以归类为几类大的方向:问题的求解、图的规划、不确定性推理、信息的感知与行动、学习、知识推理,而深度学习便是其中的一个重要的综合分支。
人的大脑的基本单位是神经元,而深度学习的基础——人工神经网络便是受生物神经网络的影响,是前者的一种模拟和近似。生物神经网络由树突、细胞核、细胞体、突触和神经末梢组成,与之相对应的人工神经网络的人工神经元则是以输入信号(对应生物神经元的树突)以权重参数处理,通过“细胞核”求和节点,按照实际计算需要进行偏置后通过一个非线性的激活函数进行控制,然后输出本人工神经元的处理结果向下一个单元连接;这样的许许多多个人工神经元的连接组成的信息处理网络具有并行分布的结构,因此组成了更加复杂的人工神经网络。
在上面的结构中,实际发生着数据信息的“处理”功能的是权值向量和偏置。而为了使我们建立的这张人工神经网络像真正的大脑的一片特定区域一般可以在输入数据后进行处理输出结果,便需要使其“学习”,在深度学习中这个过程叫做训练;而这种训练过程的也类似于人类学习,不是预先设定好参数,而是通过数量庞大的已经处理的样本来输入,同时比对输出结果,根据这种人工神经网络预测的结果和正确结果的偏差值来调整参数,从而使得整个网络的“思考方法”能够越发接近正确的模式。而将通过这种训练得到的一个较为高效准确的权值向量和偏置放入我们的人工神经网络中,然后便可以使用这个“训练好”的网络,输入数据得出预测结果。这个使用过程中不再需要人类对具体的特征进行精确设置,可以让模型来模糊学习乃至拓展更多的特征。
期刊文章分类查询,尽在期刊图书馆抽象化的来说,深度学习是一种让计算机能够在给定的“教材”中获取通常所称的“经验”中,并根据层次化的网络处理体系来对它认知中的世界(输入)中进行分析思考,得出结论,而这种分析思考又依赖于它不断对大量的给定样本的学习后形成的“层次网络”。如果把相互连接的人工神经元节点按这种层次连接起来,我们就得到了一张有“深”度的图;而深度学习(deep learning)的名称也由此而来。
3.深度学习在短文本摘要处理上的优势
目前按照文本分析方式,文本摘要可以分为抽取式摘要和生成式摘要。抽取式摘要是指从原文中抽取一定数量的句子作为原文档的摘要,抽取式摘要的核心算法在于按照某种规则对原文中的每个句子进行打分,然后通过对句子得分进行排序,选择句子得分靠前的句子作为原文档摘要。生成式摘要则是利用深度学习对已有的文本进行建模,然后生成一段文本作为原文摘要。相对于抽取式摘要,生成式摘要是通过深度学习算法对原文的理解,进行生成的一段具有概括性的短文本。生成的短文本弥补了抽取式摘要的一些缺点,例如抽取式摘要句子之间的逻辑性以及抽取式摘要的长短等问题。
短文本摘要是一种无法简单程序化的判断过程,也即前面所说的“那些无法量化为几个、几十个明确参数的问题的判断”。自然语言具有歧义性、动态性和非规范性,并且在理解上需要相应的知识和一定的前后文义逻辑思考能力,这些都是在处理文本问题时所必须面对的难点。而传统的自动摘要方法在数据获取和程序构建等方面均具有严重的问题,比如在作为参考的海量词库的处理上(以语言单词具有复数含义几率较低、较易精准唯一编号化的英文为例,权威的Oxford English Dictionary收录了70万级的英文词汇);如果将其处理为可以程序化使用的标注数据需要庞大的人力、物力、财力,并且也不能解决词义在不同语境下的整合问题。并且在生成时还需要依据目标语言特性来进行句式模型设计和之前提取的词语的组合方式的确定,这也需要开发人员同时具备深厚的语言学知识。
而与之相对应,深度学习的神经网络机制下提供了强大的学习机制,使得其在自然语言处理问题上具有先天的优势。
神经网络可以将离散的语言符号映射为相对低维的连续向量,从而将语言中的文字转化为可以运算的数学对象。举例来说,向量化的两个单词可以通过其向量的距离这种数学上的概念表示其单词本身之间的语义相似度。目前在这种转化上,word2veb具有非常优秀的性能。word2vec的主要思想为文本中的当前词只与上下文的n个词有关,与其他此无关,使用简单的神经网络结构就达到了很好的效果。
而向量化的单词便转化为了可以为计算机处理的“神经信号”,通过构筑深度学习模型便可以进行样本学习,在生成目标模型后进行包括文本语义理解处理输出、机器翻译等方面的功能的实现。目前在基于深度学习的短文本摘要生成方面比较引人注目的研究方式包括基于卷积神经网络、循环神经网络等结构为基础的复合深度学习算法研究。
4.总结
短文本摘要的实现技术的研究的必要性已经越发突出,而其实现方式的研究已有很长一段历史,随着互联网技术和深度学习的发展,应用深度学习技术对文本进行处理的优势已经得到了足够的证明。自然语言具有歧义性、动态性和非规范性,因此在处理自然语言时需要一种能够自我学习、自我判断和固定资料依赖性低的解决方案才能实现大批量、自动化的处理,从而将计算机的运算力转化为能够在问题解决上得到应用的形式;而深度学习恰巧符合这一系列要求,是目前此类问题的最佳解决方案。
参考文献
[1]Ian Goodfellow,Yoshua Bengio,Aaron Courville.DEEP LEARNING.2016.
[2]Yoav Goldberg.Neural Network Methods for Natural Language Prcessing.2017.
论文作者:贾星宇
论文发表刊物:《知识-力量》2019年8月22期
论文发表时间:2019/4/22
标签:摘要论文; 神经网络论文; 深度论文; 文本论文; 神经元论文; 计算机论文; 互联网论文; 《知识-力量》2019年8月22期论文;