基于LSTM-A深度学习的专利文本分类研究*
薛金成1,2,姜 迪3,吴建德1
(1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500;2.昆明理工大学知识产权发展研究院,云南 昆明 650500;3.昆明理工大学计算中心,云南 昆明 650500)
摘 要: 针对专利文本采用层级细分类低层级文本间相似度高、文本特征难以区分的特性,提出了一种LSTM-A文本分类模型。该模型使用LSTM网络对输入序列进行编码,并引入注意力机制对不同作用的文本特征分配不同权重,最后使用incopat专利数据库的专利文本数据集进行方法的有效性验证。实验表明,该模型可以有效提升高相似度专利文本的分类准确率。
关键词: 专利文本;文本分类;长短期记忆网络;注意力机制
0 引 言
随着国家对知识产权重视程度的加深,近几年我国专利申请数量呈现爆炸式增长趋势。世界知识产权组织研究表明,全世界每10 s钟产生一份专利申请,每20 s出版一份专利文献。面对海量的专利文件,合理的分类显得尤为重要。目前,对专利文件进行分类仍然以人工方式为主,受限于审查员的专业素质,分类结果受人为因素影响较大。在专利申请量日益增长的今天,人工进行分类无法应对海量的专利文件。在此情况下借助自动分类技术对海量的专利文本进行自动且高效的分类,可提高专利文本分类的效率和准确率。
文本分类的关键点在于文本特征提取和分类器构建[1]。传统的机器学习方法在进行文本自动分类时,为了提取文本特征,往往需要依赖复杂而繁琐的特征工程,且提取准确率较差。近年来,深度学习的出现给文本自动分类注入了新的活力。相比于传统的机器学习,深度学习通过提取并组合文本中的低层特征形成更加抽象的高层属性类别,以发现文本的分布式特征表示,取得了优于传统方法的结果[2],因而被广泛应用于自然语言处理领域。
1 相关研究工作
要对文本进行特征提取要将文本进行向量化表示。在传统机器学习中,文本的向量化表示采用one-hot方式,方式为将语料库中所有的不相同词汇集合成一个词典,词典中不相同词汇的个数即为词汇总的向量维度,每个词汇在词典中的索引位置为1,其余位置为0。One-hot方式虽然可以简洁表示词汇,但其词汇向量维度高,且极其稀疏,词汇之间的余弦相似度均为0,无法体现文本特征。为解决这些问题,Mikolov[3-4]提出了word2vec词向量训练模型,采用神经网络结构自动学习词汇之间的相关度,思想为一个词汇的语义应当由其周围词汇决定,经过神经网络训练后网络权重矩阵的每一行即为每个词汇的词向量。由于词向量的维数可以在训练时预先指定,所以该模型可将词汇映射到低维且密集的向量空间中,且经过训练得到的词向量可以反映词与词之间的相似度。
2015~2017年,国家下达的乌鲁木齐市单位GDP能耗、化学需氧量、氨氮、二氧化硫、氮氧化物下降率3年累计目标分别为9.88%、5.21%、5.21%、12.17%、10.79%,实际下降率分别为13.68%,6.53%、6.63%、14.26%和13.41%,均超过目标值。乌鲁木齐市3年示范期5项节能减排指标目标值与完成值如表1所示。
在分类器构建方面,目前自然语言处理领域应用较广的为卷积神经网络(Convolutional Neural Networks,CNN) 与 循 环 神 经 网 络(Recurrent Neural Network,RNN)。 例 如,Yoon Kim[5]提 出的TextCNN分类方法,将卷积神经网络应用到文本分类任务,通过构建不同数量通道及尺寸的提取器(Filters)和最大池化层对文本特征进行提取,取得了较好的效果;Liu P[6]基于循环神经网络提出TextRNN方法对文本进行分类,通过RNN单元捕获文本前后语义,在短文本上取得了比TextCNN更优秀的结果;在RNN的基础上部分,学者如金志刚[7]使用考虑了记忆时长的长短期记忆网络(Long Short-Term Memory,LSTM)对文本进行情感分类,提升了准确率;而赵云山[8]在卷积神经网络的基础上引入注意力机制生成非局部相关度,建立了CNN-A分类模型,发现注意力机制的引入可以较有效地提升CNN模型的分类准确率。
其中,T表示总文本数量,Yi表示类别的实际概率分布值,yi表示预测概率分布值。通过最小化目标函数训练模型。
这些工作训练使用语料库及应用时针对的文本多为新闻文本、网络评价等,而专利文本与此类文本区别很大。由于专利分类采用的是IPC分类方法,根据相似度差异按照“部-类-组”进行层次划分,属于层级细分类。越底层的级别文本之间的相似度越大,文本特征也越难以区分。针对专利文本的这一特点,本文构建了一种能够强化区别相似特征的细分类方法。
假设分词后的文本为x=(x1,x2,…,xn)的词向量序列,经过LSTM的隐藏层序列h=(h1,h2,…,hn)后可以得到网络的输出序列y=(y1,y2,…,yn),计算过程为:
2 方 法
2.1 长短期记忆网络
对预处理之后的文本数据采用word2vec模型训练得到词汇的词向量。word2vec模型在训练词向量时有skip-gram和CBOW两种训练方式:skip-gram思想为通过当前词预测上下文出现的概率;CBOW思想与前者相反,为通过上下文预测当前词出现的概率。两种训练模式相比,CBOW模式的训练速度比skip-gram更快[10],结合试验环境选择CBOW模式训练试验所需的词向量。通过对比不同词向量维数下TextCNN和TextRNN的模型精确度,选择最优的词向量维数。
考察了三个参数对超滤通量、超滤压力及超滤分离性能的影响,得到了100 kDa超滤膜适宜的工艺参数为:室温,压力小于30 psi,料液体积流量100 mL/min,超滤时间60 min,浓缩倍数为15~17倍,此条件下多糖截留率为63.32%,蛋白质去除率为82.21%。
图1 LSTM分类模型结构
式中:xk为状态向量;zk为测量向量;wk,vk分别为过程噪声和零均值高斯序列的测量噪声,相应的协方差矩阵分别为Qk和Rk.
经济全球化与“互联网+”的高速发展驱动了企业财务管理的发展。新型的企业管理模式已渐渐适用于当前的时代背景,因此,传统的管理模式应利用网络为依托,不断的发展、探索。只有财务管理与时代发展相适应、相协调,才能实现其价值的最大化,使企业收获更多的经济效益。同时,财务的管理以网络为基础可以有更加坚实的制度保障与管理模式。总之,企业在发展的进程中,要利用好“互联网+”的背景,充分以科技创新为手段促进企业的健康发展。
LSTM独特的门机制控制前后时刻状态更新的方法为:
其中,Wxh表示输入层到隐藏层的权重矩阵,Whh表示隐藏层之间的权重矩阵,Why表示隐藏层到输出的权重矩阵,bh、by分别表示隐藏层和输出层的偏置向量。
式(3)~式(7)分别表示输入门、遗忘门、输出门、神经元状态以及隐藏层序列更新方式。通过训练遗忘门决定是否保留在前时刻的状态信息,结合神经元状态与输出门控制保留在前时刻状态的多少,达成提取长期与短期文本特征的目的。
滑坡后缘及两侧的变形主要以裂缝为主。滑坡发生初期在滑体上出现了6条裂缝,裂缝长7~45 m,宽0.1~1.0 m,可见深度为0.2~1.4 m。目前开裂最为严重的为f3裂缝(见图7、图8,表2)。
网络的优化目标函数通常定义为交叉熵损失函数:
1.3.1 拮抗真菌的形态观察 将保藏在-80℃冰箱的菌种放在37℃的水浴锅中融化,将融化后的菌液均匀倒入PDA液体培养基中,倒置于28℃的恒温培养箱中培养,从接种的第3天起逐日观察菌落的形态、颜色、质地、生长速度及边缘形态。采用点殖法,将长好的真菌菌丝在无菌环境下用接种针挑至PDA平板中央,将灭菌的盖玻片斜插入培养基,上下左右各1片,每重复4组。盖上培养皿倒置于28℃恒温培养箱中培养。待菌丝生长至盖玻片上将盖玻片取出,在显微镜下观察菌丝及产孢结构[10]。根据真菌学概论、真菌鉴定手册等,对观察到的形态进行初步鉴定。
2.2 LSTM-Attention模型
将注意力机制加入LSTM网络,利用注意力机制对输入层不同词汇分配注意力权重,达到区分专利文本中相似的文本特征。引入注意力层的LSTM-A网络结构如图3所示。
图2 基于Attention机制的编码-解码
在输入序列为x=(x1,x2,…,xn)的情况下,定义输出为y=(y1,y2,…,yn),则编码过程和加入注意力权重的解码过程分别表示为:
专利文本记载了最先进的技术信息,其技术专有名词较多,所以文本特征难以区分,在分类任务中需要被重点关注,而注意力机制可以很好地解决这一问题。注意力机制的本质是一种编码-解码结构[9](Encoder-Decoder)。在这一结构中,首先将输入序列通过某些方式计算为一种中间状态,之后通过计算输入序列的注意力概率分布为输入序列分配不同的权重,最后根据任务的不同对中间状态进行解码,整个过程如图2所示。
图3 LSTM-A文本分类模型
可以看出,LSTM网络作为编码层,将编码后的隐藏层序列信息hi结合其相应权重ai形成经注意力池化后的文本表示v,最后经过全连接层使用softmax函数进行分类,其计算过程为:
大学生是国家的未来和民族的希望,其身体素质和健康状况直接关乎国家的兴衰发展。目前,我国开展了大、中、小学生的体质健康状况调查,但高职院校学生体质健康状况的调查却较少。大多数高职院校学生毕业后即将走向社会,比其他学生更早的接触社会,高职院校学生的体质健康状况,是学生体质健康工作的重要组成部分。本研究于2014年对河南省高职院校在校学生体质健康检测资料进行分析,旨在了解和掌握高职院校学生的体质健康水平,为更好的开展河南省学校卫生工作,制定促进职高职院校学生体质健康的措施提供科学依据。
加入了注意力机制后的LSTM-A网络能够通过不断训练得出输入序列的文本特征,并依据特征重要程度为其分配权值,使得在专利文本中具有代表性的特征词汇在最后的分类中起到更大的作用,有助于更好地完成专利细分类任务。
假设每一辆车知道自己的地理位置信息,以及速度信息.由于现在每一辆车都装有北斗或GPS定位系统,所以这些位置信息可以很容易得到.在整个网络中每一辆车有且仅有唯一的ID信息,且每一个节点中保存有一张邻居节点列表.每个节点通过周期性的向其邻居节点广播自己ID以及位置信息来更新邻居表.如图1所示,在一个道路宽为mW,其中车道宽度为W,车道数为m的,车辆密度为,且车辆节点的广播距离为固定的.VS节点要发送一个数据包给VD节点.传统的贪婪路由算法由于不考虑链路的状态,只考虑下一跳转发节点与目的节点的距离,因此会选择V1成为下一跳转发节点.
3 实 验
3.1 实验环境
实验操作系统为Windows7操作系统,CPU型号为CORE i3 2.2 GHz,内存大小为4 GB,编程语言使用python3.0版本,使用深度学习框架tensorflow1.5.1。为体现专利文本的层次细分类特性,通过incopat专利数据库获取带有IPC分类号的专利数据。IPC分类号采用“部-类-组”的层次分类方法,层次越低,文本相似度越高。为方便研究,从数据库中获取“部”类别为F的机械领域专利文本2 000篇,“类”类别为H04W、H04K的通信领域专利文本各2 000篇,“组”类别为C05C1/00、C05C3/00的化学领域专利文本各2 000篇共10 000篇专利数据作为语料库,分类号对应代表含义如表1所示。
表1 专利分类号对应含义
其中,分类号为F的文本与其他文本差异最大,H04W、H04K之间差异较小,C05C1/00、C05C3/00之间差异最小,通过观察其分类结果测试模型优劣。
3.2 实验设计
采用对比试验的方式,通过精确率p、召回率r、F1值评价模型分类效果。
实验之前先对数据进行预处理,包括分词和去停用词。由于使用LSTM-A模型时需要以词汇的词向量作为输入,所以必须将专利文本切分成可以被模型处理的一个个单词。使用python的第三方库jieba的精确模式进行分词过程,分词过程之后整个文档将全部由词汇组成。之后去掉表示对整体语义和分类无影响的助词、符号等停用词,如“一种”“的”“!”等,停用词表采用收录较为完整的《哈工大停用词表》。
长短期记忆网络(LSTM)为循环神经网络(RNN)的一个变种。与全连接神经网络相比,LSTM考虑了文本的时序信息,当前时刻的输出不仅仅与此时刻的输入相关,而是前一时刻输出与当前时刻输入的叠加。为捕获长期与短期的文本特征,LSTM加入了门控结构,包括遗忘门、输入门和输出门,通过训练是否保留前一时刻的状态,从而捕获更详尽的文本特征。结构如图1所示。
为突出注意力机制对文本分类的影响,设计5种文本分类模型进行实验对比,分别为TextCNN、TextRNN、LSTM、CNN-A以及LSTM-A分类方法。
3.3 实验评估
先对比不同词向量维数下TextCNN和TextRNN的模型精确度,选择最优的词向量维数,试验结果如图4所示。
4.强化人才保障。一是要做好电子商务人才的引进工作,尤其要重视做好高端人才的引进工作,引进一批处于电子商务发展前沿、运行和管理经验丰富的优秀人才和团队。二是强化对电子商务人才的培训培养工作,注重发挥社会培训机构的作用,并加强与高校的战略合作,利用在渝高校的巨大人才资源优势,全方位培训电商从业人员,运用多种途径培养高级电子商务职业经理,打造一支高素质的电子商务专业人才队伍。三是探索完善电商人才“留住”机制,营造市内电商人才宜居宜业良好环境,为我市电子商务产业发展提供人才保障。
词向量的维数包含了词汇之间的相似度信息[11]。维数过低会降低词汇之间的区分度,无法区分专利文本中含义相近的技术词汇;维数过大又会使得向量稀疏,从而无法体现词汇相关性。由图4可知,本次实验中在词向量维数为200时,两种模型精确度都能达到最高,故选取词向量维数为200进行模型分类对比实验。
图4 词向量维数对模型精度影响
4种文本分类模型下对专利文本分类的结果如图5所示。LSTM-A模型分类的各项指标结果如表2所示。
图5 各模型分类准确率
表2 LSTM-A模型分类评价指标结果
从图5可以看出,在对文本差异度较大的F类进行分类时,各模型均表现良好,TextRNN和LSTM效果优于TextCNN和CNN-A。随着文本差异度降低,在H04W与H04K两类专利文本中,TextCNN与TextRNN在分类效果上无明显差异,CNN-A与TextCNN相比分类准确率略有提升,而LSTM不论是否引入注意力机制表现均优于前三者;在文本差异度最小的C05C1/00、C05C3/00两类专利文本中,引入了注意力机制的CNN-A效果明显优于CNN,但与LSTM效果相差不大,而LSTM-A效果最好,结合表2可知,LSTM-A的召回率和F1值也呈现较好的结果。
上述结果表明,在对专利文本进行分类时,LSTM比CNN更有优势,注意力机制的加入对提升分类准确率有一定帮助;LSTM-A模型在文本差异度最小的C05C1/00、C05C3/00两类专利文本中准确率提升了5个百分点左右,说明注意力机制的引入在区分相似度较高的文本特征时可以起到较大作用。
4 结 语
针对专利文本不同于新闻、评论等文本的特点,提出了一种LSTM-A文本分类模型。实验证明,与典型的深度学习文本分类模型TextCNN和TextRNN相比,加入了注意力机制的LSTM-A模型在对相似程度不同的专利文本进行分类时,可以更好地区分相似文本特征,对不同文本特征赋予不同的权重,提高了专利文本的分类准确率。但是,LSTM-A模型属于一种迭代计算模型,时间复杂度较高,在模型训练阶段需要花费较高的成本。同时,虽然在对文本间差异最小的“组”级文本分类时相比传统方法有所提升,但准确率依然没有达到90%以上,是下一步需要研究优化的关键。
参考文献:
[1] 刘婷婷,朱文东,刘广一.基于深度学习的文本分类研究进展[J].电力信息与通信技术,2018,16(03):1-7.LIU Ting-ting,ZHU Wen-dong,LIU Guang-yi.Research Progress of Text Classification Based on Deep Learning[J].Power Information and Communication Technology,2018,16(03):1-7.
[2] 闫琰.基于深度学习的文本表示与分类方法研究[D].北京:北京科技大学,2016.YAN Yan.Research on Text Representation and Classification Based on Deep Learning[D].Beijing:Beijing University of Science and Technology,2016.
[3] Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[C].International Conference on Learning Rerpresentations,2013.
[4] Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and Their Compositionality[C].Advances in Neural Information Processing Systems,2013.
[5] Kim Y.Convolutional Neural Networks for Sentence Classification[J].arXiv Preprint arXiv:1408.5882,2014.
[6] Liu P,Qiu X,Huang X.Recurrent Neural Network for Text Classification with Multi-task Learning[J].arXiv Preprint arXiv:1605.05101,2016.
[7] 金志刚,韩玥,朱琦.一种结合深度学习和集成学习的情感分析模型[J].哈尔滨工业大学学报,2018,50(11):32-39.JIN Zhi-gang,HAN Yue,ZHU Qi.An Emotion Analysis Model Combining Deep Learning and Integrated Learning[J].Journal of Harbin University of Technology,2018,50(11):32-39.
[8] 赵云山,段友祥.基于Attention机制的卷积神经网络文本分类模型[J].应用科学学报,2019,37(04):541-550.ZHAO Yun-shan,DUAN You-xiang.Text Classification Model of Convolutional Neural Network Based on Attention Mechanism[J].Journal of Applied Science,2019,37(04):541-550.
[9] 周瑛,刘越,蔡俊.基于注意力机制的微博情感分析[J].情报理论与实践 ,2018,41(03):89-94.ZHOU Ying,LIU Yue,CAI Jun.Micro Blog Emotion Analysis Based on Attention Mechanism[J].Information theory and Practice,2018,41(03):89-94.
[10] 熊富林,邓怡豪,唐晓晟.Word2vec的核心架构及其应用[J].南京师范大学学报(工程技术版 ),2015,15(01):43-48.XIONG Fu-lin,DENG Yi-hao,TANG Xiao-sheng.The core architecture and application of word2vec[J].Journal of Nanjing Normal University (Engineering Technology Edition),2015,15(01):43-48.
[11] 高明霞,李经纬.基于word2vec词模型的中文短文本分类方法[J].山东大学学报(工学版),2019,49(02):34-41.GAO Ming-xia,LI Jing-wei.Chinese Short Text Classification Based on Word2vec Word Model[J].Journal of Shandong University (Engineering Edition),2019,49(02):34-41.
Patent Text Classification based on Long Short-Term Memory Network and Attention Mechanism
XUE Jin-cheng1,2, JIANG Di3, WU Jian-de1
(1. School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming Yunnan 650500, China;2. Institute of Intellectual Property Development, Kunming University of Science and Technology, Kunming Yunnan 650500, China; 3.Computing Center, Kunming University of Science and Technology, Kunming Yunnan 650500, China)
Abstract: Aiming at the feature that patent documents use hierarchical fine classification and low-level text with high similarity and difficult to distinguish text features, an LSTM-A text classification model is proposed. The model uses the LSTM network to encode the input sequence, and introduces attention mechanisms to assign different weights to the text features with different effects. Finally, the patent text dataset of the incopat patent database is used to verify the validity of the method. Experiments indicate that this model can effectively improve the classification accuracy of patent documents with high similarity.
Key words: patent text; text classification; LSTM; attention mechanism
中图分类号: TP311.5
文献标志码: A
文章编号: 1002-0802(2019)-12-2888-05
文献引用格式: 薛金成,姜迪,吴建德.基于LSTM-A深度学习的专利文本分类研究[J].通信技术,2019,52(12):2888-2892.
XUE Jin-cheng,JIANG Di,WU Jian-de.Patent Text Classification based on Long Short-Term Memory Network and Attention Mechanism[J].Communications Technology,2019,52(12):2888-2892.
doi: 10.3969/j.issn.1002-0802.2019.12.009
* 收稿日期: 2019-08-20;修回日期:2019-11-28 Received date:2019-08-20;Revised date:2019-11-28
通讯联系人: alexjiang@163.com Corresponding author:alexjiang@163.com
作者简介:
薛金成 (1993—),男,硕士,主要研究方向为数字信息保护与管理;
姜 迪 (1987—),男,博士,讲师,主要研究方向为机器学习;
吴建德 (1979—),男,博士,教授,主要研究方向为大数据的分析与应用。
标签:专利文本论文; 文本分类论文; 长短期记忆网络论文; 注意力机制论文; 昆明理工大学信息工程与自动化学院论文; 昆明理工大学知识产权发展研究院论文; 昆明理工大学计算中心论文;