基于文本特征识别的电子档案自动归类系统研究论文

基于文本特征识别的电子档案自动归类系统研究

王 珺

(周口师范学院,河南 周口 466001)

摘 要: 传统归类方法采用自动标引主题词变换成分类号实现自动分类,该方法分类过程复杂,应用性差。因此,提出一种基于文本特征识别的电子档案自动归类系统。该系统采用电子档案语料库模块根据使用者需求挖掘语料,实现语料库构建、查询、清除和维护等操作;通过电子档案排版模块,基于内容映射的方式排版电子档案;在此基础上采用有限自动机选择法和组合特征选择法选取文本内特征词,识别电子档案文本特征后,通过SVM 分类器和类别识别器两次归类过程,判断电子档案最终类别归属。封闭性归类测试和开放性归类测试结果表明,该系统的平均查全率和精度都高于95%,且不同信噪比环境下,系统平均中断概率为0.17%,低于对比系统。

关键词: 电子档案;自动归类;特征识别;语料库模块;排版模块;归类测试

0 引 言

科技的进步使得网络成为人们生活中必不可少的工具,网络普及产生海量信息,计算机中的海量信息多以电子档案形式存在[1]。因此如何在大量电子档案中迅速提取出所需信息,成为相关研究人员的研究热点,电子档案自动归类是其中一个重点研究方向[2]

以往进行电子档案自动归类时多采用自动标引主题词变换成分类号实现自动分类,但是该方法分类过程复杂,应用性差。后期研究人员设计了基于层级类别信息的电子档案自动归类系统和基于权重自动优化的电子档案自动归类系统。前者在利用分类体系结构信息的双向特征选择算法基础上归类电子文档标题[3],该系统主要针对档案标题进行归类,易丢失重要特征词,归类精度较差;后者设计和实现一种基于差分进化算法的Web 文本标签权重系数自动寻优方案[4],并对差分优化算法进行改进,提高电子档案自动归类精度,但未考虑电子档案文本降噪过程,系统稳定性较差。因此,本文设计基于文本特征识别的电子档案自动归类系统,实现准确、稳定的电子档案自动归类。

1 基于文本特征识别的电子档案自动归类系统

1.1 系统整体结构设计

本设计的目的是实现海量电子档案的实时自动归类,采用文本特征识别技术,在较短时间内以电子档案具体内容为依据,将电子档案归类至一个或数个类别中,方便使用者自动查询和浏览电子档案。设计过程中主要将系统划分为语料库模块、词典模块、电子档案排版模块、文本特征提取模块、电子档案分类模块与系统设置模块等,如图1所示。

图1 系统整体结构设计图
Fig.1 Overall structure of the system

语料库模块的主要功能是管理用于算法学习与特征识别的训练档案集,包括构建和清除档案类,添加、清除和浏览训练档案等过程。词典模块管理系统词典,构建不同内容信息的词典,对词典中词条实施添加、清除与修改等处理。文本特征提取模块作为系统的核心模块,其主要功能是切分词条并统计词频,以词频统计结果为依据,确定电子档案文本特征项集。电子档案分类模块根据特征项集获取待分类电子档案的代表向量,确定其与不同电子档案类特征向量的相似度[5],以此为依据进行电子档案的自动归类。电子档案排版模块采用递归下降分析法与新词自动获取方法,实现电子档案内容的自动排版;系统设置模块的主要功能是设置与修改系统参数。

1.2 电子档案语料库模块设计

采用Ontology 设计语料库模块,其结构见图2。语料库模块根据使用者需求对语料实施挖掘[6],完成语料库构建、查询、清除和维护等操作,为电子文档文本特征提取模块提供语料基础。由于自动运转子模块包括自动后台运转与响应使用者两部分,因此该模块能够响应使用者挖掘命令和操作命令。针对使用者语料挖掘命令,自动运转子模块通过元搜索引擎根据网络中相关语料获取相应的语料,采用更新过滤子模块以档案向量的形式描述Web页面,对比档案向量与本体向量的相似性,获取相关语料并实施测试。在本体库内的本体和语料库中分别添加使用者对相关语料实施抽象处理得到的概念和Web页面,自动运转子模块获取语料挖掘结果并显示给使用者。针对使用者的操作命令,自动运转子模块将命令传输至本体库操作模块,完成语料库操作并显示操作结果,供使用者查看。

图2 电子档案语料库模块结构设计图
Fig.2 Structural design of electronic document corpus module

1.3 电子档案排版模块设计

电子档案排版模块依据系统软件描述的文档分类模块分类流程获取文档分类结果,采用递归下降分析法识别电子档案内容,通过新词自动获取方法识别主题词。同时该方法还具有格式纠错能力,基于内容映射的方式完成电子档案的排版[7]。电子档案排版模块结构见图3。

采用有限自动机选择法实现文本特征预选取,确定电子档案文本中的特征词,使原电子档案文本转变成无特征词的文本[8],将确定特征词作为特征集的一部分。假设分别为电子档案语料库模块挖掘出的待处理原始语料集和最终文本特征集,经过模式抽取、有限自动机生成和识别结果处理等过程识别X 内全部文本的特征词[9],形成候选特征集Y ,统计内全部字符串的词频xfj ;设置阈值ω ,通常情况下ω =3 时提取的文本特征精度最高,在最终文本特征集Y′ 内融入全部xfj >ω 的字符串yj ;将原电子档案文本内的文本特征词复原为正常状态。采用字典匹配与识别法将原电子档案文本转变为无特殊词的电子档案文本集

图3 电子档案排版模块结构设计图
Fig.3 Structural design diagram of electronic document typesetting module

其中,固定档案排版子模块针对格式固定、单一电子档案设计合适的模板文件,该文件存储在程序固定路径内。使用者输入资料后,系统自动生成规范档案;格式模板子模块管理不同类型文件的标准格式模板;格式校正模块识别并修正电子档案框架标题,解析和存储档案内容;档案排版子模块的主要功能是修正不规范标题,重排文本段落和生成不同格式档案。

1.4 软件设计

1.“五位一体”的课堂教学方法把“课堂讲授”、“说课训练”、“教辅结合”、“自主学习”、“教学实习”等五种教学方法相结合,通过多媒体课件教学,使理论教学更生动有趣,更易于接受和理解。

依据电子档案语料库模块挖掘得到的电子文档语料,文本特征提取模块采用电子档案文本特征识别算法,实现文本特征的准确识别,为文本自动归类提供可靠基础。系统进行电子档案文本特征识别时,采用两步特征选择方法,分别是有限自动机选择法和词频率(DF)与卡方(CHI)统计法相结合的组合特征选择法,两步特征选择方法的过程如下:

三是,内容编排顺序存在差异.具体而言,苏教版编排的4个例题是“分数除以整数”“整数除以几分之一”“整数除以几分之几”及“分数除以分数”,其具体展开方式如下.

1)特征预选取

从教育活动三要素可知除了教师和学生,HPM与教科书(报告题目见表5)也是重要研究主题,如报告45对20世纪初4本尼泊尔数学教科书的分析比较,报告13对最近三版瑞典课程中代数内容的比较,报告12对中国台湾、中国大陆和美国高中教材中数学文化的分析,报告18对教科书中阅读材料的研究及报告19对1~12年级21本土耳其教科书中数学和科技史的分析.

目前,中心现在仅配备护理助理7名,上岗前要经过严格的岗前培训,包括医学知识、服务礼仪、电脑操作等内容,通过考核后才能上岗。

1.4.2 电子档案自动归类流程设计

2)组合特征选择法选取特征

1.4.1 电子档案文本特征识别算法

通过两次归类判断电子档案最终类别归属。第一次归类采用SVM 分类器判断电子档案是否为敏感电子档案[10],若判断为敏感电子档案将其归类至敏感档案类别,若判断为非敏感电子档案则进行第二次归类;第二次归类采用类别识别器将非敏感电子档案依照之前文本特征识别结果进行归类处理,最终实现正确有效的电子档案自动归类。

式中:y 和c 分别表示特征项和类别;A ,B ,C 和D 分别表示类别c 内存在y 的文本数量、类别c 外存在y 的文本数量、类别c 内不存在y 的文本数量和类别c 外部不存在y 的文本数量,且K =A +B +C +D 。依照CHI 值降序排列剩余词,从上至下选取部分词作为特征加入候选文本特征集Y 。

据了解,河南省南水北调配套工程劳动竞赛是为促进河南省南水北调配套工程又好又快建设,高起点、高质量、高效率地推进南水北调配套工程建设,实现配套工程与主体工程同步建成、同步通水、同步达效的建设目标而举办的。安阳市南水北调配套工程建设管理局通过对各参建单位的人员到位、出勤、工程进度、质量、安全、文明施工、内部管理、日常工作、协调工作等方面进行考核和综合评比,对在第二阶段劳动竞赛中表现较为突出的单位进行了表彰,宁夏青龙管业股份有限公司在管材制造单位中拔得头筹。

实验为验证本文设计的基于文本特征识别的电子档案自动归类系统文本特征识别性能,分别选取某高校图书馆中2 000 份训练集电子档案和2 000 份测试集电子档案,将训练集电子档案用作封闭性归类测试,测试集电子档案用作开放性归类测试,测试结果如表1所示。其中,N ,TN 和FN 分别表示属于此类的测试电子档案数、系统正确识别出的电子档案数和误判为此类的电子档案数;F 为封闭性测试;K 为开放性测试。

75岁的张奶奶是济南市历城区小辛庄社区恒协基爱养老服务中心的“长驻客”。每天早饭后,张奶奶便像小孩上学一样,来到养老服务中心,看看电视、打打麻将、跟一帮老姐妹唠唠嗑,中午花3块钱吃一顿三菜一汤的午餐,睡个午觉,下午四五点钟准时回家。张奶奶高兴地告诉记者:“中午三菜一汤的餐标是10元钱,营养搭配均衡,每天不重样。但是我只需要支付3元钱就可以,剩余的费用由居委会和养老服务中心分担。”

依据上述获取的电子档案文本特征集,文档分类模块通过SAV 分类器和类别识别器,共同实现电子档案的自动归类。系统软件设计该模块实现电子档案自动归类的详细流程如图4所示。

律师释法:专利法上的专利侵权行为主要分为直接侵权和间接侵权两类。其中直接侵权包含以下几种形式:(1)制造发明、实用新型、外观设计专利产品的行为;(2)使用发明、实用新型专利产品的行为;(3)许诺销售发明、实用新型专利、外观设计专利产品的行为;(4)销售发明、实用新型或外观设计专利产品的行为;(5)进口发明、实用新型、外观设计专利产品的行为;(6)使用专利方法以及使用、许诺销售、销售、进口依照该专利方法直接获得的产品的行为;(7)假冒他人专利的行为。

图4 电子档案自动归类流程
Fig.4 Automatic classification process of electronic archives

对X′ 内的全部文本进行分词,通过组合特征选择法选取部分词,详细过程为:统计X′ 内文本中词y 的词频 ,设置阈值ω′ ,清除 <ω′ 的词;计算剩余词的CHI 值,计算公式为:

2 实验分析

通过以上两个选取法获取的候选文本特征Y 和部分词特征共同组成电子档案的最终文本特征集Y′ 。

由表1结果计算得到本文系统进行电子档自动归类的查全率与精度结果,如表2所示。

分析表1和表2能够得到,封闭性归类测试得到的平均查全率和精度分别为95.7%和96.2%,说明本文系统正确识别出的电子档案数的精度高;开放性归类测试结果显示,平均查全率和精度分别为95.7%和95.4%,该结果与封闭性归类测试结果差距较小,表示通过本文系统识别电子档案类模式与特征存在普遍性与有效性。实验结果表明,本文系统文本特征识别性能较好,是一种有效的电子档案自动归类系统。

表1 电子档案的归类结果对比
Table 1 Comparison of classification results of electronic archives

表2 查全率与精度对比结果
Table 2 Comparison of recall ratio and accuracy

实验在相同的实验环境中,分别采用本文系统、基于层级类别信息的电子档案自动归类系统和基于权重自动优化的电子档案自动归类系统进行电子档案自动归类实验,在不同的信噪比下对比不同系统的平均中断概率,以验证本文系统稳定性,结果如表3所示。

由表3能够得到,不同信噪比环境下,本文系统的平均中断概率为0.17%,另外两个系统的平均中断概率均为0.44%,高于本文系统0.27%。同时由表3还能够看出在平均信噪比低于20 dB 的条件下,本文系统的平均中断概率同另外两个系统的平均中断概率之间的差距较小;随着平均信噪比高于20 dB 并逐渐提升时,三个系统的平均中断概率均值均呈上升状态,但相较于另外两个系统,本文系统的平均中断概率增长较缓慢,说明本文系统进行电子档案自动归类时具有较好的稳定性。

表3 不同系统的平均中断概率对比
Table 3 Comparison of average outage probability of different systems

实验为了验证本文系统电子档案自动归类性能,将特征数设置为500~2 000 个,对比三个系统电子档案归类的准确率及召回率,结果如图5和图6所示。

图5 不同系统准确率对比结果
Fig.5 Comparison of accuracy of different systems

分析图5和图6能够得到,本文系统自动归类的准确率和召回率平均约为96.2%和96.4%,明显高于基于层级类别信息的电子档案自动归类系统和基于权重自动优化的电子档案自动归类系统。主要原因在于本文系统基于文本特征识别进行电子档案自动归类,避免了基于层级类别信息的电子档案自动归类系统针对标题归类时特征词易丢失的现象;同时本文系统进行文本特征识别时采用降噪效果较好的词频率(DF)和卡方(CHI)统计法相结合的组合特征选择法,避免了基于权重自动优化的电子档案自动归类系统中忽略文本降噪过程导致稳定性差的缺陷。

图6 不同系统召回率对比结果
Fig.6 Comparison of recall rate of different systems

3 结 论

电子档案自动归类是海量信息提取的研究热点,本文设计基于本文特征识别的电子档案自动归类系统。以文本特征为基础,采用两步特征选择方法进行电子档案文本特征识别,基于文本特征识别结果通过SVM 分类器和类别识别器两次归类过程,实现电子档案自动归类。实验结果表明,本文系统具有文本特征识别性能好、稳定性高,自动归类精度高的性能优势。

参 考 文 献

[1]黄正伟,唐芳艳.基于SVM 分类模型的垃圾文本识别研究[J].数学的实践与认识,2016,46(7):144-153.HUANG Zhengwei,TANG Fangyan.Research of garbage text on text recognition model based on SVM [J].Mathematics in practice and theory,2016,46(7):144-153.

[2]徐凯,陈平华,刘双印.基于AdaBoost-Bayes 算法的中文文本分类系统[J].微电子学与计算机,2016,33(6):63-67.XU Kai,CHEN Pinghua,LIU Shuangyin.A Chinese text classification system based on Ada Boost-Bayes algorithm [J].Microelectronics & computer,2016,33(6):63-67.

[3]葛文镇,刘柏嵩,王洋洋,等.基于层级类别信息的标题自动分类研究[J].计算机应用研究,2016,33(7):2030-2033.GE Wenzhen,LIU Baisong,WANG Yangyang,et al.Headlines automatic classification method based on hierarchical category information [J].Application research of computers,2016,33(7):2030-2033.

[4]钟旭东,黄章进,顾乃杰,等.Web 文本分类中的标签权重自动优化研究[J].小型微型计算机系统,2016,37(5):890-894.ZHONG Xudong,HUANG Zhangjin,GU Naijie,et al.On optimizing label weights automatically for web texts classification[J].Journal of Chinese computer systems,2016,37(5):890-894.

[5]池云仙,赵书良,罗燕,等.基于特征隶属度的文本分类相似性度量方法[J].计算机科学,2017,44(11):289-296.CHI Yunxian,ZHAO Shuliang,LUO Yan,et al.Similarity measure for text classification based on feature subjection degree [J].Computer science,2017,44(11):289-296.

[6]顾敏,郭庆,曹野,等.基于结构和文本特征的网页分类技术研究[J].中国科学技术大学学报,2017,47(4):290-296.GU Min,GUO Qing,CAO Ye,et al.Research on web page automatic categorization based on structural and text information [J].Journal of University of Science and Technology of China,2017,47(4):290-296.

[7]孟欣,左万利.基于word embedding 的短文本特征扩展与分类[J].小型微型计算机系统,2017,38(8):1712-1717.MENG Xin,ZUO Wanli.Short text expansion and classification based on word embedding [J].Journal of Chinese computer systems,2017,38(8):1712-1717.

[8]巴志超,朱世伟,于俊凤,等.基于语义扩展的数字文献自动分类方法研究[J].现代情报,2015,35(9):70-74.BA Zhichao,ZHU Shiwei,YU Junfeng,et al.Research on automatic classification of digital document based on semantic extension [J].Modern information,2015,35(9):70-74.

[9]胡海斌.引入特征倾向性的高效网络文本数据挖掘[J].计算机仿真,2015,32(5):436-440.HU Haibin.Efficient web text data mining by introducing characteristic tendentiousness [J].Computer simulation,2015,32(5):436-440.

[10]张志华,王建祥,田俊峰,等.基于多元特征的分块人物关系识别系统[J].计算机应用,2016,36(3):751-757.ZHANG Zhihua,WANG Jianxiang,TIAN Junfeng, et al.Blocked person relation recognition system based on multiple features [J].Journal of computer applications,2016,36(3):751-757.

Research on electronic archive automatic classification system based on text feature recognition

WANG Jun
(Zhoukou Normal University,Zhoukou 466001,China)

Abstract: An electronic archive automatic classification system based on text feature recognition is designed to deal with complex classification process and narrow application caused by traditional classification method,which realizes automatic classification by means of transforming automatic indexing subject words into classification numbers.In this system,the electronic file corpus module is used to mine the corpus according to the user′s needs to realize the operation of corpus construction,query,elimination and maintaining,and the electronic file typesetting module is used to typeset electronic files by means of content mapping.On this basis,the finite automaton selection method and the combination feature selection method are used to select the characteristic words in the text.After recognizing the text characteristics of the electronic file,the final classification of electronic files can be judged by two classification processes of SVM classifier and category recognizer.The results of closed classification test and open classification test show that the average recall ratio and accuracy of the system are higher than 95%,and the average interrupt probability of the system is 0.17% in different signal-to-noise ratio environments,which is lower than the contrasting system.

Keywords: electronic files;automatic classification;feature recognition;corpus module;typesetting module;classification test

中图分类号: TN912.34-34;N945.12

文献标识码: A

文章编号: 1004-373X(2019)18-0045-05

DOI: 10.16652/j.issn.1004-373x.2019.18.011

收稿日期: 2018-12-19

修回日期: 2019-01-31

基金项目: 国家自然科学基金(61801527);河南省教育厅人文社会科学研究项目(2019-ZZJH-503)

Project Supported by National Natural Science Foundation of China(61801527),Humanities and Social Sciences Research Project of Education Department of Henan Province(2019-ZZJH-503)

作者简介: 王 珺(1983—),女,河南周口人,硕士,研究方向为电子档案。

标签:;  ;  ;  ;  ;  ;  ;  

基于文本特征识别的电子档案自动归类系统研究论文
下载Doc文档

猜你喜欢