大数据时代基于统计特征的情报关键词提取方法*,本文主要内容关键词为:情报论文,关键词论文,特征论文,方法论文,时代论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
大数据时代的来临,给网络情报研究带来前所未有的机遇和挑战[1]。一方面使情报研究拓展到更为广阔的领域,带来新技术和新方法,重新定位了情报研究工作的价值。另一方面,大数据本身使得政府、企业和科研机构等各行各业更加重视情报研究工作。然而,大数据带给情报研究者的不仅是结构化数据,更多的是非结构化数据。2012年,全球被创建和被复制的数据总量达到2.7ZB(1ZB=10亿TB),是2002年全球数据总量的2亿倍,其中文本、照片、音频、视频、医疗影像等非结构化内容超过85%[2]。互联网数据是大数据的重要组成部分,成指数增长的用户和网页使得网络成为信息的集散地、舆论的放大器、科研情报的产生地。伴随中国经济社会的转型,各种矛盾将会更充分地展现在网络上,国家和地方政府如何有效地利用海量的网络信息资源,尽早发现热点话题和突发事件,合理引导社会舆论走向,成为政府决策情报研究的重要议题。面对激烈的市场竞争,企业如何通过网络获取竞争对手的信息,进行市场预警、策略制定来取得竞争力优势成为企业竞争情报研究的重要议题。同时,科研人员如何在纷繁复杂的网络信息中提取研究价值点成为研究情报的重要议题。关键词提取是网络中热点话题发现和网络情报监测的基础性工作,一个质量好的关键词可以直击热点话题的核心,成为情报监测的重要线索,提升政府决策情报、企业竞争情报和研究情报发现的能力。
首先,从决策情报监测中最常用的网络舆情监测来看,网络舆情是人们关于现实社会中各种现象,某些焦点问题所表达的态度、言论、意见和情绪等在网络虚拟空间中的表现总和,主要通过网络新闻媒体、论坛、博客和微博的形式加以传播。查看网络舆情监测系统使用文档可知,几乎所有的网络舆情监测系统均设置关键词提取功能,而关键词提取也成为网络舆情监测系统中首要的一个环节。网络舆论的源头来自一系列现实生活中的事件,事件可以进一步分解为话题,话题又是由关键词组成。相关研究表明:两个关键词可以表示一个话题,三个关键词可以确定一个话题。可见,在网络环境下迅速找到合适的关键词来发现话题,进一步确立事件的源头,对于舆情监测是非常重要的一个过程。
其次,从企业竞争情报的监测来看,企业竞争情报监测内容包括对内和对外两部分,对内监测的内容主要是企业在社会中的形象、企业文化的社会认同度等企业舆情状况;对外监测的内容主要是企业经营动向、经营收入、战略动向、市场运营状况等。竞争情报已经成为网络环境下企业核心竞争力之一,目前市场上也有专门用于企业情报监测的系统,对外情报监测多建有丰富的关键词目录,而对内企业舆情监测内容有较大的不确定性,需要专门对网络中的信息进行关键词自动提取来确定舆论导向。
最后,从研究情报,特别是社会科学研究情报监测来看,传统的文献情报分析可以部分满足科研人员了解某一领域的现状和发展趋势的需要,科研人员只需按照学科分类来进行文献检索和分析即可。而对于非文献型情报,其内容已不限于某一科学领域的情报,同时涉及经济、政治、文化及社会等方面的综合情报,关键词提取将对该类型情报收集、鉴别筛选提供可行性的线索和素材。
于是,网络环境下关键词提取方法的研究对于支撑决策情报、竞争情报和研究情报监测具有重要的应用价值,是情报学中的理论研究前沿,并朝着交叉科学的态势发展。
1 相关研究的现状及其存在的问题
一般而言,关键词是对表述论文主要内容有实质意义的词汇,是为了满足文献标引或者检索工作而从论文的题名、摘要和正文中选取出来的词或词组。本文将关键词的含义限定为是能够表示网页主要内容的相关词语。关键词提取是通过对核心词语的统计和语义分析,从单个网页或者一个网页集(语料库)中选择合适的、能够完全表达主题内容的特征项集的过程。由于关键词是表示网页主题意义的最基本单位,所以在自动摘要、信息检索、文本聚类、自动问答、话题跟踪等自然语言处理和中文信息处理领域通常都要先进行关键词提取,而且关键词提取对于情报监测和跟踪也有着重要的线索价值,促使情报工作从不确定性向确定性转变。
关键词的提取方法主要分为以下四类:
(1)基于语义的方法。在词典的帮助下,通过词法与句法分析进行自动分词、词性标注,使计算机能够理解多种信息片段、词汇间的语义关系,进而通过复杂计算来获得关键词。文献[3]提出一种SKE算法,该算法运用词语语义相似度构建一个词语语义的相似性网络,再结合社会网络理论,使用居间密度词语语义的关键度,最后将词语语义关键度和词语的统计特征值加权来获得关键词。
(2)基于机器学习的方法。通过对大量训练语料库进行训练,获得各项系统参数和模型,再将模型应用于测试语料库来检验关键词提取效果。在训练集中,把关键词提取看作是有监督的分类问题。常用的模型有支持向量机、朴素贝叶斯、最大熵、决策树等。
(3)基于复杂网络的方法。根据候选特征词之间的关系,按照既定规则构建一个复杂网络或者加权复杂网络模型,计算节点权重系数和介数来表示节点综合值,综合值大的即为关键词。这个方法的计算量往往过大,面对海量文档或者考虑网页效率时,这种方法的缺陷显而易见。
(4)基于统计的方法。通过词语的统计信息来提取关键词,最常用的是词频一逆向文本频率(TFIDF)指标和N-gram方法,这类方法只需统计相关词语的词频和使用过滤技巧,缺点在于提取精度不高。文献[4]提出一种改进的TFIDF网页关键词提取方法,结合网页内容的结构和词语词性特征,对经典TFIDF公式进行改进,构建了一个候选特征词的综合评价公式来提取关键词。
这四种方法的本质区别在于从自然语言理解、机器学习、复杂网络和统计等不同领域和角度来处理关键词的提取问题。本文提出的关键词提取算法是属于统计方法的范畴,是基于词语统计特征的方法,对传统TFIDF方法有较大的改进。它首先采用词语TfDf指标的离散系数的办法来过滤网页文本的噪声词,然后对产生的候选关键词进行词共现概率分布偏度的分析,再结合TFIDF和候选关键词出现的位置信息构建新的关键词提取评价函数TFIDF-SK,最后对函数值进行排序,即实现关键词提取。
2 关键词提取方法的构造
2.1 中文词语的特征及自动分词
中文句子是词语和单字的组合,句子主干部分是由名词、动词、形容词、代词、量词等实词构成,而介词、连词、助词等虚词没有实在意义,一般不能充当句子主要成分。所以在进行中文关键词提取时应当剔除虚词和单字。
中文不像英文那样,词与词之间有天然的分隔符,单个字就可以作为一个关键词。中文词汇大多是由两个或两个以上的汉字组成的,并且句子是连续书写的,这就要求在对中文文本进行自动分析前,先将整句切割成小的词汇单元,即中文分词。中文分词是自然语言处理的热点和难点,目前已有比较成熟的分词系统,如中国科学院的ICTCLAS系统、CRF中文分词系统和盘古分词等,这些分词系统均能自动标注词性,为自动过滤虚词和停用词提供了可能性。
2.2 网页文本的结构特征及词语统计特征
Web页面大部分是以HTML的形式编写的,有着较为严格的结构。HTML是用于描述网页文档的一种标记语言,通过成对的标记符号来标记要显示网页的各个部分,如标签定义HTML表格,
标签定义段落。通过对Web页面HTML文档的分析,网页文本内容的标题通常是由
标记,我们可以从Web页面中自动提取网页文本,并能够辨别文本内容的标题和段落。
下面定义本文用到的词语统计特征:
词频—逆向文本频率TFIDF的主要思想是:如果某个词语在一篇文本中出现的频率TF高,并且在其他文本中很少出现,则认为该词语有很好的代表能力,可以选为候选关键词。
对于Web文本而言,词语在不同的标记符号中对于文本内容的反映程度不同,也就是说,词语出现的位置信息对于关键词提取比较重要,所以应对处于文本不同位置的词语赋予不同的系数权重。如果词语在标题和摘要中出现,那么它的位置权重显然要高于段首和段尾,更高于其他位置,具体权重分配按公式(4)。
2.3 词语过滤
在过滤掉停用词和虚词之后,文本集中依然存在大量的噪声词。噪声词一般是与文本主题相关性不大的词,例如“中国”、“南方网”、“人民”等。一般认为,文本中出现频率很高,同时文本集合中出现频率也很高的词为噪声词。本文提出使用词频与文本频率乘积的离散系数方法来自动过滤噪声词。
由于文本内容长短不一,噪声词在文本集合中出现的频率差异较大。实践表明,用公式(6)计算的词语离散系数能够克服文本内容长度对于噪声词剔除的影响。离散系数综合反映了词语在整个文本集中的波动程度,词语的离散系数越小,说明该词在文本集出现的稳定性越好,则该词是噪声词的概率越大;反之,就可认为该词不是噪声词。
2.4 词共现概率分布及偏度
随着信息技术的发展,词共现分析成为数字图书馆文献计量分析方法之一,其思想来源于文献计量学的引文耦合与共被引概念,即当两个某一学科领域的关键词在同一篇文献中出现的频率越大,表明这两个词之间的某种内在关系越密切。因此,可以通过构建关键词共现矩阵和使用多元统计方法来进行期刊评价和学科结构分析。
本文提出的词共现概率分布是基于单个句子中共现频率而言的。一个文本通常是由多个句子组成,句子之间一般是通过句号、问好、感叹号来分割的。如果两个词在一个句子中出现,就认为它们共现一次,这里不考虑语法和词序。
用来表示候选关键词的集合,表示候选关键词的个数,则候选关键词共现矩阵就可以通过任意两个候选关键词在单个文本或者文本集合中出现的频数作为元素构成。例如有5个候选关键词a、b、c、d、e,在单个文本或者文本集合中出现的频数如表1所示,则表1中数字代表两个词之间的共现频数,阴影部分就是其词共现矩阵,显然它是一个对角矩阵,其自身词共现频数用“-”表示,候选关键词a的词共现概率分布就为
为了估计词共现概率分布的偏斜度,我们引入偏度概念。偏度是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
由公式(7),我们可以算出候选关键词a、b、c、d、e的偏度分别为0.377、0.690、0.051、1.412、0.147,可见词语d的偏度最大,最可能是关键词。经验表明,如果一个词的偏度越大,该词在整个文本集合中出现的分布状况越不均匀,越有可能是关键词,反之就不是关键词。词共现概率分布的偏度恰如其分地体现了关键词在文本中的分布规律,使用此规律来指引关键词的提取是本文的重要发现,对于构造关键词提取的评价函数有重要意义。
2.5 中文关键词提取流程图及算法
综合公式(3)、(4)和(7),本文提出评价关键词在单个文本或者文本集合中的重要性度量函数如公式(8)所示。它综合了词语的位置信息、词语统计特征的词频一逆向文本频率信息和词语共现概率分布信息,对于关键词重要性的度量做了较为全面评估,词语的TFIDF-SK函数值越大,该词越重要,越有可能是关键词。
本文首先采用词语Df指标的离散系数的方法来过滤网页文本的噪声词,然后分析候选关键词共现概率分布的偏度,再加上TFIDF和候选关键词的位置信息构建关键词提取的TFIDF-SK算法,以函数TFIDF-SK值作为关键词重要性的度量。TFIDF-SK算法的系统流程图如图1所示,主要由文本预处理模块、词语统计特征计算模块、关键词重要性度量模块三个模块构成。
TFIDF-SK算法首先对输入的文本集合进行预处理,预处理模块中重要的一个环节是噪声词的剔除和词语统计特征记录;然后进入到词语统计特征计算模块,该模块负责计算TFIDF值、词语位置信息权重和偏度;再接着进入关键词重要性度量模块,负责计算TFIDF-SK的值;最后根据关键词重要性度量的大小输出关键词。
TFIDF-SK算法的详细处理过程如下:
[Keywords,Importance]=TFIDF-SK(D,Num)输入:D表示网页文本集合;Num表示要提取的关键词个数。输出:Keywords表示提取的关键词集合;Importance表示关键词的重要性度量值。
(1)对输入的文本D进行分词和词性标注,得到所有词语列表及词性CanWords,
(2)剔除CanWords中的停用词和虚词,得到词语集合,并统计各词语频率和文本频率;
(3)使用公式(6)计算,剔除词语的离散系数小于给定阈值(<=0.05)的词语,得到词语集合;
(4)统计词语集合的词频、逆向文本频率、词语出现的位置,构建词共现矩阵;
(5)对中的每个词语:
(ⅰ)使用公式(3)计算词语的TFIDF值;
(ⅱ)使用公式(4)计算词语的位置权重值;
(ⅲ)使用公式(7)计算词语的偏度值;
(6)确定系数α和β;对中的每个词语,使用公式(8)计算关键词重要性度量TFIDF-SK值;
(7)按TFIDF-SK值的大小降序排列,输出Num个关键词(Keywords)和重要度(Importance)。
3 实验结果与分析
3.1 评价标准
目前,关键词提取的质量和评价标准在国内外尚未有统一的评价方法,一方面因为网页文本是非结构化数据,另一方面因为文本数据的选择带有较大的主观性。本文使用一种常用的关键词提取评价方法,这种方法是把计算机自动抽取的结果与人工标注的结果进行对比,使用准确率P和召回率R来评估TFIDF-SK的效能,它们的定义如下:
其中,P反映了关键词提取算法TFIDF-SK提取的准确性;R反映了关键词提取算法TFIDF-SK的发现能力;A表示本算法提取的关键词集合;H表示人工标注的关键词集合;| A∩H|表示集合A和H的交集个数;|A|和|H|分别表示两个集合元素的个数。
3.2 实验结果分析
本文从互联网上以“十八大”为主题,使用网络爬虫软件爬取300篇左右的文本内容作为测试算法的文本库。手工标注关键词的文本有200篇,其中100篇用于判断TFIDF-SK算法中的α和β系数,这里使用线性回归的办法,算出α= 0.684,β= 0.316;另外100篇用于判断TFIDF-SK算法的准确率P和召回率R。一般来说,一篇文本的关键词在4~8个之间,本文为了对比效果,选用关键词的数目Num分别为5个、6个和7个,并与传统关键词提取算法TFIDF做了对比,实验结果如表2所示。
从表2可以看出,与传统关键词提取TFIDF方法相比,TFIDF-SK算法的准确率和召回率均有较为显著的提升。
4 结语
本文提出了一种基于多级统计特征的关键词提取算法,该算法处理的对象是网络页面资源,处理的过程包括网页内容转换、分词、噪声词剔除、候选词的重要性度量等,处理的结果是产生表示网络页面主题的关键词。实验结果证实了该算法的有效性,表明该算法对于关键词提取研究和应用具有一定的参考价值。但是,本文提出的关键词提取新方法是初步探索和尝试,其提取精度、效率还有待在大数据的情报监测系统中检验。
下一步的研究方向是如何将本文提出的关键词算法应用到大数据的情报监测系统中去,通过算法修正来进一步提升关键词提取的精度,进一步体现关键词提取技术在政府决策情报、企业竞争情报和研究情报监测中的作用。
*本文获中国社会科学情报学会2012年学术年会“知识·服务·创新——社会主义文化大繁荣大发展背景下社科情报事业及学科发展:机遇与挑战”征文活动一等奖。
标签:大数据论文; 文本分类论文; 特征提取论文; 网络词语论文; 企业特征论文; 偏度系数论文; 文本分析论文; 自然语言处理论文; 关键词分类论文; 偏度论文; 离散系数论文; 算法论文;