基于舆论评价的引文网络建设与主题发现_元数据论文

带舆论评价的引文网络构建与主题发现,本文主要内容关键词为:引文论文,舆论论文,评价论文,发现论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

科技文献是学者发布研究成果、交流信息的重要载体。科技的飞跃发展及互联网的广泛普及,致使电子文献海量涌现。引文网络[1]能提供巨大的知识储备,同时也制造了一个知识沼泽,学者难以快速有效获取相关文献、研究前沿、各个热点之间内在联系以及经典理论对研究的支撑关系等。引文网络作为一个知识生产和传播的复杂系统,个人和单个文献的作用在网络已经逐步淡化,仅仅依赖于同行评议和单纯地分析个体文献无法真实地反映整个网络的状态。引文网络系统在不断演化,随着文献不断地被引用,网络结点度(文献被引用数)不断增加。结合突现[2]理论分析,微观层面的相互作用形成宏观的整体特性,在引文网络动态演化过程中,会突现出网络拓扑特性,并且从复杂的网络结构、众多的科技文献中突现出领域内的中心文献。

现在评定文献的重要性主要利用引文数、期刊影响因子、同行评议等[3],这些评判标准在一定程度上能反映出文献在网络中的重要程度。现有的文献检索系统也按此来对检索结果进行排序,通常搜索出大量的相关文献,难以快速获取最具影响力的文献。Huang和Qiu[4]认为科技文献作者发表的论文中,通常会不同程度描述所引用的文献,而这其中就包括作者对所引文献中肯的评价。本文考虑从文献中有效地提取作者对参考文献的舆论评价,采用突现语义[5,6]的思路,结合引文网络拓扑结构特性,对文献在领域内的重要程度进行评定显得更客观、更有价值。给引文网络赋予科技文献作者对所引参考文献的舆论评价信息,在作者间相互引用、相互评价的动态演化过程中,将会从引文网络中突现出重要文献。

本文考虑在带舆论评价的引文网络的基础上进行关键词和网络社区主题提取。近年来,自动进行主题挖掘的方法和技术及主题发展演化正获得广泛关注。Wang等[7]利用TOT(Topic Over Time)型在NIPS会议数据集上获得了相关主题随时间的变化以及与分类相关的主题时间变化关系。Blei等[8]提的LDA(Latent Dirichlet Allocation)主题模型方法得到了广泛的应用。Zhou等[9]利用LDA模型分析了CiteSeer数据中主题随时间变化关系。王金龙等[10]利用LDA主题模型抽取主题,研究主题之间的影响关系。这些文献并未考虑文献间的相互引用关系,以及作者的舆论评价信息。Huang和Qiu[4]提出一种构建CSLN(Citation Semantic Link Network)的方法,描述了网络结点舆论评价计算,本文将结合该方法建立包含舆论评价的引文网络,在此基础上进行社区划分,再引入信息熵理论改进TFIDF[11]算法提取每个分类中的主题,从而得到每个主题的关键词概率表示,取得很好的效果。

本文第2部分描述含有舆论评价的引文网络系统结构和元数据抽取;第3部分描述文献舆论评价和重要性权值的计算,网络社区主题提取与计算;第4部分对实验结果进行分析;第5部分为总结及下一步工作。

2 基于舆论评价的引文系统描述

2.1 系统描述

本文系统主要分为三层:数据源层、语义信息抽取及关联存储层和用户检索界面层。系统流程如图1所示。具体功能如下:在数据源层,采用爬虫技术从Internet上获取免费的科技文献资源(PDF格式),存储在文献库中。接着从PDF文件中抽取文献元数据(图2),并根据文献的语义关系存储抽取的元数据。然后利用情感特征词库对带标注的句子进行舆论评价分类,计算出参考文献的重要性权值,构建含有权值的引文网络,在此基础上进行网络社区主题提取与计算。用户检索界面层,在文献检索时,给出较好的排序,从而用户能快速定位到重要文献。本文重点介绍文献作者舆论评价分析、文献重要性权值计算和社区主题概率计算。

2.2 元数据抽取

参考文献[12]利用正则表达式规则,对论文结构进行分析,提取出论文的标题、作者、摘要和关键字等元数据信息。华中科技大学的Semrex[13]系统,采用模式匹配的方法提取参考文献中的元数据,模板分析器自动提取出相应的模板信息,提取参考文献中的标题、作者、出版时间等信息,有很高的准确性。本文将结合这两种方法,实现文献元数据的提取。

本文系统只针对英文文献,标准科技文献文档格式通常是一致的。本文的语义信息抽取模块,首先读取文献库中PDF格式的文献,利用关键词“Key Word”或“Index word”或“Introduction”和关键词“References”或“Bibliography”,将文献信息分离成三部分:头部信息、正文部分和参考文献部分;然后抽取各部分信息中的元数据(图2)。

2.2.1 文献头部元数据抽取

通过建立正则表达式模板,提取科技文献头部信息中的元数据,包括:Title、Author Name、Abstract、Key Words。利用如下的正则表达式的规则(‘\r\n’表示换行,单引号中的文字为字符串):

利用DBLP收集的文献信息(http://dblp.unitrier.de/xml)中的作者名称建立了人名数据库。根据人名数据库信息分析提取的作者名是否正确。类似地,还定义了其他的一些正则表达式规则。

2.2.2 带标注的句子抽取

从论文主体(Body)部分提取出带标注的句子,并标明其所属部分(Introduction、Related work、Experiment、Conclusion),若判定不属于这四部分中的句子,则就将其归为Main Content部分。句子中标注主要有“[2]”、“[3,9]”、“[3,5,6,and 9]”、“[5~7,10]”或“[Name,Year]”等样式,因此建立正则表达式模板,能有效的从文章主体中提取出带标注的句子。

2.2.3 参考文献元数据抽取

在参考文献起始部分之后,通常是较规则的参考文献信息条目,如“[1][2]”、“12”、“1.2.”和“[Name1,Year1][Name1,Year1]”,根据这些起始的标志,分别建立正则表达式模板,通过模板匹配将两个分隔标记中间的文本提取出来形成每一条的参考文献。

对于部分无明显分隔标记的参考文献,暂不考虑对其元数据进行提取。因为无明显分隔标记,在正文中也没有对所引用文献进行标注,难以判断作者对参考文献的舆论评价。准确提取出参考文献中所有的元数据是具有挑战的工作,但参考文献格式类似,本文只是提取参考文献的作者、标题、年份,就相对容易,除了引用网页的文献条目外,参考文献元数据顺序均可看作归为:“作者”、“标题”、“年份”。按句点和逗号来分隔每条参考文献。结合分隔后的各部分的数据长度和已建立的人名库,提取出作者信息后,易得标题信息;而年份信息用四位数字表式,由正则表达式匹配获取。

通过上面的信息抽取工作和信息的关联存储,可以得到文献之间的相互引用关系,构建出文献库中文献间的引文网络图。

3 文献重要性计算与主题发现

3.1 标注句子情感极性分析

假设科技文献作者会在带标注的句子中对所引用文献进行不同程度的评价,因此可通过判断此句子的情感极性来判断作者对所引文献的评价态度[4](Negative、Neutral、Positive)。采用词汇和语义特征的方法来实现对句子情感极性的判断。在WordNet中,名词、动词、形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念。首先从标注句子中抽取具有明显情感倾向的词汇,根据WordNet中的词语同义、近义词集来扩展特征词库,从而得到正面评价和负面评价的词库。然后依据建立的特征情感词库进行观点分类。本文只是把作者的评价态度分为三类,使用特征匹配的方法来进行情感分类,句中没有与正面或负面评价的特征词匹配的词语,就将其归为中立态度。

考虑作者在文章不同部分对参考文献的引用,会展现出所引参考文献的重要性差异,因此标记句子在文中出现的位置,得到位置权重。作者引用、描述参考文献的方式也反映参考文献对引用文献的重要程度,如作者将自己的算法与某参考文献进行对比(Compare),说明此参考文献的较为重要;而若只在文中提到(Mentioned)某参考文献,并未有其他描述,则其重要性较小。通过5类特征词语来进行重要性分类,通过WordNet得到每类词语的同义、近义词,建立分类词库,规则优先顺序为:Compare>Detail>Similar>Use>Mentioned。利这五类词语与标注句子进行特征匹配,对句子进行分类,得到每个句子的分类权重。

3.2 文献重要性权值计算方法

完成元数据提取、句子情感极及分析、重要性分类后,可计算出参考文献的重要性权值,从而也反映出参考文献对作者发表论文所提供的参考价值。在进行权值计算前,引入如下定义[4]:

定义1:

4 实验结果分析

4.1 元数据抽取功能分析

实验使用5092篇多媒体领域的PDF格式的英文文献,对文章结构、头部信息元数据提取性能分析数据如表1所示,由于文献来自不同的期刊、会议,文档结构、样式各异,大约有71.5%能够完全正确抽取。剩下的论文中,有大约14.1%的抽取是混乱、空白或无明显标注,主要原因有:误把其他资料当成论文;文档是图片形式的PDF文件;罕见的嵌入字体;文献没有进行标注。14.4%存在误差,比如把作者的信息抽取到了标题里,或是根本没有某项信息,如关键字,原因有:作者提交时不完全按照约定的格式,或者系统读取PDF后存在格式偏差。

在正确读取的3639篇文献中,共获得78 690句带标注句子,74 734句是完整的有效句子。有5.0%的错误句子是因为字符识别错误,或句中包含了页脚信息。从75 683条参考文献中完全正确的提出作者、标题、年份的条数为69 500,正确率为91.8%。错误原因为:某些参考文献条目为标题和超链接地址,无法得到作者、年份;某些字符识别错误,导致提取有误。

在本文后面的实验中使用这3639篇文献中的元数据进行计算,使用74 734条带标注的句子计算舆论评价。实验共得到Positive的句子19 500条,Negative的句子13 637条。程序对带标注句子的分析如图3所示,通过分析以后来计算舆论评价值。

4.2 网络中的突现语义分析

通过实验提取元数据后,利用第3部分中的文献重要性计算方法,得到了各篇参考文献的重要性权值,系统自动生成引文关系矩阵。为了清楚的展示,采用社会网络分析工具Pajek绘制了部分文献间的引用关系网络,如图4所示。

图4 引用关系网络演化图(黑色数字为文献编号,红色数字为权重,箭头指向被引用文献)

文献之间通过引用建立了引用关系,这可理解为一种语义关系。通过模型的计算得到了重要结点和相关结点的语义关系。这样的语义关系是在文献之间平等、自主的条件下建立的是在对重要文献理解的基础上建立的。作者对文献的理解基础上给出学术评价,通过计算能对真实数据中作者的舆论评价进行简单的判断。例如,1999年前的文献,只存在简单的引用关系,文献[6]获得文献[7]较好的评价,得到了较高的引用权值;2001年,关系网中出现了新的文献结点,建立了更多的语义关系,文献[6]的重要性还不是很明显;2008年,文献[6]所在的语义网络中出现众多文献结点,而其也得到了更多结点的引用,从而可以看出文献[6]在该领域发展中所起的重要作用。文献不断发表,引用关系不断增多,各分离的语义网络不断延伸,结点间的关系也越来越紧密。两个原来分离的语义网络,后来由于被新文献引用,而连成一个语义网络,可能会反映出学科知识的交叉、两种不同观点的融合等。

新的研究领域、名词、主题就是一种突现语义[5,6],通过分析引用网络可找出名词和原有名词的关系,而且可以找到起源、演化、得到大家认可的情况。一个新的语义网络既含有共同研究兴趣的人也有研究共同领域的文章,随着时间的推移,这个网络中会产生核心结点,也就是该领域较为重要的文献。无论是新的语义网络的出现还是语义网络中核心结点的产生都是一种突现现象[2],并且这种突现的结果可以为我们所利用,如读少量文献可以获得大量最新的研究前沿信息及这些研究的沿袭、起源,各种理论之间的交叉以及将来可能有的新的突破。此外,也可以大胆预测,若同一研究领域的文章都考虑一个问题,则此问题有可能是新的研究方向,从而为研究者节约入门时间。这是孤立随机地看几篇文章所无法得到的结论,而放在引用语义网络中可以得到这样的结果。

4.3 主题计算结果分析

在本实验中存在引用关系的文献共有1216篇,文献时间是从1998-2008年。在去除常用词和停用词后,共得到2672个不同的词。采用上文所述的主题划分与计算方法,计算出每个分类中的关键词的Wi概率值。选取被引用数大于10的文献作为社区分类中心,若两个分类中有超过1/3的文献相同,则归为一类,最终得到18不同的主题(TOPIC)分类。从每个主题选用概率值较大的10词来表示此分类主题。本文从中选取8个TOPIC的表示进行阐述,如图5所示。

从图5中可看出,实验结果中的关键词能有效描述一个社区分类主题。TOPIC2主要涉及多媒体数据的传输,TOPIC5涉及图像分割,TOPIC6涉及基于内容的检索,TOPIC7涉及网络协议与分包。而TOPIC8主要涉及视图像中行为/动作的识别与跟踪,TOPIC12涉及图像检索,TOPIC13涉及网络多媒体(质量、编码等),TOPIC15涉及文本/图像分类。这些主题都是属于多媒体研究领域中的研究分支。每个分类中的主要关键词都基本能描述其分类社区涉及的主题,但仍有相同的词分布于不同的主题中,或者是主题表述相近,例如TOPIC6和TOPIC12,都涉及检索研究。

从实验结果可以看出,本文所描述的方法能有效划分和表示引文网络中的社区主题。引文网络的主题可以在大量数据的复杂网络中有效划分并提取,通过得到关键词,能有效地表达出引文网络社区的主题,从而可以概括出一个大领域中的各研究分支,这也可看作是文献引用过程中发生的突现语义现象。这对进一步跟踪、确定研究热点,研究文献检索和主题演化有重要作用。

5 结束语

本文通过对科技文献的元数据进行有效的提取,从而实现对引文网络中作者舆论评价的计算,能较为客观地反映出作者对参考文献的评价;结合TDIDF算法和网络舆论评价,能有效地对网络社区主题进行划分提取和计算,采用关键词概率对每个主题进行合理的表示。考虑通过文献元数据来计算文献作者对参考文献的舆论评价,从而得到每篇文献在网络中的重要,更为客观。结合TFIDF算法发现网络社区主题,方法简单且能对主题进行有效的表达,这对文献的检索与共享有重要意义。结合实验数据分析了引文网络系统中突现语义,得出引文网络的结点度呈幂律分布、重要文献的显现就是一种突现语义的有益结论。

在判断文献重要性和主题提取方面还可考虑结合SVM、LDA等算法进行研究。从实验结果中可看出引文网络随着时间的推移会产生更多的结点和关联,而重要文献就是在这个过程中突现出来的,并且网络中分支的形成也是一个值得研究的突现现象。针对突现语义的研究工作尚少,本文也只是对引文网络中的突现语义进行了初步的探索。今后将建立大规模的引文网络系统,为引文网络赋予更多的语义信息和语义关系,从不同层面、不同角度研究引文系统演化过程中的突现语义,研究网络主题的发展演化。

标签:;  ;  ;  ;  ;  ;  ;  

基于舆论评价的引文网络建设与主题发现_元数据论文
下载Doc文档

猜你喜欢