关键词与创新点词句分布分析_概率分布论文

关键词与创新点词句群分布分析,本文主要内容关键词为:词句论文,关键词论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

首创性是科技论文的灵魂。标引是文献加工中的重要环节,信息检索系统的质量很大程度上依赖于文献标引的质量[1,2]。标引就是通过对文献的分析,选用确切的检索标识(类号、标题词、叙词、关键词、人名、地名等),用以反映该文献内容的过程。按标引使用检索语言的类型可区分为分类标引,主题标引两大类。主题标引又可分为标题词标引、叙词标引、单元词标引、关键词标引、自由词标引等多种[2]。关键词语言是直接从文献题名、文摘或正文中抽取出来的未经规范化处理的词,是一种用自然语言做标识的检索语言,也是目前使用最多的信息标引方式。进入21世纪,知识成为创新和竞争的重要资源,如何准确及时地揭示和检索论文中的创新点是情报学研究的重要课题。尤其是在网络环境下,以往的关键词标引技术还能否满足人们对创新知识单元的需求,本文对作者给出的关键词及使用的创新点词在文本中的句群分布做了统计分析,以期找出关键词和创新点词对论文创新点揭示的数量规律,研究基于创新点的知识单元挖掘方法。第2节给出了关键词与创新点词统计数据,第3节讨论了关键词与创新点词的句群分布规律,第4节举例分析了关键词揭示创新点的概率,第5节为小结。

2 建立标引词目标信息系统

2.1 文献信息的标引词

20世纪50年代卢恩(H.P Luhn)在Zipf定律的基础上提出了自动抽词的基本思想[3]。即一篇文献中一个词出现的频率是这个词的重要性的测度;一个句子中具有给定该重要性测度的词的相关状态,成为该句子重要性的有效测度。Luhn发现词频适中的词区分能力较强,称为有效词(significant word),并作为文献级的标引词。

文献[4]报道了主题标引词在文献中具有一定的分布特征,指出对生物学文献进行统计后,发现人工进行标引时,有42.7%的主题词是直接从原文中得出,有47%系对原文进行同义词转化而来,剩下的10.3%是通过“拍脑袋”(Brain Storm)得到的。在信息检索中应用比较广泛的方法是关键词法。关键词是指那些出现在文献的标题以致摘要、正文中,对表征文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题来说是重要的、带关键性的那些语词。将文献作者原来所用的,能描述文献主题概念的那些具有关键性的词借助于计算机自动抽出,不加规范或只作极少量的规范化处理,作为文献的检索标识,以提供检索途径的办法。

2.2 标引词统计方法

本研究以CNKI库中下载的400篇《电子学报》论文作为试验样本,对论文中作者标出的关键词及创新点词在正文中的句群分布做统计分析。统计方法由人机交互的软件方式进行。①先将PDF格式转换成TXT格式;②将TXT文件以句号分离成独立的句子,并按顺序编号;③软件自动地统计一篇论文中标出的每一个关键词在该单个文本中出现的次数和出现的句子数,并计算关键词的句群与全文总句子的比值;④人工提取作者的创新点词,用软件抽取创新点词出现的句群,计算创新点词出现的句群与全文总句子的比值;⑤检查关键词与创新点词的一致性概率;⑥分析关键词和创新点词揭示创新思想的准确性。

2.3 建立标引词信息系统

从标引词信息系统中发现知识的方法是根据不同的属性对于对象的分类问题,因此通过标引词信息系统发现知识是概念的发现,对于不同的分类会产生不同的概念。目标标引词信息系统是研究条件属性与目标属性之间的关系问题,因此目标标引词信息系统的知识发现是命题的发现,从条件属性与目标属性之间的不同关系,可得到不同的命题。

2.4 建立标引词目标信息系统

定义2 称(U,A,F,D,G)为目标标引信息系统或决策表,其中(U,A,F)是一个标引词信息系统,A为条件属性集,D称为目标属性集或决策属性集,即

在目标标引信息系统中,关系集G同关系集F一样,同样是重要的。关系集G表达了对象集与目标集、属性集之间的联系,从而通过对象集使条件属性与目标属性之间建立了联系,比如,

通过目标属性也得到了U的一个划分,

且两个分化之间有关系:我们从标引词统计表中400条记录中截取12记录和部分字段组成表1,展示标引词表片断。从表1中可以看出分化C如下:

我们可以利用两个分化之间的关系发现标引词信息统计数据中的新知识。

2.5 标引词关系数据表

由上述分析可以看出一个标引词信息系统对应着一个关系数据表,一个关系数据表也对应着一个标引词信息系统。于是我们建立了与标引词信息系统对应的一个关系数据表。表1给出了从400篇论文构成的关系数据表片断。其中E的值表示每篇文章中标引关键词的数量。

3 标引词的句群分布分析

对标引词信息统计数据表进行特征分类统计,以便由C分化转换到D分化,从而发现关键词标引分布与创新点词标引分布的关系。

3.1 引导创新点的特征词分布

我们以《电子学报》文章为试验对象,分析400篇作者描述文章创新点的各特征词出现的频率特性。统计结果表明绝大多数论文的创新点主要是由“提出”这样的特征词引导出,占了统计结果的71.8%,其次较多出现的特征词分别是“给出”、“设计”、“研究”、“介绍”等,大约分别占3.8%、3.6%、3.6%和3.2%。统计结果还表明论文创新点有特征词引导的大约占98.4%,但有些文章并没有明显的创新点引导词,这类文章大约占1.6%。

3.2 标引词句群分布计算

3.3 创新点词与关键词的句群分布比较

图1 创新点词与关键词的句群分布比较

3.4 关键词与创新点词句群重合的文献概率

对400篇样本统计决策D的文献概率,D=0表示该样本中有关键词对应的句子数为0;D=1表示该样本中有V[,i]值大于0.3;D=2表示该文献中有关键词和创新点词相同。决策D的分布统计如表3。

表3

样本数D=0 D=1 D=2

N=400125

161

77

D/N 0.3125

0.4025

0.1925

3.5 关键词的平均文献数量分布

设E(i)表示每篇文章标出的关键词的个数,其中i=1,2,3,4,5,6。由统计表得出,当文献样本N=400时,每篇文献中关键词的数量分布E,及平均分布值E/N,如表4所示。

表4

文章数 E(1)

E(2)

E(3)

E(4)E(5) E(6)

N=400 0

9

132149 9713

E(n)/400

0 0.0250.33

0.370.24

0.032

3.6 关键词序列的文献数量与平均值分布

统计得出,400篇文章中共标出1582个关键词,平均每篇文献标出3.955个关键词。6个关键词序列标引文献的数量为{400,400,390,260,111,21}。即统计样本文献中至少标引2个关键词的概率为1,标引3个关键词的文献概率为0.975,标引4个关键词的概率为0.65,标引5个关键词的概率为0.278,标引6个关键词的概率为0.052。

4 关键词揭示创新点的概率

下面通过一个实例[5],考察关键词和创新点词的取词来源以及和对创新点的揭示程度。

4.1 关键词和创新点词的取词来源

标题:自组网容错拓扑控制的研究

关键词:容错(取之标题词,全文中出现56次,出现36句),拓扑控制(取之标题词,全文中出现32次,出现27句),省能(取之文摘词,全文中出现3次,出现3句),自组网(取之标题词,全文中出现10次,出现9句)。

创新点词:分布式拓扑控制算法(LKINDP)(取之文摘词,全文中出现21次,出现20句)

4.2 关键词揭示创新点的概率

全文共172句,关键词“容错,拓扑控制,自组网,省能”分别在全文中出现36句,27句,9句,3句;创新点词LKINDP在全文中出现20句。如果随机试验E的样本空间D中只包含有限个基本事件,并且在每次试验中每个基本事件发生的可能性相同,则称E为古典随机试验,简称古典概型。设样本空间中共有172个基本事件,创新点词(LKINDP)、关键词(容错)、(拓扑控制)、(自组网)、(省能),分别为A、B、C、D、E共5个事件,求4个关键词在创新点词的句群中出现的条件概率。事件A中含有20个基本事件,在创新点词LKINDP出现的20句中,关键词(容错)出现9句,关键词(拓扑控制)出现6句,关键词(自组网)出现2句,关键词(省能)出现0句。事件A的概率P(A)=20/172=0.116,P(A)>0。则创新点词A发生的条件下关键词B、C、D、E的条件概率分别是:

可见用作者给出的4个关键词标引这篇文本的创新点的句群概率分别为0.45、0.3、0.1、0。

4.3 创新点知识单元

该文本创新点知识元挖掘[6]结果。

11、目前对容错拓扑控制的研究还较少,已经取得的进展有:文献[5]中首先提出集中式算法BICONN和分布式算法LILT,通过寻找关节点来构造2点连通(重连通)拓扑。

12、文献[6]中提出了CBTC(α)中α=2π/3K能够使GE保持GO的K点连通性,文献[7]中对随机分布节点的电台半径与形成K+1点连通图GO的概率关系进行了分析,并提出Yp,K+1结构能够使GE保持GO的K+1点连通性,文献[8]中分别提出了集中式和分布式算法K2UPVCS,文献[9]中提出了分布式控制算法FLSS。

19、本文提出了一种基于K条内部节点互不相交路径的分布式拓扑控制算法LKINDP(Localized K Internal-Node-Disjoint Paths),能够保持任意拓扑结构GO内任意两点之间最大限度K连通容错能力。

140、仿真结果表明,LKINDP能够简化网络结构,减小电台发射半径从而减少能量消耗,减少邻居数从而较少信道碰撞的几率,并且能够通过改变K值调整网络的容错能力,通过增加较少的功耗开销换得较高的容错能力。

5 小结

关键词标引是一种用自然语言做标识的检索语言,也是目前使用最多的检索信息标引方式。首创成为科学技术论文的灵魂,如何准确及时地揭示和检索论文中的创新点是情报学研究的重要课题。本文通过对《电子学报》文本中的关键词标引及作者论文中的创新思想统计分析,有效关键词句群概率为0.673,有效创新点词的概率为0.80,由此提出在关键词标引的基础上增设创新点词标引,以增强科技论文创新点知识单元标引的建议。对基于创新点标引试验表明该方法有可能用来实现基于创新点的知识单元标引文献。

收稿日期:2006年2月7日

标签:;  ;  ;  ;  

关键词与创新点词句分布分析_概率分布论文
下载Doc文档

猜你喜欢