基于TF-ID方法的图形与情感核心期刊学科特征分析_tf-idf论文

基于tf-idf方法的图情学核心期刊学科特征分析,本文主要内容关键词为:学科论文,核心期刊论文,特征论文,方法论文,tf论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

期刊的学科特征,或者说学科侧重点,是刊物的学科名片。期刊的学科特征尽管期刊简介有所涉及,但多因失于笼统而不易把握。我们认为,期刊(尤其是过刊)的学科侧重点是一个客观存在,可以通过某种技术手段予以再现,例如通过统计关键词的绝对频次方法[1][2]。然而,如果用这种方法分析期刊的学科侧重点,所得结果将有失偏颇。原因之一是发现的将是常见关键词,而不是最重要的关键词,因而不能得出期刊真正的学科特征;原因之二是没有考虑和篇数容量有着密切关系的期刊关键词总量,篇数容量越大,某个关键词出现的概率就越高,反之亦然。绝对词频缺乏横向的可比性是显而易见的,因此,绝对频次统计方法不能用于分析期刊的学科侧重点。

向量空间模型的td-idf权重计算方法既考虑了语词在其发生文档(局部文档)中的词频,又考虑了与全部文档(全局文档)词频的关系,因而具有很强的横向区分性能。利用这种性能分析期刊的学科侧重点可以使上述问题迎刃而解。本文拟以2002-2007年国内图书馆学情报学17种核心期刊全部文献的关键词为对象,以td-idf为方法,分析比较各刊对热点关键词的不同表现力度以及各刊的tf-idf峰值关键词,从而揭示各核心期刊在此期间的学科特征。

1 数据采集和分析方法

1.1 数据采集

本文的数据取自2002年至2007年11月20日的《中国期刊全文数据库》(以下简称CJFD),范围为北京大学出版社2004年版《中文核心期刊要目总览》所载17种图书馆学情报学核心期刊在这段时间发表文献的全部关键词。对CJFD所缺的数据,通过维普库予以了补充[3]。

数据处理过程中采用了VFP编程,将关键词原始文本转换成数据库形式后统计了各个关键词的频次。实际统计的文献总量为29257篇,关键词总量为105417个(为文献中的原关键词,其中不重复关键词总量为29281个)。

1.2 关键词权重的计算

运用tf-idf方法分析上述数据,需要确定局部文档和全局文档。我们设某种刊物2002-2007年全部文献的关键词为局部文档,设这6年17种期刊全部文献的关键词为全局文档,以此计算某刊某关键词的权重值。数据分析采用文献[4]提供的方法,即:

对于局部权重,设是关键词出现在局部文档中的词频,那么定义归一化的词频为:

以统计得到的2002-2007年间《中国图书馆学报》关键词“知识管理”的数据为例,其词频为33,《中国图书馆学报》所有关键词的总词频为3487,则该词的归一化词频为:

对于全局权重,设N为全局文档全部关键词的总数,是包含关键词的的词频,定义的逆文档频率为:

仍以2002-2007年间《中国图书馆学报》关键词“知识管理”的数据为例,17种核心期刊的所有关键词总词频为105417,“知识管理”的总词频为862,则该词的逆文档频率为

由此,采用惯用公式计算该词的tf-idf值得到:

因而2002-2007年间《中国图书馆学报》关键词“知识管理”的tf-idf值为0.0198。其余各刊各词的tf-idf值的计算方法和过程同上。实际计算全部通过VFP编程完成。

2 结果分析

为了研究核心期刊的学科特征,我们从热点关键词由哪些期刊反映和期刊反映哪些关键词两个角度分析上述计算得到的数据。分析过程和得到的结果如下。

2.1 热点关键词tf-idf值分析

热点关键词tf-idf值的分析思路是确定一批热点关键词,通过计算它们的tf-idf权重值,得出哪些核心期刊比较集中地反映它们。

筛选热点关键词,我们考虑了以下标准:一是其tf-idf值必须较大;二是数量取15个左右,约占不重复关键词总量的万分之五左右,以使选出的关键词具有学科上的典型意义。按照这些标准选出的热点关键词共17个,它们是:图书馆、数字图书馆、高校图书馆、信息服务、知识管理、信息资源、数据库、信息检索、公共图书馆、竞争情报、图书馆学、搜索引擎、图书馆管理、情报学、元数据、电子商务和资源共享。其中,“图书馆”一词因对区别学科侧重点的意义不大被舍弃,实际被比较的关键词为16个。

表1是其中“知识管理”及其相关关键词的tf-idf值计算结果(为了相对集中概念,我们合并了相关关键词词频。例如,《中国图书馆学报》“知识管理”的tf-idf值,实际是“知识管理”、“知识管理层次”、“知识管理系统”和“知识管理学”4词合计词频的tf-idf值)。

表1 17种期刊“知识管理”及其相关关键词的tf-idf值计算结果

表1中,给出的是各刊2002-2007年间“知识管理”及相关词的词频,是各刊这6年全部关键词的总词频(局部文档),tf是归一化的词频,N是17种刊物这6年全部关键词的总词频(全局文档)。

表2 热点关键词tf-idf值前三位期刊

16个热点关键词tf-idf值的计算结果以及tf-idf值排序后的前三位期刊见表2(和“知识管理”一样,这些热点关键词的词频也包含了相关关键词的词频)。

表2清楚地揭示了热点关键词主要由哪些核心期刊反映。

归纳表2给出的信息,我们可以发现热点关键词tf-idf值和各种期刊分布差异。就最大tf-idf值而言,《情报资料工作》的“信息资源”(0.0660)居于榜首,随后为《情报理论与实践》的“信息资源”(0.0589),《图书馆》的“图书馆学”(0.0563)。就各种期刊在表4中取得的tf-idf合计值而言,《情报资料工作》(0.2458)、《情报理论与实践》(0.2125)和《现代图书情报技术》(0.1639)位列前三。就各刊在此表中出现的频次而言,《情报资料工作》(6次)为第1名,随后为三个并列第2名:《情报理论与实践》(5次)、《图书馆论坛》(5次)和《现代图书情报技术》(5次)。

2.2 期刊tf-idf峰值关键词分析

与上述分析对应,针对17种期刊,通过计算各刊各关键词的tf-idf值,再按照tf-idf值大小排序,即可发现各刊主要反映哪些关键词。这样处理后得到的各刊前十位tf-idf峰值的关键词见表3(刊名按照前十位ti-idf峰值关键词的合计值大小排序)。表3中的结果已剔除了对本研究关系不大的关键词(包括“图书馆”、“建设”、“发展”、“对策”和“中国”6个),但对相关词不作归并。注意因处理方法不同,表2和表3中相同关键词的tf-idf数据并不相同。

表3反映了前十位关键词范围内各刊的学科区别。归纳表3给出的信息,我们可以得出以下结论:

(1)处于各刊ti-idf峰值关键词第一位的关键词,应该是各刊最为关心的主题。显见,“数字图书馆”和“高校图书馆”各占半壁江山。

(2)表3中不重复ti-idf峰值关键词共43个,各刊ti-idf峰值关键词与这43个关键词的重合程度,特别是与其中高频词的重合程度表现了刊物的特异性。分析表明,重合程度最弱的是《大学图书馆学报》和《现代图书情报技术》,它反映了这两种刊物具有较强的特异性。

表3 各刊的前十位tf-idf峰值关键词(刊名按照前十位ti-idf峰值关键词的合计值大小排序)

(3)就各刊前十位tf-idf合计值而言,《情报资料工作》(0.4489)居于首位,其后是《情报理论与实践》(0.3928),它们表现了对热点关键词的关注。由这点结论反推,这个合计值最小的《图书馆杂志》(0.2390)和《图书情报工作》(0.2526),由于低频关键词所占比例更大,应该说它们对宽泛性和新颖性的选题给予了更多的机会。

3 结论和讨论

本文以2002-2007年国内图书馆学情报学17种核心期刊全部文献的关键词为对象,以tf-idf方法计算得到关键词权重分析图书馆学情报学各核心期刊的学科特征。研究得到的结论表明:

(1)相对于绝对关键词频次统计方法,向量空间模型的td-idf方法因考虑了局部文档和全局文档的词频,用于比较期刊的学科差异性,其结果具有更强的客观性和可信性。

(2)研究结果清楚地揭示了各刊对所选关键词的表现力度,也反映了各刊的tf-idf峰值关键词。它们从一定程度上反映了近年来本领域核心期刊学科特征。

(3)分析各刊的ti-idf峰值关键词表明,关键词“数字图书馆”和“高校图书馆”处于多数期刊的首位。《大学图书馆学报》和《现代图书情报技术》的ti-idf峰值关键诃与整体ti-idf峰值关键词重合程度最弱,反映了这两种刊物具有较强的特异性。而取得关键词tf-idf前十位最大值的《情报资料工作》和《情报理论与实践》显示了对热点问题的关注,最小值的《图书馆杂志》和《图书情报工作》,对宽泛性和新颖性的选题给予了更多的机会。

(4)无论以单个关键词tf-idf最大值,以16个热点关键词tf-idf合计值,还是以6年间各刊关键词前十位tf-idf合计最大值衡量,《情报资料工作》全部居于榜首,究其原因应与该刊篇均关键词量少而集中有关。2002-2007年间《情报资料工作》的文献总数1471篇,包含关键词总数为2900个,篇均1.9714个关键词,篇均值为17种期刊中最小。而篇均关键词最高的《现代情报》达3.0883,两者相差36.17%。

收稿日期:2008-11-22

标签:;  ;  ;  ;  

基于TF-ID方法的图形与情感核心期刊学科特征分析_tf-idf论文
下载Doc文档

猜你喜欢