基于时间序列关键词的跨学科研究主题分析--以情报学和计算机科学为例_情报学论文

基于时序关键词的学科交叉研究主题分析——以情报学与计算机科学为例,本文主要内容关键词为:情报学论文,时序论文,为例论文,计算机科学论文,学科论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      探究一个学科的研究发展趋势,有助于研究者了解该学科的前沿动态及其相关背景知识。我国已有许多学者对学科的研究趋势做了大量的工作,并取得了一些有价值的成果。其中,学者较为常用的方法是通过识别一段时间内文献中最热门的关键词及其变化,间接得到研究主题发展的潜在规律[1]。

      魏瑞斌选取被CSSCI收录的五种情报学期刊和三种图书情报综合期刊中,1998—2004年的50 174个关键词为研究对象,对我国情报学研究中的一些热点进行了探讨[2]。蒋永新、詹华清以17种图书馆学情报学核心期刊中40 634篇文献的142 303个关键词为调研对象,运用词对关键词、相对词频统计和理论词对关键词矩阵方法,分析近10年我国图书馆学情报学核心研究的热点论题分布及其变化趋势[3]。邱均平等人采用关键词词频分析和共词分析方法,以中国知网论文数据库为数据源,统计出反映最近10年图书馆学研究热点的高频关键词68个,概括出当前我国图书馆学领域存在九大研究结构[4]。倪丽娟、于淑丽以《档案学研究》、《档案学通讯》为统计源,运用文献计量学的词频分析方法,对2004—2008年两种期刊论文的关键词进行统计,通过词频分析描述该学科学术研究状况,进而揭示档案学的研究热点和发展趋势[5]。苏新宁、夏立新借助CSSCI,统计2000—2009年数字图书馆研究论文的关键词,并进行聚类分析,将我国数字图书馆研究划分为六大热点板块:资源建设与共享、数字图书馆服务、信息存储与组织、知识产权与法律、图书馆建设和数字图书馆关键技术[6]。

      然而,在动态的学科发展过程中,采用静态的关键词词频来发现热点研究主题的方法难以保证结果的准确性。时间序列分析不仅可以从数量上揭示某一现象的发展变化规律,还可以动态地刻画现象之间的内在数量关系及其变化规律,以预测和控制现象的未来行为[7]。因此,本文在文本分析的基础上借助时间序列分析法,通过构建时序关键词,探讨情报学与计算机科学的交叉研究主题,以揭示两个学科交叉研究主题的发展变化规律。

      1 数据来源与处理方法

      笔者在先前研究中,以情报学与计算机科学为例,基于向量空间模型进行文献聚类,查找出两学科的3441篇交叉研究文献[8]。本文以这3441篇交叉文献为数据源,建立数据库,并进行如下处理:首先,对数据库中的文献信息进行规范化处理,包括合并同义词、近义词、统一期刊论文的发表日期格式等;其次,构造时序关键词,选取部分高频关键词,进行K-Means聚类,分析情报学与计算机科学十年间的热点交叉研究主题随时间变化的趋势;再次,选取部分低频关键词,进行系统聚类,根据聚类结果预测两个学科的潜在交叉研究领域。

      2 基于时序高频词的学科交叉研究主题趋势变化分析

      2.1 时序关键词的构建

      对3441篇样本文献的关键词进行如下处理:(1)统计词频,发现3441篇论文共含有5298个关键词,关键词总频次为13 890,其中频次不小于20的关键词有88个;(2)分别统计2002—2011年间每年发表的论文数及当年出现的全部关键词在当年发表的论文中出现的频次(即文档频率(DF));(3)考虑到各年发表的论文数量不同,用每一年的期刊论文数除该年的关键词文档频率,得到各个分析年份的篇均关键词频次。

      从数学意义上讲,如果对关键词词频进行分年份的观察测量,它们在2002—2011年间的词频数据的离散有序数集合构成离散时间序列。因此,各个分析年份的关键词的文档频率与篇均词频都组成了一组时序关键词,它们在不同年份的词频变化也都反映了主题间的发展变化规律性。其中,10年间总排名前十的高频关键词的篇均词频数据见表1。

      

      2.2 时序关键词的聚类分析

      为了更直观展示表1中高频关键词十年间的篇均词频变化情况,尤其是相似变化高频关键词类团的动态趋势,以了解两个学科交叉研究主题的发展变化规律,在SPSS中,按照Analyze→Classify→Hierarchical Cluster路径,进行层次聚类,绘制冰挂图,如图1所示。

      

      由图1可知,在2002—2011年间,数字图书馆、文本分类、知识管理的研究变化趋势最为相似;其次是信息检索与数据挖掘;再者搜索引擎、Web、XML、数据库为一类;本体单独分为一类。

      以往不考虑时间因素影响,仅基于词频高低判别研究热点的方法,对研究热点的“热”的程度难以有效把握与区分。如表1的十个关键词在不做研究年限划分时,十年间的总词频排在前十位,可谓是当前的热点研究主题。但按时序关键词聚类时,综合分析表1、图1及后台数据发现,它们可以分为四种不同的变化趋势:(1)信息检索与数据挖掘在十年内虽有起伏但始终保持较高的关注度,可以看做情报学与计算机学科交叉的“核心研究主题”;(2)本体研究在十年间从0篇文献快速发展到具有较高的关注度,是两学科交叉的“新兴研究主题”;(3)搜索引擎、Web、XML、数据库在十年内一直呈现关注度持续下降的趋势,称为“衰退研究主题”;(4)数字图书馆、文本分类、知识管理则在十年内处于相对平稳、上下波动的趋势,是两个学科交叉的“稳定研究主题”。

      基于以上分析的4种趋势,本文在SPSS中,按照Analyze→Classify→K-Means Cluster路径,对词频不小于20的88个高频词,按照时间演化趋势进行K-Means聚类,取K=4,得到4个聚类中的关键词信息(见下页表2)。

      由于篇幅原因,聚类成员表不再给出。但从成员表的后台数据可看出,表2的4个聚类与图1的聚类除了成员数量的变化外,聚类结果极为相似。

      2.3 基于时序高频词变化趋势的学科交叉研究主题划分

      综合表1、表2、图1及后台数据,分析发现情报学与计算机科学在2002—2011年间的交叉研究主题按照时间变化的四种趋势:

      

      (1)核心研究主题:信息检索与数据挖掘。在样本研究的十年间,这两个关键词以其他研究主题无可比拟的总词频数(分别为298、253)与稳定的年均高词频而单独聚成一类,构成情报学科与计算机学科的核心交叉研究主题。作为核心交叉研究主题,信息检索与数据挖掘将会继续在两个学科的交叉研究中保持重要地位,在未来的研究中依然是研究重点。

      (2)新兴研究主题:以本体、语义网、向量空间模型、图像检索、信息抽取为主。新兴的交叉研究主题大多是随着科学技术的发展而新出现的信息组织方式,其研究热度可能只维持一段时间,当更先进的技术出现时将会被替代。同时,也可能会随着研究的不断深入,某些领域成为情报学与计算机科学的核心研究主题。

      (3)衰退研究主题:包括搜索引擎、Web、XML、数据库、Internet、关联规则、元数据、电子商务等关键词。由于在早期获得较高关注度,衰退交叉研究主题的总词频数较高,但随着时间推移其研究热度一直呈下降趋势,在未来两个学科的交叉研究中其创新性价值不高。因此,研究者应该另辟蹊径从更细微或其他角度进行创新性研究。

      (4)稳定研究主题:包含数字图书馆、文本分类、知识管理、个性化、知识发现、链接分析等关键词。稳定交叉研究主题大多是情报学与计算机科学交叉研究中的一些必要方法或系统,它们不仅可能作为主题被单独研究,也可能在其他类型交叉主题研究中以研究方法或其他形式而存在。它们不仅在样本研究的10年间具有持续的研究热度,而且可能在未来有限时间内将保持比较稳定的被关注度。因此,这些关键词有着比较重要的研究价值,应该引起情报学与计算机科学研究者的重视。

      3 基于低频关键词的学科交叉潜在研究热点查找

      3.1 低频关键词的查找与确定

      在分析某一学科或研究领域时,一般通过对高频关键词的分析,来了解该学科或领域的当前热点研究主题,极少关注低频关键词。而透过低频关键词,可能预测该学科或领域潜在的研究主题。

      本文在统计词频后,编程找出十年间词频总数低于20,且后五年(2007—2011年)词频总数与前五年(2002—2006年)词频总数之差大于5的关键词,发现目标词汇83个,并按词频差的大小排序,具体关键词及词频情况见表3。

      

      表中,关键词后括号中的数值分别表示该词在2002—2011年间的词频总数、前五年词频总数、后五年词频总数以及后五年与前五年的词频差。通过观察表3中的83个低频关键词,发现有35个关键词是后五年才出现的,有18个关键词在前五年中仅被研究或涉及研究1次与2次。即这些关键词大都是近五年内刚兴起的研究主题,且兴起后迅速获得学者的关注,笔者认为通过分析这些关键词可以预测情报学与计算机科学的潜在交叉研究方向。

      3.2 低频关键词的系统聚类分析

      为了进一步寻找这些低频关键词的关系,尝试利用系统聚类方法对这83个关键词进行聚类。首先,通过编程构造这83个关键词的共词矩阵,矩阵的部分数据见表4。

      

      观察低频关键词的共词矩阵,发现除对角线上的格值数据较大以外,其他格值数据多为0,这是因为作为低频词,本身词频不高,因此相互之间共现的程度也低。

      

      

      再次,把得到的标准相关矩阵数据导入SPSS软件,按照Analyze→Classify→Hierarchical Cluster路径,进行系统聚类,并绘制聚类结果的冰挂图,如图2所示。

      结合表3与图2分析可知,83个关键词的分布范围比较分散,涉及许多研究领域。这些分散领域包括:因为与大数据的运算与存储相关而聚集在一起的云计算、海量数据、Hadhoop;因与信息检索相关联聚集在一起的信息检索系统、WordNet、词义消歧;与网络关系相关的社会网络、复杂网络、共链分析等;与知识发现相关的知识抽取、非相关文献等其他领域。

      3.3 基于低频关键词的学科潜在交叉研究主题预测

      参考表3与图2的聚类结果,预测情报学科与计算机科学的潜在交叉研究主题可能会集中在以下几个方面:

      (1)大数据时代新兴技术方法的应用。为了应对大数据时代到来而发展的云计算、海量数据处理、Hadhoop,随着本体兴起而发展的本体学习、本体映射,随着语义网发展的语义标注、潜在语义分析等。这些新兴技术方法都是随着社会发展为满足用户需要而发展的,计算机学科侧重的是技术的研究与改进,情报学则及时的引用新兴技术改善情报服务过程。从检索数据可以看出,计算机的技术研究文献数量远远大于情报学的技术应用文献数量。可见,情报学与计算机学者可以在该方面开展合作研究,将技术有效运用到情报学的管理服务过程中。

      (2)信息检索的深入研究。在当前网络信息时代,利用关键词匹配已难以满足检索要求,信息检索开始向智能检索方向发展,信息检索系统、词义消歧、WordNet等研究开始受到关注。一方面利用分词、同义、同音等词典改善检索效果,另一方面还可通过主题、上下位、相关同级等词典,形成一个知识体系或概念网络,在知识层面或者概念层面上辅助查询[9]。信息检索系统的研究与发展是基础;语义消歧的目的是让机器也能像人一样分析、判断和识别特定语言环境中的词义信息[10],是智能检索的重要步骤之一;WordNet作为语言学本体库,同时又是一部语义词典,在自然语言处理研究方面得到了广泛的应用[11],并逐渐成为语义消歧的词典。情报学与计算机学科可以在以上领域进行深入的合作研究,以帮助用户获得最佳检索结果。

      

      (3)网络信息的有效组织、管理与利用。Web2.0因其开放、共享、强交互性等显著特征,突出了网络用户的地位,扩展了科学交流途径,自兴起以来就备受用户的追捧。Web2.0相关技术主要包括博客(Blog)、简易信息聚合(RSS)、百科全书(Wiki)、社会网络(SNS)、大众标注等。当前计算机学科对Web2.0的研究主要集中在技术与算法改进层面[12-14],情报学科则尝试把Web2.0相关技术运用到如数字图书馆[15]、竞争情报[16]、科学交流[17]等研究中;同时,网络用户与情报用户行为研究,包括用户偏好、用户兴趣、用户满意度、信任度等,也是情报学与计算机科学潜在的交叉研究内容。目前两个学科重点研究的是用户偏好的挖掘[18-20],通过挖掘用户偏好,可以针对不同偏好的用户进行个性化推荐,提供个性化服务。另外,计算机学科的知识抽取主要通过研究如何从无语义信息的文档内容中抽取与本体匹配的事实知识,进而实现对Web数据充分、有效的利用[21];情报学科的知识抽取研究则以网络学术文献为抽取对象,以总结学术文献的特征规律为特色。构建以知识元为存储单位的知识库,必将会给图书情报学的发展带来新的机遇与活力[22]。

      当技术达到足够完善与发展时将会迎来Web3.0时代,情报学与计算机科学在该领域的深度交流合作,可能会使计算机技术充分深入地应用到情报学的管理服务中,有效地改善网络信息的组织、管理与利用效果。

      4 结语

      本文借助时序关键词对情报学与计算机科学的交叉研究主题进行了分析。

      首先,对关键词进行了时间序列转化,得到篇均词频矩阵,并选择时序高频词进行K-Means聚类,按照关键词随时间变化的趋势,把两个学科的交叉研究主题分为核心、新兴、衰退、稳定四种趋势不同的研究主题。按照时间变化趋势划分热点研究主题可以让研究者更清晰明确地了解情报学科与计算机科学的交叉研究现状,并指导研究者在选择研究主题时更倾向于核心、新兴与稳定的主题,规避衰退研究主题。

      其次,对83个低频关键词,通过编程构造了低频词之间的共词矩阵,并把共词矩阵转化为标准相关矩阵,进行系统聚类,了解到低频词涉及的交叉研究领域十分分散。参照低频词及其聚类结果预测了情报学与计算机科学的潜在交叉研究主题将重点集中在新兴技术方法的应用、信息检索的深入研究以及网络信息的有效组织、管理与利用三大方面。

      但需要说明的是,分析结论仅基于本文样本,因此可能无法全面涵盖两个学科的交叉研究主题。由于情报学是一个新兴和发展尚不成熟的学科,网络技术、通信技术与社会科学技术的发展对情报学来说既是机遇也是挑战,情报学应该积极借鉴计算机学科的先进技术方法,完善自身学科的发展。计算机科学也可以从情报用户需求等方面获得新的研究方向,丰富学科研究框架。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于时间序列关键词的跨学科研究主题分析--以情报学和计算机科学为例_情报学论文
下载Doc文档

猜你喜欢