我国数字信息资源研究的热点:协词分析视角_元数据论文

我国数字信息资源研究的热点领域:共词分析透视,本文主要内容关键词为:热点论文,信息资源论文,透视论文,领域论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

自19世纪60年代“化学题录”和“医学索引”诞生以来,伴随着通信技术、个人计算机的发展以及“信息高速公路”和“数字地球”理念的导向,数字信息资源(Digital Information Resource,DIR)的研究和建设在全球范围内兴起[1-3]。2003年9月,在联合国信息素质专家会议上更是指出数字信息资源开发利用与信息素质是决定信息获取的要素[4],数字信息资源将成为社会战略性转换资源。在日渐凸显数字信息资源作用的同时,伴随着互联网、Web2.0等模式的兴起,数字信息资源急剧增多,国内学者也加大了数字信息资源的研究力度。作为一个新兴的研究领域,其研究方向呈现多元化[5],加之当前的研究很少涉及数字信息资源的宏观层面,使得接触这一新兴领域的研究人员感到无所适从。基于此,本文采用共词分析方法,旨在通过数据统计分析方法科学客观地反映出当前国内数字信息资源的研究热点,并结合文献理清其主要研究内容,为从事数字信息资源研究的学者提供参考。

2 关于共词分析

共词分析方法属于内容分析方法的一种,主要是通过对能够表达某一学科领域研究主题或研究方向的专业术语(如关键词)共同出现在一篇文献中的现象的分析,判断学科领域中主题间的关系,从而展现该学科的研究结构[6]。操作方法主要是对一组词(本文使用关键词)两两统计它们在同一文献中共同出现的次数,形成共词矩阵[7]。两个关键词共同出现在同一篇文献中的次数越多,表明二者之间的相关度越高,相似度越大,而“距离”也就越近,进而利用现代的多元统计技术(如因子分析和聚类分析等),按照这种“相关”和“相似”将一个学科内重要文献的关键词加以分类,从而可以直观地显示该学科当前的研究热点。

共词分析方法最早被详细描述是在20世纪70年代中后期由法国文献计量学家开始的[8]。经过几十年的发展,该方法得到了逐步的完善和广泛的应用。医学、化学、人工智能、软件工程等不同领域的研究者都利用共词方法的基本原理概述了各领域的研究热点,分析了该领域学科的发展过程、特点。并进一步从横向角度,研究了领域或学科之间的关系,从而以横纵两个维度来反映某个领域科学研究的动态和静态结构[9-11]。

3 材料与方法

在分析过程中,因为国内关于数字信息资源的研究比较分散,术语不够规范,网络信息资源、网络资源、电子信息资源和数字信息资源的使用缺乏统一标准,在内涵上有重叠,所以本文选取了“数字信息资源”和“网络信息资源”两个词作为检索词,共从CNKI检索出1756篇相关文献,剔除重复刊载、会议论文以及主题不相干论文,有效篇数为1548篇。

抽取各篇文献的关键词,然后运用自编的统计分析程序统计它们的出现频次,并按照出现频次由高至低排序,根据这些关键词累积频次的变化曲线截取高频关键词。本文将出现的累积频次达到62%的前69个关键词作为表征当前国内数字信息资源研究热点的标志(见表1)。

由于这些关键词是数字信息资源研究论文中出现频次最高的词,它们从很大程度上代表了当前数字信息资源研究的热点[12]。但是由于某一研究热点会涉及到许多相关知识点和其他热点,同时不同的学者对于著录关键词的把握也会存在不一致,因此还需要进一步反映这些关键词之间的关系。所以对选出来的高频关键词按照共词分析的思想进行了进一步的处理:两两统计它们在同一篇文献中出现的次数,形成一个69×69的共词矩阵(见表2)。

4 DIR关键词的共词分析

4.1 分析方法与步骤

在共词分析中,以SPSS软件作为统计分析的工具。首先,需要验证样本数据类型,通过验证,相关矩阵数据不符合正态分布和均匀分布。基于此,接下来采用与数据类型相适应的多元统计分析——因子分析和聚类分析。

因子分析中,需要先根据相关性将共词矩阵转化为斯皮尔曼相关矩阵(Spearman),由此消除由共词频次差异所带来的影响。在相关矩阵的基础上,利用主成分法(Principal Components)、协方差矩阵(Covariance Matrix)与平均正交旋转方法(Equamax)进行因子分析。

聚类分析中,为消除共词频次差异的影响,需要先根据相似性将共词矩阵转化为距离相异矩阵(Dissimilarity Matix)。在距离相异矩阵的基础上,采用系统聚类(Hierarchical Cluster),选择离差平方和法(Ward' s Method)与离散数据类型(Count)中的斐方(Phi-square Measure)方法。

4.2 因子分析结果

通过因子分析,共有13个公共因子被提取,它们能够解释全部信息的87.157%,仅前3个因子的信息解释量就达54.896%,表明“用户服务”、“元数据”、“信息资源开发利用”是当前国内数字信息资源研究比较集中的领域。表3显示了因子负载大于0.5的关键词分类情况。

从因子分布情况可以看出,因子分析结果中的关键词总体分布有如下特点:

1)绝大多数关键词都归至相应因子。根据因子载荷大于0.7就对因子解释有帮助的原则,并综合因子中其他关键词的属性,笔者给其中12个因子命名如表3所示,但是由于第12个因子中的各关键词之间的关系不甚明确,所以这两个因子不便命名。

2)有一个关键词跨区分布。关键词“信息服务”同时出现在第1、第5个因子中,它们的因子载荷系数均在0.5~0.6之间,体现这两个因子——“用户服务”、“信息资源共享”之间的相关性。

3)有11个关键词由于其载荷系数小于0.5而不能够参与分类。它们是“知识产权”、“网络化”、“信息资源建设”、“著作权”、“网络信息组织”、“分类法”、“信息资源开发利用”、“对策”、“信息技术”、“数字化”、“开发”。表明这些关键词的使用在学者之间并没有达成共识,如“信息资源建设”、“信息资源开发利用”;或者是其代表的主题较新,还没有很好地同其他研究方向相结合,如“知识产权”、“著作权”代表的数字信息资源知识产权研究,其相关文献有24篇,仅占1.55%,还是一个相对独立的新主题,国内学者将知识产权融入数字信息资源建设中的研究还明显不够。

4)有7个关键词的因子载荷系数为负,同相应因子构成负相关关系。包括第2个因子(元数据)中的“知识经济”(因子载荷系数为-0.673),第12个因子中的“信息素养”(-0.722),第13个因子(网络资源)中的“信息检索”(-0.589),第9个因子(信息检索)中“网络信息检索”(-0.873)、“专题检索”(-0.663)、“搜索引擎”(-0.507)和“检索方法”(-0.524)。从关键词“知识经济”和第2个因子“元数据”之间不难看出,这些关键词与相应的因子之间的相关度很低。

需要指出的是第9个因子。因子分析中负相关因子一般不参与命名,但是第9个因子因为负相关因子较多,且都与“检索”主题相关,反而成了主流,加之因子载荷系数绝对值大于0.7的唯一因子“网络信息检索”也归属“检索”范畴,因此第9个因子被命名为“信息检索”。

4.3 聚类分析结果

聚类分析的结果如图1所示,结合因子分析的效果,可以分为11类:网络资源、图书馆、信息网络、信息检索、信息组织、元数据、用户服务、评价、信息资源共享、信息资源开发利用、信息环境。下文将结合相关文献的具体内容对这11类的主要内容进行分析和概述。

图1 系统聚类结果树状图

1)网络资源。伴随着网络的日益普及,特别是诸如博客、RSS、WIKI等Web2.0思想的兴起和流行,网络数字信息资源的数量、传播速度、范围以及影响力都不可小觑[13]。而国内学者也对“网络资源”方面研究给予了很大关注,其中内容涉及网络信息资源本身的研究,如网络信息资源的组织结构、基本格式、网络资源开发与服务中的权益保障;以及网络DIR对数字图书馆的影响。

2)图书馆。图书馆一直是数字资源以及信息资源收集、组织和利用的中心[14]。从传统图书馆到现代图书馆,馆藏资源从传统的纸质收藏逐步向数字化和数字信息资源过渡[15],进一步通过对相关内容的分析,可以将学者对图书馆的研究分为3个层次:最开始的研究重点是图书馆自动化和馆藏资源数字化,主要侧重于技术研究,包括信息技术、网格技术、多媒体技术、检索技术在图书馆中的应用。第二层次由纯粹技术研究向综合研究转变,主要研究和解决现代图书馆的经济、法律、社会、政策的整体框架,建立发展模型,制定信息共享格式,国际标准,网站的安全性和稳定性等问题。这个层次更多地侧重于现代图书馆建设的整体规划和基础搭建,并没有同具体的实践结合。第三层次不再仅着眼于全局,而是更多地结合数字图书馆具体的应用,涉及到数字资源的生产、保存、服务与管理,图书馆的联盟与合作以及具体应用的相关标准等。

3)信息网络。信息网络无论是对网络信息资源还是馆藏信息资源的开发利用,都起到了很好的推动作用。内容涉及学科门户、行业网站和深网的研究以及网络生态等交叉话题的探讨。

4)信息检索。信息检索一直是当前数字信息资源研究领域的前沿课题,是信息资源应用和服务中不可或缺的重要环节。内容涉及检索的原理、方法、语言以及检索工具、技术、系统和检索性能评估等方面的研究。

5)信息组织。数字信息资源无论是在网络环境还是在图书馆中的应用,都是建立在完善可靠的信息组织上的。信息组织的研究是数字信息资源研究的核心,也是一个基础性工作,所以引起了学者的广泛关注。其内容涉及资源描述、知识重组、索引标识、信息导航、主题词表以及标准化研究。

6)元数据。元数据的研究是信息组织的基础[16],也是数字信息资源建设的前提。有关元数据的研究从传统的MARC到现代的DC元数据,以及数字信息资源、网络信息资源对DC的扩展。同时其内容涉及到元数据标准、评价元数据、语义元数据以及本体论研究。

7)用户服务。用户服务类别反映了数字信息资源的应用层面,国内对“数字信息资源的用户服务”相关研究可以从两个层次展开:宏观层面涉及服务产业、服务机制、创新服务以及用户研究;微观层面涉及服务手段、服务特征、服务模式、信息营销、个性化服务等研究。

8)评价。信息的爆炸引起了数字信息资源的急剧增多,大量的信息给数字信息资源的开发建设以及用户利用带来了不便,因此对资源本身以及资源开发过程中的绩效评价适时而生[17]。这为优化信息检索和提供优质的用户服务提供了参考依据,同时新兴学科“网络计量学”也为信息资源相关的评价工作提供了很好的科学依据[18]。“数字信息资源的评价”相关研究内容包括评价指标体系的建立、评价方法的不断完善和创新以及评价实证分析。

9)信息资源共享。信息资源的共享,是数字信息资源得以充分利用的前提和关键所在。研究从传统的文献信息共享,到馆际互借,再到如今互联网上的网络信息资源共享。内容涉及到资源的数字化、资源的配置和整合、信息集成、信息交流模式、信息运动,信息资源共享效率和共享保障体系,网络合作以及馆藏共建共享过程中涉及的策略和知识产权问题等方面的研究。

10)信息资源开发利用。信息资源的开发与利用研究了数字信息资源的开发、管理等建设过程。内容涉及到信息资源的管理,信息技术、网络技术在资源开发利用中的应用以及馆员在其中的职能和信息素养方面的研究。

11)信息环境。按照J.Rowley的信息管理学框架[19],从社会的层次上将信息理解为一种商品和基本社会力量时,信息环境就是一个由人、信息及其活动构成的总体。可以说信息环境是整个数字信息资源研究的出发点,通过对内容深入分析,发现当前国内对新信息环境的研究主要集中在传统馆藏环境、高校环境以及网络化环境、数字化环境和信息环境上。

4.4 两种分析结果的比较

同因子分析结果比较,二者结果基本吻合,表明聚类效果好,能够反映该领域的研究结构。其中聚类分析结果中的第2、第4、第5、第6、第7、第8类分别同因子分析结果中的第4、第9、第7、第2、第1、第8个因子很好地吻合,表明“图书馆”、“信息检索”、“信息组织”、“元数据”、“用户服务”、“评价”这6个主题的研究比较成熟,已形成各自较为独立的结构体系。

从情报学研究领域分析,情报学学科可以划分为“文献与交流”、“信息检索”两大领域[20]。“信息检索”作为情报学两大研究领域之一,一直是情报学的核心领域,并不断融入新的检索理念、技术和方法,充实和完善这一领域的研究内容和体系,进一步保证了该领域的自身独立性。“元数据”、“信息组织”从早期的组织与检索一体化,经过多年的发展,尤其是在网络信息资源兴起的大环境下,逐步分离出来并得到壮大,形成了自身独立的研究对象、研究内容和研究方法。

而“评价”早在20世纪70年代就在英国克兰菲尔德(Cranfield)实验中对信息检索效率评价得到体现。随着研究的不断拓展和深化,该领域在数字信息资源的研究中,被充实了新的内涵,融合了数字信息资源开发、建设、共享和利用过程的特点,同时由于新兴学科“网络计量学”的诞生和广泛应用,使得“评价”发展成为一个重要的研究领域。

同时,结合情报学发展历程,可以发现“文献与交流”领域的核心“情报服务”,不断拓展自身研究的对象范围以及研究内容,进而发展成为基于网络环境的数字信息资源的“用户服务”研究。从“文献与交流”领域的研究阵地和主要应用领域而言,图书馆一直以来作为情报学研究和应用的主要阵地,在数字信息资源的开发、研究和利用过程中依然扮演了重要的角色。

对于因子分析中出现的负相关关键词,在聚类中都得到了很好的归类。如“信息检索”脱离第13个因子,同第9个因子中的4个负相关因子结合组成聚类结果中的第4类“信息检索”。

变动比较大的是第3、第5、第10和第12这4个因子,它们通过转移、重组,加上缺失的相关关键词形成了新的聚类类别——“信息资源共享”、“信息资源开发利用”、“信息环境”,补充和完善了因子分析的结果。这也表明这三类主题的研究还没有一个清晰的界限,三者之间存在着紧密的联系,如:资源的开发利用过程会涉及资源共享范畴的资源配置、数据库建设、资源开发以及知识产权的研究,而资源共享与信息环境又存在着交叉的关系,所以三者关系密切,只是侧重点不同而已。

从情报学学科领域来看,这三类主题均是多学科交叉主题,存在着明显的学科交叉关系。“信息环境”作为一个由社会中的个人、信息及其活动构成的总体,它的内容涉及到信息科学群中的传播学、符号学等学科;“信息资源开发利用”涉及到计算机科学、运筹学、系统理论与系统分析等内容;“信息资源共享”也与传播学、符号学等联系紧密。这种跨学科关系使得几类主题表现出相互交叉与联系的特点,它们的研究也将相互渗透与影响。

从聚类结果分析,可以发现如果将“聚类类别”进一步取小,那么相关度较高的主题会再次聚拢。例如,主题“信息组织”是“信息检索”的基础[21],而“元数据”又在解决网上“信息组织”与“信息检索”问题上发挥了极大的作用[22];“网络环境”和“网络资源”二者之间,后者实际上就是数字信息资源在网络环境下的体现和研究;“资源共享”为图书馆或网站联盟提供“用户服务”创造了条件[23],而“用户服务”作为目标和结果也影响了资源共享的过程和效率;从“图书馆”和“信息资源开发利用”之间可再聚的关系,表明图书馆仍然是数字信息资源开发利用的主要力量。

同时这也反映了一定的趋势,随着网络信息资源的快速增长,网络环境的日益完善,互联网会从一定程度取代图书馆成为数字信息资源开发利用的新阵地;而随着信息素养的普遍提高,公众也会在数字信息资源的建设中逐步承担起图书馆员的职能。因此我们可以推断,如果跟踪研究,随着国内学者对网络环境以及网络信息资源研究力度的加大,“网络环境”和“网络资源”应该会向“信息资源开发利用”主题靠拢。

5 讨论与说明

通过因子和聚类方法的分析,我们可以对国内数字信息资源的研究做进一步分析和探讨。

第一,国内数字信息资源的研究从3个角度切入——生命周期、应用领域和影响参数。其中数字信息资源本身的生命周期是国内DIR研究的主线,涉及到DIR的开发、组织、管理、检索、服务;应用领域是DIR研究的着眼点,聚类结果显示主要的应用领域分布在图书馆和网络环境,如果深入分析,则涉及到高校、化工、军事、医药等各种行业;影响参数给DIR建设提供了基础和保障支持,涉及到元数据的不断创新、知识产权的合理保障、信息素养教育等方面的研究。

第二,许多新兴主题研究力度不够,难以独成体系。通过对近3年的关键词进行统计,发现“信息素养”、“长期保存”、“知识产权”等主题正在逐步成长为新的热点,但是由于关注度和研究力度、研究深度均不够,使得在上面的共词分析中,它们只能依附于其他相关的主题,而不能同“资源评价”、“元数据”、“信息检索”等主题一样独成一簇。所以应该加大在这几个主题上的研究力度,如果没有完善的DIR知识产权保障DIR的合法权益,完备的保存机制和技术以及高素质的DIR人才,国内的数字信息资源建设要想进一步发展将会是步履维艰。

第三,为了更全面地反映数字信息资源领域的研究趋势与学科结构,可以通过以下一些方法来充实本研究:通过作者共被引分析与相应机构的分析,了解数字信息资源领域的作者和研究机构在研究内容与研究方向上的特点、同异以及相关联程度,并结合作者与主题以及主题与主题之间的联系来构建数字信息资源研究的领域知识地图。

需要说明的是,本研究属于探索性研究,因此难免存在一定的局限性。首先数据本身还不够完善,由于缺乏该领域的标准主题词表,我们对关键词的著录亦不完全规范,以及论文发表的时滞性,使得关键词列表存在一定的偏差;其次是生成共词矩阵时,如何确定高频关键词的阈值仍是有待讨论的问题,因为低阈值不利于聚类,但有助于一些隐含主题或前瞻主题的外现,而高阈值则恰好相反。对于低阈值的问题,笔者通过统计近3年的关键词词频正弥补了不足。

标签:;  ;  ;  ;  ;  ;  

我国数字信息资源研究的热点:协词分析视角_元数据论文
下载Doc文档

猜你喜欢