国外数字信息资源研究热点分析,本文主要内容关键词为:热点论文,信息资源论文,国外论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
数字信息资源的研究与建设成为一个全球范围的课题。自20世纪90年代中期以来,欧美发达国家就在数字信息资源的建设与利用方面给予了高度重视。他们借助其在世界上领先的信息技术,在信息资源开发、管理、利用方面走在世界的前列[1]。我国在这方面的研究虽也已进入有组织有规范的发展阶段,并在不断加大数字信息资源的研究力度,但整体水平仍处于发展中国家的中等水平[2]。笔者采用共词分析,通过对国外数字信息资源研究论文的统计分析,旨在客观地反映出国外数字信息资源研究的热点,为国内从事数字信息资源研究的学者提供参考。
1 数据来源与处理
1.1 数据来源
本文统计文献来源于Proquest Research Library。该库为每篇文献录入了较为规范的主题词,为共词分析提供了良好的基础。鉴于国外“数字信息资源”的称法无从准确界定,本文选用了“Digital Information Resource”,“Digital Information”,“Digital Resource”三个词作为检索词,选取Dissertations & Theses,Academic Research Library两个数据库,同时以“引文和摘要”作为检索项,以“OR”关系,在“所有日期”范围内,从Proquest中搜索出1035篇文献。剔除其中的重复刊载以及未赋主题词的相关文献,共得到有效篇数1012篇。
1.2 数据处理
本文利用Proquest提供的主题词进行共词分析。虽然文献的主题词已由该数据库规范录入,但在数据处理中仍然发现一些不太规范的词汇,如同时出现了“Cooperation”和“Cooperative”(合作),“Data bases”和“Databases”(数据库)及“World Wide Web”和“Worldwide Web”(万维网)等一类意思相同形式不同的词。本文将这些词统一到一个词上,以便进行简单的规范。
这样处理后共得到了858个主题词,平均每篇文献0.847个词。为了进行共词分析,本文利用自编的统计程序对数据统计,得到按降序排列的主题词词频分布表。为保证共词分析的效果,本文选取词频大于7的词进行整理(累积词频率72.42%),并且在这些词中去掉了一部分与研究方向关系不大的词:一类是如“Research”(研究)、“Nonfiction”(非小说的散文文学)、“Book reviews”(书评)等表示文体形式的词;另一类是表征行业应用的词,如“Geography”(地理)、“Environmental science”(环境科学)、“Medical research”(医学研究)等。最终确定了71个主题词词频分布(见表1)。
然后统计出每个主题词与其他主题词在文章中共同出现的次数,形成共词矩阵。这样得到了71个主题词的共词矩阵。其中部分如表2所示。
表1 主题词词频分布表
表2 主题词的共词矩阵(部分)
2 数字信息资源领域的共词分析
本文以Spss15为统计分析工具,围绕数据处理中得到的主题词的共词矩阵,借助因子分析与聚类分析的多元统计方法展开共词分析。
2.1 因子分析结果
本文指定分析变量的协方差矩阵(Covarience Matrix)为因子提取的依据,采用主成分法(Principle Components)获得初始的因子提取结果,并结合平均正交旋转法(Equamax)以得到最终因子提取结果。同时为消除共词频次差异所带来的影响,笔者在因子分析之前先利用斯皮尔曼相关系数(Spearman)将共词矩阵转化为相应的相关矩阵。通过因子分析,共有13个公共因子被提取,它们能够解释全部因子的85.214%,显示了因子负载大于0.5的主题词归类情况,见表3。
从因子分布情况可以看出,因子分析结果中的主题词总体分布有如下特点:
1)绝大多数主题词都归至相应的因子中,根据因子载荷大于0.7就对因子解释有帮助的原则,并综合考虑因子中其他主题词的属性,可给其中的9个因子加以命名,具体命名如表3所示。由于第3和第5个因子中所有主题词的载荷系数均未达到0.7,所以无法给其命名。而第4和第12个因子则因为有负荷载的主题词,也不便命名。
2)有4个主题词分别横跨两个因子,表现为它们分别在两类因子中的载荷系数绝对值都超过0.5。这些跨区分布的词揭示了因子间存在着的某种程度或某方面的联系。从跨区分布主题词的总体分布特征还能看到这样一个现象:“网络信息资源”与其他因子的联系十分紧密。它是“信息组织”的主要对象,为“信息共享”提供了有效保障[3],同时也为“图书馆”资源检索方面的问题提供了解决措施。“网络信息资源”成为数字信息资源领域研究的焦点问题。
3)有16个主题词因为因子载荷小于0.5不能够参与分类。这其中不乏频次特别高的词,如“Education”和“Information management”,词频分别为70和49(选取的高频词中平均词频约为28),这些词所代表的主题词在情报学领域可能已被广大学者所接受,得到广泛研究,但在数字信息资源研究领域,因为数字化、网络化的要求,它们要么被赋予新的内涵,要么被划分成更小的领域,因而在因子分析过程中,以不同的表现形式参与分类,如第二类“信息素养教育”中的“Curricula”,“Teaching”,“Educational materials”,它们可以说是“Education”的细化;而第10个因子“信息资源管理”中的“Knowledge management”则可以说是“Information management”在新环境下的新发展。
表3 因子分析确定的DIR研究结构
4)有4个主题词的因子载荷系数为负,与相应因子中主题词构成负相关关系。这些词有一个共同特点:同时与多个主题存在着联系。如“Educational software”,它既是第2个因子“信息素养教育”的工具与技术依托,同时也是第11个因子“信息技术”的内容。而“Computer science”与“Electrical engineering”则因为数字信息资源领域的多元性、交叉性特点[4],它们既是学科发展中一个独立的体系类别,又是数字信息资源开发利用中不可或缺的基础与工具。至于“Electronic commerce”,顾名思义,是“电子”与“商务”的交叉与结合。一方面,数字化、网络化为电子商务的产生与实际运行提供了有利的条件;另一方面,引进商务思想与技术又为真正实现数字信息资源的高效管理与良好服务提供了一条快捷高效之路。
2.2 聚类结果
笔者采用系统聚类法(Hierachical Cluster)。聚类时选用离差平方和法(Ward)作为聚类方法,并选用离散数据类型(Count)中的裴方法(Phi-square Measure)进行距离测度。
聚类分析结果如图1所示。参考因子分析结果,我们可以将数字信息资源的研究领域分为9个主题:电子工程与计算机技术、馆藏资源建设、信息服务、信息资源共享、信息素养教育、信息系统开发与评估、图书馆、信息组织、信息技术。
结合相关文献的具体内容,我们可以对这9类的内容做一些深入的研究:
1)电子工程与计算机技术。电子工程是电子和电磁现象和规律的技术运用,它受到计算机技术和微电子技术方面的很大影响[5]。从主题词“Electrical engineering”131频次的词频来看,电子工程已成为数字化环境下数字信息资源一个很重要应用领域。主要研究内容包括信息资源的配置问题及电子工程中涉及的电子技术、通信技术等的研究。
2)图书馆馆藏资源建设。图书馆服务工作的直接依托是馆藏资源建设。国外学者在这方面的研究,主要可分为馆藏资源的组织与服务两方面。在馆藏资源组织方面的研究可归纳为两个方面:馆藏资源数字化和网络资源馆藏化。服务方面有两个热门领域:“Information dissemination”,“Information retrieval”。
3)信息服务。信息产业为主流的数字化时代,信息服务发生了重大变革[6]。国外学者在信息服务方面注重信息产业的研究,其中包括“Software industry”,“Computer industry”以及“Electronics industry”等领域在产品定价、市场供需等方面的问题;同时在“Management advisory services”,“Library services”,特别是图书馆的“Reference services”等方面,国外的研究已相对超前,比如在参考咨询方面,国外已经有发展成熟的“Reference Web sites”[7],“Library internet advisory”,“Expert advisory system”[8],“Knowledge base advisory system”,“FAQ”[9],等等。
4)信息资源共享。信息资源共享体现了跨地区、跨行业的数字信息资源无限与服务无限的特征[10]。国外研究内容主要涉及到“Information dissemination”,“Information access”,“Cooperation”,“Systems integration”等方面。对于信息资源共享中所存在的复杂问题也是研究的重点。如“Digital Divide”问题,这方面的研究主要包括发达国家与发展中国家在接入网络及信息利用方面的差距问题;另外,国外学者研究了数字信息资源共享中的信息资源数字化、数字化信息上载、信息包装以及数字化信息链接等内容。
图1 聚类分析结果树状图
5)信息素养教育。从“Educaiton”高达70频次的词频可看到国外学者在这方面给予的高度重视,他们的研究已深入到社会生活的各个层面,如医学、科学、商业,等等。在教育的技术手段上,他们强调计算机与通信技术在教育方面的运用,如“Online instruction”,“Computer assisted instruction”等方面。
6)信息系统开发与评估。国外学者对各个不同领域的数字信息资源管理系统进行了深入的研究。从一般行业的信息系统如“Geographic information systems”到企业知识管理层面的“Decision support systems”,“Expert systems”等。内容涉及系统的设计开发、系统设计优化等内容。
7)图书馆。图书馆是信息资源的组织与管理的中心[11],数字图书馆更是当下研究热点。国外在这方面起步较早,研究的广度和深度都占据一定的优势。从“Digital libraries”(数字图书馆)高达147(最高频次)的词频也可以看出其研究力度。国外的研究内容有两个明显的重点:一个是数字图书馆的“Information literacy”问题;另一个是数字图书馆中的“Intellectual property”保护问题,如L.Wallace等人就探讨了数字信息资源的复制权问题(Right to Reproduce)[12],W.E.Berry等人探讨了信息资源网络传播中的传播权(Communication Rights)问题[13],K.M.Dames等人论及了网络信息资源下载、链接与侵权问题[14]。
8)信息组织。国外在信息组织方面的研究主要集中在信息存储,特别是“Digital preservation”。内容包括长期保存的技术、载体、信息等多方面。
9)信息技术。信息技术是数字信息资源有利发展的引擎[15]。“Artificial intelligence”,“Visualization”,“Virtual technique”等成为数字信息资源领域国外研究的重点技术内容。
2.3 两种分析结果的比较
聚类结果与因子结果基本吻合,表明共词分析效果较好,能够反映国外数字信息资源领域的研究结构。其中聚类分析结果中的第4、5、6、8、9类主题分别同因子分析结果中的第1、2、3、8、11类因子很好地吻合,表明“信息资源共享”、“信息素养教育”、“信息系统开发与评估”、“信息组织”以及“信息技术”这5个主题的研究在国外已经比较成熟,形成各自较为独立的结构体系。
因子分析中载荷为负的因子在聚类分析中都得到了相应的归类,其中“Computer science”,“Electrical engineering”脱离原有主题而归到“电子工程与计算机技术”一类,成为数字信息资源一个重要的应用领域。
因子分析中因载荷小于0.7而无法命名的因子,在聚类分析中也得到了较好的归类。如第3个因子中的主题词归到了“图书馆”与“馆藏资源建设”中,第4个因子主题词归到“信息素养教育”及“电子工程与计算机技术”中,第5个因子主题词归到“信息服务”与“图书馆”类中,第12个因子则被分归到“图书馆”与“信息技术”中。可以看出,这每个因子被分拆到的两个主题类彼此间都存在着相关性。同时还发现“图书馆”几乎是这所有两两联系的交集,表明“图书馆”是国外数字信息资源研究的重要方面。
变动比较大的是第6、7、9、10个因子,它们在聚类中经过重组归到了新的主题中。“信息素养”归到了“图书馆”内,“长期保存”归到了“信息组织”内,“网络信息资源”被分拆到了“信息组织”、“信息资源共享”、“图书馆”三类中,而“信息资源管理”则被分拆到了“信息资源共享”、“图书馆”、“信息素养教育”类中。进一步分析这些因子及主题的内容,可以看到它们本身并没有一个明显的界线。“长期保存”属于信息组织的范畴,又被赋予新的内涵。“网络信息资源”是“信息组织”的主要对象,又为“信息资源共享”提供有效的保障[16],“网络信息资源”馆藏化成为“图书馆”数字化的一大特征。而“信息资源管理”本身是个很大的范畴,它包括数字信息管理、信息环境管理、信息服务与用户管理等多方面[17],它涉及的领域也必然存在着交叉。
另外,从情报学学科角度进一步探讨这4类变化较大的主题,可以发现,这4类主题要么是情报学领域里的新兴内容,内涵与外延上尚存在着争议;要么和其他主题间存在着明显的交叉融合特性。如“信息素养”,根据澳大利亚学者Bruce关于“信息素养”层面结构研究的观点,它涉及有关信息技术、信息源、信息过程、信息控制等理念[18],可见“信息素养”概念新且与信息技术、信息源等理念存在着交叉联系;“长期保存”因为技术法律问题,它的研究工作目前仍停留在实验阶段,分析结果的变化性也是其保存手段与实践不十分可靠的一个体现;“网络信息资源”传递快捷、时效性强,已大大扩展了信息资源的原有内涵和外延,不仅从内容上它涉及各行业各领域,其中还涉及管理手段的不断创新、信息技术的不断革新,交叉融合面也甚广;而“信息资源管理”则呈现出典型的多学科融合性,其中的“信息资源”,内容就十分的宽泛,涉及经济学、管理学、计算机科学、运筹学等各种领域知识,同时这个学科本身存在着理论上的模糊性、实践中的多元性的特征,对于它在图书、情报与档案学科中的定位问题仍存在广泛的争议。
3 探讨
1)国外数字信息资源研究的着眼点在应用。笔者在主题词处理时,去掉了表征行业应用的一类词,这一类词多且涉及面非常广,从“Biology”,“Anthropology”,“Psychology”,“Medical research”到“Soil sciences”,“Agriculture”,“Forestry”等,包括“图书馆”与“电子工程与计算机技术”,几乎涉及了社会生活的方方面面。这表明国外数字信息资源的着眼点在应用。尽管我们可以从生命周期、影响参数等各个方面对数字信息资源进行研究,但不结合具体行业的特征,这些理论往往会因缺乏针对性而显得空洞、无意义,就像再健康的植物如果找不到合适的土壤也无法存活一样。
2)注重技术的引擎作用。9类主题中,基本每一类中都含有技术属性的词,除去第1、6、9类技术类主题不谈,“馆藏资源建设”中的“Data bases”,“信息服务”中的“Online data bases”,“信息素养教育”中的“Computers”和“Computer applications”都是技术类属性词。这表明国外对数字信息资源的研究与建设比较注重技术的引擎作用,以数字信息资源理论为基础的技术为解决各类问题提供了有利的工具,同时技术的进步也为数字信息资源的进一步发展创造了有利的条件。
3)本研究还可以根据文献作者所在的不同国家以及发表的不同年份阶段进行统计,这样可以得到不同国家不同阶段数字信息资源研究与建设的特征,也便于我们结合具体国情和具体的发展阶段借鉴国外已有成果。
4 中外比较分析
武汉大学信息资源研究中心的马费成教授及望俊成等已在《我国数字信息资源研究热点:以共词分析为方法》一文中对我国数字信息资源的研究现状与热点进行了分析,确定了国内数字信息资源领域的11个研究热点,结合本文确定的9个研究热点,笔者将对国内外数字信息资源的研究与建设进行一个对比分析。
1)国内外共同研究热点。“图书馆”、“信息组织”、“信息服务”、“信息资源共享”。说明国内外在这些方面都给予了高度重视,他们在这方面的研究都比较成熟与稳定,并形成自己独立的体系结构。另外, “网络信息资源”的研究是国内外数字信息资源研究的集中点。
2)国内外相对研究热点。国内相对研究热点: “网络资源”、“信息网络”、“信息检索”、“元数据”、“评价”、“信息资源开发利用”以及“信息环境”;国外相对研究热点:“电子工程与计算机技术”、“馆藏资源建设”、“信息素养教育”、“信息系统开发与评估”以及“信息技术”。尤其是“信息素养教育”,在国外已经发展成熟,并形成独立的体系结构,而在国内却是一个刚刚起步的新兴研究主题,并且从研究力度来看,还未得到足够重视。
3)对比分析国内外相对研究热点发现,在国外相对研究热点中,技术类热点占据了大部分:“电子工程与计算机技术”、“信息系统开发与评估”以及“信息技术”。这说明,国外从信息技术的维度对数字信息资源的研究比较成熟与稳定,并形成了较为独立的体系结构。而相反,国内在这方面的研究则比较欠缺,没能形成独立的体系结构。
4)国内的相对研究热点,如“网络资源”、 “元数据”、“信息检索”、“评价”,在国外也有所研究,但往往与某一应用结合起来,而很少独成体系。如“网络资源”、“元数据”以及“信息检索”常常被运用到图书馆的“馆藏资源建设”中,分别为图书馆的网络资源馆藏化、馆藏资源组织以及书目检索和参考咨询服务提供工具与条件。这也说明,国外的研究较为注重具体应用,而国内的研究停留在某一概念本身研究的较多,与具体应用相结合的力度还不够。
5)对数字信息资源的行业应用,国内外的重点都在图书馆领域的研究上,但就范围来看,国外涉及的面更广,国内则只在高校、医学及少量涉及化工、军事行业。表明国内数字信息资源研究与建设开展还不全面。
6)从关键词分布来看,国外数字信息资源产业化研究较多。“Software industry”,“Computer industry”以及“Electronics industry”。产业化道路是信息服务业实现盈利的必经之路,国外对这方面给予了重视,但国内这方面研究不够,实现信息服务业产业化是我国需要努力的方向之一。
这项研究属于探索性研究,因此难免存在一定的局限性。首先在数据来源方面,因为对于国外对“数字信息资源”的翻译并不能完全肯定,所以在选择关键词进行检索时存在着一定的主观性。再次,数据库中主题词的录入并不十分规范,虽然笔者已经根据文献内容与相关专业知识作了一些规范处理,但因为自身知识与理解的局限性,所以主题词列表可能会存在一定的偏差。但因为数据库中主题词的标引本身有一套规定,加之专业人员的操作,本研究结果大体上还是可靠的。
收稿日期:2008-03-06
标签:主题词论文; 图书馆论文; 信息素养论文; 因子分析论文; 信息技术服务论文; 因子载荷论文; 国外教育论文; 电子工程论文;