信息测量工具的开发研究_文献计量学论文

信息计量工具发展研究,本文主要内容关键词为:工具论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

随着全球信息化和网络化的发展,特别是在网络环境下的信息计量研究与分析研究愈来愈受到人们的重视,因此网络环境下信息计量分析工具的开发与选择更是成为人们关注的焦点。本文从信息计量学对信息计量工具在国内外的发展进行了系统的梳理。不仅有助于完善信息计量学的理论方法体系,为更准确、更有效的信息搜集、处理与分析等提供方法依据,还可以从侧面反映信息计量工具发展的理论和实践的探索轨迹,促进信息计量学研究领域的不断成熟与发展,使信息计量学的方法研究跃升到一个全新的阶段。

2 信息计量工具发展评析

2.1 手工处理阶段——书目统计学

据文献记载,对文献信息的定量研究,可以追溯到20世纪初叶,欧洲和俄国学者对书目引文的统计分析。1917年科尔(COLE F.J.)发表在《科学进展》(Science Progress)上的《比较解剖学的历史——对文献的统计分析》(The History of Comparative Anatomy—A Statistical Analysis of the Literature)一文首次利用文献统计的方法,由于方法和手段的限制,文献计量学阶段大部分为人工的统计,即书目统计学。1969年,英国著名情报学家普里查德(Alan Britchard)提出“文献计量学”术语,在此期间,基于数学与统计学的手工统计分析是文献计量的主要手段和方法。

2.2 系统支持阶段——文献计量学、科学计量学、信息计量学

1969年,前苏联学者纳利莫夫(V.V.Nalimov)和穆利钦科(Z.M.Mulchenko)提出了“研究分析作为信息(情报)过程的科学的定量方法”的“科学计量学”。1979年,西德学者奥托·纳克(Otto Nacke)提出“信息计量学”术语,到1987年正式得到国际情报学界的承认。这一时期,随着信息技术的快速发展,文献信息计量研究向着机助数据处理发展,一方面以SCI为代表的基于数据库的计量分析工具开始全面发展,另一方面计量分析研究也开始探索利用通用的数理统计类软件来满足大样本的文献信息计量分析研究。

2.2.1 基于数据库的计量分析工具

由于引证文献所具有的独特功能和作用,大部分的文献计量分析都采用引文数据作为其原始数据。因此,引文数据库的开发与建设成为文献计量学工具发展的主要原动力,使文献计量研究从小样本手工统计走向大样本的计算计量研究。

(1)重要的基于数据库的计量分析工具分析。

①以《科学引文索引》为核心的系列数据库:1955年美国著名情报学家加菲尔德(E.Garfield)发表在《科学》(Science)上的《引文索引用于科学》一文,开拓了从引文角度对文献进行定量分析的新领域。20世纪60年代初,加菲尔德(E.Garfield)率领美国科学信息研究所成功开发的《科学引文索引》(Science Citation Index,SCI),为文献计量学研究提供了一种多功能的定量分析工具。以《科学引文索引》为核心的系列数据库主要有《科学引文索引》、《社会科学引文索引》和《艺术与人文科学引文索引》,期刊引证报告(Journal of Citation Report,JCR),知识信息集成平台Web of Knowledge。

②《科学基本指标数据库》:2001年,为了便于衡量科学研究绩效、跟踪科学发展趋势,ISI推出了一个更加有力的评价工具——《科学基本指标数据库》(Essential Science Indicator,简称ESI)。各国纷纷利用ESI对本国大学、研究机构的研究绩效或学科领域发展态势作了评价和分析。ESI以SCI和SSCI为基础,从引文分析的角度,针对22个一级专业学科领域、250种二级学科门类,分别对10年内达到一定层次科研水平的各国家、研究机构、期刊、论文以及科学家进行统计分析和排序。ESI包括引文排位、高被引论文以及引文分析三大主要模块。其中,引文排位模块包括科学家、机构、国家和期刊排名表。高被引论文模块包括高被引论文和热门论文列表。引文分析模块包括基线和研究前沿列表。ESI区别于其他评价数据库的最大亮点就是提供了高被引论文、热门论文和顶级论文三个评价指标对论文质量的评价。

③Scopus。Scopus是由著名的Elsevier公司于2004年底推出的一种基于网络的综合性科学文献检索工具。目前,它是全球最大的文摘和引文数据库,并且具有强大的引文分析与科学评价功能,可以实现对科研成果、科学出版物、科学学科、科技人才和科研机构的评价。与其他的数据库和索引工具相比较,Scopus具备自己的特色,主要表现在:内容全面化。Scopus全面覆盖了生命科学、保健科学、自然科学和社会科学四个大的主题类别;资源整合化。Scopus除了检索数据库收录的期刊文献外,还能同时检索网络和专利资源信息;区域覆盖均衡化。Scopus与SCI及其他几大同外数据库相比,收录了更多的亚洲文献和本地期刊文献;功能扩大化。Scopus不仅包括索引数据库常规的检索功能和引文评价功能,还能链接到出版商、参考文献、摘要和全文,使研究更加深入和透彻。

(2)两大综合引文数据库——SCIE与Scopus的比较。

通过如表1所示的SCIE与Scopus基本信息的比较,可以总结出以下适用范围的区别:

①SCIE较长的引文回溯时间范围以及较多的引文数量,可以全面的揭示一个理论、一个学科、一个学术观点、一种技术(方法)的起源、发展、变迁、修正及研究现状。

②Scopus收录期刊数量多,学科范围广,对于统计学科间的互引量、交叉学科间的内部联系有着一定的优势。并且其收录了350多种中国期刊,相较于SCIE仅收录了76种来自中国的期刊,Scopus对于分析国内文献、科研机构、著者的科研水平特别有利。

③综合比较而言,SCI的分析评价功能比Scopus要强。第一,作者或科研机构的文章被SCI收录已成为衡量其科研水平的一个评价指标,而Scopus还不具备;第二,Scopus虽然对科研机构、科学文献、科学人才、来源出版物以及引文等具有一定的分析功能,但局限于对文献1996年以来引用次数的分析,而SCI除了分析引用次数外,还可根据机构、学科、文献类型、出版年、作者等多种方式进行分析,用户可根据自己的需要进行选择。当然,Scopus也有着自己的优势。比如检索出某个学科的所有文献并对其进行分析;SCI虽然也有学科分析功能,但只是对检索结果进行学科分析,却不能检索出某个学科的所有文献并对其进行分析[1]。

2.2.2 中文引文索引数据库

从20世纪90年代开始,国内在引进美国SCI数据库、自行开发引文数据库、开展计算机辅助信息计量分析的研究等方面进行了大胆探索,取得了很大的进展。在SCI的推动下,我国也建立了各种引文数据库,在一定程度上提供了科学计量分析和评价研究所必需的大量数据。并且,也利用这些数据源进行了一些实际的科学评价实践,推动了我国的科学评价事业的快速发展。目前国内共有四大中文引文索引数据库:中国科学引文索引数据库(Chinese Science Citation Database,简CSCD),中国科技论文与引文数据库(Chinese Science and Technology Paper and Citation Database,简称CSTPCD),中文社会科学引文索引数据库(Chinese Social Sciences Citation Index,简称CSSCI),中国引文数据库(Chinese Citation Database,简称CCD)。

通过如表2所示的四大中文引文索引数据库基本信息的比较,可以对国内引文索引数据库的发展做出以下评价:

(1)CSCD目前已经收录在Web of Knowledge平台,与Web of Knowledge平台充分集成,实现了与SCIE数据库基本相同的数据分析功能,以及分析工具(Analyze Tool)、引文报告(Citation Report)和引文关系图(Citation Maps)等特色功能,这样深度的引文分析功能较其他中文引文数据库是有着很大优势的。因此,做深度的引文分析,发现一个理论、一个学科、一个学术观点、一种技术(方法)的起源、发展、变迁、修正及研究现状,选择CSCD较为合适。

(2)万方数据股份有限公司基于中国科技论文与引文数据库开发的知识服务平台上,实现了知识脉络分析、学术统计分析和著者学术成果页展示。知识脉络分析能够以曲线图的方式展现该关键词近7年每年每百万期刊论文中的命中数,也就能够展现出其研究趋势,并且,还给出每一年与该关键词共现的5个关键词,据此能够看出近年来相关研究的热点变化。著者学术成果页能够将该著者的基本信息、发文量、被引次数、H指数、被引频次变化、合作学者、关注点进行综合展示,对于分析某位著者的学术成果,以及分析合作网络方面具有重要的意义。

图1 万方知识服务平台上邱均平教授的学术成果页

图1为邱均平教授的学术成果页。作为一个信息计量工具,万方数据知识服务平台所提供的特色的分析功能使其为研究者提供了更加深入的信息分析。

(3)CSSCI作为一个专门的引文数据库,其作用已经不仅仅是科技人员查找参考文献的工具,其严格的选刊标准,使其成为各级科技管理部门和各科研机构、高等院校统计本单位科技论文发表情况的重要工具,并且填补了我国人文社会科学文献计量统计分析的空白。此外,如果能够提供相关文献的聚类,这样可以更好地反映作者的学科背景及研究方向,反映学科之间的交叉渗透及发展趋势[2],就能够更好的体现其作为信息计量工具的深层次作用。

(4)CCD是中国知网(CNKI)数字出版平台推出的引文数据库。因为其依托于CNKI所有源数据库,来源包括国内8200多种期刊,因此,其引文数据能够提供较高的检全度,并且能够提供引文的全文链接,这是其资源优势。另一方面,相对于其他引文数据库,中国引文数据库具有较好的数据统计分析功能和可视化展示功能。其数据统计包括作者、机构、期刊、专题、基金、出版社6个字段的统计,并且每个字段提供多种数据的统计,例如作者统计,包括发文量、各年被引量、下载量、H指数、期刊分布、作者被引排名、作者引用排名、作者关键词排名8个方面的数据统计,并且以柱状图的形式进行可视化的展示。

总的来说,近年来我国自建的引文数据库在各种论文统计分析和学术评价工作中得到广泛应用,一些新兴的引文数据库专注于不同维度的引文分析,例如读秀,能够统计显示专著的被引用指数和被引用次数,并列出施引的专著,这对于做著作分析有着重要的意义。整体而言,各引文数据库资源内容存在着重复建设的问题,并且虽然都能够实现一定的引文分析功能,但其功能大多相似,没有深层次的挖掘和个性化的分析。随着技术的发展和需求的不断提高,仅仅提供参考文献的查询已经不能够满足用户的需求,还应当提供更深层次的计量和评价功能,才能够称其为信息计量的有效工具。

而且,相关研究表明,不同引文库对重要评价指标的影响比一般指标更大[3],因此,研究者在进行计量研究时,需要考虑到各个引文数据库自身的特点和优势,选择适合研究对象的数据库,以提升研究的可信度。

2.3 机助数据处理阶段——信息计量学

随着文献信息计量分析的深入开展,需要进行计量分析研究的对象也越来越广泛,20世纪70年代引入了专门的统计分析软件包。例如,美周的社会科学统计软件包(SPSS)来进行相关分析与回归分析。

从分析数据方面考虑,计算机辅助信息计量分析的方式有两种:①利用计算机软件进行相关分析和回归分析、统计词频等分析。②利用文献信息计量学基本规律的数学表达式和计算机软件建立文献信息计量规律的数学模型[2]。

2.3.1 通用软件的应用

在机助数据处理阶段主要应用的计量工具为数理统计类软件,如SPSS、Matlab、SAS、Excel等。数理统计类软件在对信息进行定量分析过程中得到广泛应用,提供了从简单的描述统计到复杂得多因素统计分析方法,具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。早在20世纪80年代初,国外就已经开始使用SPSS的数据分析及图示功能进行计量学中的引文分析。如今,各软件纷纷推出最新版本,能够提供更多维度的分析功能,如相关分析、聚类分析、因子分析以及多维尺度分析等。在实际的研究中,研究者通常先从引文数据库中下载txt格式的数据,然后导入Excel中进行初步的处理,生成规范化格式文件,再导入SPSS、Matlab等软件中进行频次分析、相关分析等深层次的数据分析。

2.3.2 词频聚类计量分析工具

词频聚类计量分析工具主要是基于文献信息统计分析方法,它的产生是应用通用数理统计软件的进一步发展。主要包括文本输入与管理、文本信息处理(词频统计、词语类目统计与分析、共词分析等)、文本信息检索、建立词典功能和处理结果输出功能五大基本功能。词频统计和关键词分析经常被用于描述某学科领域的研究状况,进而揭示该领域的研究热点和发展趋势。

目前,各类基于词频聚类的专用计量分析软件数量相当丰富,可谓琳琅满目。主要包括伽利略公司开发的CATPAC(http://www.terraresearch.com/)、DIMAP(http://www.elres.com)、SPSS公司的Textsmart、Wordstat(http://www.simstat.com/Wordstat.htm)以及WordSmith tools(http://www.lexically.net/wordsmith/)等。其中,WordSmith Tools是牛津大学开发的一款商业性词频分析软件。该工具自开发以来已经过几次升级,功能不断得到完善,界面更加友好,是最常用的词频分析工具。WordSmith Tool主要具备词频列表检索工具(Wordlist Tool)、语境共现检索工具(Concord Tool)和关键词检索工具(KeyWords)三大功能。Wordlist Tool可以对样本的全部词汇进行词频统计,按单词在样本中出现的频次由高到低排列,从中筛选出具有实质意义的关键词。Concord Tool通过分析与该单词相邻的其他单词,判断该词涉及的不同主题内容。

随着基于词频聚类的计量分析工具的进一步发展,对某学科或主题的词频分析不仅停留在数据的分析层面上,而且还融入可视化分析方法,利用现代信息技术和统计软件可视化显示功能,将分析结果直观形象地显现出来,目的是应用图示的方法直观地揭示出学科领域的发展及演进趋势、研究课题的扩散与传播的关系。

此外,引文数据库与基于词频聚类的计量分析方法相结合形成引文分析系统。引文分析系统将词频聚类方法应用于引文数据的挖掘分析,在引文数量分析的基础上,对引文网状关系进行分析,对若干重要的、有代表性的分析对象进行“文献耦合”和共引或多共引聚类分析,可以揭示学科结构特点、研究热点、发展源流及专业相关程度和科学交流方式。引文分析系统是系统支持阶段发展的成熟产物[4]。

2.3.3 共现分析计量工具

共现分析方法自20世纪70年代中后期由法国文献计量学家首先提出。共现工具用于帮助用户分析文献数据或者是文本类型格式的数据,实现引文分析。国外关于文献信息共现关系分析的应用软件已经比较成熟,如瑞典科学家佩尔松(persson)开发的科学计量学研究软件Bibexcel。国内主要有中国医科大学的崔雷教授开发的Bicomb,大连理工大学姜春林等人解决了Bibexcel不能处理中文文献的瓶颈问题,实现了知识单元共现关系矩阵[5]。在实际的研究过程中,通过Bibexcel可以将从引文数据库中下载的数据进行处理,生成共现矩阵,以便导入到如NetDraw、Pajek等可视化软件中,进行进一步的可视化分析。

2.4 网络化专用数据处理软件阶段——网络信息计量学

1997年,丹麦学者T.C.Almind等在《万维网上的信息计量分析:网络计量学的方法探讨》一文中,首次提出了Webometrics,迅速掀起了有关网络计量学的研究热潮。然而,网络信息浩如烟海,如果没有功能强大的工具作保障,对网络信息的计量研究也就无从谈起。除了极个别的情况可用手工进行分析外,大都需要各种计量工具进行信息的收集、整理和分析。

网络计量学的研究对象主要包括三个层次:网络信息的直接计量;网上文献信息及其相关特征信息的计量;网络结构单元的信息计量[6]。网络信息计量学的研究方法分为四类[7]:①运用统计方法对数据进行统计分析;②运用图论的方法对数据进行可视化研究;③运用数据聚簇和分散的工具进行数据挖掘研究;④运用解释和模拟网络结构和增长理论工具进行模型研究。

根据网络信息计量的研究方法,网络信息计量工具主要分为数据收集工具、网络分析软件和结果展现软件三种,除此之外,常用的程序编制工具也是必不可少的。根据沙勇忠[8]2005年提出的网络信息计量学软件分类体系,结合近年来网络信息计量方法的发展和新兴工具出现。可以归纳出如表3所示的网络信息计量工具体系。

数据收集工具主要是通过专业软件,对网络日志、网络信息数据、网络引文数据等进行收集。网络内容分析软件支持网络环境下的内容分析,主要涉及断词功能、词干提取、词频统计、聚类、自动编码、消除语义歧义、生成词典、自动注释等功能。网络结构分析软件主要用于链接分析和构建网站地图。网站利用分析软件主要是为了检测和管理网站以提升其内容和质量。其中,评估分析软件用于测度网站的可用性,用户分析软件用于分析网站用户的网络行为特征,日志分析软件用于分析日志文件。结果展现软件主要是实现自动数据的转化、整理或分析。

2.5 可视化与人工智能阶段——信息计量工具的未来发展

随着计量学的研究对象从文献向整个人类知识体系的转变,构建以知识单元为分析基础,也就需要新一代的人工智能和可视化的有效工具。目前,可视化与人工智能阶段计量软件标志性的两个方向包括:一方面是可视化图谱工具,另一方面是多任务数据挖掘系统。

2.5.1 可视化知识图谱的兴起

“信息可视化”这个术语第一次出现在1989年Robertson,Card和Mackinlay发表的The cognitive coprocessor architecture for interactive user interfaces一文中[9]。成熟可视化技术的引进促进了知识域可视化这个新领域的创建,造就了科学知识图谱的兴起。早期的基于关联的信息计量的研究只是手工描绘作者、期刊或者论文的引文量图表,后来的学者开发了软件来自动完成这一过程。当前,各种功能丰富的知识图谱工具如CiteSpace、HistCite、VxInsight、NetDraw、Pajek、Network Workbench Tool等已经在信息计量学研究中得到广泛使用,并渐成趋势。

大量数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。硬件系统的图形处理性能已能满足在用户界面中探索3D和动画的需求,为了充分利用这些性能,新的软件结构必须支持复杂的异步交互智能体,并且还应支持流畅的交互动画。

近年来,由美国德雷塞尔大学的陈超美博士基于JAVA平台开发的以定量分析为主的可视化工具CiteSpace在国内得到了广泛的使用。国内学者利用CiteSpace对多个学科的发展脉络和演变趋势进行了计量分析,如刘则渊[10]、侯剑华[11]、栾春娟[12]、张明华[13]等分别研究了生态经济学、纳米技术、国际科技政策、文献计量学、认知神经科学等不同专业领域的发展情况。以上实例说明,越来越多的人开始关注可视化计量工具的研究和应用。

2.5.2 KDD系统的应用

基于数据库的知识发现(KDD)是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程[14]。应用通用的知识发现系统进行数据挖掘,已经形成信息计量向智能化发展的趋势。例如,IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统。

在知识计量学阶段,基于数据库的知识发现系统(KDD)能够有效的获取知识、发现知识和探测知识前沿,采用关联、序列、聚类、分类等方法从大量不完整、彼此关系不明确的敏感性信息中找出隐含的、事先未知的有用信息,揭示数据内在的复杂性,进行深层次分析,自动获得更多、更有价值的信息。

2.6 信息计量工具发展时序分析

为从已发表的期刊论文的角度研究各阶段信息计量工具的使用情况,从Web of Science数据库中,检索情报学、图书馆学、计量学具有代表性的期刊的论文,统计出现各阶段代表工具的文章的数量与发表时间,并以此绘制基于代表期刊发表文献的各阶段信息计量工具时序分析图。

首先,在JCR(Journal of Citation Report)数据库中,选择INFORMATION SCIENCE & LIBRARY SCIENCE类,即情报学与图书馆学,选取五年影响因子最高的五种期刊作为情报学与图书馆学代表性期刊,分别为MIS QUARTERLY、INFORMATION SYSTEMS RESEARCH、JOURNAL OF MANAGEMENT INFORMATION SYSTEMS、JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION、INFORMATION & MANAGEMENT。再选取计量学代表性期刊JOURNAL OF INFORMETRICS和SCIENTOMETRICS作为检索论文的来源期刊。接下来,在Web of Science数据库中,以检索式:出版物名称=(MIS QUART)OR出版物名称=(INFORM SYST RES)OR出版物名称=(J MANAGE INFORM SYST)OR出版物名称=(J AM MED INFORM ASSN)OR出版物名称=(INFORM MANAGE-AMSTER) OR出版物名称=(SCIENTOMETRICS) OR出版物名称=(J INFORMETR)进行检索,共得到9985篇文献。接下来,分别将上文中介绍过的各阶段代表工具,在这9985篇文献中进行主题检索。例如:将SCI作为主题,在9985篇文献中进行精炼,得到187篇文献。依次类推,进行检索。将检索到的文献记录输出,导入数理统计软件Excel中,进行各阶段信息计量工具使用情况的时序分析,并以折线图进行展示,如图2所示。

图2 基于Web of Science数据库相关学科代表期刊发表文献的各阶段信息计量工具使用情况时序分析图

从图2中可以明显看出,各阶段信息计量工具依次出现的时间分布。更加明显的是,虽然出现了新的工具,之前的工具依然为人们所使用,由此可见,信息计量工具的发展并不是新旧更替式发展,而是演进式发展,即向着多维度、深层次发展。也就是说,随着人们对不同信息不同维度的研究需求,发展出了例如对于网络信息进行分析的网络化专用数据处理工具,而针对人们希望信息能够以更加友好和智能的方式进行呈现的需求,发展出了可视化与人工智能的信息计量工具。

另外,如图2所示,系统支持阶段的工具其使用度是最高的,并且随着时间的推移,呈现递进增长趋势,并且明显高于其他阶段工具的使用。究其原因,在于无论是机助数据处理阶段的工具,还是可视化与人工智能阶段的工具,其处理的数据都依赖于引文数据库提供的文献记录和引文信息。因此,也可以看出,引文数据库的发展对信息计量工具的发展具有重要的意义。

2.7 信息计量工具发展与五计学的关系

将统计出的各阶段信息计量工具首次出现的文章的发表时间,与五计学首次提出的时间进行对比,如表4所示。从表中的时间可以看出,在每一个计量学术语被提出之后,随着研究的开展,都会发展出对应于该阶段的计量工具体系。当一种新的计量术语被提出后,针对新的研究对象和研究角度,计量工具也进入新的阶段。并且,随着新工具对研究对象的深入挖掘,也能够启发研究者发现新的领域和前沿。由此可以表明,信息计量学工具的发展是伴随着计量学的学科发展逐步演进的,同时,也在一定程度上推动了计量学的发展。

3 信息计量工具的发展方向

3.1 集成化

交叉与综合是社会科学研究创新发展的新视野。由于不同研究方法之间具有较强的互补性和结果上的对比性,多种方法的综合与集成可以得到更加准确可靠的结果。研究方法的综合与集成,首先表现在定性方法与定量方法的结合。信息计量学研究的实质是利用数理统计的方法,通过定量分析揭示事物内在的发展规律。定量分析结果可以通过各种形式表现,如数值、图表,但研究的目的所在不是这些图表,而在于其中所隐含的规律。因此信息计量学的分析中也不能忽视定性分析的作用,应做到定量分析与定性分析相结合[15]。目前已有学者对文献计量法与内容分析法进行了综合比较和应用研究。其次,表现为不同分析方法的结合应用。这种应用有两种不同的方向:一是方法组合,即将两种方法组合起来共同揭示某一现象;二是方法融合,即将不同关系融合成一种新的方法来解释分析单元之间的关系特征[16]。调查发现,许多学者已经越来越多地考虑将多种不同的分析方法加以综合利用,例如共引聚类分析与词频分析的结合、共词分析与引文网络的结合以及同被引分析和文献耦合分析的结合等[17]。

3.2 可视化

伴随着信息技术的高速发展,传统的文献计量方法和技术得到了前所未有的发展,并逐步从早期的简单计数统计过渡到目前的网络分析及可视化技术等热点领域。将可视化技术和文献计量中的引文分析技术进行有机结合,可以在客观的量化分析的基础上同时兼具全面、简洁和直观的优点,已经被越来越多的学者所研究。进入新世纪以来,作为引文分析与信息可视化相结合的产物——科学知识图谱,以其理论上的综合化、方法上的可视化、描绘上的形象化等诸多特征,获得迅猛的发展,一跃成为当代计量学领域的研究热点与最新前沿,研究极为活跃。

可视化工具不只是知识的一种图解方式,更需要人工智能、知识科学、计算语言学和认知语言学等学科的支持,作为连接认知心理学和人工智能研究的新桥梁,未来可视化计量工具有两个发展趋势:①二维到多维的转变。知识可视化技术与虚拟现实空间相结合,向多维空间迈进。②静态向动态、交互的转变。可视化工具将建立一种迭代的、协作的过程,使可视化过程动态发生[18]。

3.3 智能化

计算机辅助计量分析经历了机助数据处理阶段、系统支持阶段和人工智能阶段三个阶段[19]。机助数据处理阶段采用通用软件开展计量分析工作。系统支持阶段主要是通过研制专用数据库,实现计量分析工作的自动处理。人工智能阶段则是广泛利用数据挖掘、数据仓库、联机分析处理、知识发现等先进技术和手段帮助研究者进行大规模的数据抽取、深层次的信息分析以及多维、动态的分析结果展示,来实施知识层面的计量分析。由于信息计量从语法层次向语义和语用层次发展是一个基本的趋势,必然促进信息计量学软件开发向智能信息处理方向发展。

4 结语

自20世纪60年代加菲尔德《科学引文数据库》(SCI)的成功诞生开始,近50年来,信息计量工具的发展已经历了4个阶段的演进发展,即手工处理阶段、系统支持阶段、机助数据处理阶段、网络化专用软件数据处理阶段,并已经初步进入可视化与人工智能阶段。本文通过基于Web of Science数据库相关学科代表期刊发表文献的各阶段信息计量工具使用情况时序分析,用可视化的方法揭示了信息计量工具的发展历程。对比统计出的各阶段信息计量工具首次出现的文章的发表时间与五计学首次提出的时间,进一步表明信息计量学工具的发展是伴随着计量学的学科发展而演进的,在一定程度上推动了计量学的发展。我们相信,计量学从最初的手工数目统计,到现在普遍使用软件对数据进行多维度可视化的分析,未来的信息计量工具将向进一步的集成化、可视化、智能化发展。

收稿日期:2012-05-27

标签:;  ;  ;  ;  ;  ;  ;  

信息测量工具的开发研究_文献计量学论文
下载Doc文档

猜你喜欢