科学地图在情报研究中的应用研究,本文主要内容关键词为:情报论文,地图论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近年来,随着数据挖掘技术、科学计量学、信息计量学和计算机技术的不断发展和进步,在图书情报领域更加强调知识服务的潮流下,无论社会还是科技领域均对情报研究工作提出了新的要求,传统的简单文献收藏、整理、检索工作及其信息产品已无法满足用户的竞争情报和战略情报的需求。在这样的时代背景下,知识发现、数据挖掘等方法在图书情报的应用中不断得到重视的情况下,信息可视化技术也已成为图书情报领域的研究热点之一,成为一种有效的知识挖掘与呈现技术。通过可视化手段,情报工作者可以用静态或动态的图像展示全球或某个国家(地区)、或某个主题领域的科学结构;分析科技人才队伍结构,如分析作者或发明人的分布、协作情况,为科技创新活动的协作共赢提供参考;可以掌握某学科的全球发展结构,分析竞争热点领域,挖掘潜在竞争点;可以发现学科新的增长点,预测新交叉学科的出现等。基于对论文、专利、基金资助等信息的可视化研究,有研究人员提出了科学地图[1]的概念,来表示可视化研究结果,其目的是强调可视化的图形在探究某一特定研究领域的研究前沿、鼓励跨学科的讨论、如何最好地跟踪和交流全世界范围内的人类活动与科学进步方面的重要价值。本文将从不同类型的科学地图研究方法与成果角度,基于文献[1]采用的检索科学地图文献的检索策略,调研ISI Web of Science、Sciencedirect等数据库中有关“science map”、“mapping science”、“mapping knowledge domains”、“visualizing knowledge domains”、“network analysis”、“information visualization”等科学地图研究相关主题的最新研究成果,从科学地图这一可视化的方法及成果展示形式出发,研究当前科学地图研究的现状、进展、主要工具,并选择被引频次较高的或代表性人物的作品进行解析。文章最后对科学地图的发展前景进行讨论。
1 科学地图的概念
科学地图是一种采用图形的方式来描述科学问题的研究方法,即基于科学数据对其所反映的科学信息进行可视化,该观点最早来自于加菲尔德的科学地图思想[2]。
美国印第安纳大学图书馆与信息科学系在科学地图展览中将科学地图主要分为概念地图、领域地图和地理地图三种类型[1]。概念空间的概念地图是用于教育和心理学等领域的形象化工具,由四个核心元素组成,即代表某概念核心元素的节点、节点之间的连接、用于描述两个节点如何连接的连接词、节点的样式。抽象语义空间的领域地图发展的目的是为科技探索提供服务,这些地图可以通过分析大规模的学术数据库而获得,致力于认知它们所包含的知识片段及其关联。根据领域地图的分析对象,可以将领域地图再进一步细分为期刊地图、文献地图、作者地图、术语或词地图,不同领域地图具有不同的分析类型与功能。物理空间的地理地图帮助人们发现新世界、标记事物分布等。
此外,根据Chen在Mapping Scientific Frontiers一书中的内容,可将科学地图分为面向物理世界和面向概念世界的两种地图[3]。根据科学地图所反映的介质,还可以将其分为时间地图、地理地图、人物地图和主题地图。根据科学地图所反映的客体,可以将其分为微观(个人)地图、中观(机构)地图和宏观(国家)地图。
2 科学地图的研究现状
根据陈云伟[4]等对科学地图相关研究文献的统计分析结果,美国的科学地图研究目前处于国际领先地位,美国相关政府机构和组织已经开始重视科学地图方面的研究投入,如美国NSF和NIH[5]等已经资助相关研究机构开展科学地图研究,用于支持其科研投入的决策,主要的研究机构包括印第安纳大学、亚利桑那大学、德雷赛尔大学、Sandia国家实验室等。其他主要国家还包括英国、德国、西班牙、加拿大、荷兰和中国。我国论文产出较多的研究机构主要有中国科学院、香港大学、香港中文大学、北京大学、哈尔滨工业大学、香港城市大学、清华大学、浙江大学、河南师范大学、大连理工大学等。本文主要从论文和专利两个角度,选取有代表性的研究成果对科学地图的研究进展进行介绍。
2.1 科学地图研究的理论基础与方法
目前图书情报界对科学地图研究最多的是面向学科领域的领域地图,下面就领域地图研究的相关理论和方法基础、实现流程及技术进行介绍。
(1)理论与方法基础。领域地图的理论基础主要建立在科学计量学、文献计量学和引文分析领域[6],例如通过科学家之间在其论文中的合作与引用揭示科学交流活动,分析来源文献与引文之间的信息流。NWB Team[7]归纳了领域地图的主要方法,如图1所示,包括直接引用、共引、文献耦合、共著等。除图1中列举的方法外,还可以引申至机构、国家之间的合作和引用关系网络,在专利分析中,也可以用于分析发明人、专利权人、国家的合作和引用关系。
图1 领域地图的理论与方法基础[7]
(2)科学地图可视化实现流程。科学地图研究的一般工作流包括六个主要步骤:数据准备(包括收集、整理、分析与管理)、分析单元的定义、方法选择(理论依据及方法)、各单元之间相似性的计算、关联与定位(实现技术)、对科学地图的解释分析,流程可归纳为图2。
图2 数据可视化流程示意图[8]
(3)相关算法与实现技术。近年来用于科学地图研究的主要算法和实现技术主要包括三大类[5]:第一,降维技术,包括特征值/特征向量分解技术、因子分析、多维尺度分析、Pathfinder Network Scaling、自组织地图。此外,目前还需关注用于文本建模分析的几个算法,如Latent Semantic Analysis(LSA)[6]、Latent Dirichlet Allocation (LDA)[9]以及Author-Conference-Topic(ACT)[10];第二,聚类分析,主要分为基于相似度和基于距离的聚类方法;第三,三维空间立体构型技术,包括三角形测量、力矢量布局算法[6];第四,可视化实现技术,应考虑对大量数据的处理能力、减少可视化实现的时间,实现缩放、过滤和失真等交互操作设计,以及双曲树、鱼眼、分形等主题与文本呈现技术[6]。
(4)几种科学地图比较。本文将从论文和专利两个数据基础出发对科学地图在情报研究中的应用情况进行研究,表1对本文将介绍的几个代表性科学地图进行了比较。
表1 几种科学地图比较
2.2 基于论文的科学地图研究
近年来图书情报领域普遍关注科学地图在引文分析、共引分析、共词或共著等共现分析方面的领域地图研究,而且研究重点在于大学科间的关系研究,从分类学角度,属于领域地图研究。
(1)基于引用的科学地图。例如,美国Sandia国家实验室的Boyack和印第安纳大学图书馆与信息科学系的Borner在2005年的一篇名为Map of the Backboneof Science[11]的文章中,尝试描述全球科学地图。该文以ISI数据库所收录的自然科学(SCI)与社会科学(SSCI)期刊论文为数据基础,把7121种期刊分成了212个簇,根据引用关系研究不同簇之间的关联关系。该文采用八种不同的相似度测算方法对期刊进行分类,其中包括五种互引(IC)测度方法:IC-Raw、IC-Cosine、IC-Pearson和IC-RFavg,三种共引(CC)测度方法:CC-Raw、CC-Pearson和CC-KS0。然后再利用一种称为VxOrd的力矢量布局(force-directed graph layout)算法对每种相似度测量进行二维呈现,最终获得两个最佳的共引和互引地图,并采用互引地图对学科之间的链接关系进行了分析,发现生物化学是科学界学科交叉性最强的学科。
2009年的一篇名为Mapping the Structure and Evolution of Chemistry Research[12]的文章以SCIE和SSCI数据库为数据基础,利用JCR分类从7227份期刊的671个期刊簇中筛选出14个与化学研究相关的学科,基于文章引用关系,对这14个学科的科学结构变化与知识交换进行了研究。从1974-2004年的30年时间里,每隔5年采用VxOrd算法对化学领域的14个子学科的分布及相互引用关系情况进行可视化作图分析。通过30年的发展比较,最直观的结论是:数量和引用关系加强。此外,通过每隔5年的比较,可以发现更多的信息,包括各个学科下5个组的变化情况等,例如研究发现生物化学和生物工程稳步地进入化学领域,并对化学领域的知识基础产生影响。
(2)基于合作的科学地图。科学地图在研究显性和隐性团队方面发挥着重要作用。例如,2008年10月Nature杂志的一篇News Feature在论述Group理论[13]时,引用了印第安纳大学Katy教授有关采用科学地图方法研究作者之间合作关系图的最新研究成果,通过作者之间合作作图分析,展示出作者之间合作及团队的发展演变情况。1988-2004年的作者共著网络呈现了各年的合作情况,该图获得了2004年IEEE信息可视化会议一等奖[14]。
(3)论文数据的地理地图呈现。在地理地图研究方面,Katy在美国地图上根据各研究机构的论文数展示了美国主要科研机构的产出与消费关系情况,地理地图呈现500家机构中论文产出最多的5个机构及对这5家机构引用最多的10个机构的关系[15]。
受上述代表性成果的带动及影响,近年有关基于论文研究科学地图的工作至少还包括文献[16]利用中国图书情报领域的18种核心期刊6年内的论文,研究作者合作网络的特征和结构;文献[17]利用期刊论文的关键词共现的科学地图研究了技术预见领域的知识结构。
2.3 基于专利的科学地图研究
综合调研目前基于专利的科学地图可视化研究成果,本文发现现有的研究主要集中在领域地图的研究上,可以归纳为专利计量统计图、时间序列发展趋势图、引用图、作者合作图、主题图等。本文主要对领域地图中的专利计量信息、专利引用网络、专利合作网络和专利技术主题信息的科学地图研究新进展进行介绍。
(1)专利计量信息可视化。专利计量信息可视化在近年专利分析中应用得最为广泛。Chen等[18]在比较中国八大综合经济区发明专利申请数量、中国科学院与法国国家科研中心、德国马普学会和美国麻省理工学院的生物技术发明专利申请数量时都采用可视化图形。
(2)引用网络可视化。引用网络可视化为挖掘信息流的发展方向、发现技术主题发展历程中的核心专利以及在技术演进中处于关键过渡地位的专利、发明人或机构等,提供了强有力的手段。例如,德国汉堡大学的Wartburg等[19]通过多级专利引用分析方法对技术演进进行了研究;美国Fannie Mae公司的Gress[20]通过1963-2002年美国专利的引文分析,研究了随着时间维度的专利引用网络,探讨了信息流的发展方向。
(3)专利合作网络可视化。专利合作网络可视化主要分为国家、专利权人、发明人三个层面,通过合作网络研究可以发现国家、机构的竞争合作关系,挖掘研发团队成员之间关系和团队规模。例如,Dou等[21]基于欧洲专利研究禽流感相关研究的研发战略和国家比较分析时,采用国家和专利权人的合作网络可视化对他们的竞争合作关系进行研究。图3是禽流感相关欧洲专利IPC相互关系图,反映各种相关IPC小类之间的关联强度。Sternitzke等[22]基于专利权人在专利申请中的合作关系绘制了专利权人合作网络地图(图4),以可视化的方式呈现不同专利权人之间的竞争合作关系,为专利权人发现竞争对手、寻求合作伙伴提供直接的参考信息。
(4)专利技术主题信息可视化。专利技术主题信息可视化的研究可以从主题词和专利分类等角度进行研究。例如,张娴等[23]利用Aureka分析平台对生物合成技术美国专利技术主题信息进行的可视化主题图分析。
最近有关专利的科学地图研究至少还包括Yang等[24]和Huang等[25]基于专利权人合作与基于专利引用网络的科学地图分析。
2.4 其他科学地图研究
除上述几种图书情报领域基于论文和专利的可视化科学地图外,科学地图的应用非常广泛,如美国人口局采用地理地图的方法描述美国移民的动态变化情况,MIT感知城市实验室也采用地理地图描述纽约市民长途电话通讯的分布情况,德国的一家Taggalaxy网站提供类似星系分布的动态可视化标签星系图谱,用于描述不同科学主题词标签的相互关系,Gapminder网站采用动态图形呈现了自从1820年以来世界各国的排放量等,类似用科学地图来研究和分析科学问题的例子非常丰富。
以上仅对目前有限的几项科学地图研究成果进行简要介绍,有关更多的科学地图实例可以参阅Mapofscience[26]和Places & Spaces展览[1]等网站。
图3 禽流感欧洲专利IPC相互关系图
图4 专利权人合作地图
3 主要的科学地图工具简介
目前用于科学地图研究的可视化工具很多,也各具特色,生成的图的可读性与美观度也各不相同。不同的方法用于回答不同的问题,应选择那些最能说清问题的图和方法。下面仅就在论文和专利可视化研究方面的几个工具进行简要介绍。
3.1 NWB与
NWB的全称是Network Workbench[7],是美国印第安纳大学图书馆与信息科学系Katy Borner教授近年开发的一款免费网络分析工具。该软件是开源软件,用户完全可以根据自己的需求整合不同的算法。软件可以分析的数据包括ISI,Scopus、Google Scholar、EndNote和NSF。软件利用GUESS等工具进行可视化。NWB软件主要应用于领域地图方面,属于科学计量学的研究范畴,用网络图谱来演绎作者、文献、引文之间的相互关联网络。
具体包括三个方面[7]:(1)定向连接网络,包括文章—文章的引用网络和作者—文章网络。一篇文章通过以参考文献的形式引用其他文章形成一个未加权的、定向论文引用图表,利用此类图表可以按照论文发表的顺序通过箭头指示信息流的方向。一篇文章的参考文献和引文可以及时地反映对先发论文的引用及被引图表,同时也是作为一篇文章的重要指标。(2)共现网络,包括共著、共词和参考文献共现。共著——用于衡量不同作者之间的相互关系密切程度以及不同国家或地区、乃至不同学科领域的作者的合作倾向与习惯。NWB工具可以非常灵活地基于不同的角度对共著网络进行分析。共词——科学单元的主题相似性可以通过文章之间的词共现分析进行研究,拥有更多相同词的单元被认为是具备高度的重叠性,进而推定有更高的相似性。参考文献共现——拥有相同参考文献的文章、专利或其他学术产品被称为具有文献著录连接关系。学术文章的文献著录连接强度可以根据它们共同引用的参考文献的数目进行计算,连接强度被认为反映主题的相似性。(3)共引网络,包括文献共引网络和作者共引网络。
工具是在NWB的基础上开发的一款功能更为全面的可视化软件,可以对学术数据在微观、中观和宏观层面上进行时间、空间、主题和网络可视化分析[27]。
3.2 Aureka
Aureka[28]是Thomson Reuter公司开发的知识产权管理和分析平台,提供专利检索、专利及文档管理、专利分析等功能。在专利分析方面,Aureka的主要功能包括报告工具、引证树和专利地图。利用专利引证信息构建双向多级引证树,形象化地显示出专利引用在先专利和被其后专利引证的信息。根据需要,用户可以按专利申请人、发明人、申请日和公开日等不同内容构建引证树,由此确定某一技术领域的发展趋势、技术发展线和研究某一竞争对手的专利布局等。报告工具可提供各种研究报告或某一领域(诸如发明人、专利权人等)相关信息,以及某一专利或白定义专利组的专利期满和弓1文信息等。该工具可提供信息摘要、详细文本式报告和图表式报告3种类型的报告。专利地图提供了一种文本分析工具,该工具以分析的专利样本为基础,对其中的相关词汇的词频应用聚类分析生成主题(词汇)地形图,以此来描述专利技术主题分布情况。该分析工具可以辨别和提出词汇系列中经常出现的关联词组以及它们在文献中的相互关系。在Aureka Theme Scape地形图中主要采用等高线图来作为全图绘制的基准。被分析的数据样本中的专利文献在地图中用点来表示。内容相近的文献在图中的距离也相近,最终形成山峰,图中不同山峰区域内表示某一特定技术主题中聚集的相应的专利群。同一区域的文献数量与地图中山峰的高度相对应。文献内容越相似,文献点在图中的位置就越近。等高线表明了相关文献的密度:最高峰的高点区域包含的文献最多,低点区域包含的文献相对较少;峰间距离越近,表明所包含的专利内容相似性越近。反之,则越远。专利地图上还可以同时显现某一特定技术主题涉及的专利权人等信息。
此外,目前国内进行可视化分析利用较多的工具是CitespaceII[29],CitespaceII是美国德雷赛尔大学陈超美教授开发的一款可视化分析软件,与NWB有很多相似的功能,包括共引、共词、共著、合作等,该软件免费供用户下载使用,具体操作方法可以参阅官方网站的说明文件。
其他科学地图可视化工具还很多,如用于专利分析的OmniViz[30]、用于社会网络分析的Pajek和Ucinet,特别是后两个软件,国内已有大量的应用。
4 结语
随着科学地图在图书情报工作中的广泛应用,其在描述科学结构与技术结构,分析国家或区域竞争优势将发挥越来越重要的作用。借助科学地图研究,将大大提升学科情报研究以及参考咨询工作效率,特别是将提高知识服务的水平。科学地图不仅对国家负责科技政策制定的政策决策机构有参考价值,而且对科研机构和科研人员提供决策和参考依据,对情报研究工作也颇具指导价值。科学地图可以帮助人们发现那些已经存在或淹没于大量知识、信息和数据中的问题,如疾病或战争、政府处理经济危机和其他重大问题的方法、全球范围内人与人之间的合作等。虽然没有任何人能做到以上所有这些问题,但随着越来越多的科学地图的展现,必然可以描述更多的科学问题。
在基于专利的科学地图研究方面,目前值得关注的内容有通过基于发明人、专利权人合作的网络可视化分析,分析个人和机构在创新过程中所处的位置以及发挥的价值;通过领域和主题的网络可视化分析揭示不同机构的竞争或合作关系;通过引文网络可视化挖掘信息流的发展方向、发现技术主题发展历程中的核心专利以及在技术演进中处于关键过渡地位的专利、发明人或机构;还应重视可视化图谱在确定研发重点、制定专利研发战略等方面所应发挥的作用。在专利可视化技术的选择方面,应针对不同的需求,根据各种技术之间的表现力差异选择最适当的可视化技术。此外,专利数据与论文数据在数据结构上存在差异,如其特有的专利家族现象、转让与授权行为等都将成为专利可视化分析的对象,如何面向这些特殊对象生成能反映真实相互关系的可视化图形、避免生成误导性的图形,这将是值得深入研究的内容。
美国科学地图研究的代表性人物Borner和Boyack指出[31],科学地图的可视化(或作图)并不能代替对研究对象的分析,可视化作图是对研究结果进行表达和呈现的手段。他们指出,科学地图将在跨学科研究方面发挥越来越重要的功能,目前基于科学地图的跨学科研究可以归纳为围绕以下几个方面开展:首先,以特定机构、国家和特定主题出发研究作者合作网络;其次,重视对中介中间性的研究,中介中间性已成为测度期刊跨学科属性的重要工具;第三,知识流研究试图回答与专有技能和/或跨时间、空间和主题空间的知识分布问题,常用引文分析来进行研究,但目前尚无法回答有多少信息以及是什么信息在流动,这是未来在算法设计与技术实现方面尤为值得重视的方向,特别是要重视语义挖掘技术的应用与发展。展望未来。科学地图的发展前景至少包括以下两个方面:第一,整合不同数据,包括不同领域、不同类型(如专利、论文、基金资助、教育、训练与经济活动等),甚至不同语种的数据进行可视化分析;第二,科学地图的作图形式与方法应立足于解决实际问题,目前还无法断定哪种作图方法与可视化实现效果是最优的,尚需不断的实践来检验与发展。
收稿日期:2011-01-26
标签:科学论文; 可视化管理论文; 信息可视化论文; 专利权人论文; 专利布局论文; 专利管理论文; 生物技术论文; 专利论文;