国外数字资源聚合热点与前沿分析,本文主要内容关键词为:热点论文,国外论文,数字论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 我们正置身在或将置身于一个数据爆炸的世界,在这个世界中数字资源不断成指数级增长,那么如何有效利用这些日益膨胀的数字资源,消除信息孤岛,实现知识组织并催化智慧的结晶呢?数字资源聚合无疑可以为我们提供一个方向。本文将从数据资源聚合的角度,通过文献调研分析国外数字资源聚合的研究发展,以期为国内相关领域的理论和实践研究提供借鉴,为人们更好地利用数字资源打开一个窗口。 2 数据来源及研究方法 本文以Web of science为检索平台,选择SCI、SSCI、CPCI-S和CPCI-SSH数据库,采用主题检索方式,时间范围和学科领域不限,以“resource aggregation” or “digital resource aggregation”为检索词进行精确检索,检索出8条记录,由于检索出的文献较少,考虑可能出现漏检情况,笔者根据Citespace III对检出文献的关键词加以利用,以“linked aggregation” or “semantic aggregation” or “web resource aggregation” or “information resource aggregation” or “semantic association”进一步扩检,检索出356条记录,通过人工去重,并剔除非相关文献,最后得到346条记录。本文研究方法主要是文献计量法,并运用Citespace III可视化分析软件,通过定量为主定性为辅的方法对文献进行分析与归纳。 3 研究现状分析 3.1 文献统计分析 从下页图1可以看出,数字资源聚合源起于2000年,但一直到2004年,该研究领域都未引起学者们的重视;2005~2009年,开始出现第一个小高峰,文献数量呈逐年递增态势,2009年达到顶峰,引起学者们普遍关注;2010年又进入冷滞阶段,研究方向发生偏转;2012年,此领域研究进入第二个小高峰,之后文献数量又有所递减。总体来看,数字资源聚合领域正处于发展阶段,虽波动性较大,但中后期的研究发文量处于相对较高的状态。 3.2 国家及研究机构分析 使用Citespace III软件对国家及研究机构从发文频次、节点中心度和节点突增值三个方面进行统计分析。首先,进行相应参数设置,节点类型(Node Type)选择Country和Institution,数据来源(Term Source)选择Title、Abstract、Author Keywords和Keywords Plus,时间范围设定在2000~2014年,间隔(#Years Per Slice)设为1,Top N Per Slice调整为50,阈值(C,CC,CCC)分别设置为(2,2,20)、(2,3,20)和(2,3,20),算法勾选Minimum Spanning Tree。然后,点击运行生成数字资源聚合国家及机构网络知识图谱,如图2所示。 图2共生成40个节点,37条连线,每个节点代表一个国家或机构,节点的大小代表发文量的多少,用发文频次(Freq)来表示,节点间连线的多少代表合作程度的高低,从节点中心度(Centrality)的大小可以看出国家或机构影响程度的强弱。总体上,在数字资源聚合研究领域,美国和中国是两大主导国家,国家间的合作较为密切,也存在一些独立的研究国家和机构,整体上并未形成一个统一体系。 首先,合作程度上,独立研究机构和国家较少,只有罗马和日本自成一体;国家和机构间的联系多成链式或互为交叉式合作,比如美国、台湾和西北大学成互为交叉式,韩国和延世大学成链式合作。从节点连线看,美国是连线最多的国家,其次是中国,说明美国和中国与其他机构及国家的合作程度较高。此外,就合作对象看,与国家联系最多的机构多是大学。其次,发文频次上,本文对发文量4篇以上(含4篇)的国家、地区和机构进行了统计,如表1所示。 表1显示,从国家发文量上看,美国发文量最多,85篇,其次是中国,75篇,然后是英国、德国、加拿大和意大利等;从机构发文量上看,排名前七的都是高校,其中,英国有2所,美国有3所,中国有3所。总之,无论是国家排名还是机构排名,美国、中国和英国的发文量在国际上都是领先的。 再次,节点中心度上,美国和中国的节点中心度在国家中并列居于首位,为0.75,说明两国在此研究领域具有同样重要的关键性地位,虽然中国的发文量低于美国,但两者影响力不相上下。从机构节点中心度的对比看,发文量在4篇以上的机构一共有8个,但其节点中心度均为0.00,说明世界高校机构在数字资源聚合领域的研究影响力较低,单独的机构难以造就较大的影响趋势,这也从侧面说明各个研究机构应加强团队合作和交流,站在前人的肩膀上携手共进,共同推动科研领域的深入发展。 3.3 合著作者及作者共被引分析 研究领域的开拓离不开研究者,通过对合著作者及共被引作者的分析,可以了解数字资源聚合领域的研究群体分布状况、合作程度、关键性研究力量及高影响力作者,以知识图谱形式呈现一个比较清晰的学术贡献力量分布脉络。 (1)合著作者分析 重新进行参数设置,网络节点选择“Author”,阈值设定为(2,2,20)(2,3,30)和(2,3,30),其他设置保持不变,运行后得到数字资源聚合研究合著者知识图谱,如图3所示。 图3共生成33个节点,30条连线,作者发文越多,节点越大,作者间合作越多,连线越多。从统计结果看,4个连接节点及以上的有3个群体,3个连接节点的有2个,2个连接节点的有3个,独立节点的有6个。说明数字资源聚合领域的合著群体较少,且其合作并不紧密;在数字资源聚合研究的具体方向上,“单打独斗”的现象较为普遍。笔者对合作成员最多的群体进行了分析与归纳:其中,以Scott K Holland为中心的群体,共同合作研究了基于语义关联的儿童语言学习的磁共振成像功能[1];以Xiong Zenggang为中心的群体,共同提出了P2P网格资源管理集成模型,运用多代理技术和蚁群算法让每一个用户从集成的P2P网格环境中提取资源[2];以Zeng Guanping为中心的群体,对出现在旅游紧急报告中的语义类别词汇进行了分析,通过语义关联、量子衍生遗传算法深入揭示文本语义内容[3]。 (2)作者共被引分析 1981年,White和Griffith首次提出作者共被引分析(ACA)概念[4],之后被广泛应用并作为分析学科发展前沿的一种有效方法。通过作者共被引分析,可以了解同领域著者的情况,找出关键性作者和高被引作者,根据作者群的数量变化分析学科发展态势。首先,调整节点类型为“Cited Author”,阈值设为(2,2,20)(4,3,20)(4,3,20),其他设置保持不变,生成数字资源聚合领域共被引作者知识图谱,如图4所示。 图4中共有46个节点,143条连线,同被引作者之间合作比较密切。 其中,被引频次在10次及以上的数字资源聚合领域共被引作者统计如表2所示。 表2显示,在被引频次上,Martina和Patiersonk高居首位,Wechslerd和Binder J R紧居其次,然后是Thompson-schill S L和Hodges J R等,这些高被引作者在数字资源聚合领域都具有较高的学术影响力;在中心度上,Martina以0.37位列第一位,Patiersonk以0.36位列第二位,两者的中心度都比较高,都是数字资源聚合领域的关键性推动人物,即关键性被引作者。 此外,在突增值上,Anonymous的被引突增值为3.4686,可见其在数字资源聚合文献被引上突破较大,如下页图5所示。 图5显示,2008年,Anonymous在被引上出现突破,2011~2012年间被引强度达到最大,2013年出现回落,2014年又达到一个小高峰。 4 研究热点与研究前沿分析 4.1 研究热点 文献中的关键词可以作为查找文献的一种重要的检索点,笔者通过运用CiteSpace II提取所查找文献的高频关键词,通过高频关键词短语的频次统计分析国外数字资源聚合的研究热点。选择Term Type为“Noun Phrase”,并将网络节点设置为“Keywords”,根据需要调整阈值为(2,2,20)(3,3,20)(4,3,20),运行并生成国外数字资源聚合研究热点共现图谱,如图6所示。 图6共有51个节点,148条连线,关键词之间联系密切。本文又对高频关键词作了进一步的统计,如表3所示。 由表3可知,频次在7次及以上的关键词一共有25个,其中语义关联是数字资源聚合研究领域中最受关注的热点,频次为33;其次是记忆研究,频次为23;再次为功能性磁共振成像研究,词频为21。从中心度看,记忆研究中心度最高,为0.49;其次是语义记忆,为0.32,这两个是研究热点中较为关键性的热点。综合词频和中心度,可以发现,数字资源聚合领域研究的主要关键词有聚合、语义关联、存储、检索、系统、技术、语言、人脑记忆、疾病、呈像、认知等,这些词汇可以分为三个方向:一是数字资源聚合本身的研究,如聚类、聚合模型等;二是数字资源聚合技术的研究,如网格、本体、语义等;三是数字资源聚合应用研究,如病理研究应用、医学数据聚合应用、新媒体内容聚合[5]、数字图书馆资源聚合应用、文本聚合、Web应用、知识组织管理应用和检索系统应用等。从总的统计结果看,目前数字资源聚合的研究领域主要倾向于应用研究方向,在应用研究方面其主要是生物医学应用,如图像检索[6]、语义记忆、视听信息语义关联及医学数据文本挖掘应用[7]等;其次是在虚拟网络和数字图书馆中的应用,如聚合签名技术[8]、异构信息聚合[9]及网络平台聚合服务等。 从以上结论可见,语义关联与语义记忆作为两个主线贯穿于国外数字资源聚合研究热点的全过程。总的原因分析如下: (1)数字资源利用的深层需求挖掘和发现概念间的关联关系 不断发展的网络信息技术刺激着人们的信息需求,人们不再满足于对数字资源的简单的查询利用服务,而是希望网络能够真正地以用户为导向,提供更高层次的自动化、智能化的信息处理服务。语义关联可以将所有与以用户需求为中心的相关信息进行关联,建立数字资源间的语义联系,并利用语义间的关联信息进行进一步的智能推理[10],实现数字资源的深层聚合。 (2)知识共享需要语义支持 “图书馆学情报学的理论范式经历了从重视文献到崇拜信息再到崇尚知识的过程”[11]。1968年奎林(Quilian J R)在研究人类联想记忆时指出“记忆是由概念间的联系来实现的”,并主张“在处理问句时,将语义放在首位”[12],由此提出了语义网络知识表示方法,奠定了语义网络在人工智能等领域的应用基础。语义网络能够明确表达知识概念间的语义关系,同人的语义记忆方式异曲同工。基于语义的深度聚合有助于构建一个集信息内容、主题概念与用户对象于一体的“立体化知识网络”[13],更好地进行知识的表示、获取与利用,使分布、海量、异构的信息资源凝聚成有价值的知识信息,实现知识资源的智能共享。 4.2 研究前沿 1965年,Price提出对研究前沿的揭示应由约40~50篇最近发表的文献组成[14],自此研究前沿的识别方法问题不断得到深化,但观点不一,而在Citespace软件中,研究前沿的识别主要是通过对突发文献的分析。本文通过对共被引文献聚类及突发文献的统计抓取数字资源聚合的研究前沿,并进行时区视图可视化呈现国外数字资源聚合发展的演进路径。首先,设置节点类型为“Cited Reference”,阈值设为(3,2,20)(3,3,20)(4,3,20),运行后生成数字资源聚合共被引文献聚类知识图谱,如图7所示。 图中共有42个节点,125条连线,节点大小对应于共被引频次,节点与连线形成的颜色区域代表聚类类型,聚类的密集程度代表研究主题的集中程度,聚类区域的被引文献越多,该区域受到的关注度越高。图6共有4个比较明显的聚类:聚类(#0)信息融合,共被引频次最高,密度位列第四,前沿术语包括磁共振、语义表述和网络数据重组;聚类(#1)语义处理,被引频次第二,密度第二,前沿术语包括儿童、语义加工等;聚类(#2)预测,共被引频次第二,密度第一,前沿术语包括关联、事件和语义处理等;聚类(#3)痴呆,共引频次第三,密度第三,前沿术语包括语义记忆、磁共振成像等。从聚类类别来看,数字资源聚合研究前沿方向主要包括语义关联、磁共振成像、事件处理、网络组织。对数字资源聚合聚类图谱进行突发文献提取,得到的文献主要集中于语义处理领域,其中最具代表性的是失真校正功能磁共振成像和语义关联评估在语义记忆理论假设中的应用[15]。其次,将图7按时间顺序进行呈现,即可得到数字资源聚合近几年的研究时序图,如图8所示。 4.3 热点与前沿总结 综上所有统计数据,可以看出国外数字资源聚合研究的主线十分鲜明,研究热点和研究前沿相互交叉,主要体现在以下三大方面: (1)基础研究 国外对数字资源聚合理论层面的研究较之其他层面相对不足,但研究方向集中,主要包括:①分布及异构信息资源的聚合模型,如高效数据汇总的概率聚集模型[16]、高效资源发现的P2P网格模型[17]、可用资源高效开发的双层对等模型[18]以及面向服务的分布式异构信息资源聚合模型[9]等;②语义理论的模型,典型的包括用于资源推荐的模糊语言模型[19]、优于公知的主题检测方法的智能话题检测代理语义框架以及提供语义数据智能检索服务的Multikey Rank模型;③文本内容聚合的模型,典型的有可共享内容对象的参考模型——Scorm;此外,还有多源异构数字聚合的框架设计及动静态协议等内容。其中,语义理论在病理揭示、语言学习、网络数字资源获取优化中的研究已相对成熟。 (2)技术、工具和方法 数字资源聚合技术、工具及方法一直是国外相关研究的热点,主要的应用技术包括网格技术、聚合签名认证技术(CLFSR-QA)、语义网推进转化技术、云标签技术、语义共现技术、本体技术以及元数据收割技术和RSS技术等;主要工具方面,网络文献与网络知识信息管理工具RODIN、可进行网络资源隐蔽的NewsReaper系统、实现高效聚合的SERSE系统以及动态绑定式与合作式按需聚合的IVCE平台;应用方法方面,如可实现文本文档高校搜索的双极查询方法、可聚合图像基元的理解隐式对象拓扑(Understanding Implicit Object Topology)、模糊形式概念分析FFCA、在OLAP环境中聚合文本数据的Top Keyword聚合算法、基于中介存储的元数据聚合方法、提供规范语义描述的RDF及包含5级聚合框架的关系聚合方法等。 (3)应用领域 国外数字资源聚合的应用领域较为广泛,涵盖了医疗、生物、资源、语言、网络、媒体、馆藏等领域,具体应用如下: 一是语义技术的广泛应用。语义网是当前Web的延伸,可以通过自动化流程实现导航和数字资源的有效利用。目前,语义网已广泛应用于各类学科,如在生物医学领域,语义关联、语义识别、语义表述等语义技术能够为生物医学数据的识别、表示和推理提供良好支持,聚合异构数据,解决数据竖井(Data Silos)问题。尤其是基于语义的磁共振成像技术的应用使语义识别、语义表述和语义认知大大提升。语义关联技术的进步,使网络数据资源重组得以优化,能够让人们更好地识别非结构化文本信息,提高数据资源检索利用率。 二是本体技术的应用。本体描述语言(OWL)能够更好地揭示数据的语义信息,本体驱动的资源聚合模型已在地质、森林、语言及人口分布统计和生物群聚研究等方面得到了广泛应用,如本体可以描述地理空间信息和GIS服务的语义信息,建立点对点的资源聚合模型和多节点的资源发现机制,促进地理空间数据和GIS功能的共享,并实现异构数据的协同计算。此外,应用本体技术的自动概念意义关系抽取系统AME可以以二维图形或网络形式绘制概念及关系图。 三是RSS技术的应用。RSS是支持异构多媒体内容语义聚合的技术,使用户能够从该多种检索频道获得所需的信息。Messina A和Montagnuolo M提出了基于内容的Web报刊文章和广播新闻聚合与检索的无监督框架系统,其运用以RSS源和电视新闻广播节目信息作为信息源的混合聚类算法,实现多式联运服务。此外,基于本体的模糊形式概念分析(FFCA)与RSS订阅技术相结合,能够产生本体导向的知识网络,实现资源的语义聚合。 四是元数据收割技术PMH的应用。用于元数据收集(PMH)的开放档案计划(OAI)协议现在已经成为了数字图书馆馆藏管理的互操作性工具。使用该技术的伊利诺伊OAI-PMH项目描述了世界各地包括博物馆、档案馆、高校与公共图书馆、历史学会、数字图书馆等在内的500个机构举办文化遗产资源的元数据数组。 五是网格技术的应用。结合了DHT方法和分层方法并融入对等网络网格平台的凝聚力技术,通过图形化的监控解决方案,可以实现异构信息的最佳聚合。 此外,应用方面还包括标签云在文本挖掘中的应用,聚合技术在可扩展的资源聚合服务PaaS云平台构建的应用、多级构造的元数据网络在电子商务中的应用、链接本体在交互软件中的应用、通过语义微聚合实现保留查询记录匿名化的应用及聚合技术在图书馆联盟中的应用等。 5 结语 本文利用CitespaceⅢ软件对外国数字资源聚合研究的现状、热点和前沿进行了可视化呈现,从时间和文献量上看,国外数字资源聚合的研究始于21世纪初,此后十年呈不断增长趋势,总体上国外数字资源聚合正处于研究阶段的发展时期。美国、中国和英国在此领域是三大主力,各个国家与机构间合作密切,高校作为一大科研支柱,成为了数字资源聚合的主要研究力量。以Scott K Holland、Zenggang Xiong与Guanping Zeng为中心的三大群体,推动了网格与语义技术在互联网、医学及语言等具体领域的应用,其中,Martina和Pattersonk作为突出个体力量在语义技术研究上颇有建树。从关键词对研究热点的归纳和被引文献对研究前沿的统计看出,技术和应用是两大主趋势,以本体、网格和语义为代表的聚合技术在生物、医学、地理、语言、资源、新媒体和互联网等领域得到了广泛应用,语义技术已成为数字资源聚合的研究热点,聚合技术在医学及馆藏领域的应用已成为数字资源聚合研究的前沿。随着资源聚合技术的不断成熟,具体应用在数字资源聚合领域的研究地位将不断凸显。标签:聚类论文; 语义分析论文; 网络节点论文; 聚合数据论文; 网络模型论文; 无监督学习论文; citespace论文;