基于ECDL的数字图书馆技术结构及其演化研究,本文主要内容关键词为:数字图书馆论文,结构论文,技术论文,ECDL论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号G250.76
1 前言
欧洲数字图书馆会议(European Conference on Digital Libraries,ECDL)①是与数字图书馆联合会议(Joint Conference on Digital Library,JCDL)齐名的数字图书馆领域的国际权威学术会议。会议作者来自世界各国,尤其是在数字图书馆研究与应用居于前列的欧美国家,全面交流和研讨数字图书馆领域的前沿问题和先进实践。通过对ECDL/TPDL会议2007-2011年五年间发表论文的主题进行系统分析,有助于把握国际数字图书馆领域的研究重点和发展趋势,揭示可能产生重大影响的新技术新应用。作者利用②开源工具分析聚类了ECDL/TPDL五年间的主题,并就其中的数字图书馆发展模式、数字资源长期保存、协同工作环境研究、知识组织体系建设和用户行为研究五个重点方面的重要技术及实例进行了分析,希望为我国数字图书馆建设提供借鉴。
图1 ECDL2007-2011年关注的主题分布结构及变化
2 ECDL/TPDL 2007-2011年关注主题的分布结构
作者下载了ECDL/TPDL从2007年至2011年的五次会议全部论文,利用工具对其主题词进行聚类分析,绘制出这五年的主题分布结构图(见图1)。
2.1关注研究主题逐年增多、关注点逐年丰富
图1用中间圆列出了2007-2011年间的共同主题,并用其他圆分别列出了各年的专门关注主题。由图1可知,每年的研究主题都非常丰富,若干主题持续出现,研究主题逐年增多,分布结构图的范围越来越大。特别是2011年,出现从Web 2.0到Web 3.0的跨越,底层技术不断深入,中间资源层面则向研究数据和数字人文扩展,应用层面出现了愈加细化的应用与用户研究,形成了数字图书馆发展的新场景。
2.2 基本数字图书馆服务技术走向成熟
以图1中箭头方向示意可以发现,数字资源建设、系统构架、信息组织与检索、数字资源长期保存、用户界面研究、个性化图书馆、跨语言和多媒体信息检索、系统评估等成为贯穿数字图书馆发展的主题,并逐步走向成熟。知识本体、语义网、Web2.0等内容逐步出现,科学数据管理、关联数据、可视化、数字人文等成为新热点。协同工作环境主题虽然出现较早,但在后几年才开始具体化,并逐步深化,嵌入到用户的协同工作之中。
3 数字图书馆建设与发展模式
数字图书馆的概念出现很早,随着需求的变化和应用的发展,人们对“数字图书馆”模式与架构的认识不断深化。这方面的研究主题从最初的系统架构设计、集成技术应用,到后来的数字图书馆战略基础设施建设、协同工作环境以及用户应用环境研究。这既显现了这一主题的根基作用,又展示了数字图书馆概念与时俱进,逐步将数字图书馆作为数字社会和数字化工作生活的重要表现形式,并提出下一代泛在交流的数字图书馆范式等新概念。
3.1 数字图书馆架构与技术
数字图书馆架构研究逐步从系统平台视角扩展到数字图书馆发展整体架构,“以用户为中心”,引入新理念、新技术、新方法和新的服务模式,增强用户体验,例如Web 2.0[1]相关技术的应用和Web3.0技术的产生。表1描述了数字图书馆架构设计理念和应用模式的变化。
互操作机制一直被认为是数字图书馆跨区域、跨领域服务的重点。Kathleen Menzies[10]重点介绍了“英国高等教育机构的信息系统互操作机制”,不再把互操作性作为单一的实现标准,而是作为一种起中介支持作用的“翻译问题”,通过一个中间共享数据交换平台,将相应服务链接起来。Nicola Ferro等人[1]提出了一个“共享文档描述元数据的方法体系”,实现在不同领域服务之间的无缝连接,另外NDL[12]项目工程,应用一种标准的“轻量级信息描述对象XML框架”(LIDO),同样可以规范描述博物馆资源对象,从而保证了可对图书馆与博物馆之间不同的数字对象进行检索、浏览和链接;文档批注[13]方式的引入,创建了协作环境,丰富了数字图书馆中异构资源的集成,从而提高了互操作水平。而Thomas Gottron[14]提出一个“文档词云图”的概念,人与机器间互操作可通过视觉方式来完成,使用户更快、更容易理解内容。
3.2 数字图书馆是当前数字社会的一种表现形式
在ECDL2007中,Hussein Suleman[2]提出“没有数据库的数字图书馆”,即通过XML+XSLT+XHTML技术,充分利用社会化的知识内容,构建一个有用、能用的数字图书馆终端服务。而ECDL2009中,Gary Machionini[15]以“数字图书馆与数字社会”为题做主旨报告,指出数字图书馆不仅已成为人们日常生活中不可或缺的工具,而且将成为大家参与、相互协作的社会知识服务平台。每一个人都是知识的分享者,更是知识的生产者。因此,数字图书馆更要加强对标注、相互评价、标签云及平衡用户模式与用户体验的研究。传统文化遗产的数字服务,在2011年TPDL会议中也作为专题进行探讨。
3.3 下一代数字图书馆发展模式——以DL2.0为代表的协作研究社群环境
在TPDL2011大会中,以Monika Akbar[9]为代表的8位专家从教育界知识传播与获取角度,提出了DL2.0,即下一代数字图书馆的泛在交流平台。它整合社会知识和数字图书馆,利用用户与资源之间动态交互和虚拟社区,鼓励用户贡献、整合知识与资源,而且还扩展了内容管理、批注与评价、动态服务等,如内容的个性化和协同工作环境的创建。Adam Sofronijevic[16]以欧洲数字图书馆联盟的调研分析为基础,提出了以协作研究环境为基础,实现在阅读过程中的协作、互操作和参与,其核心理念类似于DL2.0。Clifford Lynch[17]以“数字图书馆的未来:理念的演化”为题,从支撑科研环境建设角度,提出下一代数字图书馆将是一个科学知识管理环境,集成学术关系、学术社区和事实。
4 数字资源长期保存
ECDL长期关注数字资源长期保存问题,对保存系统、方法、工具以及资源类型等多个方面进行过探讨。在2011年TPDL会议中,针对文化遗产的数字保存服务受到了更为广泛的关注,从协作保存技术方法、元数据标准框架和语义相关性等角度予以深化。具体表现为数字资源的保存服务、战略技术工具与Web Archive三个方面。
4.1 数字资产的“保存服务与工作流”
Carole Goble[18]在ECDL2008会议中做了数字资产长期保存的“保存服务与工作流”前沿报告,提出数字保存不仅仅是数字资产的管理、清洗、校验、批注、评价和可信赖保存的固化过程,而且应致力于面向未来的数字资产利用和增值,成为集保存服务、数字资产、工具以及代码脚本于一体的工作流场景,因此科学研究数字化流程的封装与数字资产、出版同样重要,也应该被保存。Silvia Wong[19]指出,90%的航空发动机设计是变型设计,所利用到的70%的信息都是以前的设计流程信息,工作流场景的保存起到关键作用。所以,保存服务与工作流,将扮演阅读出版物、处理数据和保存程序中的核心角色,是学术成果出版、保存、引用、组织、利用和存档等服务集成的新的表现形式。Carole Goble还演示了myGrid Taverna③工作流平台,目前该团队创建的myExperiment科学家社会网络和虚拟研究环境鼓励社团进行工作流的共享和保存。
4.2 长期保存战略及技术工具
数字资源长期保存已经成为许多国家和研究机构的战略计划,而且面对当前海量、多元化、分布的数字资源,长期保存范式已经发生了变化。2002年实施的NDIIP项目在2009年时又提出了创新计划[20],来支持分散的NDIIP资源收集。而Mushashu Lumpa等人[21]针对DSpace与LOCKSS两个仓储平台,发挥各自优势、探索集成创新,在DSpace与LOCKSS之间创建一种通讯机制,无缝链接,解决了DSpace不支持由LOCKSS提供的高分布式复制功能的缺点。针对小型研究机构面临技术缺陷、资金匮乏、人员配置不够等问题,Hoppla存档系统[22]提供了一套解决方案。由亚历山大图书馆开发的DAR数字资产仓储集成平台[23],有效管理数字资产的整个生命周期,建立了从生产、摄入、元数据管理、保存、出版和传播等一系列应用服务机制,也是一种选择。
4.3 Web Archive
ECDL会议中经常涉及Web Archive问题。Web存档主要的挑战是抓取、组织、保存,并能在未来提供离线浏览服务。基于这一点,Daniel Gomes[24]等在2011年对Web存档计划进行了调查,列举了1996年之后启动的42个Web存档计划项目。这些项目大部分集中在发达国家和地区。该研究强调,Web已经成为科研、教育的基础存在机制,但由于Web信息在线发布周期很短暂,80%以上的Web页面会在一年后更新或消失,所以Web存档对于长期保存意义重大。ECDL针对Web Archive的数据收割、获取、网络保存以及随时间演化等技术问题,进行广泛的讨论与研究(见表2)。
5 虚拟协同工作环境研究
随着网络技术的发展和社群、社区与社交网络的普及,数字图书馆的应用环境也面临重大转变,逐步提出了将数字图书馆建设成为支持科研和教育的应用场所的要求。同时,各种科研信息的开放性不断扩大,e-Science工程等也提出了开放性需求[30],搭建基于数字内容体系协作研究的基础设施已经迫在眉睫。ECDL最近五年对此给予了高度关注,一些项目组已经创建了相对比较成熟的研究平台,为最终实现多领域协作的知识发现虚拟研究环境,形成基于Web的科学研究集成研究平台,实现科学数据开放共享与复用,实现用户研究平台的动态组合和虚拟实验室的动态构建等打下了根基。ECDL历年在这方面的一些示例如表3所示。
6 知识组织体系建设
2007-2010年间,Web 2.0相关技术的应用逐步成熟,ECDL关注的研究主题也逐年增多。而在2011年,语义网与关联数据受到追捧,很可能演化成未来数字图书馆领域的研究热点,以顺应知识发现与知识服务的需求。在知识组织体系建设中,叙词表、分类体系、本体与词汇数据库等方面的研究更加深入,许多项目都尝试为某一领域的语义结构进行建模,最终提供智能检索、知识发现、语言映射以及语义网等知识服务。
6.1 知识组织体系建设和维护
在现实信息环境中,往往有太多的语料很难准确快速地收集和规范并纳入知识组织体系,特别是当前新概念、新词出现频率加快,更是增加了难度,尤其是要将“新出现”的语义概念与已有概念对齐(alignment)。欧洲数字图书馆联盟采取“软模块解决方案”[37]来克服这个难题,通过各个来源词表中概念之间和元数据元素结构之间的两种对齐方式,来创建一个语义参考网络,实现自动语义对齐,但是为了保证知识组织体系的质量,大规模的人工对齐方式仍然是一个重要环节。Christian Mader[38]提出将简单知识组织系统(SKOS)作为当前可控网络词汇的出现标准,即判断一个词是否属于新词,例如AGROVOC,EuroVoc,GEMET,and STW,依据SKOS自动判断新发现的词汇是否是新词汇,如果是新词汇即加入SKOS,否则进行词汇的规范。
在知识组织体系的发布与维护方面,Armando Stellato等人[39]开发了VocBench平台,提供知识组织体系的扩展、更新和版本维护等功能。它具有以下特点:多家研究机构进行协同化管理;遵循W3C框架标准;开源工具;对外部数据进行收割,自动加入Voc Bench平台的知识组织体系。
6.2 知识组织体系与知识服务
知识组织体系建设的一个重要目标是提供知识服务,为未来的语义网建立基础。尽管目前取得的效果仍然有限,但Felix Boteram[40]提出,在当前信息高度异构的环境下,知识组织系统集功能、表达以及相互关系于一体,将这些知识单元相互联系,才是进行信息检索与知识探索最有效的策略。Majorie M.K.Hava[41]等人使用知识组织体系进行情报研究与分析,通过KOS或者语料库分别对IEEE、Xplore等几个数据库中的十年文献进行概念抽取,分析这些数据库的影响力以及发展趋势。
同时利用社会标签,扩展知识组织体系,增强知识服务能力。Denise A.D.Bedford等[42]提出将“社会标签”增加到知识组织体系中。具体过程如下:首先初始化一定体量的“社会标签”概念进入知识组织体系,然后用户根据知识组织体系给出的标签概念的排序,选择作为自己的Social Tags,并可根据知识发现的内容,创建新的“社会标签概念”来扩充知识组织体系,实现知识组织体系的自我完善与扩充。
7 用户行为研究与Web 2.0技术
数字图书馆设计与建设的目标就是为用户服务,能够得到用户的认可是服务成功的考核关键。了解用户的需求、操作特性、知觉特征、认知心理等,同时利用Web 2.0等先进技术,模拟用户的操作行为,增强用户体验,保证所提供的服务符合用户的习惯、经验与期待。ECDL会议从2007年到2011年五年间,一直把用户行为研究作为关注焦点。
7.1 用户场景设计——分面与协作服务
在2007年ECDL会议中,Michal Tvarǒzek等人提出一种“分面浏览自适应的方法体系”[43],支持检索结果的动态分面,一定程度上实现了知识分类。国际上的Summon、Primo及Google等机构提供的发现服务中,都将分面作为它们的主要支撑技术。上海交通大学图书馆、北京大学图书馆以及西安交通大学等均引进上述发现服务中的一种,完成了门户的更新。在体验完善方面,Peter Brusilovsky[44]等人提出利用社会导航[45]来提高数字图书馆服务。
由上述数字图书馆的发展看出,以协作服务场景主导的设计可能是下一代数字图书馆的重要特征。而目前以Wikisearch[46]为代表的协作编辑服务已经得到用户好评,其以可视化的形式揭示知识信息,提高了用户认知能力,支持形成一个内容再利用、再扩展的知识平台。Hamed Alhoori等人[47]在协作服务方面进行了一个调查研究,主要在协作和社会使用、社会参考管理人员两个方面,针对当前实践和动态学术活动,将定性采访方法和定量在线调查方法相结合进行数据收集,然后跟踪、比对分析,从中发现动态信息需求、用户行为和研究人员的学术活动,来帮助与改善研究人员的活动和数字图书馆的服务水平。
7.2 个人信息管理——数据恢复角度
个人信息管理是获取、组织、维护、检索和使用个人使用的文档、网页和Email等信息的机制,关键是要支持和帮助用户在正确的地方,以正确的格式,发现正确的信息,进行个性化组织。Anna Zacchi等人[48]主要从用户习惯、服务机制的角度来加强个人信息管理,首先分析识别研究用户所处工作环境中的相关活动、资源文档的存储环境,然后决定对资源组织、命名,以及如何进行有效配置。
Rudolf[49]等人从个人信息丢失的角度,研究如何进行恢复,提出一种新的个人信息灾难恢复方法,通过分析个人信息(如社区、邮件、博客、评论等)中所包含相关人员的上下文信息,从网络空间抽取信息,经组合处理后重新生成用户个人信息。
7.3 电子阅读行为研究——电子阅读桌面
技术的革新使电子阅读的模式更加丰富,操作更加人性化。Jennifer Pearson[50]等人提出“电子阅读桌面”概念,通过设计一个文档阅读界面,模拟物理阅读环境,比如做笔记批注、折叠文件角或者插入书签等行为,形成读者与阅读桌面的互操作性。Moira Norrie[51]认为纸张在使用中所具有的启示性能够保证它将来继续在工作、家庭和公共场所使用。而且,随着信息技术的发展,许多研究工程已经将纸张与电子媒体、服务进行集成整合,使得触摸与电子纸张技术的混合构成取得巨大成功,例如电子白板、电子桌面等,已经实现了人的电子执行行为更接近于现实中的翻页、取书、选择书中的某一部分以及进行批注等行为。
8 小结
ECDL所关注的问题反映了数字图书馆领域的发展趋势。许多早期讨论的概念逐步实现了大规模应用,例如2008年关注的检索结果分面模式,已为许多数据库商以及图书馆服务机构所应用。综观ECDL2007-2011年,从信息检索技术的探索到知识组织及知识服务模式的探索,从单一数字资源的长期保存到跨地域、跨领域的协作保存,从用户的被动服务模式到主动提供知识服务,从单一服务机制到任务驱动工作流服务机制,从封闭研究环境到协作虚拟研究环境,充分体现了数字图书馆服务范式的变化。当前,伴随着科学研究第四范式发展,知识创造方法与技术面临新的突破,例如以关联数据为代表的数据整合和集成服务模式,促进结构化数据信息的协作式产生和重复性使用,可以使图书馆、档案馆、博物馆数据、政府数据、研究数据等多种数据形态无缝结合,从而为用户提供融汇、集成的知识发现、应用服务,同时也促进了基于e-Research的协作科研信息环境的发展。这无疑是数字图书馆发展的一个机会。
注释:
①ECDL从2011年第15届更名为数字图书馆理论与实践会议(Theory and Practice of Digital Library,TPDL)
②http://search.carrot2.org/stable/search
③http://www.mygrid.org.uk