基于语义的数字图书馆服务创新,本文主要内容关键词为:语义论文,数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2012.10.001
从21世纪起,随着互联网在世界范围内的普及,图书馆资源形态经历了印本资源向复合资源(印本资源+电子资源)的转变,并朝着纯电子资源的方向发展,图书馆实现了从传统图书馆、复合图书馆到数字图书馆的转型,在向数字图书馆联盟及其云服务延伸。语义技术的发展、语义网的建设与应用,促生了数字资源的语义描述、关联数据的发布、基于概念关系的信息组织、大规模数据的语义聚类和语义挖掘、可视化导航与展示等方法和技术在数字图书馆中的探索和应用,而且,将会在数字服务创新中得到更大的发展。正在衍生数字图书馆的新型服务,面向科研过程的学科化服务、科技实体的知识链接服务、基于用户特征的个性化检索、信息资源的智能检索、面向移动工具的语义检索、专业领域用户的知识推荐、用户参与的信息构建与获取、可视化导航与服务应用等服务方式成为新时期数字图书馆服务创新的前沿和潮流。
1 数字图书馆服务的发展历程
从1971年Michael Hart在美国启动“古腾堡工程”(Project Gutenberg,PG)[1]算起,数字图书馆至今已经发展了40余年。不过,直到1994年以后,世界各国的绝大多数数字图书馆项目才开始广泛启动,如美国的“数字图书馆首倡计划”(Digital Library Initiative,DLI),新西兰数字图书馆(NZDL)等。由国家图书馆牵头,1997年我国实施了第一个数字图书馆项目——中国试验型数字式图书馆[2]。回顾40余年来的发展历程,与数字图书馆建设息息相关的数字图书馆服务,在超越图书馆书目联机查询服务、数字文献模式化服务之后,正不断朝着数字资源集成化服务和数字内容用户体验服务的方向演进。
1.1 联机目录查询服务
20世纪70年代,为提高书目查询服务的效率,图书馆“联机公共目录查询系统”(OPAC)应运而生,逐步取代卡片目录,满足了用户“能够查找资源”的迫切需求;进入90年代,OPAC借着Internet的兴盛顺势升级为WebPAC,访问方式更加灵活。但是,无论是OPAC还是WebPAC,都只能依照查询条件返回各条记录相对独立的书目集合,无法揭示书目记录之间的关系。
1998年,国际图联(IFLA)发布报告提出了FRBR概念模型,利用“实体-关系”模型构建概念框架,令书目单元更加细化,书目内容得以强化,并按照层次关系显示结果,从而为OPAC服务带来了巨大变革。2003年,世界最大OPAC系统之一的OCLC启动Open WorldCat Pilot计划,向搜索引擎Google开放检索部分书目数据,甚至还通过WikiD计划,允许用户参与书目建设,推动图书馆书目查询服务向Web丰富内容和灵活服务发展,扩大OPAC面向图书馆、普通用户和网络的开放性。
1.2 数字化文献资源服务
20世纪90年代中期,各种数字图书馆项目在世界各地大范围兴起,首当其冲是数字化文献资源的匮乏,无力满足用户的数字资源需求。因此,各个数字图书馆项目不约而同地瞄准了已有资源的数字化。较有代表性的项目有美国于1996年启动的美国记忆(American memory)、澳大利亚学术电子文本及图像服务(SETIS)[3]等。
随着互联网上免费资源的日益丰富,信息服务人员根据用户需求收集特定的专题、学科或行业资源,建成学科信息门户网站并提供导航服务。国内外许多图书馆都实施了学科门户网站服务,几乎覆盖各个学科领域。其中比较有代表性的有英国社会科学信息网关(SOSIG)、美国亚利桑那大学的纳米科学门户(Nanoport)、中国科学院的学科信息门户和特色门户、CALLS的重点学科网络资源导航库、NSTL的热点门户项目等。
单个数字图书馆项目的资源数字化进展有限,而数字图书馆则具有资源共享的先天优势,因此,许多数字图书馆项目跨越学科或地域限制,结成数字图书馆联盟。例如,美国国会图书馆等机构于1995年组织成立美国数字图书馆联盟(DLF),我国教育部于1998年建立中国高等教育文献保障系统(CALLS)等。在更大范围上,数字化文献资源服务还迈出国界门槛,如中国和美国联合实施中美百万册数字图书馆项目(CADAL);美国、新加坡、中国等国家和地区于1997年组建环太平洋数字图书馆联盟(PRDLA)[4]等。
由此,数字图书馆服务具备了跨时空检索和大范围地数字化资源传递的能力。数字图书馆向资源主导型服务转变,满足用户“能够找到资源”的需求。
1.3 数字资源集成信息服务
随着各个数字图书馆项目文献数字化和数字资源库建设的推进,面对分布式和多样化的数字信息资源,数字图书馆开始关注分布式集成检索系统结构和互操作、数字对象唯一标识符、元数据互操作、数字资源开放链接及权益管理、网络化资源建设和组织等问题,以提升用户资源获取与利用的效率,实现集成化、一站式信息服务。
20世纪90年代末,跨库、跨平台检索系统已崭露头角。这些系统大多遵循HTTP、Z39.50和OAIPMH等协议,强调构造统一的信息服务系统,实现系统间无缝链接,一次认证、统一平台集成检索,支持用户发现和利用各种类型的数字资源。1998年,美国加利福尼亚大学圣地亚哥分校较早地开发了Database Advisor跨库检索工具,现已升级为SearchLight;2000年,我国科技部设立了国家科技图书文献中心(NSTL),提供集成检索服务;2004年,谷歌公布数字图书馆(Google books)计划,希望实现全世界图书和书目的网络化搜索,充分体现了分布式检索的功用。目前,影响力较大的跨平台集成检索系统主要有ENCompass、MetaLib、NLM Gateway、CALLS统一检索系统、CNKI跨库检索系统、CSDL跨库集成检索系统等。跨库检索为用户提供了深层次信息资源集成服务,令信息服务呈现了多元化与有限个性化相结合的态势,满足用户“更方便找到资源”的需求。
1.4 用户体验的数字内容服务
无论是OPAC服务、数字化资源服务还是集成信息服务,几乎都是围绕文献单元来开展,用户在享受方便的文献检索和获取服务之后,更需要能够解答实际问题的内容服务。基于用户体验的数字内容服务成为用户对数字图书馆服务的新要求。
数字内容服务需要提供对资源内容的动态过滤和组合的工具和服务,并嵌入到用户的信息利用环境中。美国国家科学基金会的NSDL项目、马里兰大学MiND项目等将以用户为中心的内容服务理念贯穿其中;美国北卡罗来纳州立大学图书馆的MyLibrary系统、我国国家工程技术数字图书馆的知识服务系统、CNKI的知识元库等一些项目也已经在用户中心化和资源内容揭示方面进行了实践。
强调用户体验的理念还体现在泛在服务上。泛在图书馆概念的兴起突破了现有的物理和数字图书馆的藩篱,实践“用户在哪里,服务就在哪里”的服务理念,又直接促使数字图书馆对云服务的关注和引入。我国CALLS三期建设提出了数字图书馆云服务平台(nebula platform)框架,旨在提供标准化、自适应和可扩展的数字图书馆统一服务和集成解决方案。尽管数字图书馆云服务还处于研究的初级阶段,但云计算环境下强大的计算能力将为资源内容分析、数据有效组织和深层语义关联带来发展契机。
2 语义网对数字图书馆的影响
语义网将数字文献按照语义网的规范标准转化成RDF文档,每篇文献在语义网中被赋予唯一标识,使数字图书馆具有开放性,其文献资源松散分布在网络中,取代了原来集中的方式。通过离线推理和在线推理的方式,对文献从语义角度进行组织,对文献之间的关联进行推理,对用户检索式与目标文献之间的关联进行推荐。语义技术的发展及其在数字图书馆领域的广泛应用,为数字图书馆提供了更加丰富的资源揭示、描述、组织、关联及呈现方式。
2.1 数字资源的语义描述
数字图书馆的资源丰富且类型多样,需要对这些资源从概念类型和语义关系角度进行有序化组织和管理,对资源知识内容进行描述和揭示,所以,数字图书馆需要从以文献单元、元数据元素为基础的信息组织,发展到以语义网为基础的知识组织,实现从文献信息描述向知识内容描述转变。元数据主要描述资源的外部属性特征,形成了以都柏林核心元数据(DC)为代表的元数据规范描述框架,语义结构简单明确,是数字图书馆资源管理的基本方式。主题词表和分类表则以词汇规范控制为基础,采用概念和概念关系表示知识的内在关联,语义颗粒度精细、规范,提供语义扩展机制,便于语义的精细化描述。本体研究成果用于更为精细的知识组织,在知识推理、知识发现等领域显示出应用前景。不同知识组织工具之间的相互映射、融合和集成,实现语义互通和互操作,进而实现对资源的整体描述。对数字图书馆进行知识的深度描述、挖掘和利用都有极为重要的作用,直接决定了数字图书馆知识资源的精细程度和服务方式。
2.2 数字资源的语义深度聚合
数字资源聚合是对知识语义关系的逻辑重组与还原的过程,是知识脉络的建立、激活、扩展、运用的过程。这需要以概念和概念关系为基本依托,通过规范的语言(术语)形式控制大量的知识内容和概念,按照统一的语义框架,将语义关系与各类资源紧密关联,形成由表及里、由面到点的多维度聚合。各类资源的聚合深度呈现出鲜明的层次性特征,在统一的语义描述框架下对资源的类型及学科属性进行判断、挖掘和推荐,通过概念主题、引文关系、学术社群划分等方法提高文献资源的关联度和类别化特征。在统一的语义结构支撑下,深入研究知识语义的颗粒度,形成面向外部属性的表层元数据聚合、面向文献内容的内容结构化聚合和面向非结构化内容的知识元聚合,构建具有一定伸缩性、涵盖各类知识资源的聚合关系网络。基于语义的深度聚合使得数字图书馆具有一定程度上的集成化、交互式、智能性特征,能够根据某种条件进行准确而适度的推理,在热点知识推荐、隐性知识发现、学术专题服务等方面有重要应用。
2.3 数字文献的科研实体关联方法
知识元素由知识节点和知识关联组成,其相互关联构成了网状知识体系。通过进行文献结构化解析,对抽取出来的科研实体进行规范命名和消重,可以构建以文献为纽带的科研关系网络,网络中的节点代表文献或文献中包含的科研实体,节点之间的关联代表科研实体之间的某种特定的科研关系。科研关系网络可以作为一种新的数字图书馆文献组织模型,从科研关系角度探索文献的相关性、分/聚类以及多维度检索等技术。对数字资源进行语义标注、解析为地点、人物、事件、主题等语义节点,围绕着文献、作者、机构、项目等各种科研实体,利用共词(共关键词、共术语)、文本聚类等方法,通过语义计算,提供科研关系维度的数据组织和导航。根据文献中学术参与者之间合著关系、引证关系、语义关联关系、人员机构变动关系、人员刊物关联关系,可以挖掘学术研究团队中的学术交流情况,揭示科研领域在结构、分布、变化、趋势等方面的总体模式,识别领域内的学术社群和社群演化过程,监测重要机构、团队、科研人员的学术动态。
2.4 数字图书馆的语义检索技术
传统检索方法主要依赖于关键词检索,无法进行智能的语义分析,常因对用户检索关键词缺少准确的界定导致查全率和查准率此消彼长,需要从语义角度将传统的关键词匹配转化为机器可理解的语义推理,通过复杂的语义统计分析模型,借助语义分析工具,实现语义相关度的计算和用户特征的提取,量化表示用户检索和文献之间的语义关联密切程度。通过对单个用户或者社区用户访问行为的挖掘,提取出其个性化的特征,分别计算检索式与用户特征的相关程度和检索结果与用户特征的相关程度,可以为用户推荐其可能感兴趣的检索式和检索结果。通过建立用户属性和语义特征,计算用户与资源之间的语义关联,形成用户资源关联知识库,再根据其个人资料及图书馆的服务内容,以决策树、规则归纳、神经网络等方法找出用户与服务的关联规则,有助于图书馆服务的主动推送,扩大潜在用户群,还有助于数字图书馆制定服务策略,满足用户的个性化需求。还可利用机器翻译和词典等技术实现不同语种之间检索的转换,根据源语种的检索结果对生成的目标检索式进行自动的偏差修正,或者对目标语种的检索结果进行相关性分析,过滤无关的检索结果并对返回的多语种信息进行语义理解,推测用户的检索需求,提供关键词自动更正功能,拼写检查自动纠错,帮助用户改进检索策略调整检索方向。
2.5 数字图书馆可视化技术
在数字图书馆领域应用信息可视化技术,将各种抽象信息及其内在联系以可视化图形的方式呈现给用户,实现用户与数字图书馆资源、服务之间交互的直观化和简易化,方便用户理解数据、分析信息、控制信息、传播知识。信息可视化可以实现海量资源可视化管理,以一种全局的可视化方式展示馆藏资源的具体分布,为后续的查找、检索、利用信息提供便利;可以将信息资源、用户提问、检索模型、检索过程和检索结果中各种不可见的语义关系转换成图形,引导检索过程、支持检索策略控制、向用户提供信息反馈、与用户进行动态交互,实现整个检索过程的用户驱动;可以直观生动地显示检索结果,揭示检索结果中文献之间的关系、检索词与文献之间的关系,帮助用户理解检索结果,提高检索的效率与性能。应用信息可视化技术研究科技的知识结构、可以生成各种可视化知识图谱,表达学科、领域、技术、文献、作者、机构之间的关系,实现面向信息分析的知识可视化表示,从而开展技术预测、科技竞争主体监测、科技评价等,丰富和创新数字图书馆的知识服务内容和服务方式。
3 语义环境下的数字图书馆服务创新
以语义为基础的知识组织,实现文献信息描述向知识描述的转变,将使数字图书馆服务的模式发生质变,从被动的、按文献特征进行组织的传统服务模式,向着主动的、以用户需求为导向的知识服务模式转变。中国科学技术信息研究所近年来在不断强化数字资源建设和大数据整合规范的同时,深化数字资源的语义化组织,推进知识单元的关联链接,开发可视化呈现的知识关系网络,正在实现馆藏数据的深度聚合。依据国家工程技术数字图书馆实践与探索,语义网技术将从以下几方面创新数字图书馆服务。
3.1 嵌入科研过程的知识链接服务
语义网技术的发展,形成了全新的数字科研信息环境。包括科研基础设施、科学数据、观察实验、计算模拟及理论分析等内容,以及信息的分析、关联、可视化、获取和共享等一系列操作都开始全程嵌入到科学研究的每个环节。科研人员已经不再满足于一般的信息获取与利用,而是希望将深层次资源服务融入其科研工作环境中。用户科研过程中涉及的数据、试验、机构、项目、设施、人员都成为重要的信息资源,这些资源被数字化的表征,通过语义技术发现资源之间的各种关联,从而为科研人员提供基于知识有效链接的信息服务。现有的云计算技术和云服务平台能够为用户提供基于科研过程与任务的一站式知识链接服务,通过构建云服务平台将分布在互联网中各个图书馆的资源和服务整合起来,推出的“知识云”应用产品,针对领域复杂的数据、结构、序列资源,为用户提供信息分析的工具,实现基于科研过程的知识链接服务。
3.2 基于语义关联的资源发现服务
借助语义技术,在数字资源中嵌入语义导航体系,可以增强数字图书馆平台的资源发现功能。语义导航体系从文献资源或数据集合中汲取关联的语义信息,将论文、著者、题目、主题、领域和相关人物等作为主题进行表现,构建主题图将主题进行关联,并依据主题图进行用户导航。用户可以得到科研创新全过程中所需的相关信息,实现科研创新的目标。同时,语义导航体系还能增强数字图书馆的浏览功能,根据用户提交的关键词,使用分类表进行匹配和映射,在搜索结果中同时给出所涉及的大类,并按照所属类包含资源的数量多少表示大类的大小。语义导航体系融入用户与系统的交流,实现浏览与检索并重,系统对用户每一步搜索策略都能做出相应的反应与调整。通过用户参与知识发现的过程触发知识的偶然发现。
通过规范的资源组织体系同网络词表之间的有效映射,为用户提供一个词表术语和关系的数据空间模型,实现直接的RDF查询,支持各种查询语言,实现自然语言检索服务,支持具有等级结构的标签云图信息空间的过滤机制,语义导航系统使用可适应的多媒体技术进一步探索信息款目之间的关系,实现词表的共享服务与资源发现。
3.3 融入可视化技术的动态多维知识呈现服务
语义环境下,充分揭示知识库中复杂的结构关系,利用图形图像手段,为知识资源定位提供多种快捷、直观的入口和途径,从信息服务中的用户体验过程入手,将与查询相关的知识文档的相关度直观地显示出来,以构建、传达和表示复杂知识,并推荐相关的知识资源,通过丰富的数据观察方式帮助用户识别隐性信息。
新一代数字图书馆还要考虑用户对生动图像的喜好。采用超文本、图形接口技术以及Z39.50协议,支持用户使用图像和多媒体界面、甚至语音界面和触摸屏界面等,体现出动态多维知识呈现的特点。基于FRBR模型,可以以作品和载体表现类聚,按照作品内容的相关度对检索结果集进行排序,以树型结构显示,使用户一目了然[5]。利用标签云来增强图书馆目录的检索功能,细化检索主题,从获奖奖项、人物姓名、故事发生地、体裁、主题等方面进行分面浏览,实现较为丰富的交互式搜索界面。
此外,数字图书馆应用Mashup模式,在检索的结果中实现无缝集成,用主题树及标签云等动态图形可视化地显示主题间关系,为用户提供更为直观的、人性化的使用体验[6]。随着语义技术的不断深化,以丰富用户体验为目的的数字图书馆动态多维知识呈现服务将得到进一步的发展。
3.4 基于情景敏感的开放式跨界服务
语义网技术为整合图书馆、商业数据商和互联网上的文献资源,联通图书馆各个系统用户的服务功能,收集散落于图书馆内部、图书馆之间、区域内乃至更广领域的信息模块创造了条件,为跨系统、跨部门、跨学科、跨时空的知识关联与协同管理提供了手段。一方面可以在图书馆中融入外部的资源与应用,增强和扩展图书馆的资源发现平台;另一方面也让外部的应用能够交互使用图书馆的资源,实现与其他系统、平台的无缝集成。基于情景敏感的开放式跨界服务采用Mashup的形式,将维系信息的纽带从关键词拓展为多维联系,采用模块化组装思想,根据用户接受服务的当时当地具体情景自适应地提供用户所需的服务。
目前情景敏感相关的应用大多是资源情景敏感,在OPAC与书评、网络搜索、二次文献、馆藏信息、引用期刊、文献传递、全文、个人文献管理工具之间建立情景敏感的资源链接,完成从检索到获取全文资源的一站式链接服务[7]。而用户情景敏感借助于用户-机构归属关系、机构-资源订购关系、资源-检索系统关系以及OpenURL携带用户位置情景信息(IP地址),确定用户所在机构,根据机构确定可以使用的数据库列表,向用户提供可检索或者大学科相关的数据库,并以显示哪些资源可以下载,哪些需要原文传递和馆际互借,在集成期刊平台和数字参考咨询中实现的情景敏感服务。关联数据的不断发展,为用户建模提供了新的思路。数字图书馆将其用户模型发布为关联数据实例,建立起不同系统所拥有的同一用户模型片段的关联,呈现具有更多信息的用户全景图,支持用户情景敏感服务优化,不仅开放数据,同时开放功能,将图书馆数据真正嵌入到社会信息基础结构中去,使图书馆数据不仅存在于网络,而且成为开放网络的一部分,便于搜索引擎发现和索引[8]。
3.5 超越时空的数字图书馆移动服务
移动设备和移动互联网的发展为用户提供了泛在、智能和便捷的信息获取方法与途径,手机微博、手机阅读、手机支付、手机搜索和手机地图等移动服务方式被用户广泛应用,极大地扩展了图书馆开展移动服务的空间。在新的语义环境下,图书馆移动服务将会有新的应用扩展空间,如移动服务的平台、操作系统、用户驱动功能、移动在线支付及整合的移动社交解决方案等。通过用户移动服务获取图书馆提供的基本书目服务,如搜索图书馆目录、续借和预约图书馆资源等,实现资源的发现、推荐与评论等用户交互的移动社交功能[9]。语义技术不断发展的环境下,数字图书馆移动服务必将不断扩展和深化。
4 结语
数字环境造就的数字图书馆,在语义技术的推进下,在科研大众对知识内容的渴求下,将过渡到“语义图书馆”的发展阶段,实现嵌入科研过程的知识链接服务、基于语义关联的资源发现服务、融入可视化技术的动态多维知识呈现服务、基于情景敏感的开放式跨界服务和超越时空的数字图书馆移动服务。语义技术在知识内容揭示与资源语义组织方面将发挥重要作用,通过语义服务推进知识服务。总之,“语义图书馆”进行语义服务的时代即将到来。
标签:数字图书馆论文; 图书馆论文; 语义分析论文; 数据集成论文; 内容聚合论文; 文献回顾论文; 数据检索论文; 信息集成论文; 语义网论文;