基于本体的知识组织与检索在特色数据库构建中的应用——以“嘉兴名人”数据库为例,本文主要内容关键词为:数据库论文,嘉兴论文,本体论文,为例论文,名人论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
网络环境下,图书馆以自身馆藏资源服务于用户的优势正在削弱,图书馆的价值不再取决于拥有的馆藏规模和广度,而是以它为用户提供所需信息的能力来衡量。所以,传统的“大而全”,“小而全”的观念已经不合时宜,建设特色化的图书馆势在必行。图书馆是否具有特色化,是决定图书馆未来命运的关键问题,要想在众多的图书馆中争得一席之地,就必须突出自己的特色、强化自己的优势、凸现自己的品牌、树立自己的形象。因而特色化信息资源建设就显得举足轻重。
嘉兴地处杭嘉湖平原,历史悠久,人杰地灵,传统文化底蕴深厚,为中国江南文化的重镇。发达的经济和良好的环境哺育了代代英才,形成人才荟萃,名人辈出,群星璀璨。政治家、军事家、学者、文学家、艺术家如繁星满天,史不绝书,成为嘉兴一道亮丽的文化风景。特别是文化名人在中国历史上占有重要地位:有唐朝大臣陆贽,元代大书法家吴镇,明代思想家吕留良,明清之际历史学家查继佐,清代浙西词派创始人朱彝尊,近、现代有商务印书馆张元济、“七君子”之一的爱国民主人士沈钧儒、国学大师王国维,艺术家、教育家李叔同(弘一法师)、文学巨匠茅盾、新月派诗人徐志摩、浪漫主义诗人穆旦、漫画宗师丰子恺、数学家陈省身、武侠小说家金庸、翻译《莎士比亚全集》的翻译家朱生豪、“三毛之父”漫画家张乐平、当代作家余华等。
近年据专家依可靠资料和严格标准,对全国400余个城市统计分析,自先秦至现代,这些城市中产生国家级杰出专家学者在10名以上的有39个城市,共957人,嘉兴市共有39名,占4.7%,在全国400余个城市中居于苏、杭、京、沪、常州、福州、宁波、绍兴之后的第9位。筹建“嘉兴名人”特色数据库,收集、加工、保存、展现与嘉兴籍名人相关的各种信息资源,以大量不同资源类型展现众多文化名人在嘉兴的生活轨迹和生活点滴,可以让我们更好地了解当时的社会、当时的人,从一个侧面还原嘉兴辉煌的历史文化,具有不可替代的史料价值与人文价值。
1.数据库资源组织模式
1.1 资源组织模式
如何筹建特色数据库,采用什么样的信息资源组织模式,是关系到特色库质量的关键问题。资源组织体系包括数据组织、信息组织和知识组织三个层次。数据组织仅解决了异构数据库中信息实体的合并问题,无法反映信息实体间客观存在着的多种联系。如何在异构资源系统集成的基础上,揭示客观存在于不同资源系统中的信息实体之间的关系,便成为信息组织要完成的任务。但信息组织的深度仅限于信息实体和文献层面,没有揭示信息实体内部的概念和语义,因而从信息组织系统中所获取的还是文献(信息)的集合,而不是知识的集合。
实现知识的有效获取,满足用户的知识需求,便成为知识组织要完成的任务。知识组织基于数据集成和信息集成,是对信息的优化,侧重于概念和关系(本体),是数字资源组织的高级阶段,是数据组织、信息组织发展的必然。它不仅能够实现数字图书馆异构系统局部资源的功能优化,而且可使数字图书馆众多的资源集合成一张巨大的知识网络,使数字图书馆的最终目标——面向用户的知识检索与知识服务成为可能。
1.2 知识组织内涵
所谓知识组织,是以知识组织方法为指导,以数据组织、信息组织为基础,以知识组织体系为支撑,组织资源结构中概念及概念关系的一种组织方式。任何领域的知识成果,都要以概念的形式固定下来,概念是知识的基本单元。概念间存在着多种复杂关系,通过各种逻辑关系联系起来的概念集合,就形成概念系统,有它特有的、不同于其他知识体系的概念集合。知识组织的主要对象是内在于知识体系中的知识结构和概念及关系。知识体系不是各种知识内容的汇集,而是相互间具有逻辑关系,具有一定层次结构,结构性是知识体系的基本本质。知识组织的本质,就是通过一定的技术手段,将内在于知识体系中反映知识结构的概念体系组织成一个能够有效获取知识的知识网络。
2 基于本体论的知识组织
2.1 本体概念
本体是一个源于哲学的概念,用于描述事物的本质,现广泛应用于知识工程、知识表示、信息检索和知识管理等领域。原意指关于存在及其本质和规律的学说,后来被计算机科学领域引入,在计算机科学中扮演着越来越重要的角色。本体能够将某个领域中的各种概念及概念之间的关系显性地、形式化地表达出来,从而将概念中包含的语义表达出来。它强调领域中的本质概念,也强调这些本质概念之间的关联。然而到目前为止,在计算机界还很难为本体论下一个确切的定义。其中,斯坦福大学的Gruber给出的定义得到了多数同行的认可,即本体论是对概念化的精确描述,本体论的最终目标是精确地表示那些隐含的信息,使它们可被软件系统启用和共享。具体地说,一个本体论是对概念化的精确描述,它刻画了概念之间的内在联系。
2.2 本体论与知识组织和检索
知识组织的重点和精髓在于对知识及知识的关联进行有效描述、处理和表示。围绕知识组织的精髓,产生了本体、主题图、概念图、词网等新型知识组织体系。由于本体作为一种有效表示概念层次结构和语义的理论和方法,具有良好的概念层次和对逻辑推理的支持,能在语义和知识层面上描述信息系统的概念建模工具,有知识组织体系的功能,能够实现对知识结构的描述与揭示,从而成为知识组织的主流技术,被广泛应用于计算机科学和信息管理领域,并且被成功应用于构建新的智能信息组织和检索系统。
2.3 知识本体实质
知识本体的实质即概念及其之间的关系。概念包含着特殊和单一的属性,在逻辑上形成“种——属——个体”范畴。这三类属性范畴是密切相关的;概念之间存在同一关系、从属关系、并列关系、矛盾关系和交叉关系等复杂关系。概念之间的各种关系使人类知识形成一个相互关联的立体网状体系。因此,我们可以这样理解本体:知识本体是反映概念及概念之间关系的知识整体。从形式上,一个本体论可以用语义网格来表示。在语义网格中,每个结点表示一个概念而结点之间的联系表示概念之间的关系。在实现上,可以用关系数据库来存放和管理一个本体论。本体是一种技术,它可以在许多涉及知识表示与共享的环境下应用。
2.4 基于本体论的知识组织的特点
基于本体论的知识组织应具有以下特点:(1)关系稳定。本体论在概念选择上没有严格约束,但一般应选择本质性概念,一旦概念确定,则概念的相互关系也就稳定下来。(2)网型结构。本体论各级概念间可以相互渗透,因而其概念关系一般都是网型结构。(3)主观性。本体论源于哲学,哲学与主观认识的不可分离性决定了基于本体论的知识组织具有主观性,每个人对某领域的本体认识可能不同,可以导致不同的本体论体系。
2.5 基于本体论的知识组织实现
在领域专家的帮助下,建立相关领域的本体;收集信息源中的数据,参考本体论对异构信息进行标引,并参照已建立的本体把收集来的数据规定格式存储在元数据库中,实现异构信息的组织。
首先要构建一个形式本体,也就是能进行形式化表达的本体论模型,然后用计算机软件形式表达出来,其一般构造方法可以设计成三段法。这样构造的形式本体论是一个动态系统,其概念、关系和软件均可根据发展的需要而不断更新。
第一段:概念化。所谓概念化就是确定某一领域的元概念。概念之间的关系可以包括同义关系、反义关系、属中关系、交叉关系、全异关系等。这与分类法和主题表有一定类似,但却没有分类法和主题表体系固定的限制,也不像分类法和主题表那样庞大。元概念选择可以根据需要增减,以这些元概念为核心,再根据信息学内容和表现形式进一步分类,就很容易与实际存在的信息或知识相连通。
第二段:模型化。在本体概念确定后,所谓模型化就是用图示法将某领域的元概念和元关系表示出来,构筑成形式本体论的关系模型,用网络联络。与普通树型数据结构的元数据不同的是,形式本体论容许各级概念的交叉渗透。
第三段:软件化。所谓软件化就是用适当的软件工具将本体论模型转化为能在计算机上运行的软件。由于形式本体论可以软件化,故适合用计算机处理,这是其特点和优点。一旦确定了本体论模型,就可以用程序设计语言将形式本体论表示出来,制成软件界面。而通过该软件界面皆可以将世界所有与该领域相关的信息资源、知识资源和研究资源联络起来,构筑成具有特定功能的系统。
3 基于本体论的知识检索
3.1 传统信息检索机制的局限性
有什么样的组织方式就有什么样的检索方式。搜索信息本身并不是目的,当人们带着某些目的搜索信息时,希望搜索到的信息能够帮助人们达到这个目的。信息加上用户的目的,实际构成了知识。因此,在检索的过程中,用户的搜索目的是知识,而不是毫不相干的信息。传统检索技术实现的方法多采用词切分、单汉字以及词切分和单汉字相结合,检索主要借助与目录、索引和关键词等方法来实现。此技术的优点是简单、快捷,但缺点是无法挖掘信息之间的内在联系,无法理解用户的需求,无法有效地处理互联网上的海量异构信息。
传统的基于关键词匹配是基于学科分类的检索工具,之所以不能令人满意,最主要的原因之一就是由于在信息资源的组织和查询中,没有考虑到信息资源所蕴涵的语义关系,无法挖掘概念之间的内在联系,搜索出更深层的信息联系。那些没有被文字直接表达出来但隐含在文本内容中的一些重要的信息也无法被检索,导致了信息检索效果的查全率和查准率比较低。因此,基于信息组织的关键词匹配的信息检索技术无法达到对知识的检索和利用。
3.2 基于本体的信息资源检索
针对当前信息检索工具难以满足知识获取的需求,在检索机制中引入本体,使检索系统能对查询请求和信息源进行语义分析,实现基于语义理解的知识检索。由于本体具有良好的概念层次结构,并且支持逻辑推理,这使得本体在信息检索,特别是知识检索中得到了更广泛的应用。借助于本体论的信息检索技术能够挖掘出信息之间的内在联系,使得信息检索的结果能更准确、更全面地反映用户的要求,可以实现知识检索的目的。
借助于本体和语义词典对关键词语义的刻画,系统能够自动寻找另一条合理的路径,进一步查找。假设要检索有关“本体论在信息集成方面应用”的相关论文,先根据用户的检索要求,提取检索原始关键词,即“本体论”和“信息集成”。由于论文数据库中没有“精确”包含这两个关键词的相关论文,因此,基于传统信息检索技术的查询结果则为空。但根据语义词典,可知“本体论”和“信息集成”与其他关键词之间存在有丰富的语义联系,如“本体论”和“本体”、“本体理论”、“信息知识本体论”、“元数据”、“语义网络”之间存在同义关系等,因此,系统则根据关键词的语义关系(等价关系、上下位关系),自动更改查询条件,做进一步的查询。
3.3 基于本体论的知识检索实现
针对当前信息检索工具难以满足知识获取的需求,在检索机制中引入本体,使检索系统能对查询请求和信息源进行语义分析,实现基于语义理解的知识检索。检索时,可以借助本体论将用户的需求转换成规定的格式,并在元数据库中进行匹配,然后通过符合要求的元数据来从异构信息源中查找到原始信息,并将结果返回用户,这样用户与信息系统的沟通效率便得到了很大的改善。
另一方面,本体论可以在用户检索的过程中为其提供多个检索入口。由于本体论是对概念之间关系的深层次揭示,可以形成庞大而有效的本体网络。因此,它能够为用户提供更多的检索点,比如可以提供某一事物在分类法、中图法、科图法、叙词表和不同语种的表示,这样,用户只需从自己最熟悉的检索点进入,而且还可以检索到所有相关信息,而不用去熟悉各种不同的异构信息库及其检索策略。此外,我们还可以提供某一概念的上位词、下位词、同义词、反义词等来方便用户扩大或缩小检索范围,提高检索效率。基于本体的信息检索系统的一般模型见图1。
图1
4 “嘉兴名人”特色数据库的构建
4.1 筹建基于本体的特色数据库
“嘉兴名人”特色数据库的筹建,就是要借助本体论的知识组织和知识检索功能,借助现代计算机技术,改变以往基于信息的资源组织和检索的不足,采用全新的知识组织和检索模式,解决信息系统语义异构的问题,构建一个基于本体的知识管理系统,实现基于知识的数据组织与检索。“嘉兴名人”特色数据库不仅仅是建立一个存放各种数据的结构,关键是要利用本体论揭示领域内严谨丰富的理论和表达的丰富知识,把形式多样、来源广泛或特殊收藏的、关于“嘉兴名人”这一主题的数字化资源,按照客观事物存在的本质和组成关系进行知识的组织,对这一领域的知识内容和资源的相互关系进行揭示,形成有序的、便于利用和长期保存的特色资源集合,争取实现在对特色领域内的信息资源进行组织时,进行本体论理论应用于数据库建设的有益尝试。
4.2 数据库筹建模式
“嘉兴名人”特色数据库在资源的收集中将以人为线,所选择的资源都与人物有关,主要包括与嘉兴籍近现代名人相关的各种信息资源,包括名人手稿、照片、书信、日记、录像等珍贵资源,名人故居也是资源的一种。争取把数据库建成资源类型多样、人物众多,既有资源特色、又有地域特色,具有系统性、学术性、有一定深度和广度的学术资源,能够实现文献资源的长期保存和人机交互的特色数据库。
在搜集和整理嘉兴名人文献资源的同时,确定“嘉兴名人”这一领域的元概念,并以数字化的表现形式提供资源,构建文献本体论模型。为了能构建出适合的地方文献本体,本体论的构建需与地方文献方面的专家、语言学家和信息学专家等的跨学科领域合作。
(1)元概念确定见表1。
表1
内容形式 语言载体处理
嘉兴期刊论文,会议论文汉语纸质标引
名人学位论文,地方志 英语电子检索
图书,照片,网页等
多媒体
分析
(2)“嘉兴名人”本体构建图示,见图2。
图2
5 结语
纵观现有有关本体的研究成果,尽管本体在多个领域得到了很好应用,但总体而言,本体在信息系统中的应用,包括信息组织、信息检索和异构信息系统互操作中的应用还未展开深入研究,尤其是对于图书馆数字化资源的本体构建的研究简单雷同较多,真正应用创新较少。譬如构建数字化资源本体的具体策略的选择、采用何种本体形式化工具、本体的推理机制、本体在只是检索中的应用等问题都有待专门性的研究。把本体理论应用于数据库的开发,是数据库开发理念、技术和方式上的有益尝试,目前在国内还没有成熟的经验,希望通过“嘉兴名人”特色数据库的本体构建,能为文献资源的开发、利用和保存找到一条新途径,对其他类型数据库的开发能有一定的借鉴作用。
收稿日期:2009-03-01