知识发现本体论研究,本文主要内容关键词为:本体论论文,发现论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在计算机技术、数字化技术和检索技术出现之前,人们的知识发现对象停留在整体图书、期刊或整份报纸等宏观知识单元之上。尽管有期刊索引的出现,但并没有从根本上改变知识发现对象的宏观性。这就使得我们不能深入到宏观知识单元的内部,对知识进行更细致的发现和采掘。
知识发现是人们认识宏观世界的整个过程,是精神世界和物质世界的相互碰撞的结果。本文主要阐明精神世界中人类知识沉淀的发现。这些沉淀经过数字化处理后已经进入物质世界,成为人类宝贵的知识财富。和物质财富的不同之处在于它能为知识经济提供取之不尽、用之不竭的生产要素从而提高物质财富的利用价值。因此,知识发现已经成为人类改造客观世界的又一研究课题。
1 知识发现的必要条件
知识发现是一项开发知识资源、规模空前的信息工程。它是“数字地球”建设的基础。其下包括三大工程:①数据描述表达工程;②软件开发工程;③通讯技术工程。可以说“知识发现”的每一步进展都是图书馆和互联网联姻的成果,都离不开图书馆界和工程技术界尤其是IEEE的携手合作。工程的学科范围涉及计算机、数学、哲学、信息论等广泛领域。其中要求解决的主要问题是:
(1)信息空间包括传递空间和表达空间的物理和逻辑定位,建立座标体系以及座标的映射关系,通过数据的交换和互操作实现信息运动的场间互动,扩大辐射面和覆盖面。
(2)建立信息空间的资源描述体系和语义网络。
(3)建立知识发现的导航体系。
2 基于元数据的知识描述
元数据是关于数据的数据,前者是指资源,可以代表客观世界(物质的、精神的)的客观存在或称万物(anything);后者则是前者的描述用词也可称为特性元素(property element)。
图书馆是最早使用元数据描述知识的部门。图书编目就是元数据的知识发现应用原型。以后随着互联网的发展,面对铺天盖地而来的知识信息,元数据开始在知识发现领地崭露头角,发挥了它在描述、标引和查找信息中的元作用。
1995年在俄亥俄的小镇都柏林召开的元数据国际会议首次根据互联网信息搜索的需要对原图书编目元数据作了适当调整,公布了都柏林元素据核心集(Dublin Core简称DC)。该集包括15个元素,不仅继承了图书编目元数据的大部分特性,而且也把类似图书馆卡片目录的方式推广到网络文献型资源的描述和自动标引,后来又被用于互联网上搜索引擎之类的知识发现工具。
数据和元数据的网络版分别是HTML(Hypertext markup language超文本标记语言)和XML(Extensible Markup language可扩展标记语言)。后者通过提供更为灵活、合适的信息标识提高了网络通讯的互操作功能。之所以为“可扩展”是因为它不像HTML那样格式固定。XML实际上是一种描述其他语言(例如索引语言)的元语言。由于它是在国际元语言文本标准(ISO 8879—1968)的通用标记语言SGML (Standard Generalized markup language)基础上开发的,所以能在不同类型的文件中使用定制的标识,并通过声明(declaration)为其配置命名空间,从而为知识发现提供了网络空间的查找目标。如果说HTML是会话语言,那么XML就是网络资源的向导语言,但 XML毕竟只是一种语言工具而不是语言的灵魂,只有把内容嵌入其语言外壳,XML才能表达人们对于知识发现的具体要求和用意。
3 知识发现的结构化语言
元数据充其量只是一堆描述词,自身并不具备知识发现功能,它只有通过应用语言表达旨意,通过 XML语言向Web传达旨意,才能完成知识发现的各项任务。既然元数据是数据的数据,那么离开结构它便没有存在的意义,也就丧失表现于知识发现中的生命力,代表信息实体的数据也就永远只能处于无序的静止状态。因此,数据的结构化是知识发现的关键之举,是知识信息由无序进入有序从而焕发活力的过程。图书编目开创了数据结构化的先河,以后又被计算机数据库管理技术广泛采纳,成为知识发现须臾不能离开的行动拐杖,使知识发现取得了长足的进步。DC的制定只是人们进入网络世界后迈向知识发现的第一步,其15个元素远远不敷知识发现的需求。于是根据不同的知识对象类别开发了各种供知识发现应用软件处理的元数据。表1仅举数例:
表1
┌──┬───┬──┬────┬───┬───┬──┬──┐
│名称│AACRⅡ│ DC│MPEG-7 │PRISM │ RSS │ GO│RDF │
├──┼───┼──┼────┼───┼───┼──┼──┤
││ 图书│网页│网络│产业 │新闻 │基因│结构│
│应用│ │││ │ │││
││ 编目│编目│多媒体 │介绍 │频道 │分析│描述│
└──┴───┴──┴────┴───┴───┴──┴──┘
所有结构化语言均由数据、结构、元数据三大要素组成。数据好比建筑的原材料;结构好比设计图;元数据好比粘合剂。数据又有主(Subject)、客或宾(Object)之分。至于结构则是结构化语言组织的核心软件。有什么样的结构就有什么样的知识发现功能。元数据可以根据特殊需要无限扩充,结构也同样多彩多姿,但各种复杂结构的设计原理是基本一致的,这就是结构在本体意义上的一致性。RDF(Resource Description Framework资源描述框架)为数据的加工提供了一个标准方案,但它本身并非结构化数据的具体应用。它是结构化数据语言的设计语言和工作母机。RDF给出的只是一个数据结构化的设计框架而不是具体的结构款式和体裁,因此可以广泛用作各种结构化语言的开发工具。可以说它是各种结构化数据模型的孵化器。运用这个框架可以根据实际需要嵌入不同的元数据,生成各种基于RDF的结构化数据模型。对于该框架的描述需要用到基本元数据(或称基本对象元数据)。RDF的元数据基本分两类。一类用于表达资源的类别特性,通称RDF Classes;另一类用于表达其他特性以及特性的特性(元数据的元数据),通称RDF Property。
4 知识发现的本体论抽象
知识发现是人们认识客观世界的认识过程。知识发现首先是知识发现规律的发现,在错综复杂的大干世界中通过认识再认识总结出知识发现的一般规律。知识发现的研究就是一个从特殊到一般,从一般到特殊的认识过程。本体论从根本上说,它是一种反映现实世界(自然界和社会)的本质及其规律的哲学理论,然而,本体论虽然研究“存在”,但却不是“存在”本身而是对“存在”的一种描述、解释或认识。既然它的实质是反映“存在”,那么本体论能否成立就不是自明的,就需要一定的说明,其中认识论的说明是最有意义的。不言而喻,如果我们的思想不能认识现实世界,如果我们关于现实世界的表象和概念不能正确地反映现实世界,即思维与存在没有同一性,那么本体论的理论就不能建立。知识发现的本体论抽象就是试图通过认识论的实践透过“知识”的现象寻找“知识发现”的哲学内涵,从而指导我们的知识发现研究。本体论认为无论事物如何纷繁复杂,它都有一个“始由出者”,有一个作为其根本本质的东西。这一探索,从以下几点可以略见端倪。
4.1 对于信息资源的认识
对于资源的解释,众说纷纭,如果找不到本体、本源,知识发现也就只能就事论事,无法上升为理论。所幸,人们现在已经一致认为它是万物(anything),甚至可以代表一个抽象概念,这样一来,知识发现的客体就有了明确的定义。
4.2 对于信息资源属性的认识
大千世界,本体论以描述、解释为本,而描述的“始由出者”何也?为“元”也!于是我们从数据中又抽象出“元数据”和“元语言”的概念。
4.3 对于信息资源相互关系的认识
事物是在不断地发展变化的,数据也不是孤立静止的。人们已经不能满足于停留在对事物进行简单地、静止地表面化描述阶段,开始从文献信息的描述转向知识信息、从静态描述到动态描述的研究,知识描述的本体论抽象深入到事物的本质内部,反映了事物的发展变化过程、内部的细微结构以及宏观性状(即事物间的相互作用和反应——互动性),并能根据对现有信息的分析、推理和逻辑运算促进知识的再发现,由于采用了资源的非环(acyclic)链接的语义结构促进了语义网络结构的优化,便于相关信息的有机结合,既能反映信息之间的层次(hierarchy)又能实现彼此的横向链接,通过特性的继承简化了重复的描述,通过多链增加了和周边通讯的触须。
资源相互关系的本体论抽象模型:
(1)语言模型
即用SPO三重结构语句(Statement)表达资源间的抽象关系,其中:S(Subject主语)O(Object宾语)表示两种资源,通过P(Predicate谓语)表达事物由此及 (Transitive)彼的相互关系。这种模型可以灵活采用语句嵌套和串联编织语义网络。RDF是处理元数据的基础,它提供了自动处理电子资源的方法(工具),基本的数据模型可通过“资源”、“特性”和“语句”三类对象描述。每一个RDF表达式都可由这个模型表达。RDF数据模型表达资源的句法的基础是XML。RDF可用三重语句和图形表示。所有的表达方法是等效的,在实际使用中并没有表达之间的限制。
如句子:钟家瑞是网页http://www.zjou.net.cn的作者,可用RDF/XML表示为:
〈? xml version="1.0"? 〉
〈rdf:RDF xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#
xmlns:s=http://desription.org/schema/)
〈rdf:Description about=http://www.zjou.net.cn/〉
〈S:Creator〉钟家瑞〈S:Creator〉
〈/rdf:Description〉
〈/rdf:RDF〉
……
其中,前三行定义了命名空间,第四行定义了资源即主语,第五行定义另一个资源“钟家瑞”即宾语,谓语是作者。Xmln:rdf说明了以rdf:为前缀的RDF术语Description about以及以s:为前缀的元数据的网上出处。
(2)图解模型
该模型用节点(node)表示资源,用弧(arc)表达关系,并大量采用空节点加强了语义网络的模块化、个性化以及表达格式的多样化(如包、容器、表格等形式)便于相关资源的聚类。图解模型和语言模型是相互对应的,只不过它更为直观,便于知识采掘的设计的构思。
(3)表达式模型
表达式模型是对上述两种模型进一步本体抽象,可以简单表示为y=f(x),其中x,y均为资源,而 f表示两者的关系,可以是数值关系,也可以是映射关系,也可以是主宾关系……。具体关系被抽象为一般关系。例如一个具体数值关系:y=kx+b,可以通过坐标映射,将其还原为一个直线图形,又如一个具体的主宾关系:“孔乙己”的作者是“鲁迅”,“孔乙己”就是主,鲁迅就是宾,而“f”就是作者。利用这种关系表达的本体论抽象,一般关系式只需赋值便可表达特定的信息关系(Instance),关系式的本体论抽象不仅实现了信息空间常量和变量的辩证统一,而且揭示了特性(Property)所反映事物关系的自变和应变的本质特性。具体的特性内容又以“值”来高度抽象。然而,f所表达的还仅是资源间关系的特性,至于资源自身的特性如何进行本体论抽象?表达式模型用了Domain(定义域)和Range(值域)对资源的本体描述作了高度的抽象概括。例如可以指定x的 Domain为文献(Document),y的Range为人(Person),那么事物的描述就不再停留在个别事物的关系处理上,而体现了本体论对事物从特殊到一般的认识方法。显然“文献的作者是人”比“孔乙己的作者是鲁迅”更有一般性。如果不对资源的特性作一般性说明,就会出现语义混乱现象。当同一名称代表两类事物时就会张冠李戴,例如“carcin”既可代表“癌”又可代表“蟹”,人们就会在查找“治癌”时却找到了“捕蟹”,令人啼笑皆非。传统的资源关系描述用了“用”、“代”、“属”、“分”、“参”等表达关系的特性词。但“特殊”有余,“一般”不足;而本体论采用和传统描述的逆向途径,即从一般到特殊的描述。这就是两者的本质区别。
4.4 对信息空间的认识
知识发现就搜索空间而言是位置的发现,知识资源的空间定位是知识发现的前提,它指明了知识事件发生的具体地点。随着纸质知识信息载体的数字化,知识发现的寻址方式发生了根本变化,必需对各种寻址、编址方式进行本体论抽象才能满足网络传输对数据的可交换性和互操作性要求,文摘号是一种最原始的知识编址。自从计算机问世以来,人们又发明了基址(段址)+偏址的计算机内存编址方法;而进入网络时代后,人们又统一使用URL(Uniform Resource Location统一资源定位)对网页编址。最后,知识发现又通过寻址的本体论抽象找到了更为一般的寻址方法,即URI(Uniform Resource Identifiers统一资源标识)及其参照(URI ref)。知识发现在内容上通过标引配置检索点,在存取地点上通过标识配置信息的路径,从这个意义上说RDF/XML就是知识发现的索引配置文件。URI ref打破了URL的空间局限,把空间标识普及到知识发现的每一个单元,知识发现寻址的本体论抽象建立了地址物理结构和逻辑结构的对应关系,从而为逻辑和物理之间架起了桥梁。
4.5 对应用软件的数据互操作性认识
知识发现通过对信息运动规律的本体论抽象,解决了数据的互操作性问题,从而使信息空间的管理一体化成为可能。各种应用系统经过本体论的抽象不再孤立运作。知识发现的本体论抽象为各类软件提供了一个互操作的平台。通过本体抽象、标引、标识、标记、描述,结构求得了大同,保证了数据在各系统间的畅通无阻。总而言之,知识发现的本体论理论是知识发现寻求大同的理论。
5 知识发现的导航系统
知识导航意味着知识发现的微观描述进入宏观管理的阶段。从微观上看,每一个知识单元就是一棵知识树,而从宏观上看,整个知识空间就是一片知识林。因此知识发现在数据结构化的基础上还要实现搜索空间的结构化,为其绘制一张主题地图。如果说RDF为我们提供了一个封装元数据的编目框架,那么主题地图就是网络资源目录的组织框架,通过主题地图我们又对知识发现的目录组织进行了本体论抽象,其本质就是知识空间的宏观主题分类标引,图1是一张它的示意图:
图1
图1中,罐表示数据库,矩形表示文件,云代表主题地图,它好比一颗导航卫星不断通过虚线(URI ref)进行资源跟踪,各类信息(数据库和文本)通过它穿梭往来。
6 知识发现的瓶颈制约
知识发现的本体论研究受到了元数据本体论发现的制约。资源是多样化的,特性更是一言难尽。有限的元数据难以表达无限的数据特性。这是数据的无限存在和有限表达之间的根本矛盾。如前所述,本体论不是自明的,它要认识论的验证和说明。当我们观察一个圆,我们发现其半径和周长之间存在某种关系,便假定其比值为常数,因此肯定它为圆本质的本体。显然这是不够的,该常数是什么,我们必需用到级数理论证明它等于3.1415926……。本质的揭示是有认识过程的。本质是“存在”的抽象,并不是孤立于“存在”的“精神”。真所谓项羽力能举鼎,却无法举己。尽管RDF通过Sub-property(子特性)和Super-property(父特性)扩大了元数据的涵盖范围,增加了范畴索引功能,也可以称得上是语义网络中的“项羽”了,但它仍然无法摆脱自身的局限。就拿计算机操作系统来说,所谓的自举程序(Boot up)其实也离不开一定的外部“存在”条件的支持。 2004年,DC组织(DC Initiative)即将召开第四次元数据国际研讨会,笔者认为如何冲破目前元数据描述框架的束缚,走出元数据的“自我中心困境”,依然是与会者将会面临的核心问题。
7 知识发现本体三元论
知识发现的本体可以分解为三部分:(1)标记满足了资源的可读性;(2)标识对资源进行空间定位,满足可查性;(3)标引用于资源的描述和著录。可读、可查和描述构成了知识发现的本体。标记供浏览器识别,标识供搜索引擎设置资源路标。标引又称内容标记,表明了字段的属性,用于从文本或资源中抽取和加工元数据。这些本体在知识发现的早期已经形成。在手工检索的时代,标识采用文摘号,标记采用“._”“/”等分隔符形式,而标引已经采用元数据,当时称为“著录项目”;进入计算机时代,三者一统于MARK格式;进入网络时代,又先后出现了HT- ML和XML格式。从URL到URI,寻址范围从网页扩大到词表或产品等资源范围。由于编址本体的发现和编址空间的建立,数据有了可以调用的办法,大大增强了知识发现的能力。首先,可以跨系统链接外部的元数据,如评价、评论等于一体。其次,可任意增补本资源的描述供外部调用,从而提高了采掘和发现知识的能力。由于对于知识发现对象本体有了新的认识,知识发现的范围已从图书、期刊和网页拓宽到了世上万物。由于使用“特性”(元数据)作为知识描述的本体,从根本上打破了以往知识描述的局限性。资源描述可以方便地分解和重组。既可以对相关资源进行聚类,进行分类检索,又可以将某一资源分解为若干片断(如幕,帧等)进行分析著录。绝对地址为资源之间的数据互操作提供了方便,而相对地址则用于资源内部的数据调用。此外,用语义网络表达语义本体比用语义树的扩展性更强。例如GO的单词采用了一种称为“直接非环”的结构图,它和层次结构的区别在于“子”项,可以有多个“父”项。例如,己糖生物合成有两个“父”项:己糖代谢和单糖生物合成。因为生物合成是新陈代谢的“子”项,己糖属于单糖,当任何关于己糖生物合成的基因归入己糖生物合成时,它就自动地归入了己糖代谢和单糖生物合成。如果某一子项描述了基因产物,那么其“父”项也同样可以用来描述该产物。上述关系见图2:
图2
上述讨论表明本体论揭示了知识发现的本质属性。如果我们抓住了它的本质,就能更有效地发现知识。我们已经发现了一些知识发现的本质。例如,资源共享的本质是数据调用。资源定位的本质是命名空间、坐标和标识。语句描述的本质是SPO三重结构,语义描述的本质是元数据。DC只是元数据的近似值,正如3.14是π的近似值一样,可以根据不同的精度要求无限扩展。我们已经有了定义π的方法,但遗憾的是还没有找到定义元数据的展开方法。如何像级数那样展开π去展开元数据值得我们研究。数学描述方法的基本原理是使用函数和集合论。这些方法对于资源描述也往往有效。在解析几何中图像是和函数一一对应的。我们正是使用函数来描述图像并得到了两者本质的一致。而在RDF中,资源特性和元数据是对应的,如上所述我们发现可以用y=f(x)模式有效地描述资源,用集合论说明资源间的关系以及子属性、父属性等。特性描述的数字化以及文本和图像的数字化是知识发现的两个主要问题。前者和描述体系的构建有关,后者和二进制数有关。他们都是知识发现的本质发现。当然,即使我们不用XML,比如建立一个数据库并定义好每一个字段,计算机也能理解,但在网络上这样做耗资太大,就这点而论,使用XML不需专门的投资,因为它能利用浏览器识别数据。XML提供了网络资源的数据交换功能,其交换模式为文件—文件或数据—数据(调用)而数据库的交换模式是库—文件—库(套录)。从HTML到XML,资源定位发生了从URL到URI的转变。因此资源描述体系也需进行相应的提升。RDF好比一台知识宝藏的钻探机,它通过深度标引使知识采掘深入到了知识内部,完成了知识发现手段从文献标引到知识标引的飞跃。 XML优化了数据的传递,而RDF优化了数据的描述。两者相得益彰。XML是用于网络数据交换的逻辑语言,这种逻辑语言是计算机数字语言和人类自然语言的接口,在HTML下,计算机只能理解页面的结构和数据的布局(layout),但无法理解数据的属性,XML却能;而RDF则是数据的描述语言,它和 XML的完美结合RDF/XML构成了新一代的索引语言,不光是在文字形式和版面上而且在语义层次上实现了数字化,使语义空间、表达空间和网络数字空间三元链接无缝。
8 结束语
迄今为止,知识发现经历了多次质的飞跃,反映了人们的知识从量变到质变的变化过程。由于认识的量变导致了人们认识的质变,事物的本体论抽象,使知识发现在语义描述、空间定位、数据转换、互操作性等各个方面发生了质的变化,并伴之以认识论上的飞跃。然而,元数据却只有变形(Metamorphosis)而没有变质。如前所述,本体论并非“存在”本身,它的成立需要认识论的说明。认识可以不断地飞跃、逼近真理,而存在是无法飞跃的。和其他所有学科的研究一样,知识发现不仅要知其然,还要知其所以然,本体论的研究就是所以然的研究,本体论的概念自从引入知识发现领域后,已经有了特定的涵义,以其基于逻辑的语义,更为一致、详细准确、意义突出地表达资源的类别、属性以及相互关系,因而已经成为定义那些描述、表达知识的术语的专用语言。尽管XML DTDs和XML Schemas(XML描述语言)能够在不同资源间交换数据,但由于缺乏明确的语义,机器无法可靠地执行XML词汇的任务指令,因为同一术语用于不同场合会有不同的意义。RDF开始通过简单语义和标识相结合谋求解决问题的途径。有了 RDF语义,各种资源类别包括其父类、子类以及各种特性,包括父特性、子特性、定义域、值域都可进行定义,在这个意义上,RDF可以说是Ontology语言的雏形。
标签:本体论论文; 元数据论文; rdf论文; 语义分析论文; 空间数据论文; 关系模型论文; 语言描述论文; xml语言论文;