信息资源要素理论_rdf论文

信息资源元素论,本文主要内容关键词为:信息资源论文,元素论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1.Ontology

Ontology的本义是本体论。从根本上说,本体论是一种反映现实世界(自然界和社会)本质及其规律的刨根理论。这种理论用以指导人们去寻找事物的“始由出者”——“元”。所谓“知天命”就是应用本体论去观察掌握事物的发展规律,指导人们的社会实践。在知识发现的本体论应用中,具体说来,元就是一种表征(标引)事物本质的方法和模型。这种模型的要素便是元素。Ontology这一概念在知识发现的研究中已经具体化为某一领域的知识组织模型,它的作用是对该领域的一系列相关实体进行规范的有效语义描述。(1)描述对象的类别(计划、人、产品、文献、合同……)。(2)描述元素和属性的类别(文献号、代码、摘要、地址、坐标……)。(3)描述对象之间的关系。Ontology的语义模型需要满足下列要求:

①创建结构化的核心词汇——元素,正式定义单词及相互关系。元素是用来标引事物本质的词集。它既是元事物(反映事物本质的事物)信息负熵流的系统输入点,又是知识表现的输出口。以下是一张元素列表,从中可以看出语义元素和其他元素在本质上的一致性。

对象元素值(元数据)实例

化学物质成份含量 分子式

一次文献MARK、DC……元数据字段

词典义、形、音 音标、单词康熙字典

专利INID申请号WPI

数字化 二进制 0 1 机器指令

十六进制1-F

语义Ontology单词 叙词表

元素RDF Schema 单词 rdfs:domain

数学函数函数值Sin tang

网页NTML字体、标题tag

XML 文本

数据结构DTD/schema tag

Windows 键名键值 注册表

②定义概念间的逻辑关系和运算规则。以便有效地利用智能代理——应用程序。③保留模型的扩展空间,通过版本的升级促使知识和内容组织方法的进化以不断地去适应客观世界的多样性和复杂性。Ontology的基本标准是RDF(Resource Description Frame资源描述框架)和Topic Maps或Web Portal(主题图或入网口),其共同点是:①组织和存取知识。②能处理知识资源之间的复杂关系。③能描述信息之间的非层次关系。④能把语义图转成XML(Extensive Markup Language可扩展标记语言)格式。不同的是,RDF处理的是一次资源,Topic Maps处理的是二次资源,而ontology是RDF在知识组织中的应用延伸。RDF侧重于数据的结构,而ontology侧重于数据的具体内容。通俗地说,RDF创建了记录集,Topic Maps创建了记录集的总索引和导航图,而ontology为记录集的查询创建了叙词表。叙词表本身也是一种记录集。RDF也有自身的ontology,那就是RDF Schema,区别在于RDF Schema是面向元素的语义规则,而ontology是直接面向元数据的语义规则:RDF Schema是RDF的语义扩展,而ontology是RDF的应用扩展:RDF创建了一个资源描述的“骨架”,而ontology为“骨架”包上“皮肉”。它们的关系是:ontology是语义描述元素的定义方案,RDF Schema是元元素的定义方案。RDF Schema用元元素将ontology的元素导入RDF之中,在一个具体的ontology中,先由元素描述标引语义,再由RDF Schema将元素导入RDF之中,最后由XML的DTD/Schema(文件类型定义/模式)将RDF导入XML文件中。

2.语义描述流程

Ontology系统设计的基本步骤是:(1)确定语义描述方案,建立语义描述的数据模型和数据关系方程式,引进语义的表达和推理机制。可以说这是RDF在语义资源描述中的具体应用。(2)把设计方案写成RDF格式的数据文件。用RDF Schema去描述方案中的元素,建立元素间的语义关系即元语义关系(或称语义的间接连接)。(3)建立数据岛或称数据文件上网。用XML/Schema或XML/DTD引进ontology方案中的元素(称为标记扩展),以便于数据在传输中的识别。并用URI(Uniform Resource Identifier统一资源标识)对元素进行传输空间定位,增强数据的互操作性并区分多义词。例如价格(Price)一词可用Purchase:Price和Sales:price两个不同的URI区分进价和售价两个不同的概念,而同义词的区分则借助于ontology自身元素对于概念的界定以及上下文的链接。下图是ontology知识表现的示意:

RDF Schema----导入---->元素----描述--->对象(知识资源,包括文献、语义等以及物理实体)

其中元素用以标记对象以便计算机识别。元素的数据建模,是ontology语义机制产生的关键。元素的属性值(宾语)即元数据(外部词汇)用以确定语义的直接关系,而RDF Schema是一种称为元语言的元素描述语言。它用元元素来描述ontology中的元素。根据不同层次的知识表现,ontology可以有多样化的元素数据模型,DC(Dublin Core都柏林核元素)、MARC、MPEG-7(Moving Picture Experts Group动画专家组)等都是。为了加深对于ontology的理解,我们不妨将传统的知识表现和数字化的知识表现作一简单比较:

传统 数字化

语言 著录单元 元素

句法 著录规则 RDF XML/DTD DTDLess

语义 叙词表Ontology

工具 目录 索引 数据文件

以下举一个基因ontology的实例来说明,细胞色素(cytochrome.c)的分子功能是电子传递活动(electron transporter activity);生物过程是细胞死亡诱导(induction of cell death)和氧化磷酸化(oxidative phosphorylation);细胞成分是线粒体基质和线粒体内膜(mitochondrial matrix and mitochondrial inner membrane)。其中细胞色素C就是语义数据而电子传递活动,细胞死亡诱导等就是该语义数据的元数据,分子功能、生物过程、细胞成分就是元素。Ontology建模的关键是确定语义表现中的特性元素。由于这些元素是对事物本质的揭示,指出了事物的“始由出者”,我们才把ontology(本体论)当作知识表现的代名词。

3.语义描述方程式

方程式是一种隐函数,它是数据关系表达式的一种数学抽象。用元素建立语义描述方程式正是元素在语义网络中的妙用。一个ontology系统就是一个方程式的群体。它利用方程建立数据之间的关系,而方程之间的关系又构成了语义描述的种种约束条件,提高了语义描述的精确性。以简单的二元联立方程为例,方程甲和方程乙分别表达了抽象数据两者之间关系,然后可以通过寻找这两个方程之间的关系去确定抽象数据的值,这个过程就是推理和运算,运算是语义网络推理功能机制的数字化表现。立方程是一个描述过程,解方程即从方程中去寻找答案(求解)则是一个推理的过程。当然这样的提法只是说明了语义描述推理的原理,其具体的应用当然要复杂得多,需要多学科的合作,涉及本体论、人工智能、代理、形式逻辑语言、图论和拓扑学等方方面面的知识。尽管如此,然而立方程这一项语义描述的基础工作目前已经有了很快的进展,就以RDF的语句来说,它就可以方便地抽象为一个方程,RDF采用自然语言主(subject简写为S)谓(predicate简写为P)和宾(object简写为O)的三元结构去表达一个简单的语义,其中S就是对象主体,P就是元素,O为客体(其实就是我们常说元数据)。元素和元素之间具有语义上的并列、从属关系,利用元素间的关系可以通过语句的嵌套,串接构成并列复句和从属复句,从而可以达到表达复杂语义的目的,丰富了语义资源。为了论述通俗起见,以下的实例说明中采用了非正式的RDF格式。设有一多媒体资源“走遍美国”,网址为http://zjou.net.cn/FAUSA.mpg,责任者是美国麦克米伦出版公司,由北京外语音像出版社出版。该多媒体由26个曲目(episode)组成,可用RDF表示为:

S1:http://zjou.net.cn/FAUSA.mpg

P1(资源类型):O1(视频)

P2(题名):O2(走遍美国)

P3(责任者):O3(美国麦克米伦……)

P4(主题):O4(英语学习)

P5(摘要):O5……

P6(出版):O6……

P7(日期):O7……

P8(载体形态):O8(……97min……)

…………

pn(含):On(“序列”

S2:“序列”

P1′(episode 1):O1′(“林登大街46号”)

P2′(episode 2):O2′……

…………

P26′(episode 26): O26′……

S3 episodel 林登大街46号

P1″(起始时间):O1″(00:00:00:0)

P2″(结束时间):O2″(00:02:20:25)

P3″(持续时间):O3″(2mins 20 secs)

P4″(字幕副本):O4″………

这些语句对多媒体FAUSA.mpg进行了深度标引,从理论上说标引的深度一直可以达到某一概念(语义)。从这一标引实例可以看出,有的标引重语义,有的重结构,重语义的标引其实就是ontology,标引则是元素的基本职能。换句话说,元素就是标引用语,通过标引可以充分揭示数据的类目从属关系以及语义关系,尽管RDF语句的表达存在不少异同,但在结构上具有方程式结构的一致性。上述种种关系可以抽象化一种关系,即y=f(x)。f就是上述的种种元素的抽象,x、y分别表示描述对象,可以是具体事物也可以是抽象概念,以下是上述表达的方程式一览表。

X=主语

f=谓语y=宾语

方程1 FAUSA.mpg p1-pn O1-On

方程2 〈seq〉

p1′-P26′O1′-O26′

方程3 林登大街46号 p1″-pn″ O1″-On″

在这个实例中方程1嵌套方程2,方程2嵌套方程3,同时又通过串接引成语义链和结构链:

S1——p1-pn——On——p1′-pn′——On′——p1″-Pn″——On″

种种链接就是ontology的推理机制,推理必需建立在方程的链接之上。

4.语义循环和递归

如果把元素看作是语义描述的子程序或处理对象的“过程”,那么它在语义运动中会有多种形式。

4.1 内循环

内循环是概念或实体的分析和综合循环。最简单的形式如下:

其实这是一个SPO的循环结构。这种结构是一种语义的互逆表述。早在传统的图书馆学中得到普遍的应用,图书编目的分析和综合著录就是这种循环模式的典型。

4.2 语义泵

其简单模型如下:

举例如下:

FAUSA.mpg 的题名是“走遍美国”

FAUSA.mpg 含 “序列(曲目)”

这是语义描述的体内语义流向。而体内元素“题名”和“含”并非无源之水,需要外部导入。内部描述由RDF提供而外部导入则由RDF Schema提供。这二句都是用元素描述资源。而用资源描述元素可以在RDF Schema中表述如下:

S P O

元素 元元素

资源

“题名” 注释(comment)DC元素

应用范围(domain) 视频文献

取值范围(range) DC:Title

“含”应用范围 视频文献

取值范围 #episode

可见前者的描述中心是资源FAUSA.mpg,而后者的描述中心是元素“题名”和“含”,这种资源和元素的互逆描述形成了语义循环,元素是语义描述的中介和媒体(语义泵),它不断地在循环中吸收和释放语义,正如ATP在新陈代谢中吸收和释放能量一样。元素是吸收和释放语义的ATP,ontology就是通过元素进行语义消化的,而元素本身也有语义,它的吸收和释放必需借助于元元素。元元素的吸收和释放语义机制体现了元素导入功能,RDF Schema用Classes元元素导入元素并对其归类,用Properties元元素冠以元素的语义,定义它的属性,对元素进行表述。

4.3 递归性描述

当语义描述涉及一个新的概念。描述就会出现暂时中断,只有澄清完新的概念之后,描述才会返回断点继续进行。这种说明之说明是语义描述中常见的现象。第一语句可以依次跳入第n个语句,当第n个语句完成后,又依次从n-1句…返回到主语句中,引成了一个语句描述的回路。所谓“递”就是调用,跳转的意思,所谓归就是回到原来的陈述之中。递和归形成了语义描述的波浪运动。语义在递归中发出语义波,增强了ontology的推理机制。

5.概念空间的GPS

网络资源像一篇散文,形散而神不散。尽管这些资源在物理上是分散的,但在逻辑上却是集中的,或称虚拟集中。语义网络由于语义的多样性导致了资源的分散性。如何把这些分散资源虚拟地集中起来,是语义网实现语义功能的首要问题。解决这一问题的关键是语义的传输空间定位,即需要打造一个语义的地理定位系统:GPS。这就是所谓语义元素资源的空间管理。为了对元素进行空间定位以便数据的互操作。RDF/XML对所有元素指定了域名空间(name space)。并用URI对每一个元素进行标识。这样数据在传递时就有了GPS参照。标记通过名域进行空间定位。外部采用URIref(Uniform Resource Identifier Reference统一资源标识参照系)的绝对地址表示方法,而在内部(即默认条件下)使用简化的URIref的相对地址表示方法,例如在RDF模式中<rdfs:resource about=>就指向一个绝对地址,而<rdfs:classⅡ=>就指向一个相对地址,绝对地址又有全写(write out)和速记(QName)两种形式,使用URI对文档信息编码可以确保概念并非只是文章中的词,还能将其和人人都能在网上找到的唯一定义相联系,由于URI能够指向任何事物,包括物理实体,意味着我们能使用URI来表示诸如电话,打印机、电视机等外部设备,XML文件便能充当人们的代理通过XML编程实现对于外部设备的控制和访问。语义网将突破虚拟的理论世界,延伸到实际的应用之中。有了URI,不同的模式的数据可以共享,更不用说同模式的数据可以互操作了,例如联合编目。Ontology为URI提供了参照体系,它实质上是URI的叙词表。它通过参照确定标识之间的语义关系,如果说结构/模式是标记结构的注释和定义,那么ontology就是标识(元素)语义的注释和定义。

6.结束语

元素就是数据关系的表达式、函数式。Ontology就是n维元素的方程组和元素空间模型,ontology元素是语义信息的译码,正如基因是生物信息的译码一样。因此可以说ontology元素是一种语义基因(语义本体)。语义分析说到底就是语义成分的分析,正如化学分析就是对于化学成分的分析一样。语义元素是语义成分分解的结果。正如化学元素是化学成分的分解结果一样。提取语义元素就是提取语义基因,不妨说,ontology就是在结构化数据中导入语义元素的语义基因工程,它既代表理论又代表元素的结构模型。语义描述需要元素(即语句的谓语成分),不同的描述对象也就需要不同的元素。书目使用MARC元素,网页使用DC元素,而语义使用ontology的元素。本质上DC、MARC、ontology都是元素集。叙词表(thesaurus)只是ontology在语义(semantic)中的一个具体应用,它支持爆炸(explode)或扩展(expand)检索,使检索深度进入语义层次。元素在语义描述,知识发现中起到了语义泵的作用,它为系统导入了信息的负熵流,使数据从无序状态进入有序状态。这无疑就是知识表现的本体。把ontology的元素封装导入RDF之中,增强了系统的推理能力,从而使人工智能梦想成真。

另外,元素还可以按应用环境进行分类。MARC是机读元素,DC是XML元素,而ontology则是DC的扩展,堪称更丰富的RDF Schema语言。其实元素的具体应用还比比皆是,以电脑windows为例,它的核心:注册表(Registry)从作用上看,可称为“登录数据库”,是windows存储所有软硬件设置值的地方。实质上它是电脑操作系统的ontology,离开它电脑立即死机。表中的键词、键名、键值无非就是RDF结构中的SPO,不难看出,它的种种键名就是电脑的ontology元素。由此可知,元素无处不在,ontology同样无处不在,它是知识和资源组织管理的法宝。西方文明的最大优势表现在微观上的重大突破。西方人惯用元素描述事物,用元素表达分子结构、描述信息(数据)、表达基因、解析图形(解析几何)、数字化(二进制)、谱写乐章(音阶元素)。ontology应用于知识发现,首先需要弄清知识的结构以及它的组合(元素)。就此而论,ontology就是研究数据结构元素(本体)的理论。

标签:;  ;  

信息资源要素理论_rdf论文
下载Doc文档

猜你喜欢