基于XML的三个常用元数据描述工具的评价与比较,本文主要内容关键词为:常用论文,评价论文,工具论文,数据论文,XML论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号 G250.73文献标识码 A文章编号 1007-7634(2003)06-0615-04
1 引言
XML是继HTML之后的又一种WEB标记语言,它为用户提供了灵活的标记扩展机制,使得不同内容的资源能以格式良好的自定义的标记元素来表现。元数据是描述信息资源或数据等对象的数据,主要用来识别、评价、追踪资源,以及方便对资源的管理、发现、查找和交换。随着计算机网络的发展,特别是Internet的普及,网络环境下信息的描述和处理成为一个重要的问题,相应地网络环境下的元数据问题也成为一个研究的热点。DTD和XML Schema是XML中常用的进行标记扩展的工具,RDF是专用的元数据描述工具,网络环境下的元数据描述通常就是借助这几个工具,利用XML的标记可扩展性来完成。在这三个工具中,DTD随着XML1.0最早被提出,伴随着XML应用的普及和人们对DTD认识的加深,又进一步提出了RDF和更有发展潜力的XML Schema。
2 DTD
DTD作为XML1.0规范的重要组成部分,它使用EBNF(Extended Backus Naur Form)语法完成XML文档结构的定义,即XML文档中标记的定义。一个XML文档只能对应一个DTD,一个DTD由一系列标记定义组成,包括元素定义(element declaration)、属性定义(attribate declaration)、实体定义(entity declaration)、注释定义(notation declaration),是目前支持和应用最广泛的一种标记扩展工具。例如,一个用于描述MARC元数据的XML文档的DTD可以定义如下:
<!DOCTYPE mare [
<!ELEMENT marc (record) *>
<!ATTLIST mare TYPE (CN |US| UN11) # REQUIRED>
<!ELEMENT record (datafield) *>
<!ATTLIST record
type CDATA # REQURED
info CDATA # REQUIRED>
<!ELEMENT,datafield (subdatafield) *>
<!ATTLIST datafield
tag CDATA # REQUIRED
ind1 CDATA # IMPLIED
ind2 CDATA # IMPLIED>
<!ELEMENT subdatafield (# PCDATA)>
<!ATTLIST subfield
code CDATA # REQUIRED>
]>
上例中各个标记和属性的作用如下:
<MARC>:用于标记内容的开始和结束,属性“type”用于标记MARC类型,如CNMARC,USMARC,UNIMARC。
<RECORD>:用于标记MARC记录的24byte定长头标区,属性有“type”和“info”。
<DATAFIELD>:MARC记录数据字段区的数据字段标记,对应MARC记录中每个字段的内容,属性“tag”、“ind1”和“ind2”分别代表字段标识、第一和第二指示符。
<SUBDATAFIELD>:MARC记录数据字段区中数据字段的子字段标记,属性“code”为子字段标识。
通过该例,我们可以看到DTD较好地完成了XML的标记扩展(即元数据描述)的任务,目前在Internet上已有大量使用DTD描述的元数据存在。但是DTD提出较早,人们在使用过程中也发现它有很多的不足之处。其主要特点如下:
①难以理解和书写。由于采用的是不同于XML的名为EBNF的语法,因为需要先了解EBNF,这对于人们的阅读和书写都带来了困难。
②难以使用程序进行元数据的自动处理。由于使用EBNF语法,这给DTD的自动处理也带来了麻烦。通常情况下,我们需要对DTD进行验证,这时使用DOM就不可能对使用EBNF语法书写的DTD进行分析,而必须使用专门的分析程序进行分析验证。
③DTD不支持数据类型。DTD只支持包括文档类型在内的少数几种数据类型,这意味着在实际使用过程中经常需要进行类型的转换才能达到预想的效果。
④DTD不支持Namespaces。由于必须把所有的元数据放在一个DTD文件中,如果需要对已有的DTD进行扩充则只能在原文件的基础上进行重写,这对于元数据的维护和扩充都十分不方便。
总之,DTD在简单的文档结构定义方面是较出色的,如果考虑到XML,是源自同样使用DTD的SGML的话,理解在XML1.0中选择了DTD就不难了。但如果我们考虑到XML的用途现在已不仅局限于文档处理,那么DTD的这些缺点就变得日趋严重。因此W3C(World Wide Web Consortium)在看到了DTD的诸多问题之后,提出了一系列用来代替DTD的建议(Recommendation,即正式标准),包括RDF、XML-Data、DCD、XML Schema等,其中以RDF和XML Schema的影响较大.
3 RDF
RDF是W3C在1999年2月颁布的一个关于元数据的建议,它主要解决如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述资源的元数据信息成为机器可理解的信息。RDF不仅可以象DTD一样允许设计者定义对象,并可以加入属性以对对象进行描述和定义,还可以作出有关对象的复杂的陈述,例如申明资源之间的关系等。RDF的基本对象类型有:资源(Resources)、属性(Properties)、陈述(Statements)。每一个资源都有属性,每个资源通过唯一资源标识符URI来标识,它的属性由属性类型来作标识,每一个属性类型都有对应的属性值。属性类型表示出这些属性值与资源之间的关系。在RDF中,属性值要么是一些被认为具有原子性的事物(如字符中或数字符),要么是其他的资源,而这些资源本身又拥有自身的属性。所有指向同一资源的陈述的集合就是描述。以前面所描述的MARC元数据为例,使用RDF可以定义如下:
<?xml version=‘1.0’?>
<rdf:RDF
xmlns:rdf=“httP://www.w3.org/1999/02/22 rdf—syntax—ns#”
xmlns:rdfs=“http://=www.w3.org/TR/1999/ PR—rdf—schema—19990303#”
xmlns:dc=“http://purl.org/dc#”
xmlns:marc=“http://libsys2000.nju.edu.cn/marc #”>
<rdf:Description ID=“MARCTYPE”>
<rdf:type rdf:resource=“http://www.w3.org/ 1999/02/22—rdf—syntax—ns#Property”/>
<rdfs:label>MARCTYPE</rdfs:label>
<rdfs:is DefinedBY rdf:resource=“”/>
</rdf:Description>
<rdf:Description ID=“RECORD”>
<rdf:type rdf:resource=“http://www.w3.org/ 1999/02/22—rdf—syntax—ns # Property”/>
<fdfs:label>RECORD</rdfs:label>
<rdfs:isDefinedBy rdf:resource=“”/>
</rdf:Description>
<rdf:Description ID=“DATAFIELD”>
<rdf:type rdf:resource=“http://www.w3.org/ 1999/02/22—rdf—syntax—ns # Property”/>
<rdfs:label>DATAFIELD</rdfs:label>
<rdfs:isDefinedBy rdf:resource=“”/>
</rdf:Description>
<rad:Description ID=“DATAFIELD”>
<rdf:type rdf:resource=“http://www.w3.org/ 1999/02/22—rdf—syntax—ns # Property”/>
<rdfs:label>SUBDATAFIELD</rdfs:labcl>
<rdfs:is DefinedBy rdf:resource=“”/>
</rdf:Description>
通过上例,我们可以看到针对DTD种种不足而提出的RDF建议克服了DTD的主要缺点,具有以下几个优点:
①易控制性。由于RDF使用简单的资源——属性——值三元组,所以很容易控制,即使是数量很大的时候。
②包容性。在RDF这种元数据模型中既可以定义自己的词汇集,也可以嵌入DC元数据或别的类型的元数据。
③可交换性。由于XML是目前最具发展前景的标记语言,使用XML作为描述语法的RDF在未来也就可以成为一种可以携带多种元数据来往于网络上的框架工具。
④易综合性。在RDF中资源的属性是资源,属性值以及关于资源的陈述也可以是资源,都可以用RDF进行描述,这样可以很容易地将多个描述综合,以达到发现知识的目的。
总之,RDF是一个公认的极佳的强有力的元数据描述工具,这也部分地实现了它结束在元数据描述领域一切努力的雄心。但是,RDF的这种强有力也导致了它严重的缺陷,就是在一些日常应用中显得太复杂了,设计者不仅需要定义对象和属性,而且需要定义复杂的陈述。一个复杂的标准是很难在短时间内被广大网络应用开发人员接受、掌握和应用的,因此这个复杂的标准也就很难在网络上推广和被接受。就象复杂的SGML很少有人使用,而对其进行简化后形成的XML则迅速被接受一样,RDF在网络上尤其是Internet上是很难有市场的,而只会在一些特定的领域得到应用。Internet上的元数据描述需要的应该是一种简单而且可靠的解决方案。
4 XML Schema
Schema是一种描述信息结构的模型,它是借用数据库中一种描述相关表格内容的机制,为一类文件建立一个模式。从这一层意义上讲,DTD实际上也是一种Schema,只不过这种Schema使用了古怪的EBNF语法,因而带来了诸多的不便。RDF Schema可能是由于RDF的原因,W3C最终只推出了RDF Schema的草案,一直未能更进一步推出正式的建议(即标准)。XML Schema是2001年5月由W3C推荐的用于描述XML文件结构的一个框架,它的语法与XML相同,但Schema文件所描述的是引用它的XML文件中的元素和属性的具体类型。以前面所描述的MARC元数据定义为例,使用XML Schema可以定义如下:
<xsd:schema xmlns:xsd=“http://www.w3.org/2001/ XMLSchema”>
<xsd:element name=“mare”type=“marc”/>
<xsd:complexType name=“marc”>
<xsd:sequence>
<xsd:element name=“recurd” minOccurs=“0” maxOccurs=“unbounded”>
<xsd:complexType>
<xsd:sequence>
<xsd:element name=“datafield” type=“datafield”minOccurs= “0” maxOccurs=“unbounded” />
</xsd:sequence>
<xsd:attribute name=“rectype” type=“xsd:string”/>
<xsd:attribute name=“recinfo” type=“xsd: string”/>
</xsd:complexType>
</xsd:element>
</xsd:sequence>
<xsd:attribute name=“marctype” type= “xsd: string”/>
</xsd:complexType>
<xsd:complexType name=“datafield”>
<xsd:sequence>
<xsd:element name=“subdatafield”type=‘xsd: string”minOccurs=“0”maxOccurs=“unbounded”content =“textOnly”>
<xds:attribute name=“code” type=“xsd: string”/>
</xsd:element>
</xsd:sequence>
<xsd:attribute name=“tag” type=“xsd:string”/>
<xsd:attribute name=“ind1”type=“xsd:string”/>
<xsd:attribute name=“ind2”type=“xsd:string”/>
</xsd:complexType>
</xsd:schema>
通过上例,我们可以看到XML Schema本身就是一个XML文件,但不同的是,Schema文件所描述的是引用它的XML文件中的元素和属性的具体类型。相比DTD,XML Schema具有以下优点:
①一致性。Schema使得对XML的定义不必再利用一种特定的形式化的语言,而是直接借助XML自身的特性,利用XML的基本语法规则采定义XML文档的结构,使得XML达到了从内到外的完美统一,也为XML的进一步发展奠定了坚实的基础。
②扩展性。Schema对DTD进行了扩充,引入了数据类型、命名空间,从而使其具备较强的可扩展性。
③互换性。利用Schema,我们能够书写XML文档以及验证文档的合法性。另外,通过特定的映射机制,还可以将不同的Schema进行转换,以实现更高层次的数据交换。
④规范性。同DTD一样,XML Schema也提供了一套完整的机制以约束XML文档中置标的使用,但相比之下,后者基于XML,更具有规范性。Schema利用元素的内容和属性来定义XML文档的整体结构,如哪些元素可以出现在文档中、元素间的关系是什么、每个元素有哪些内容和属性、以及元素出现的顺序和次数等等,都可一目了然。
5 综述
田于XML Schema的种种优点,现在Schema取代DTD已成大势所趋。在这种情况下,国际上一些知名企业和组织审时度势纷纷在战略上向XML Schema倾斜,提供对XML Schema的支持。其中最为典型的当然要数微软的BizTalk和xml.org组织的注册/资源库。更加值得一提的是:微软在其浏览器软件Internet Explorer 5.0中率先提供对Schema的支持。尽管微软支持的Schema也只是过渡性“标准”,但今后肯定还会不断修改。
虽然我们说XML Schema终将代替DTD,但在短期内DTD还是有着它的优势的,例如广泛的工具支持,广泛的应用经验等。因此,短期内DTD会与XML Schema共存,而RDF则会在一些需要它的强大的元数据描述能力的领域找到它的位置。
标签:元数据论文; xml语言论文; 大数据论文; xml数据库论文; rdf论文; xsd论文; schema论文; element论文;