XML与网络半结构化信息资源,本文主要内容关键词为:信息资源论文,结构化论文,网络论文,XML论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号G250.76
1、XML简介
XML越来越为大家所熟悉,那么XML到底是什么?其实XML(Extensible Markup Language)是一种可扩展的标识语言,是全球资讯网联盟(World Wide Web Consortium;简称W3C)在1996年底所提出的标准,1998年2月公布XML1.0 Recommendation,相关标准目前仍在发展之中。制定XML的初衷,就是要定义一种在互联网上交换数据的标准。
1、1 XML与HTML、SGML的关系。
HTML、SGML是XML的先驱。
HTML是SGML的一个应用,是一种用以创造超文件(hypertext )的简单资料格式,目前在全球资讯网(World Wide Web;简称WWW或Web)获得普遍的采用,是写作网页(webpages)的标准语言:是W3C 组织发布的标准,它免费、简单,在世界范围内得到广泛应用,对带动这些年来WWW的蓬勃发展功不可没。
HTML是专门为描述主页的表现形式而设计的,而对Web 上最重要的东西—信息的本身含义没有进行描述,通过HTML表现出来的文字、图形内容很容易被人理解,但要被计算机理解就非常困难:另外HTML无法描述矢量图形、科技符号和一些其他的特殊显示效果,它已不能适应对新标记需求的发展需要。
而SGML是ISO在1986年所颁布的国际标准(ISO 8879),在数字图书馆计划中,目前有TEI(Text Encoding Initiative)、EAD(EncodedArchival Description)、CIMI(Consortium for the Interchange of Museum Information)、DLAP(Digital Image Access Project)与美国国会图书馆的American Memory Project等采用SGML作为文件格式。SGML是一种元语言(meta-language), 元语言是一套可以用来定义其他更专门性的标识语言的通用规则。主要用来定义文献模型的逻辑和物理类结构,它由三部分组成,即语法定义、文件类型定义(DTD—Definition Type Document)和文件实例。SGML主要应用在文字资料的交换,但也适用于其他的资料型态,SGML是很好的资料储存格式,适用于任何复杂的的文件结构,但缺点是在网络传输(network delivery)方面较为不便,根据SGML开发的应用非常昂贵。
于是人们开始描述一个新的标识语言,这个新一代的标识语言被期许能具有SGML的强大功能和可扩展性,但又不像SGML 般复杂, 并能如HTML般能在Web上传送,这种情况下XML应运而生。W3C 采取了简化SGML的策略,在SGML基础上,去掉语法定义部分,适当简化DTD部分, 并增加了互联网的特殊成分。它保留了SGML80%的功能,降低了20%的复杂程度,这使得开发有关XML的应用变得便宜。XML的设计既考虑了实现的方便性,同时也顾及了与SGML、HTML的互操作性。
XML通过DTD定义了文档的词法、语法和部分语义,XSL 提供了文档的表现形式,而Xlink和Xpointer定义了文档之间的关系, 从而为基于Web的各种应用提供了描述数据和交换数据的有效手段。
1、2 XML的特点。
①它具有良好的可扩展性。XML 允许各个不同的行业根据自己独特的需要制定自己的一套标记,新建的标记可在文件类型定义(DTD )中加以描述,它不要求所有的浏览器都能处理这成千上万个标记,也不要求一个标识语言能适合各个行业各个领域的应用。
②它具有内容与形式分离的特点。XML 中信息的显示方式已经从信息本身抽取出来,它通过使用与之相连的样式单(Style sheet )来向应用程序,比如浏览器,提供如何处理显示的指示说明。这样做便于信息表现方式的修改、便于数据的搜索,也使得XML 具有良好的自描述性,能够描述信息本身的含义甚至它们之间的关系。
③它遵循严格的语法要求。XML不但要求标记配对、嵌套, 而且还要求严格遵守DTD的规定,这增加了网页文档的可读性和可维护性, 大大减轻了浏览器开发人员的负担,提高了浏览器的时间空间效率。
④便于不同系统之间信息的传输。不同企业、不同部门之间往往存在着许多不同的系统,XML可以用作各种不同系统之间的交流媒介, 是一种非常理想的网际语言。
⑤它具有良好的保值性。XML的保值性来自它的先驱之一—SGML 语言,可以为文档提供50年以上的寿命。
1、3 XML的文档结构。
XML整个文档由称为实体的存储单元组成, 实体包含文本和二进制数据;文本由字符组成,某些字符形成文档中的内容数据,某些字符形成XML标志(Markup),标志说明了文档的存储版面、 结构和与此结构相关联的任意属性值的描述。而某些字符形成了对XML 存储版面和逻辑结构施加约束的控制信息。
同时,每个XML文档都包含一个物理结构和一个逻辑结构。
物理上,XML文档由称为实体的单元组成,所有的XML文档都包含了一个“根实体”,又称“文档实体”,这个实体是由XML本身给出的, 无须显示定义就可以使用。
逻辑上,一个XML文档通常以一个XML声明开始,通过XML 元素来组织XML数据,XML元素包括标记和字符数据,为了组织数据更加方便、清晰,还可以在字符数据中引入CDATA数据块,并可以在文档中引入注释,XML文档还可以包含处理指令。
总体来说,在XML文档中最为重要的是由某些字符形成的XML标志,类似于HTML中的固有标志。在XML文档中允许出现的标志有六类, 它们分别是:元素(Elements)、实体引用(Entity References)、注释(Comments)、处理指令(Processing Instructions)、标志屏蔽区(Marked Sections)和文档类型声明(Document Type Declarations,简写为DTD)。其中,文档类型声明又有四类:元素声明(Element Declarations)、属性声明(Attribute Declarations)、实体声明(Entity Declarations)、标识声明(Notation Declarations)。需要指出的是文档类型声明可以存放在单独的文件中(文件扩展名为dtd, 即:*.dtd),可在多个XML文档中重复引用。
2、XML与网络半结构化信息资源
Web上的数据非常复杂,没有特定的模型加以描述, 每一站点的数据都各自独立设计,并且数据本身具有自描述性和动态可变性,其结构不可琢磨。在传统数据库中的数据结构性很强,我们称之为完全结构化数据;同时,在Internet上还存在着大量声音、图像文件等数据,我们称之为完全非结构化数据,除此之外,网络上还存在着这样一些数据,它既不是完全结构化数据,也不是完全非结构化数据,我们把它们称之为半结构化数据,即网络半结构化信息资源。
2、1网络半结构化信息资源的特征。
● 半结构化信息资源的存在,加大了数据处理的难度。
● 它的模式是用于描述数据的结构信息,而不是对数据结构进行强制性的约束。
● 它的结构不规则。一个数据集合可能由异构的元素组成,同样的信息可能由不同类型的数据表示。
● 半结构化信息资源具有一定的结构,但其结构与数据混同在一起,没有显式的模式定义,如HTML文件。
● 没有事先给定的数据模式,数据模式对数据约束不强。
● 先有数据,后有模式,模式是经常变动的,一般是先进行查询,查询结果即为数据结构及其模式。
● 规模可能很大,甚至超过源数据的规模,而且因数据的不断更新而处于动态的变化过程之中。
● 它非常灵活,能满足网络这种复杂分布式环境的要求。
● 半结构化数据的模式是非精确的,它可能只描述数据的一部分结构,也可能根据数据处理的不同阶段的视角而不同。
2、2 XML在网络半结构化信息资源开发中的应用。
随着Internet的发展,网络信息资源半结构化特征日渐明显。面对浩瀚的半结构化信息资源,传统的搜索引擎只能解决信息的一般查询问题,而人们迫切地需要从网络信息资源中快速、有效地发现、挖掘自己所需要的知识,即我们所说的“知识发现”——KDW(Knowledge Discovery in Web),有时我们也称之为Web数据挖掘,从某种意义上来说,也就是对网络半结构化信息资源进行有效的开发利用。
知识发现是为了揭示网络信息资源中隐含的知识,它是比信息检索层次更高的一种技术,半结构化信息资源没有特定的模型描述,传统数据挖掘的方法在此并不完全适用,针对Internet上数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键。近年来兴起的XML数据就是一种自描述的半结构化数据,它支持用户自定义文档标记,用有序的、嵌套的元素组织有一定结构的数据,是面向数据的。
XML在网络结构化信息资源开发中的应用有如下几个方面:
①XML是一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,能够支持精确的查询与模型抽取。
②XML可以更详细地定义某个数据对象的数据结构,这种定义不仅为标记该数据提供方便,而且这种XML数据很容易按一定顺序排列, 使用户的查询变得更加方便。
③XML有利于数据交换和传递。由于XML的自定义性及可扩展性,它足以表达各种类型的半结构化数据,数据可能来自不同的数据库,它们都有各自不同的复杂格式,用户与数据之间通过XML进行交互,XML解决了数据的统一接口问题。
④XML使搜索多样的不兼容的半结构化信息资源成为可能。没有XML,搜索软件必须了解每个数据库是如何构建的,因为每个数据库描述数据的格式几乎是不同的,由于不同来源的数据的集成问题的存在,现在搜索多样的不兼容的数据库实际上是不可能的,XML 能够使不同来源的数据很容易地结合在一起,从而使搜索成为可能。
⑤XML通过以简单开放扩展的方式描述半结构化的数据, 被广泛地用来描述使用者界面,由于数据显示与内容分开,XML 定义的数据允许指定不同的显示方式使数据更合理地表现出来,CSS和XSL为数据的显示提供了公布的机制。
⑥通过XML,网络半结构化数据可以粒状地更新。 变化的数据不需要刷新整个使用者的界面就能够显示出来,加入的信息能够进入存在的页面,不需要浏览器重新发一个新页面。
⑦与其他的数据传递标准不同的是,XML 并没有定义数据文件中数据出现的具体规范,而是在数据中附加tag 来表达数据的逻辑结构和含义。这使XML成为一种程序能自动理解的规范, 进一步推动了电子商务、电子数据交换和数字图书馆的发展。
⑧基于XML的数据是自我描述的, 数据不需要有内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理,XML格式的数据发送给用户后,用户可以用应用软件解析数据并对数据进行编辑和处理。
⑨XML将大量运算负荷分布在客户端, 即用户可根据自己的需求选择和制作不同的应用程序以处理数据,而服务器只须发出同一个XML文件。XML的自解释性使用户在收到数据的同时也理解数据的逻辑结构与含义,从而使广泛、通用的分布式计算成为可能。
⑩XML还被应用于网络代理, 以便对所取得的半结构化信息进行编辑、增减以适应个人用户的需要。有些用户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。
3、结束语。
网络半结构化信息资源的研究对IT界,亦或是图书馆界来说,都是一个全新的领域。随着全球资讯网的发展,Web 上的数据半结构化特征日渐明显,相关的研究工作在1997—1998年间取得了一些成果。由于当时的Web都是基于HTML实现的,而HTML在路径表达的实现上难度很大。所幸的是,近年来出现了新的标识语言XML,目前很多关于XML的研究工作已经纷纷开展起来,经XML家族为基础的新一代WWW环境是直接面对Web的半结构化数据的,不仅可以很好地兼容原有的Web应用,而且可以更优地实现WWW这一分布计算机环境下的信息共享与交换,它已成为Web信息发展的可喜趋势。
标签:xml语言论文; 半结构化数据论文; xml数据库论文; web技术论文; xml解析论文; 结构化方法论文; web开发论文; 网络结构论文; html语言论文;