特权元数据研究_元数据论文

权限元数据的研究,本文主要内容关键词为:权限论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数字图书馆的发展带来了新的机遇,也提出了新的挑战。数字权限管理是其中一个重要问题。对于数字资源来说,拷贝和传递非常容易,尤其需要一套有效的数字权限管理机制来保障数字资源的有效传播、交流和使用。数字权限管理首先应该准确定义和描述谁拥有什么数字信息产品的什么权限、按照什么协议和交易方式将哪些权限在什么范围授予给谁。这些信息必须用标准的开放的和计算机可识别的方式描述和标记,数字权限管理系统才可能自动进行相应的记录、识别、解析和解释,并据此进行权限控制[1]。权限信息的有效表达将有利于权限信息在不同系统之间的一致理解。权限元数据提供表达权限信息和使用控制政策的基础,是数字权限管理的核心,也是数字权限管理系统互操作的第一步。目前该领域也是国内外元数据研究的热点。本文主要对清华大学图书馆关于权限元数据的研究工作进行介绍,希望与国内同行进行探讨和交流。

1 权限元数据发展综述[2-9]

国外数字图书馆的发展走在我们前面,经过一定的资源建设的积累,已经开始对外提供相关服务。所以,在实践中也较早地意识到数字权限管理问题的重要性,同时,认识到解决这个问题的第一步,也是最根本的一步,在于权限信息的有效表达和权限信息在系统之间的一致理解。权限元数据涉及两个方面:权限表达语言和权限数据字典。本质上,权限表达语言只有语法没有语义,它采用权限数据字典中定义的词汇来表达权限和许可,依靠权限数据字典中词汇的定义进行权限表达的解释。权限元数据的扩展主要是通过权限数据字典中元素的增加而实现,而不用改变权限表达语言本身。

目前,国外发展比较成熟,并且有一定应用实践基础的权限元数据方案主要有:由IPR Systems提出的ODRL(Open Digital Rights Language),被SOCCI的数字权限管理系统采用;由ContentGuard公司提出的XrML(Extensible Rights Markup Language),被微软的数字权限管理系统采用;INDECS(研究电子商务系统中数据的互操作性)项目提出的2rdd模型及其权限数据字典等。其中ODRL和XrML都包括了权限元数据的两个方面,权限表达语言和权限数据字典,2rdd则主要是关注权限数据字典的内容。

其它还有一些解决方案:XMCL(Extensible Media Commerce Language),由RealNetworks公司开发并应用于他们对多媒体内容的保护;SAML(Security Assertion Markup Language),由OASIS的基于XML的安全服务技术委员会所开发,是一种交换授权和认证信息的XML安全标准;IBM东京研究实验室提出的XACL(XML Access Control Language),一种XML访问控制语言等,在此不一一列举。同时为不同应用领域的各种内容类型开发技术标准的不同组织,如电子图书相关的开放电子图书论坛,多媒体内容相关的MPEG,特定领域的多媒体内容相关的TV Anytime,Digital Video Broadcasting(DVB)等也意识到需要一种权限元数据标准,纷纷成立了权限元数据工作组,启动了相关的研究工作。

上述众多权限元数据解决方案的存在,对业界提出统一和标准化的需求。W3C、OASIS、MPEG等标准组织都开始涉及这个问题。W3C早在2000年底就开始就数字权限管理问题成立研究组,经过一段时间的研讨,意识到首先需要一种权限表达标准,于是向产业界收集权限表达语言提案。从2001年初到现在,已经有若干权限表达语言提交给它并备案。其中包括XrML、ODRL等。同样,OASIS和MPEG也经过了这个阶段,现在正在进行权限元数据的需求分析,并初步选定XrML作为基础,来定义权限表达语言的工作标准;2rdd作为基础,来定义权限数据字典的工业标准。这些相关标准组织也决定保持联系,共同发展标准。

下面我们首先分析知识产权领域为支持网络环境电子商务中知识产权交易的互操作性而提出的一种非常强大的底层模型—INDECS数据模型,然后针对ODRL、XrML、2rdd几种主要权限元数据方案进行分析,最后对权限元数据的互操作问题进行了探讨。

2 INDECS数据模型分析[4、10]

在确定元数据的内容结构(组成元素及其关系)时,一般依据特定应用领域的成熟的信息处理框架或标准,例如MARC依据ISBD,EAD依据ISAD,保存元数据依据的是OAIS信息模型;对于权限元数据,我们认为应该依据INDECS数据模型进行相应的实体及其关系分析和建模工作。INDECS数据模型是一种出版和版权交易领域为支持电子商务中知识产权交易的互操作性而自行建立的元数据内容逻辑框架。

INDECS数据模型有两个部分:其一是通用模型,建立了一些主要实体和元数据schema中普遍使用的属性。其二是构建于通用模型之上的知识产权商务模型,是与知识产权描述及其权限管理相关的所有活动所需要的元数据的一种特定视图。我们关注的是权限元数据,所以对第二个模型最感兴趣,但是它是以通用模型为基础。下面分别对它们进行简要分析。

2.1 INDECS通用模型

INDECS通用模型是一个以事件为中心,表达实体之间关系的模型,如图1所示。该通用模型涉及到5个主要实体:时间(time)、地点(place)、人物(being)、事件(Events)、作品(thing)。通过事件建立其它4个主要实体(being,thing,time和place)之间的关系。

事件的核心是一些行为,一个动词的表达。例如,John Brown(人物)played(行为)a violin(作品)at 8 p.m(时间)at the Albert Hall(地点)。一个事件可能简单(如本例)或者复杂。在复杂事件中可能涉及若干beings,things,times和places,各自扮演不同的角色。事件可能包含其它事件或者事件之间相互重叠。事件可能包括更加简短、特定的已经被描述的事件,或者事件自身是更大事件的一个组件事件。这种以事件为中心的模型在逻辑上是非常强大的。

2.2 INDECS商务模型

INDECS主要关心知识产权,其知识产权商务模型是基于通用模型,通过专门研究知识产权交易过程所涉及的对象和内容,建立在知识产权交易的逻辑框架上。如图2所示的INDECS商务模型,主要是描述知识产权商务过程中的实体及其关系。知识产权商务模型支持3种主要实体:角色(Parties)、作品(Creations)、交易(Transactions)。这些实体之间的关系形成了一组事件,继而创建了一个模型,来表达在一种通用、集成框架中知识产权作品的制作、使用和基于权限的交易。

在商务过程中,不同角色(Parties)制作或使用作品(Creations),并进行关于特定作品的交易(Transactions)。从法律过程看,这些角色(Persons)拥有(或通过交易来交换)关于特定知识产品(Intellectual property)的一定权利(Rights)。

我们可以看出,INDECS商务模型对知识产权交易过程所涉及实体的关系采用了一种清晰、可扩展的模型,清楚地分离和标识3种核心实体:用户,内容,权限。

3 典型权限元数据方案分析[2-5][10-14]

3.1 ODRL分析[2、11]

· 基本模型

如图3所示。ODRL体系中,一定用户(Party)通过一定协议(Agreement)获得一定数字对象(Asset)的特定权限(Rights),成为权限拥有者。这些协议往往适用于一定环境(Context),提供特定授权(Permission),但是必须满足一定条件(Constraint,Requirement,Condition)。ODRL定义了对这一系列对象及其关系的描述语言。我们可以看出,该模型采用了INDECS商务模型的核心概念,也是基于3种核心实体:用户,内容,权限,主要针对权限部分进行了相应的扩展。

· 数据字典

权限数据字典定义权限表达中使用的所有词汇的语义,其定义过程应该遵循标准数据元素规定方法,需要支持权限表达中的核心实体。ODRL中采用了类似于面向对象编程的思想,主要对Permission、Constraint、Requirement、Rights Holder、Context这些核心实体进行核心元素的定义。这些代表通用类的高层核心实体可采用面向对象的方法进一步细化,即一个核心实体可能代表一类对象,然后采用附加的状态和行为细分为子类,在这些子类之下定义特定的元素。其中每类按照层次化的方法组织子类及其相关元素。如Permission核心实体又细分为使用、传输、资产管理等子类,每个子类里面包含若干具体元素。详细内容可参考相应的规范。

· 扩展方式

权限元数据的扩展是通过权限数字字典中元素的增加而实现。ODRL规定通过5个可替代元素:permissionElement、requirementElement、constraintElement、contextElement、rightsholderElement,采用现存的标准XML Schema和XML名域机制,进行数据字典元素的扩展,然后导入ODRL自身的核心Schema,这样就可以定义一个新的扩展后的数据字典。

· 其它特点

ODRL规定了通过XML的数字签名和数字加密方法来保证权限表达的安全。同时在ODRL中引入了表达容器、表达序列、表达链接、表达继承等类似于面向对象编程的概念,以便更加灵活地构建权限表达,重用相关的权限表达。

3.2 XrML分析[3、12]

· 基本模型

XrML对于它的许多关键概念和元素采用了一种简单、可扩展的数据模型。在一种系统环境中,XrML的基本数据构造是License,其核心是Grant,如图4所示。License的基本结构如下:一套“grants”,传递给特定principal对于特定资源在特定条件下的特定权限;发放License,因此将“grants”授予接收者的principal(Issuer)的标识;其它信息,如License及其有效期的描述。XrML数据模型主要由4种实体(Principal、Resource、Right、Condition)及其关系组成,基本关系由XrML声明“grant”所定义。一个XrML“grant”结构上组成如下:“grant”所发给的principal、“grant”所指定的权限、作为权限动词作用对象的资源、权限实施必须满足的条件。

· 数据字典

XrML语言本身分成两个部分:一个核心Schema,包含XrML核心语义概念的定义;一个标准扩展Schema,包含在XrML各种使用场景普遍、广泛使用的概念(而又并非核心语义)的定义。在两个Schema里面分别对于license、grant、grantgroup、principal、right、resource、condition等父元素及其相应的子元素进行了定义。具体内容可参考相应的规范。

· 扩展方式

XrML的主要设计目的之一是能够支持强大的可扩展性和可定制性,无须改动核心。XrML数据模型采用XML核心Schema封装,易于扩展。XrML在其内部也使用了这种可扩展性,语言本身的结构和组织分成几个部分:一个核心Schema,一个标准扩展Schema。其它是具体应用领域自己开发的扩展Schema,如MPEG组织针对自己数字内容开发的一个扩展Schema。具体应用时需要同时使用XrML核心Schema与一个或者多个扩展Schema。

· 其它特点

与ODRL类似,XrML规定了通过XML的数字签名和数字加密方法来保证权限表达的安全。在涉及到安全方面,XrML的范围更加广泛。XrML试图建立“信任等级”,以便两个系统事先决定是否进行一项交易。同时,XrML通过WSDL和UDDI支持网络服务规定,通过XPATH支持模式匹配。

3.3 2rdd分析[5、10、13]

图5 2rdd Context模型

权限元数据涉及两个方面:权限表达语言和权限数据字典。本质上,权限表达语言只有语法没有语义,它采用权限数据字典中定义的词汇来表达权限和许可,依靠权限数据字典中词汇的定义进行权限表达的解释。权限元数据的扩展是通过权限数据字典中元素的增加而实现,而不用改变权限表达语言。2rdd是关于权限数据字典的,其模型如图5。

2rdd是根据INDECS逻辑框架,解析了知识产权交易活动中所涉及的实体、实体属性、实体间关系,确定了描述实体及其属性的元数据模块和描述实体间关系的元数据元素,并通过一个元数据字典对这些元数据元素及其关系进行了规范的定义。该数据字典基于Context模型(如图5所示),Context,Agent,Time,Place,Resource为5个基本实体,以Context(包括Event和Situation)为中心,建模其它4个基本实体之间的基本关系。元数据字典包括INDECS元数据元素的所有信息,它们的名称,标识,定义,关系和到其它Schemas元素的映射。详细内容可参考相应的规范。

由于2rdd是INDECS前期相关分析建模工作的进一步发展,具有强大的底层模型支持,高度结构化,所以可以很好地满足权限管理中元数据的复杂性和互操作性要求。它也提供了元数据映射需要的语义工具,采用类似于软件更新的方法,可以不断将新出现的数据字典中的元素包容进来。2rdd的一个重要工作内容就是对已经产生的元数据“Schema”进行映射,任何映射的“Schema”成为2rdd的组成部分。这样可以通过一种“即插即用”的方式,充分利用各领域已有的元数据成果,采用不同名域的词汇表达权限,同时保持原来的语义。

3.4 MPEG21简要分析[14]

我们前面已经提到,权限元数据涉及两个方面:权限表达语言和权限数据字典。XrML和ODRL均是包含了两个方面的内容,而2rdd是关于权限数据字典的。MPEG21中的权限表达语言是以XrML为主,适当参考ODRL的某些思想,进行相应的修正和扩充;权限数据字典是基于2rdd的工作。在此不再赘述。

4 权限元数据的互操作问题[15、16]

电子商务中权限交易的大量性要求实现高度自动的权限管理,这提出了权限元数据的互操作问题。权限元数据的互操作问题非常复杂,既包括不同权限元数据体系之间的互操作,也包括在知识产权作品的整个生命周期不同阶段完成不同功能的元数据的互操作(如权限元数据与描述元数据的互操作)。如果将元数据的互操作分为语义、语法和结构的互操作3个方面,那么映射和OAI应属于语义互操作的方法,RDF和XML分别是结构和语法互操作的途径。我们讨论的XrML和ODRL权限元数据均具有明确的数据模型,并采用XML进行元数据编码,可以说在结构和语法上具有良好的互操作性。语义的互操作可以通过映射的方式实现。

OAI采用简单DC做为映射的中心,由于DC是一种以资源为中心的模型,采用了平面化的表达方法,而且侧重于描述元数据,这对于权限元数据的互操作要求是不够的。我们认为基于一种逻辑正确、完整和可扩展的核心Ontology是实现元数据语义互操作的有效途径。这种核心Ontology作为一种底层正式模型,应该表达各领域共同的基本概念,提供特例化为领域特定概念和词汇的基础。经过研究,我们发现Harmony项目提出的ABC模型和前面分析过的INDECS模型(见图6)已经就这个问题进行了相当深入的探索。

图6 ABC模型

Harmony项目的目的就是研究一种通用方法,实现元数据的互操作性,这样产生了Event-Aware ABC Model。ABC Model定义了一套基本类(见图6),用来提供表达应用特定或者领域特定的元数据词汇集的构件。这些基本类是通过分析不同团体的元数据模型之间的共同点而产生的,包括IFLA,CIDOC,INDECS,MEPG-7,DC等。我们可以看出,ABC Model与INDECS模型本质上相同:都是以事件为中心的模型(其它大多数元数据集如MEPG-7,DC等是以资源为中心的模型),通过事件建模实体之间的关系。INDECS的Action,Agent,Event和Situation等实体与ABC Model的这些类相同。只不过INDECS项目本身侧重于解决知识产权领域电子商务中元数据的互操作性,而ABC Model定位相对高层一点。但最后结果的类似正说明了以事件为中心的模型是实现元数据语义互操作的有效途径。我们可以将特定元数据集和ABC Model的关系进行正式表达,通过与这种通用的逻辑模型的映射,可提供实现多个多元数据集的互操作的一种更具伸缩性方法的基础。

5 结论

综上所述,我们认为,尽管相对于XrML,ODRL是一种轻量级的权限元数据,但是它采用了INDECS商务模型的核心概念,语义清晰,易于扩展,而且完全开放,我们倾向于在它的基础上,根据2rdd数据字典的术语,进行元素的选取和扩展。这样我们的权限元数据方案将具有良好的互操作性,而且非常灵活,可以胜任各种复杂权限的表达。在具体应用中,我们可以考虑定义一套权限的默认值(相当于对资源允许的一定程度的合理使用),如果某些资源限制比较复杂,则单独标引,从而覆盖权限的默认值。

标签:;  ;  ;  ;  ;  ;  ;  

特权元数据研究_元数据论文
下载Doc文档

猜你喜欢