数字权限管理元数据及其在数字图书馆中的应用,本文主要内容关键词为:数字图书馆论文,权限论文,数字论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】G250.76
数字权限管理(Digital Rights Management,DRM)是指对数字化信息产品或非数字化信息产品在网络中交易、传输和利用时所涉及的各方权利进行定义、描述、保护和监控的整体机制。通常,DRM要在法律制度的框架下,按照一定的商业运营模式,由一定的技术机制来实现,同时还要受到社会文化因素的影响。DRM的发展经历了两个阶段:第一代DRM侧重于安全和加密,也就是对内容加以保护,将其发行范围限制在付款人中间;第二代DRM覆盖了对有形或无形产品各种形式权限使用的描述、认证、交易、保护、监测和跟踪,包括对权限持有人关系的管理。此外,第二代DRM强调的是“权限的数字管理”,而不是“数字权限的管理”,因此,它可以管理数字产品的权限,也可以管理非数字产品的权限。
数字权限管理元数据是以计算机可识别的标准格式来描述生产者和信息服务系统(作为提供者)的权限管理政策,是描述用户和信息服务系统(作为用户)的权限管理方式的元数据,它的核心部分是开放式权限描述语言(Rights Expression Language,REL),它基于通用数据字典和概念集,支持这些管理信息以开放形式发布和组织,以便能被自动发现、获取和解析,并在此基础上支持自动的权限谈判、权限交易、使用控制[1]。权限管理元数据通过对权限信息和使用控制政策的表达和记录,成为数字权限管理系统互操作的基础,是数字权限管理系统的重要组成部分。
1 数字权限管理元数据的现状
在很多元数据中都有表达权限的内容,如ONIX、OAI、METS、Dublin Core、MARC等。但是专门的权限表达语言最早由Xerox PARC的Mark Stefik于20世纪90年代开发,称为数字资产权限语言(Digital Property Rights Language,DPRL)。1998年,DPRL的第二版被微软和Xerox成立的一个新公司ContentGuard注册,后来发展为可扩展权限标记语言(eXtensible Rights Markup Language,XrML)[2]。2003年,在XrML2.0的基础上,又出现了MPEG-21/5[3]标准。目前陆续开发的权限表达语言还有开放数字权限语言(Open Digital Rights Language,ODRL)[4]、CreativeCommons(CC)、METSRights(METSR)等。此外,Adobe内容管理器(Adobe Content Manager,ACM)、电子资源管理首创计划(Electronic Resource Management Initiative,ERMI)、联合数字权限管理(Federated Digital Rights Management,FDRM)、出版需求工业标准元数据(Publishing Requirements for Industry.Standard Metadata,PRISM)、扩展访问控制标记语言(eXtended Access Control Markup Language,XACML)中也有关于权限表达元数据的内容。
权限管理元数据大多用于电子商务,但实际功能不限于电子商务。目前,权限管理元数据还处于设计规划阶段,成熟的应用还不多。基于XrML的MPEG-21/5和ODRL是目前最具影响的权限表达语言,但是,这也并不意味着只有这两种REL可选,实际上,现在没有,将来可能也不会有一种通用的REL。每一种REL在元素数量、编码和应用环境上都有很大差异。例如,Creative Commons用于表达开放存取网络资源的权限,METSRights用于高校和图书馆的数字资源管理权限,ODRL是通用语言,作为工业和社区应用的开放标准,但是并不支持行动(Actionable)控制,MPEG-21/5是一个在可信赖(Trusted)系统中,完全支持行动控制的通用语言。
权限是权限管理元数据描述的主要内容。
权限是指在一定前提条件(如付款)下,权限持有人对使用者授予的有一定限定(如次数、时间、地点)的使用许可(如播放、打印、复用)(见图1)。权限包括发行零售商的发行权限、图书馆等信息服务机构的服务权限以及用户使用权限[5]。
权限表达包括以下几部分内容:
(1)许可(Permissions):允许做什么;
(2)限定(Constraints):对许可的限定;
(3)义务(Obligations):必须提供或接受的条件;
(4)权限拥有者(Rights Holders):拥有权限的人或机构。
图1 权限状态的表达
ODRL和MPEG-21/5等都是完全机器可读的系统,这也就意味着机器自动执行所有的权限规定,无须人的干预。在这种情况下,没有在权限元数据中明确表达的权限意味着该权限没有被授予使用。因此,必须对所有的权限给予充分表达。
REL所表达的权限内容有三层含义:版权(Copyright)、合同(Contract)和控制(Control),也就是描述和表达版权、合同及许可协议,并对访问和使用进行控制[6]。
(1)版权:即将版权法中所规定的内容反映到权限元数据中。但是,MPEG-21和ODRL都没有关于版权的数据元素。METSRights中有部分元素可以表达版权,如包含“已有版权(Copyrighted)”、“可用于公共领域(Public domain)”以及“得到许可(Licensed)”或“有契约(Contractual)”等表示权限状态的元数据元素。CreativeCommons中也有一些记录创建者和版权持有人姓名的元数据元素。
(2)合同:是权限拥有者和使用者之间达成的使用协议。MPEG-21和ODRL可以表达合同的相关规定。
(3)控制:所谓控制实际上是对合同约定的权利和限制的执行,它包括访问控制和使用控制。访问控制的目的是用户认证和用一系列规则进行干预。FDRM、XACML包括访问控制的内容。使用控制是对用户在使用产品时的一些控制。例如,在电子图书使用过程中,不允许拷贝和限制打印页数等都属于使用控制的范畴,而通常对电子期刊的使用规定为,只要是合法用户,就可以对产品进行任何操作,如打印、复制、保存等,这就属于访问控制。METSRights、ODRL、CreativeCommons、MPEG-21中没有考虑访问控制,只考虑了使用控制。
2 ODRL和MPEG-21/5
ODRL和MPEG-21/5是目前国外发展比较成熟,并且有一定应用实践基础的权限元数据。同其它权限元数据相比,它们功能强大,但是也相当复杂。
2.1 ODRL
开放数字权限语言首创计划(Open Digital Rights Language Initiative)2001年由澳大利亚的IPR Systems公司启动,它包括开放数字权限语言ODRL和数据字典,是目前最有影响的两种数字权限元数据解决方案之一。ODRL的目的是开发一种灵活、可互操作的机制来支持数字资源的出版、发行和消费,主要用户包括书商、教育部门、娱乐机构、移动用户等。从资源角度看,ODRL既可以为数字资源提供权限管理,同时也可以进行非数字资源的权限管理。ODRL可以应用于可信赖的或不可信赖的系统中,它的最新版本是1.1,已被W3C作为“建议(Note)”[7,8]。
目前,ODRL主要应用于澳大利亚和欧洲的高校和数字图书馆环境中,同时也有一些商业应用,如被开放移动联盟(Open Mobile Alliance,OMA)正式作为移动内容权限管理的描述语言。
(1)ODRL的基础模型
ODRL基础模型包括三个核心实体:资产、权限和参与者。
①资产(Assets):包括物理和数字内容,它们必须进行唯一标识。
②权限(Rights):满足一定条件(Constraints,Requirements,and Conditions)的授权(Permissions)。
③参与者(Parties):包括最终用户和权限拥有者。
实际上,ODRL基本模型表示的是用户通过特定协议获得一些数字对象的特定权限。基于这个基本模型可以表达两种模式:一个是权限拥有者所提供的使用内容的特殊权利(Offers),另一个是权限拥有者和用户之间的协议(Agreements)。
除以上三个核心实体外,ODRL还包括其它一些重要的实体,如:Permissions、Constraints、Requirements、Conditions、Rights Holders、Contexts、Offers、Agreements、Revoking Rights、Signature、Encryption等。
利用XML可以定义以上模型中的实体及其相互关系。
(2)数据字典
ODRL分别对Permissions(许可)、Constraint(限制)、Requirement(请求)、Rights Holder(权限持有者)、Context(条件)等五个核心实体细分了一些子类,子类下包括若干个核心数据元素。元素的定义方式遵从ISO-11179的规定。
许可的子类包括使用许可、转换许可、资产管理许可、复用许可等;限制的子类包括用户限制、设备限制、界线限制、暂时性限制、方面限制(Aspect)、目标限制和权利限制;请求许可的子类包括支付请求、交互请求、使用请求等。
(3)扩展方式
ODRL通过在权限数据字典中增加元素而实现扩展。首先要为数据字典定义一个新的XML Schema,并将其指向一个合适的XML命名域,进行数据字典元素的扩展,然后导入ODRL自身的核心Schema,这样就定义了一个新的数据元素。新增的数据字典元素也可以定义扩展,例如属性和其它复杂的数据结构。ODRL提供了六个可替代元素,它们是:
①permissionElement(permissionType)
②requirementElement(requirementType)
③constraintElement(constraintType)
④conditionElement(conditionType)
⑤contextElement(contextType)
⑥rightsholderElement(rightsHolderType)
(4)实例
例如,将一本名为“Gone with the Wind”的书发布给一个名叫Annie的读者,允许她打印2次。利用ODRL表示的License如下:
xml version="1.0" encoding="UTF-8"?>
xmlns:xsl="http://www.w3.org/2001/XMLSchema-instance" xmlns:o-dd="http://odrl.net/1.1/ODRL-DD” xsl:schemaLocation="http://odrl.net/1.1/ODRL-EX../schemas/ODRL-EX-11.xsd http://odrl.net/1.1/ODRL-DD../schemas/ODPL-DD-11.xsd”>
2.2 XrML及MPEC-21/5
2001年,ContentGuard公司发布了XrML的第一版,次年发布第二版,2003年,ContentGuard公司与MPEG合作,将XrML作为MPEC-21第5部分(MPEG-21/5)标准的基础内容。2004年4月1日,MPEG-21/5作为ISO标准正式出版[9,10]。
(1)基本情况
MPEG-21定义了一种标准化的、开放的传输和使用多媒体的框架,目标是明确支持数字对象以一种有效、透明和互操作的方式进行交换、存取、消费、交易和操纵所需要的技术。MPEG-21包括7个部分,它们在一起协同工作,通过这种集成环境对全球数字媒体资源进行透明和增强管理,实现内容描述、创建、发布、使用、识别、收费管理、产权保护、用户隐私权保护、终端和网络资源抽取、事件报告等功能。其中,主要有两个部分涉及权限管理元数据,它们是第5部分—权限描述语言(Rights Expression Language)和第6部分—权限数据字典(Rights Data Dictionary)。其中,第5部分是权限管理元数据的核心。
该标准是机器可驱动的,通过软硬件的配合,控制强制许可的执行。虽然MPEG-21是为多媒体产品的知识产权管理而设计,但它的REL却可以应用于更广泛的数字产品中。例如,开放电子书论坛(The Open eBook Forum)正在考虑利用MPEG-21/5定义电子书扩展,如果这个标准被接受,MPEG-21/5将成为美国甚至欧洲电子书出版业的主要权限表达语言。
XrML和MPEG-21/5的使用都必须得到ContentGuard公司的许可。它们的IS文档也不能公开获得,必须向ISO购买。
(2)模型
XrML和MPEG-21/5采用了一种简单而易扩展的数据模型来表达它的关键概念和元素。在一个系统环境中,MPEG-21/5的基本元素是“许可证(License)”,一个License包括一个或多个“授权(Grants)”,以及关于许可证发放者和附加管理的信息。Grants是最基本的关系,它可以在一定条件下给经过认证的一方赋予使用一种资源的权利,它包括四部分内容:主体(Principal)、资源(Resource)、权限(Right)、条件(Condition)。
主体是一个实体,它可以是被赋予权限的人、机构或设备。它通常包含了一些可以认证主体身份的信息;资源是给主体赋予权限的对象,它可以是主体可以获得的一件数字产品,一个设备或一条信息;权限是指在一定条件下,一个经过许可的主体对一些资源可以进行的行为或动作;条件是在权限履行之前必须达到的要求。任何与MPEG-21多媒体框架标准环境交互或使用MPEG-21数字项实体的个人或团体都可以看作是用户。从纯技术角度来看,MPEG-21对于“内容供应商”和“消费者”没有任何区别。
(3)扩展
XrML和MPEG-21/5包括两个基于XML的Schema:一个核心Schema和一个标准扩展Schema。前者包括XrML核心语义概念的定义,后者包括在XrML各种使用场景普遍而广泛使用的核心Schema以外概念的定义。
它可以与其它扩展Schema相联接,例如MPEG对数字内容开发的扩展Schema。其他人可以根据已有的标准XML Schema和XML命名域机制自行定义对XrML的扩展。
3 数字权限管理元数据在数字图书馆中的应用
在数字图书馆领域,数字权限管理活动也是主要围绕着License对数字资源进行权限管理,这一点与目前DRM研发的主要趋势相同。但是,近期开展的数字权限管理研究与开发的出发点基本上是基于数字资源的电子商务活动,因此从功能模型到信息模型主要考虑的是在电子商务活动中对商业内容的权限使用和保护,而在数字图书馆领域,虽然有些项目对权限元数据进行了一些尝试,但是目前还没有成熟的应用[11,12]。
3.1 在ERMI项目中的应用
ERMI是美国数字图书馆联盟(DLF)2002年资助的一个项目,由美国的一些大学图书馆、图书馆自动化系统开发商以及内容提供商等企业联合进行研究,2004年7月完成。该项目主要目的是解决电子资源的管理和使用问题,其中一个重要内容就是电子资源的权限管理。项目通过分析需求定义了数据元素,并开发了试验性XML Schema[13,15]。
ERMI首先明确了电子资源管理的流程与需求,然后将自身的需求与现有的10种元数据以及ERMI自己设计的元数据进行比较(见表1),发现除自己的元数据以外,其它10种元数据没有一个能够完全满足ERMI的需要。大部分元数据可以满足数字资源的ID/描述和非独有性(Non-proprietary)两项需求,只有ODRL、XrML和Shibboleth不能完全满足这两项需求;在10种现有元数据中,满足率最高的是METS,但是它对于数字资源采购、使用、认证等重要环节却无能为力。
表1 ERMI的元数据标准比较
(说明:●表示完全满足需求;○表示部分满足需求)
随后,该项目开发了XML Schema。由于MPEG-21/5需要得到许可才能使用,因此他们的元数据实验没有用MPEG进行,而是选择了ODRL和Creative Commons RDF,此外,ERMI项目自己设计了两种XML Schema。
通过对比ERMI发现,ODRL的学习成本较高。由于它的灵活性和易扩展性,有效而准确地应用ODRL需要花费相当多的时间,如果没有ODRL首席科学家Renato Iannella等的帮助,这项实验可能就进行不下去了。其次,ODRL不支持否定意义的负值。例如,不允许出现类似“不知道”这样的词汇。另外,0DRL只能表达用户的权利和责任,而不能表达那些与权利持有者有关的权利和责任。但是最关键的问题在于ODRL无法表达版权法中的灰色区域,因为它与XrML一样,非此即彼,不允许有模糊的概念和定义。最后,ERMI得出结论,认为ODRL所设计的使用环境与ERMI的要求“非常不同”。
CC RDF的应用也未获成功。只有ERMI自行开发的XML Schema效果最好,它能够提供严格的验证语法,同时结构最为紧凑。
3.2 数字资源管理DRM与电子商务DRM的比较
从ERMI的实践经验来看,虽然数字图书馆的权限管理也主要围绕着License,但是它在很多地方与电子商务的权限管理模式有所不同,下面进行简单分析。
(1)实体模型不同
电子商务注重版权持有者与最终用户之间的许可发放问题(end-to-end),而数字图书馆考虑的重点是从数据库商那里引进数据库对读者进行服务,这里图书馆的角色不是权限持有人,而是中介和代理。对权限持有人而言,数字图书馆是它的用户;而对读者而言,数字图书馆要维护权限持有人的权利,对读者的应用进行权限管理。因此,它既要处理与多个权利持有人的关系,又要对读者群体的权限进行管理(见图2)。
图2 数字图书馆权限管理实体模型
(2)使用范围不同
从用户角度看,电子商务多考虑的是针对个人消费者,因此常常规定每台机器只能被一人所用,而数字图书馆则是公共范围内的集体消费,必须是公共使用模式。
(3)权利规定的范畴有差异
前面提到,目前的权限管理元数据所表达的主要是合同的内容,而不是版权法的内容,而版权法中有一些概念是很难用机器语言准确地表达的,例如,对于“合理使用”[16]这个概念,在美国著作权法中规定:
在确定任何一个特定案例是否属于合理使用时,必须考虑到下列因素:
①使用的目的和性质,包括这种使用是具有商业性质或者是为了非营利的教育目的;
②有版权作品的性质;
③同整个有版权作品相比所使用部分的数量和内容的实质性;
④这种使用对有版权作品的潜在市场或价值所产生的影响。
《中华人民共和国著作权法》第二十二条也界定了著作权权限的限制,它规定:
在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名、作品名称,并且不得侵犯著作权人依照本法享有的其他权利:
(一)为个人学习、研究或者欣赏,使用他人已经发表的作品;
……
(六)为学校课堂教学或者科学研究,翻译或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行;
……
在这里,“同整个有版权作品相比所使用部分的数量和内容的实质性”、“少量复制”都无法用一种确定的数量进行描述,因而也就无法形成相应的权限管理元数据。
从目前权限表达语言来看,只有经过表达的权限才是有效的,未表达出来的潜在规定是无法通过机器执行的。电子商务对权利有明确规定,数字图书馆领域不可能规定今天和未来的数字权限管理要求,因此在系统开发阶段要清晰地定义所有的权利是不可能的。
另外,各国有不同的版权法,目前在电子资源管理方面对于适用法律(Governing law)的问题还尚未明确,如果不同的资源要遵从不同国家的版权法,那么权限表达语言应该如何表达?
(4)访问与使用的差异
如前所述,目前的权限描述语言所处理的主要是使用层面的问题,而数字图书馆中不但有对电子书等的使用规定,更多的是需要解决对访问权限的处理问题。
4 结语
从以上分析可以看出,虽然数字图书馆的权限管理也主要围绕着License,但是它在很多地方与电子商务的权限管理模式有所不同,以电子商务为主要目的的权限表达语言在一些地方还不能满足数字图书馆的要求。
目前,国外图书馆已经在数字图书馆权限元数据的应用方面进行了一些有益的探索,我国也发表了一些技术研究论文[17,18],在此基础上,下一步应当进行以下几方面的工作:
(1)跟踪国际DRM元数据发展和在数字图书馆领域的应用;
(2)明确数字图书馆权限管理的特点,对其中一些尚未解决的问题进行积极研究和实践,提出明确的权限管理需求;
(3)条件成熟时,构建满足数字图书馆需求的权限管理元数据的信息模型和数据字典;
(4)充分考虑权限元数据开发的成本,尽量保证其稳定性和长期性;
(5)给出相应的实践指南。