数据挖掘版权政策构建研究:研究型图书馆的立场,本文主要内容关键词为:数据挖掘论文,立场论文,图书馆论文,版权论文,政策论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号:G251 DOI:10.13266/j.issn.0252-3116.2015.10.005 数据挖掘(data mining)是利用计算机程序进行数据处理,提取和组织潜在有用信息的过程[1],是大数据时代分析海量数据的重要研究方法。研究表明,获取大量文献的许可成为研究者开展数据挖掘的重要成本之一[2],过高的许可成本和落后的版权制度制约着数据挖掘在科学研究中的发展。2011年5月,英国学者伊恩·哈格里夫斯(I.Hargreaves)提出[3]:法律不应限制新技术和工具在研究尤其是非商业性研究中的使用,而数据挖掘是一种具有代表性的新型研究工具,建议英国政府应当革新其版权法框架为非商业性研究中的数据挖掘提供版权例外。2014年6月,英国在其新修订的著作权法中引入了非商业性研究中的数据挖掘例外。在世界知识产权组织(WIPO)的舞台上,关于为数据挖掘提供版权例外的讨论亦非常热烈。在实践层面,出版商爱思唯尔(Elsevier)等更新其数据挖掘政策,并通过与研究型图书馆签订的采购合同对图书馆及其用户产生影响。我国研究型图书馆是高等院校和研究机构的文献信息中心,作为内容的创造者和使用者,应明确在数据挖掘相关问题上的立场,厘清数据挖掘过程中数据获取、复制及其结果利用等环节涉及的法律问题,借鉴相关国家的做法,制定完善的数据挖掘版权政策。 1 研究型图书馆构建数据挖掘版权政策的需求分析 高校和研究机构是学术内容的创造者,也是文献和数据的使用者。研究型图书馆作为高校和研究机构的文献信息中心,承担着保存文献、传承文明、支持教学科研的职责。综合考虑研究型图书馆在高校和研究机构中的角色,有助于厘清研究型图书馆在数据挖掘问题上的立场。 1.1 高校和科研机构的数据挖掘版权政策需求分析 研究型图书馆是高校或科研机构的一部分,构建其数据挖掘版权政策需充分考虑高校及科研机构所处的版权政策环境。从内容创造者和内容使用者的角度,高校和科研机构完善其数据挖掘版权政策有其必要性。 作为科学内容的重要生产方,高校和科研机构每年产出大量的学术科研成果:仅2013年,我国各类高校共发表学术论文797104篇,出版科技著作12060部,申请各类专利106714件,专利授权数达68971件[4]。为了充分保障科研工作者的精神权益和经济利益,大学和科研机构应完善数字环境下的版权政策,遏制盗版和侵权,鼓励科研创新。 数据和科学文献是开展科学研究的基础。从内容使用者的角度,高校和研究机构日渐关注本机构研究人员是否可以在科学研究中很好地利用数据开展数据挖掘,尤其是在医学、化学、计算机等学科领域深入应用数据挖掘。 1.2 研究型图书馆的数据挖掘版权政策需求分析 大数据环境下,研究型图书馆需完善其数据挖掘版权政策以应对其面临的诸多新挑战。研究型图书馆作为机构的文献信息中心,收藏和订购了大量的纸本和数字资源,为高校和科研机构提供重要的文献保障。尤其是许多研究型图书馆承担着运营本校机构知识库或收集和管理本机构科研产出的职责,例如中国科学院文献情报中心运营着中国科学院机构知识库[5],复旦大学图书馆推出了复旦大学社会科学数据平台[6]。 一方面,研究型图书馆数据挖掘版权政策应当注重知识产权保护。研究型图书馆及其所属的高校和科研机构承担着许多科学研究任务以及科研支持工作,产生大量的数据和成果,其中许多内容和文献具有自主知识产权。另一方面,研究型图书馆数据挖掘版权政策应当注重公共利益的考量。科学研究是社会创造知识、支持创新和促进发展的重要手段,特别是各国投入大量公共财政资助科学研究并产生众多的科研成果。这些知识资源在全社会的开放获取将促进知识的传播利用,并推进科学事业的全球化进程,让知识普惠社会发展。这要求研究型图书馆有效平衡版权权利人和公众的利益,积极推进开放获取,在保护知识产权的前提下有效促进知识传播和信息共享。 因此,作为文献的收藏和传播者,作为机构库和数据平台的运营方,研究型图书馆应当明确相关科学数据或多类型作品的版权归属和再利用政策,明确其用户如何利用大量的数据库资源和开放资源,如何解决数据挖掘涉及的版权问题,并重点明确基于非商业性研究目的数据挖掘涉及的主要法律问题和制度障碍,构建完善的数据挖掘政策,以支持研究人员更好地利用图书馆馆藏资源和开放资源进行科研创新。 2 版权法视角下的数据挖掘法律问题分析 在数据挖掘过程中,获取数据、分析数据和处理数据挖掘结果等步骤涉及诸多版权问题。 2.1 数据获取(复制)中涉及的版权问题 不同于图书馆传统收藏的纸本文献,数据挖掘中涉及大量不同类型的电子数据的获取和复制。这些数据既包括对印刷型文献的数字化后产生的数字内容,也包括大量以数字形式存在的内容和数据,如大量的数字文献、科学数据、用户信息、计算机后台数据等。 研究型图书馆及其用户开展数据挖掘时其内容来源多样,数据量大。例如,图书馆对读者信息数据具有所有权,而大量的数据库文献与数据则通过订购获得合法获取权,另有许多数据来自于网络。所以,在获取不同数据源时,首先需要明确其权利归属或授权类型,避免侵权风险。 2.2 数据挖掘分析方法所涉及的版权问题 在数据挖掘过程中,需要对源数据进行分析和重组,当使用某种程序或方法进行数据分析时,可能复制源数据库的完整内容或核心内容。如果数据库所有人禁止或限制特定种类的挖掘程序或方法,使用者是否有权对源数据进行某种形式的破解? 在对所订购数据库等非自有知识产权内容进行数据挖掘时,研究型图书馆可能对源内容实施实质性复制或对数据库设置的技术措施进行破解,这些行为存在一定侵犯版权的风险。 另外,各国十分重视数据挖掘专利的申请与保护,仅美国就有数据挖掘方面的专利13841项[7],我国至少有数据挖掘相关发明专利395项[8]。因此,在开展数据挖掘之前,应当进行专利检索和调查,确保算法和实施过程不侵犯相关专利权。 2.3 数据挖掘结果处理所涉及的版权问题 在数据挖掘中,研究者往往设定数据的阈值或设定对象控制的级别,从而筛选出符合需求的数据并进行分析处理。在这一过程中,阈值的设置非常关键,直接影响结果的呈现。如果阈值设置不当,可能会因无法预见、识别、控制数据挖掘对象或使用范围是否经过合法授权,导致挖掘出的数据信息存在外泄的可能,从而损害用户或他人利益[9]。因此,数据挖掘中,应该关注结果可能对版权权利人可能存在的风险,设置合理的结果使用方式和范围,禁止对源数据和挖掘结果进行滥用。 3 数据挖掘版权政策构建模式研究 研究型图书馆构建数据挖掘版权政策时,与宏观的国家政策及微观的图书馆业务政策息息相关。在国家层面,版权法等知识产权法律法规对研究型图书馆的科研支持工作有着重要的规范作用。在图书馆业务中,随着数字时代的研究型图书馆与数据库出版商等内容提供方的合作逐渐深入,出版商的数据挖掘政策也成为影响研究型图书馆开展数据挖掘版权政策构建的重要因素。以下从国家和数据库商两个层面,讨论数据挖掘版权政策的两种模式。 3.1 意思自治:出版商倡导通过许可合同规范数据挖掘 意思自治原则,或称“自愿原则”,在我国《民法通则》第4条和《合同法》第4条中得到确认,是指民事主体不仅能够按照自己的意思表示来实施对其具有法律约束力的任何民事法律行为,而且其所实施的民事法律行为均按照他们的意思表示来产生法律效力,即使是在涉外版权转让或许可合同中,当事人亦可以约定具体适用哪一个国家的法律,这是当事人意思自治的体现[10]。 在数据挖掘相关的版权政策方面,出版商主张遵循意思自治原则,通过许可合同建立有效的数据挖掘许可机制。近年来,国际科技与医学出版商协会(International Association of Scientific,Technical & Medical Publishers,简称STM)、欧洲出版商协会(European Publishers Council,简称EPC)以及出版商Elsevier等相继发布或更新数据挖掘政策,表明其在数据挖掘尤其是非商业性数据挖掘上的立场。这些政策将直接影响研究型图书馆及其用户对所订购资源的利用。 3.1.1 主张通过许可授权数据挖掘 为了构建一个充满活力的媒体和出版生态系统,STM、EPC等主张:许可是解决技术和版权问题的核心[11],许可机制可以保证数据挖掘的可靠性、有效性和高效性[12]。出版商允许用户对所订购的内容进行挖掘,并通过提高内容可挖掘性、开发数据挖掘平台和工具等提供多样化的数据挖掘解决方案[13]。 另一方面,出版商认为,访问协议和许可协议等将全面覆盖商业性研究和非商业性研究,并囊括不适用版权例外的诸多情况。因此,即使存在数据挖掘的版权例外的情况,亦可以通过许可合同对商业性数据挖掘的权利行使、费用等进行全面的规范。许可模式依然是市场中解决数据挖掘这一问题的最有效途径。 3.1.2 推出数据挖掘的示范许可条款 2012年3月15日,STM发布了一个适用于多种情况的数据挖掘的许可示范条款[14],通过详细的许可条款规范订购用户的非商业性数据挖掘行为,同时确保数据库商或出版商的利益。STM主张将非商业性文本与数据挖掘的权利纳入许可示范合同,并对“文本与数据挖掘输出”(Text and Data Mining Output)进行定义,规范订阅者对订购的内容及出版商网站进行合法下载或数据挖掘时的权利,同时规定订购者的限制性行为。示范条款还包含数据库的系统安全、费用、违约、合同终止等相关内容。 2014年2月31日,出版商Elsevier更新数据挖掘政策[15],允许科研人员基于研究目的对已订购的内容进行数据挖掘,并在订购合同中更新了相关条款。政策对数据挖掘的方式(通过Elsevier提供的应用程序接口(API)以连续并自动的方式提取、索引和/或处理订阅的内容)、数据挖掘结果的利用方式(数据挖掘结果应以知识共享(Creative Commons)中的“署名+非商业性使用(CC-BY-NC)”模式)等作出详细规定。同时对订阅产品的使用作出限制,明确:除非Elsevier明确许可,订阅者及其授权用户不得使用任何机器人、蜘蛛、爬虫或其他自动下载程序、算法或装置持续自动搜索、获得、摘录、深链接、索引订阅产品或扰乱订阅产品的运行,或实质性、系统性地复制、保留或再分发订阅产品。 3.2 法定例外:数据挖掘的版权例外国家立法 3.2.1 国家立法实践:以英国为例 2014年6月,英国修订其版权法,在第29条(研究、个人学习和基于非商业目的文本与数据分析)[16]新增关于数据挖掘的版权例外条款,其基本内容为:有权获取作品的主体开展的基于非商业性目的的数据分析之复制行为,不构成版权侵权。同时,设置了限制条件,明确在转让、不符合目的要件、交易等情况下,对作品的复制构成版权侵权。英国的非商业性数据挖掘的版权例外制度同时明确与合同的关系,规定“任何阻止或限制本款中所指的不侵犯版权之复制的合同条款不具有执行力”,为英国研究型图书馆开展非商业性数据挖掘版权例外提供了法律基础。这一例外条款是迎合新技术和工具在研究中的使用的需求、积极改革版权体系的表现,也将为英国的科研创新和经济竞争力的发展注入新活力。 3.2.2 国际立法协调:以WIPO相关议案为例 近年来,在知识产权产权组织平台上,数据挖掘纳入了“图书馆和档案馆相关的例外与限制”和“关于教育、教学和研究机构以及其他残疾人的例外与限制”两大议题的讨论范畴,国际图书馆协会联合会(IFLA)、非洲集团代表等呼吁为数据挖掘的版权例外设立统一的国际立法标准,推动各国对该议题的立法。 IFLA认为,为了充分利用海量数据并共享数据挖掘结果,确保图书馆在数字环境下提高信息服务能力,充分履行职责,应为图书馆数据挖掘提供版权例外或限制;而许可合同并不是解决数据挖掘相关问题的合理途径[17],在其发布的《关于图书馆和档案馆的版权例外与限制的条约建议稿》4.4版本[18]中,就数据挖掘作出了专门规定(第20条)。 而非洲集团建议将数据挖掘纳入“研究”的范畴,指出“基于非营利科研目的,通过搜索引擎、自动化知识发现工具或其他任何迄今为止了解或今后发现的数字手段,对任何合法获取的受版权保护的作品进行复制和再使用,不对版权及相关专有权构成侵权,但应在合理的可行范围内标明出处”[19]。这一条款建议为数据挖掘等新技术在非商业性科学研究中的运用提供了版权例外,体现版权法框架应适应新技术发展的要求,同时对标明出处、技术保护措施等作出规定,具备一定的开放性和前瞻性。 3.3 数据挖掘版权政策构建模式的比较分析 3.3.1 法定例外模式的优势及其实施 以英国的立法实践为例,英国关于非商业性研究的数据挖掘的版权例外制度有效平衡了权利人和公众的利益,一方面明确了有权获取的主体有权对数据进行基于非商业性研究目的的数据挖掘,而不能限制其使用何种计算机程序、方法或算法,从而简化了科研人员从事非商业性数据挖掘的许可成本,将有效提高科研的效率。同时通过对数据挖掘行为的充分限制,保证例外规则在“三步测试法”的合理框架内运行,确保权利人的正当利益不受侵害。这一模式的制度设计充分考虑新技术和工具在科研中的需求,成为积极革新版权框架的例证。 在例外条款的实施方面,英国数据挖掘版权例外制度特别规定了与合同的关系,指出内容提供者不应不合理地限制研究者对其合法获取的文本和材料进行复制以便开展数据挖掘的权利,明确为了维护自身利益而规避例外条款的合同应视为无效,为例外条款的有效实施奠定基础。但在实际中,不同利益方对例外条款的解读与实施的差异等原因导致版权例外制度的完全实施存在一定困难,研究型图书馆往往处于相对被动的劣势地位。 例如,Elsevier更新的数据挖掘政策中规定必须通过其提供的API获取已订购内容或数据,而对数据挖掘结果输出发布至外部时包括的书目元数据也进行了长度限制(200字符)和格式限制(如应附带DOI链接等)。图书馆界认为,这是对科研人员的不合理的限制,将影响科学研究的自由和效率[20],类似条款应该视为无效。而Elsevier认为,根据英国法律规定,只要不妨碍研究人员能够从非商业性数据挖掘的版权例外中受益,出版商可以实行“合理措施以维持网络的稳定和安全”[17],因此其关于数据挖掘的政策与版权例外制度并不冲突,而是对其的有效补充[1],这种法定的“合理措施”,不仅有利于科研人员开展数据挖掘,也有利于维护网站的稳定而使其他用户受益。 由此可知,在进行数据挖掘版权政策的构建时,应充分考虑在“三步测试法”的前提下进行制度设计,并出台政策实施指南或细则以有效保障充分实施。 3.3.2 许可机制模式的优势与不足 我国《合同法》第4条规定:“当事人依法享有自愿订立合同的权利,任何单位或者个人不得非法干预。”即合同双方可以就数据挖掘议题自愿达成合议。因此,出版商有权在合同中约定数据挖掘的条件,研究型图书馆亦可以就条件与出版商展开磋商并有权选择接受或拒绝。 理论上,许可机制允许双方在意思自治的原则下针对特定议题开展充分磋商,因为谈判双方对于数据挖掘的权利和实施条件有合理预期。因此,从交易自由和交易成本的角度看,许可机制具备针对性强、实效性高等优势。但许可机制发挥自由市场作用的前提是数据库商和图书馆等订阅用户具有完全平等的交易主体地位。然而,在实践中,出版商、数据库商等掌握着版权资源,其在缔约地位上往往处于强势地位;其提供的资源订购合同中往往包含限制研究型图书馆践行法定例外规则的条款。 研究型图书馆在数据库订购合同中可能会遭遇限制图书馆及其用户对已订购资源的获取和利用的商业实践。例如,在订购合同中,出版商Elsevier提出的单一的、不具可扩展性和开放性的数据挖掘方式,虽然看似出于对版权的保护,但限制了用户开展科学研究的方式,进而将影响研究效果,对用户合法权益造成了不合理的限制,也为合理使用版权例外设置了门槛和障碍[22],存在利用市场垄断地位过度保护版权的嫌疑。 如果出版商承诺“订购了其资源的研究型图书馆及其授权用户有权对已订购资源开展非商业性数据挖掘”,那么就应承认:有权获取就有权开展非商业性数据挖掘。研究型图书馆应该在许可合同中贯彻这一原则,阻碍出版商权利的过度扩张,保障内容使用者的权利。 另一方面,在国际协调层面,例外规则的法定优先性和对合同自由的介入是较为敏感的议题,美国、澳大利亚等对于引入这样的国际准则持谨慎小心的态度[23];因为统一的国际规则经常会被国内法直接引入并适用于各国不同形势,而忽略当事方具有缔约自由的重要原则。所以,WIPO成员方对于任何可能干涉缔约自由原则的国际版权规则持保留意见[24]。 4 研究型图书馆在数据挖掘版权政策构建上的立场 4.1 研究型图书馆应关注现代版权体系的变革,使其适应科学技术的发展 《世界知识产权组织版权条约》确认,“有必要保持《保护文学和艺术作品伯尔尼公约》(简称《伯尔尼公约》)提及的作者权利与广大公众的利益——尤其是教育、研究和信息获取——之间的平衡”[25]。图书馆致力于保障用户获取信息的自由,提升其获取信息的能力以支持教育、科研和创新,同时尊重版权权利人的合法利益;提倡一个充分平衡版权权利人和用户的版权体系,充分尊重权利人的利益,同时保护用户在合法环境下获取信息、利用信息的权利[26]。尤其是在数字环境下,信息技术不断发展、新技术和新方法不断涌现,用户获取和利用信息的方式、开展学习和科研创新的模式发生着重要变化。版权体系应适应而非阻碍科学技术的发展。因此,必须改革现有版权体系以适应快速发展的信息技术、数据的爆炸式增长以及合作创新和开放文化的需求。 《伯尔尼公约》允许成员国在不与作品的正常使用发生冲突,并没有不合理地损害作者法定利益的某些特定情况下设立版权例外与限制规定。根据《世界知识产权组织版权条约》[25]确认,复制权例外等相关规定完全适用于数字环境,应允许成员国在数字环境下继续沿用现有版权例外与限制制度并进行扩充,且可以创设新的版权例外与限制规定。因此,研究型图书馆应当积极呼吁:在尊重版权的基础上,变革数字环境下的版权限制与例外体系,进一步平衡版权权利人和公众之间的利益,兼顾发展中国家和弱势群体,以促进知识传播和科研创新。 4.2 研究型图书馆应推动包含数据挖掘内容的版权限制与例外的国际协调 为促进数字环境下学习方式的转变和科学研究的发展,确保数字时代图书馆可以充分履行其社会职能,加强国际合作和资源共享,最终促进文化进步和知识创新,近年来图书馆界一直呼吁在世界范围为图书馆版权例外专设具有普遍约束力的国际条约。作为数字时代重要的科学研究手段,基于非商业性研究的数据挖掘的版权例外应当包含在WIPO“图书馆和档案馆相关的例外与限制”和“关于教育、教学和研究机构的例外与限制”两个议题中。 我国研究型图书馆应当建议政府在世界知识产权组织的舞台上积极推动数据挖掘版权限制与例外条款的达成,为图书馆、教育和科研机构缔结具有普遍约束力的国际文书,为所有缔约国建立数据挖掘版权例外与限制的基本规则,为方便和促进缔约方国内法修改相关条款提供理想框架,并允许缔约国创设新的版权例外与限制。通行的国际规则将大大便利研究人员对其拥有合法获取权的文字和数据进行分析,使用更为先进的技术,加快科学研究的进程,以获得新的科研发现,实现公共利益最大化[27]。 4.3 研究型图书馆推动政府为非商业性研究设置数据挖掘版权例外规则 欧洲研究型图书馆协会(Association of European Academic Libraries,简称LIBER)认为:有权获取就意味着有权挖掘,合法订阅用户应当对合法获取的作品享有数据挖掘权[28]。EPC、STM及Elsevier等出版商推出的以许可模式为主要解决方案的数据挖掘政策存在局限性,将对研究人员的科研自由造成潜在危害。所以,国家立法应当为非商业性研究的数据挖掘提供版权例外。 从研究型图书馆的立场看,许可机制不是解决数据挖掘问题的最佳方式。数据挖掘是数字时代信息利用和知识创新的重要方式。用户对于已订购的资源拥有合法的数据挖掘权利,出版商不应利用许可合同不合理地限制用户的正当权利。 研究型图书馆应当呼吁:国家在立法层面,顺应大数据时代科研创新发展的需要,完善版权体系,为非商业性研究的数据挖掘提供版权例外规则。中国正在进行的第三次《著作权法》修订为增加数据挖掘相关版权例外规则提供了机会[29]。《著作权法》(修改草案)对便利图书馆和科研人员开展数据挖掘的制度需求关注不够。《著作权法》(修改草案)第43条增加了有关“合理使用”的原则性规定,这使得拓展图书馆例外规则的适用存在空间。由于原则的抽象化,实践中有关数据挖掘能否适用合理使用可能出现法律争议。图书馆界应积极开展研究,表明图书馆界和科研人员的需求,参与相关制度的讨论并提出建议,推动非商业性数据挖掘被纳入“合理使用”的范畴。 4.4 研究型图书馆应谋求数据挖掘法定例外与合同许可的有机结合 在实际工作中,研究型图书馆应立足于推动数据挖掘的法定例外与建立有效的许可机制的有机结合,构建灵活、合理、高效的图书馆订购资源尤其是电子资源的数据挖掘政策。 一方面,应谋求国家层面为非商业性的数据挖掘建立版权例外制度,通过法律明文规定保障科研人员利用有权获取的内容的挖掘权利,明确版权例外的主体、客体、目的以及限制等,构建一个符合“三步测试法”的数据挖掘版权例外制度,推动公共利益的最大化。 另一方面,研究型图书馆应改变被动地接受数据库商格式条款的现状,提高谈判能力,建立有效的谈判机制,研究如何通过许可合同充分表明图书馆及其用户在数据挖掘方面的立场和需求,最大限度地争取和维护自身利益。例如,在不影响数据库系统性能的前提下,科研人员应可以充分利用提供的数据挖掘工具和平台,而非对其开展数据挖掘的方式作出不合理的强制性要求。通过与数据库商充分磋商并签订更为合理有效的许可合同,可进一步提升研究型图书馆相关政策的有效性,促进科学研究的发展和公共利益的最大化。 作者贡献说明: 徐轩:设计研究方案,起草、修改论文和定稿; 孙益武:提出研究思路,完善研究方案,补充论文重要内容并修改论文。 收稿日期:2015-04-03 修回日期:2015-05-08数据挖掘中版权政策构建研究:研究型图书馆的地位_数据挖掘论文
数据挖掘中版权政策构建研究:研究型图书馆的地位_数据挖掘论文
下载Doc文档