论算法创作论文

论算法创作论文

论算法创作

梁志文 李忠诚*

摘 要 “数据驱动创作”现象,即算法广泛用于版权产品的定制与营销决策,它建立在精准发现消费需求的基础上,必将深刻影响版权制度的发展。当内容创作越来越依赖于投资,而非天才作者的灵感时,传统的浪漫主义理论就无法为作者与作品的保护提供有说服力的支持,这既将促成著作人格权与“创作”这一作品要件的制度变革,也使得投资保护将发挥更为重要的作用。算法创作的质量受数据偏见、算法偏见的影响,故应适度扩张适用合理使用制度;而算法精准发现消费需求,降低了版权产品的市场风险,也需要重新构建版权法的利益平衡机制。最后,算法创作具有一些负面的社会效应,对算法创作的适度监管和反垄断审查将保障版权产业的技术进步、服务于促进社会进步的目标。

关键词 算法 数据驱动创作 浪漫主义作者 著作财产权 合理使用

从技术层面来看,人工智能的技术基础体现为算法、算力和数据三个方面。机器学习的基本算法,以及影响人工智能产出(或应用)的输入层的大数据,是人工智能技术开发中涉及版权法律的技术。相比于现阶段尚处于弱人工智能技术条件下其生成物的法律定性,广为版权产业所使用的、被称之为“数据驱动的创作”(Data-Driven Creativity)或算法创作(Algorithm for Authorship)才是真正值得版权法律理论关注的重点问题。从更广义的角度来看,它是“数据驱动创新”(Data-driven innovation)在版权产业中的重要体现。即,数据在增加产品(服务)价值,或对方法、产品、营销的创新或改进方面具有基础资源或资本的地位。〔1〕 See OECD, “Data-driven Innovation For Growth and Well-Being: Interim Synthesis Report” 15, 30 (2014). 同样,数据在版权产品的创作、营销以及产品增值方面具有重要的价值。由数据驱动的算法创作成为版权产品的重要来源,它主要体现为三大情形:第一,算法通过对用户数据的分析来发现版权产品的消费需求,并以此来定制满足该需求的版权产品;第二,大量的数据构成机器学习的训练数据库,成为算法创作(如新闻写作、音乐制作)的主要原料与素材;第三,算法通过对用户数据的分析来实现版权产品的精准营销,引导并创造版权产品的消费需求。毋庸置疑,“数据驱动创作”这一现象将对整个版权制度产生根本性的冲击。为此,本文分析算法和数据如何影响版权产业的内容提供,并试图探析算法如何从数据中获得增值价值,并如何驱动创作。

一、算法创作疏离作者与作品之间的联系

在数字经济时代,数据不仅是经济发展的“石油”资源,还是经济主体最为重要的金融资本。〔2〕 See Jathan Sadowski, “When Data is Capital: Datafication, Accumulation, and Extraction” Big Data & Society 1 (2019).数据的价值通过数据挖掘技术而得以实现。所谓数据挖掘,是指“通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别”等诸多方法,“从大量的数据中通过算法发现隐藏其中的信息的过程”。〔3〕 罗琼、杨微:《计算机科学导论》,北京邮电大学出版社2016 年版,第168 页。 用户画像技术是一种常见的数据挖掘技术,它对用户等原始数据二次计算后重构新的数据,通过对用户的生活场景、使用场景、用户心智等进行分析,精准地抽象出用户性质与特征,其目的在于“勾画用户(包括用户背景、特征、性格标签、行为场景等),联系用户需求与产品设计”,〔4〕 牛温佳等:《用户网络行为画像——大数据中的用户网络行为画像分析与内容推荐应用》,电子工业出版社2016 年版,第3 页。 进而将数据转化为商业价值。搜索引擎、视频网站、零售业、制造业乃至金融业都广泛使用用户画像技术,发现消费需求,并为消费者提供定制产品、提升用户体验等个性化服务。〔5〕 参见牛温佳等:《用户网络行为画像——大数据中的用户网络行为画像分析与内容推荐应用》,电子工业出版社2016年版,第6-8 页。

在版权产业中,内容生产者也常常使用用户画像技术,通过收集、分析用户的数据,可以事先获取用户偏好,再进行内容的创作。这改变了原有的版权产品制作模式,提高了版权产品的制作效率,也使得内容生产者之间的竞争指向对数据资源的争夺。美国奈飞(Netflix)公司在电视剧《纸牌屋》的制作过程中,通过对其数据库内的三千多万用户、四百多万评论以及三百多万条主题搜索等数据进行分析,利用数据挖掘技术选择导演、演员阵容。不仅如此,奈飞公司还将大数据分析用于剧情设置,例如,为了获得中国粉丝的青睐,该剧多处涉及中日海军对峙、汇率、网络安全冲突等中国元素。〔6〕 参见李法宝:《内容为王:〈纸牌屋〉如何满足观众需求》,载《现代视听》2016 年第4 期;also see Aditi Bhat, “How Netflix Used Data Science to Create One of the Most Loved Shows Ever: House of Cards”, https://www.manipalprolearn.com/blog/how-netflixused-data-science-create-one-most-loved-shows-ever-house-cards, accessed March 23, 2019. 该剧受到了观众的追捧,在市场上大获成功。在我国,内容生产者也开始尝试改变内容创作的方式。在系列电影《小时代》的创作过程中,制作方通过定期对粉丝数据做整理、对比,分析电影的百度指数、话题讨论、相关搜索量和点击排行等方式,找准观众的消费需求,并将其利用到电影创作的情节设置、角色选定等方面。〔7〕 参见赵赛坡:《粉丝、屌丝与互联网商业模式》,载《文化纵横》2013 年第5 期;冉叶兰:《大数据在电影行业的应用案例》,载《大数据时代》2018 年第10 期。 通过数据挖掘设定符合目标用户偏好的情节,《小时代》系列电影总票房超过10 亿元,成为同时期票房最高的、现象级的系列电影。

上述例子典型地体现了内容生产者通过用户画像等大数据技术来发现版权产品的消费需求,并进而直接定制版权产品。这表明,“数据驱动创作”引导版权产业的内容创作方式从“供给导向”向“需求导向”转变。〔8〕 Keith Kehoe & John Mateer, “The Impact of Digital Technology on the Distribution Value Chain Model of Independent Feature Films in the UK” 17(2) International Journal on Media Management 94 (2015).传统“供给导向”模式下,创作者没有获取用户需求的直接路径,内容的生产只能依靠创作者自身的创作意愿或预设的市场需求进行。以“用户需求”为导向的数据驱动创作形式实现了内容生产者与内容需求者的双向互动。这是因为观众在观看影视作品过程中产生了大量承载用户偏好的数据,内容生产者分析、挖掘观众对内容的需求数据,并将其融入到作品的创作中。

数据驱动创作模式提高了内容创作的效率以及版权产品的市场成功率。首先,在数据驱动创作模式下,内容生产者可以通过大数据分析用户偏好,确定版权产品的创意方向,与传统创作方式相比,降低了版权产品的创作成本。其次,它改变了传统的“先生产、后销售”的模式,版权产品始终以用户需求为导向,降低了市场失败的风险,提高了其市场成功率。电视剧试播集是传统确定版权市场消费需求的重要方法,它是在电视剧制作之前,制作公司判断电视剧是否具有市场价值的“样品集”。试播集的制作成本非常高,每30 分钟平均时长的试播片需要花费200 万美元,并且需要对观众进行广泛的调研。〔9〕 See Chiris, “How Television Shows Get Made”, May 2018, https://christopherming.com/2018/05/how-television-pilots-aremade/,accessed March 23, 2019. 但奈飞公司在电视剧《纸牌屋》制作时突破了传统的版权产品制作模式,未发行任何试播片就投资近1 亿美元,这种模式不仅节省了试播片的制作成本,也节省了创作的时间,它是奈飞公司在2016 年能够比其他公司生产更多创造性内容的原因所在。〔10〕 参见邹一沛、沈思:《奈飞模式的启示与冷思考》,载《青年记者》2014 年第26 期;also see Rob Nightingale: “How Netflix Knows Exactly What You Want to Watch” (March 4 2016), https://www.makeuseof.com/tag/how-netflix-knows-exactly-what-you-want-towatch/, accessed March 24, 2019.

“算法偏见”问题在现存版权法框架下难以得到解决。这主要体现在三个方面。〔29〕 See Amanda Levendowski, “How Copyright Law Can Fix Artificial Intelligence’s Implicit Bias Problem” 93 Washington Law Review 597,610 (2018).第一,版权法禁止规避技术措施,限制了反向工程等减少偏见技术的实施和更优化的人工智能系统的开发。〔30〕 See Amanda Levendowski, “How Copyright Law Can Fix Artificial Intelligence’s Implicit Bias Problem” 93 Washington Law Review 602 (2018).第二,版权法通过对作品的垄断,主要通过版权法默认的“选择加入”(opt-in)作品利用机制,记者、研究者以及竞争对手基于披露算法偏见目的使用作品的行为也被排除在外,限制了算法问责制的实施。第三,占据主导地位的人工智能开发者通常依靠其产品获取数据,产品所针对用户群体的单一性造成获取的数据具有一定偏见。而且,获取数据需要大量投资,新兴的市场竞争者几乎不太可能获得类似IBM 协议的作品使用许可。

而在传统版权理论上,无论是大陆法系的作者权体系还是英美法系的版权体系,著作人格权制度的正当性在于强调作者与作品之间的某种联系。受个人理想主义、浪漫主义、天赋人权学说等理论的影响,作者被认为是“孤独的天才”,是作品的唯一来源;作品是作者个性的“镜子”,是作者人格的延伸和精神的体现;甚至,作者与作品的关系如同“父子”。〔13〕 参见林秀芹、刘文献:《作者中心主义及其合法性危机——基于作者权体系的哲学考察》,载《云南师范大学学报(哲学社会科学版)》2015 年第2 期。 建构在浪漫主义创作理论基础上的著作人格权制度,强调作品是作者人格的延伸和精神活动的体现。其在版权制度上最为重要的体现是,强调作品必须是人类作者的创作;〔14〕 这也是反对人工智能创作物(或算法运行结果)受版权保护的重要理由。参见王迁:《论人工智能生成的内容在著作权法中的定性》,载《法律科学(西北政法大学学报)》2017 年第5 期。 后现代主义解构了传统文学理论上的作者观。其基本主张是:作品是存在于作者之外的生命,在作品创作完成的瞬间,作者与作品的关系即宣告结束;同时,提出“可写作文本”的概念,要求读者参与到作品意义的生产过程中。作品的解读权回归于读者手中,这打破了原有的、静态的结构观和系统观,象征着作者已死、读者重生。〔15〕 参见高云换等:《作者已死:巴特与后现代主义》,载《资讯社会研究》第35 期,来源:http://mail.nhu.edu.tw/~society/e-j/35/35-32.htm, 2019 年4 月20 日访问。 按照这一观点,读者对作品意义的生产也是创造性活动,这使得作者和读者的界限逐渐模糊,浪漫主义理论一直以来所坚持的“以作者为中心”的创作主体地位受到挑战,并向“以读者为中心”转变。

后现代主义的文学理论质疑浪漫主义的作者观;而“数据驱动创作”模式则必将加速文学创作理论的变革过程,并给传统的浪漫主义创作理论和“作者中心主义”创作理论带来致命一击。算法创作对创作理论变革的影响主要集中于作品文本的形成过程。在数据驱动创作模式下,为了获得市场竞争力,作品文本的创作始终围绕读者的需求展开,创作者的个人创作意愿通常要屈服于读者的集体需求。创作者通过采集用户的数据分析用户需求和偏好,并将这种用户偏好融入到作品的创作过程。此时,作品不再是康德口中的“作者对读者所说的话”,而是“圆形监狱”模式下信息的相互传递,是读者对读者所说的话;它也不是“创作者人格的延伸和精神的体现”,而是读者集体创作的结果;它更不是“天才作者激怒读者的方式”,而是作者取悦、迎合读者的产物。正如后现代主义所质疑的那样,所谓的创作者,更像是作品的“生产者”(producer)〔16〕 [德]瓦尔特·本雅明:《作为生产者的作者》,王炳钧、陈永国等译,河南大学出版社2014 年版,第1-34 页。 、“书写者”(scripter),〔17〕 [法] 罗兰·巴尔特:《作者之死》,林泰译,载《符号学文学论文集》,百花文艺出版社2004 年版,第512 页。 而非“作者”(author)。

在这一背景下,淡化甚至取消“人类创作”作为作品受版权保护的要件,建立以人类读者为中心的作品可版权性要件,〔18〕 参见梁志文:《论人工智能创造物的法律保护》,载《法律科学(西北政法大学学报)》2017 年第5 期。 这是版权制度适时回应技术发展的必然需求,也是保护数据驱动创作之投资的现实需求。算法创作已成为现实,这改变了人类作者为作品的唯一创造者的传统观念。即便学者们仍将其视为人类进行创作的辅助工具,但无论人工智能的法律地位如何,事实上,人工智能已经深入参与到内容创作的过程中,成为作品产生的来源之一。当人们不再假设作品中所有的变化都来自于人类之手,“劳动财产学说”所主张的“作者通过劳动获得版权”的观点便将遭到质疑。〔19〕 See Bruce E. Boyden, “Emergent Works” 39 Columbia Journal Law & Arts 380 (2016).在“数据驱动创作”模式中,付出“辛勤创造性劳动”的主体并非只有人类,还包括人工智能系统。甚至,随着人工智能技术的不断发展,在“数据驱动创作”过程中,人工智能已经可以起到关键作用或者独立进行版权产品的制作。按照“劳动财产学说”的逻辑,人工智能付出了创造性劳动,其理应取得著作人格权,但这显然与自然权利理论所主张的“作者是作品的唯一来源”的观点相悖。

二、算法创作需要合理使用制度的保障

1953年3月5日斯大林的病逝,为苏联调整对外政策提供了一个关键性的转折点。苏联外交政策的这次转变再次影响了国际关系的发展方向,就如1947年日丹诺夫把冷战时期国际关系的特征归结为“两大阵营”那样。[53]斯大林逝世后,苏联新的领导层首先应明确了新的外交目标与定位,“是防止新战争,和一切国家和平相处”。 [54]在缓和国际紧张局势、争取扩大和平这一政策定位下,苏联也相应开始调整对亚非发展中国家的政策,特别是1955年初赫鲁晓夫在巩固了自己的政治地位之后。

从技术发展来看,机器学习在近期得到迅猛发展的重要原因是出现了能够处理大数据计算能力的硬件设备。〔21〕 See Ryan Calo, “Artificial Intelligence Policy: A Primer and Roadmap” 51 California Davis Law Review 405 (2017).面向应用的人工智能开发能否取得实质的进步,往往取决于相应数据的完整性。即使人工智能的算法非常先进,但如果用于机器学习的数据库(trained dataset)是不完整的,则其输出结果极有可能不正确,就会产生极大的误差,即“计算机科学家们常常直白地将其描述为:输入垃圾,输出的也是垃圾。”〔22〕 See Amanda Levendowski, “How Copyright Law Can Fix Artificial Intelligence’s Implicit Bias Problem” 93 Washington Law Review 585 (2018).以监督学习为例,开发一款识别猫的人工智能就需要研究人员在数据库中建立猫的标签(即猫所具有的一系列具体特征),其学习过程就类似于父母教育小孩,将什么是猫告诉小孩,并确认或纠正其对猫的生物特征的理解。软件能否准确识别不同形态的猫,关键在于其能否从数据库中正确抽象出猫的个性特征及整体特征;而这又取决于训练数据是否足够多、足够全。〔23〕 See Amanda Levendowski, “How Copyright Law Can Fix Artificial Intelligence’s Implicit Bias Problem” 93 Washington Law Review 592 (2018).例如,如果数据库只有玳瑁猫这一品种的图片,则暹罗猫、孟买猫等品种就有可能难以被系统识别出来。为了实现其功能,数据库就必须有大量的不同品种猫的素材。

如果版权法的立法目标在于激励作品创作和传播,那么,当版权产品的制作成本和市场风险同步降低时,这意味着产业对于版权法的需求在降低而非增加。在这种情形下,“即使没有版权法的激励作用,人们依然会基于市场竞争以及本能进行版权产品的创作。”〔55〕 See Mark A. Lemley, “IP in a World without Scarcity” 90 New York University Law Review 464 (2015).因此,如果假定版权法设定之初所进行的制度安排具有正当性,那么,由于“数据驱动创作”降低了版权创作的成本,也就降低了立法者人为设定的稀缺性所起到的激励效果,这必然对高水平版权保护制度的正当性产生一定冲击。因此,对于算法创作的版权产品,应当采纳更短的版权保护期和更狭窄的版权保护范围以维持与之前同等的激励水平,否则,将造成“无谓损失”(dead loss)。〔56〕 See Kal Raustiala & Christopher Jon Sprigman, “The Second Digital Disruption on: Streaming & The Dawn of>目 次

一、算法创作疏离作者与作品之间的联系

二、算法创作需要合理使用制度的保障

三、算法创作再塑版权制度的基本取向四、算法创作的负面效应及其规制

五、结论

* 梁志文,广东外语外贸大学华南知识产权研究院、南京师范大学法学院教授、博士生导师;李忠诚,南京师范大学法学院博士研究生。本文系国家社科基金项目“变革中的版权制度研究”(项目号16FFX023)的阶段性研究成果。

(责任编辑:吴一鸣)

标签:;  ;  ;  ;  ;  ;  ;  

论算法创作论文
下载Doc文档

猜你喜欢