算法自动化决策风险的法律规制研究*
孙建丽**
摘 要: 随着自动化决策算法的广泛运用,民事主体因受“信息茧房”裹挟正在丧失信息获取自主权。同时随着算法预测性使用功能的不断强化,民事主体隐私安全和发展平等权也日益面临着被损害和被剥夺的风险。规制这些算法问题,一方面需要以欧美为鉴,从大数据规范收集和利用着手进行源头治理;另一方面需要结合我国具体国情,及时增设数据被遗忘权、更改权,并创设算法安全委员会,由其集中负责计算机源代码披露和算法解释、审核、监管工作。此外,为全面防范、惩戒算法侵权行为,还需通过立法确立算法侵权责任机制。
关键词 :算法侵权 大数据 被遗忘权 算法监管 侵权责任
近年来,随着强人工智能技术的不断进步以及机器学习理论的不断深入,算法自动化决策被普遍运用于各领域。然而,算法自动化决策在节约时间和提升工作效率的同时,也引发了诸多问题,如“信息茧房”效应以及“算法杀熟”现象等,其不仅垄断了个人视域,还损害了社会公平。如何通过法律规制保证算法自动化决策的合理性、正当性和公平性,减少自动化算法在各领域决策中触发的“信息茧房”风险、隐私泄露风险以及歧视风险,抑制由算法自动化决策促成的群体极化现象,理应成为当前法律关注的焦点。这不仅需要我们对算法自动化决策引发的现实危害进行深度剖析,也需要我们在具体法律制度阙如的当下,及时借鉴欧美人工智能治理的有效经验,结合国内算法自动化决策适用的情况,积极探索出能够切实规制算法自动化决策风险的法律路径。
一、算法自动化决策的现实危害剖析
人工智能成为国际竞争新焦点之际,① 张吉豫:《人工智能良性创新发展的法制构建思考》,载《中国法律评论》2018年第2期。 算法已然备受各国重视。然而,在对算法自动化决策技术加紧研发、利用的同时,人们普遍忽略了算法自动化决策所带来的负面影响,以致在“技术中立”思潮的遮蔽下,对算法自动化决策造成的现实危害关注力度不足。近来随着算法自动化决策在各领域的广泛应用,由算法自动化决策引发的弊端不断凸显:
精细勘探主要解决岩性油气藏勘探点多面少、开发阵地不明确和难以形成规模效益的问题;在岩性油气藏为主的复杂地区获得较好的勘探和开发效益,快速一次性探明经济可采储量,建设产能阵地。
(一)算法自动化决策导致“信息茧房”风险
“信息茧房”最早由哈佛大学法学院桑斯坦教授提出,意指公众在海量信息传播中,因非对信息存有全方位需求,而只关注自己选择的或能使自己愉悦的讯息,长此以往,将自己束缚在如蚕织就的信息“茧房”中的现象。② [美] 凯斯·R.桑斯坦:《信息乌托邦》,毕竞悦译,法律出版社2008年版,第8页。 “信息茧房”效应一旦形成,无形风险便随之产生。在“信息茧房”效应中,自动化决策算法对定制化信息的不断精准推送看似满足了用户的主观需求,但实则将用户引入了“井蛙”困境。因为短时间内在注意力有限的情况下,用户仅能被锁定在由自动化算法推送的某类固定信息中,当用户对此类固定信息形成稳定的阅读习惯后,便再难以关注其他领域的信息或即时热点,久而久之,造成用户思维固化、盲目自信,认知结构单一,甚至模糊或淡化对现实社会的真实感知,③ 许竹:《微博的“信息茧房”效应及其思考》,载《新闻爱好者》2018年第2期。 间接地剥夺了用户对其他信息的“知情权”。
另外,自动化算法铸就的“信息茧房”还会进一步引发回声室效应和同质化效应。④ 周文扬、张天荣:《生成、影响与反思:聚合类新闻客户端的信息茧房效应研究——以“今日头条”为例》,载《传媒》2018年第10期。 “信息茧房”中,封闭的信息空间使得同类型信息不断循环显现,用户碎片化的算法经验认知使其误以为这些信息就是事实全部,进而影响用户对真实信息的全面获取和对问题的正确判断,回声室效应形成后,信息多元化和信息获取自由原则的适用空间将会受到严重挤压;此外,封闭的舆论场域还极易促使用户产生求同心理,用户通常倾向接受与自己观点、思想相似的信息,进而组合成各种由线下分化个体聚合而成的线上群组,形成信息同质化效应。这些群组通常取消关注、不关注甚或排斥载有与自己观点相异的信息,直至形成群内同质、群际异质的局面。这种现象不仅致使群体信息极化、群际关联松散,还使得相异观点下沉、言论自由受到侵蚀。
从本质上看,算法实为通过计算机系列清晰指令解决问题的一种策略机制,是对人类解决问题思路的代码转化。无论低阶算法还是高阶算法都须以大数据为基础,并通过执行系列计算机指令运行结束。从图二算法分类表可知,低阶算法基本上是对已有指令的完全遵循,设计者和使用者可据此对其作出确定预测和解释。然而,高阶算法则较为复杂,除需要已有指令引导外,还可以根据训练数据进行自主学习和自行决策,已经超越原有指令既定的路线,脱离了人类的有效控制。高阶算法的不可预测性使得算法立法出现了极度盲点,严重迟滞了算法的立法步伐。诚如上文所述,算法以大数据为基础,以训练数据为直接依据,并非不受约束和限制,欧美通过规制数据立法从源头上对算法风险进行治理的思路是正确的,也是有效的,这就为我国未来规制算法风险提供了正确的方向指引。另外,欧美学者以算法本身为切入点提出了以上极具建设性的建议,虽然在可行性上不尽完善,但目前为止依然是最能解决算法风险问题的对策。事实上,我国对算法进行立法规制时,对以上学术建议进行相应整改后,能够提高其可执行性。
采用氯喹(20 μmol)抑制自噬后,联合组细胞活力为72.0%,显著低于Danu单药组(88.9%)以及氯喹单药组(82.4%)(图9)。可见,抑制自噬可增强Danu杀灭细胞的作用,说明Danu所引起的自噬起到了保护细胞的作用。
(二)算法自动化决策引发隐私泄露风险
隐私泄露风险不仅发生在用户数据收集阶段,⑥ Katherine Drabiak, Caveat Emptor.How the Intersectionof Big Data and Consumer Genomics Exponentially Increases Informational Privacy Risks, 27 Health Matrix143 (2017). 随着自动化算法的进一步智能化,还将发生在算法预测阶段。这就意味着之前未向网络平台披露过的个人信息有可能经过深度学习算法的预测被推断、披露出来。例如,美国研究者曾对“Facebook Likes”58000名志愿者提供的准确率高达80%-90%的个人信息,⑦ Michal Kosinski, David Stillwell ,ThoreGraepel.Private Traits and Attributes are Predictable from Digital Records of Human Behavior,110 PROC.NAT’L ACAD.SCI.5802(2013). 如性取向、种族、智力情况、宗教及政治观点、性格特征、幸福指数、瘾品使用、父母离异、年龄和性别信息进行数学建模,自动化算法在未获取志愿者其他任何信息和个性特征的情况下,可以相当准确地预测出该Facebook用户是否为同性恋者。⑧ ZeynepTufekci.Algorithmic Harms beyond Facebook andGoogle: Emergent Challenges of Computational Agency, 13J.on Telecomm.& High Tech.L.203 (2015). 实践中,抓取用户数据后启用自动化算法对未来趋势进行预测已不罕见,例如知道用户分别是全国步枪协会成员和计划生育支持者,自动化算法将会通过贝叶斯定理相应地预测出二者未来支持共和党和民主党的概率,进而将用户的政治选举意愿和倾向揭示出来,尽管这样的预测结果可能会与未来用户的真实决定存有一定偏差,但通过自动化算法深度挖掘并披露用户潜在隐私信息已是不争的事实。
大数据挖掘技术的进步为自动化算法的强智能化提供了有力的技术支撑,当更多数据被输入到算法模型中时,算法模型又一次得以完善和改进。与以往简单人口统计信息不同,当前自动化算法通过分析已输入的海量个性化数据点来为用户进行深度画像,其不仅能够知悉用户的性别、民族、收入等基本信息,还可以全面预测用户的心理特征和心理状态等。因为通过合并在线和离线数据,用户每一次网页浏览、人际交互等由网络行为生成的结构化和非结构化数据都能被收集、存储,而后经由SQL、SAS、R或者Python、C++等数据挖掘工具将隐藏的预测性信息抽取出来,通过运行自动化算法揭示出用户的潜在隐私。正如《纽约时报》所报道的零售巨头Target根据自动化算法分析向限制民事行为能力人邮寄婴儿用品手册,而法定监护人却不知悉其怀孕的信息一样,⑨ Charles Duhigg.How Companies Learn Your Secrets, NEW YORK TIMES (Feb.16, 2012). 自动化算法已经远远超越当前人类个体对自我信息的认知范围而对个人隐私保护形成强烈冲击。
然而,自动化算法越来越智能化的同时,大数据背景下有关隐私保护的法律规定并没能同步跟进,以致对主体隐私保护不尽周全。网络时代,如何将因自动化算法导致的隐私泄露所引发的损害风险降至最低,而又不过度阻碍自动化算法带来的技术进步,是时代赋予立法者的义务,也是当前法律首要关注的焦点。没有相应的法律规制,每位网络用户均为透明的个体,毫无隐私可言,在使其失去心理安全保障的同时,也纵容了算法使用者利用他人隐私进行营利投机的行为,不利于营造网络合理秩序和公平竞争环境。
那女的脸色又青又白,几乎贴在车窗玻璃上,冯一余从车里看过去,简直就是个死尸的脸,难怪人家骂诈尸呢,面对一具死尸,你能怎么样呢?冯一余认了输,下车将钥匙还给那女的,转身回到自己车上,听到保安和那女的在背后奇怪说,咦,他开到哪里去?
(三)算法自动化决策助推歧视风险
歧视风险不仅存在于现实生活中,其还以大数据为媒介渗透到自动化算法决策中,近来消费者反映强烈的“算法杀熟”现象即是算法歧视的典型例证。⑩ 张璁:《大数据如何助力社会治理》,载《人民日报》2018年5月23日。 “算法杀熟”是指服务或商品提供者根据消费者在其网站上的消费次数,收集、分析该消费者对商品或服务的消费信息,当消费者频繁进行消费时,算法将会自行记录并向该消费者发起高价要约,从而使其以高于首次或低频次购买该服务或商品的消费者的价格获得该服务或商品。事实上,除却含有价格歧视因素的“算法杀熟”现象外,自动化算法歧视还有多种表现,如房屋租赁歧视、[11] Kate Crawford, Jason Schultz.Big Data and Due Process:Toward a Framework to Redress Predictive Privacy Harms,55 B.C.L.Rev.93(2014). 教学质量评估结果淘汰机制歧视、金融信贷与保险歧视、刑事犯罪与刑罚预测歧视、人格测试与就业歧视等。[12] [美]凯西·奥尼尔:《算法霸权》,马青玲译,中信出版集团2018年版,第48~217页。 自动化算法带来的以上种种歧视不仅极易导致个体错失获取资源和实现自我发展的机会,损害个体公平,还容易造成“强者愈强、弱者愈弱”的群体极化现象,[13] Allan G.King, Marko J.Mrkonich.Big Data and the Riskof Employment Discrimination, 68 Okla.L.Rev.555 (2016). 损害群体发展公平。
自动化算法带来的歧视风险一方面源自使用者或设计者自身的偏见,这种偏见会被后者以替代变量的形式编入计算机程序中,然后随着算法自身的不断学习而被逐渐放大。例如,使用者为缩短员工通勤用时以提高工作出勤率,自动筛除长距离通勤者的网上求职申请。根据这一要求,设计者在建模阶段将会增设“住址距离”这一与职位申请无关的替代变量,从而将长距离通勤群体一概排除在外。[14] Rebecca J.Wilson, Kiley M.Belliveau, Leigh EllenGray.Busting the Black Box: Big Data, Employment andPrivacy, 84 Def.Counsel J.1 (2017). 自动化算法歧视风险另一方面还源于大数据收集的非准确性。实践中,自动化算法赖以存在的大数据收集来源主要有购买和自行抓取两种,无论哪种形式收集到的数据,只要初始收集阶段的原始数据存有错误且未得以改正,那么未来训练数据与学习算法都将会进一步放大歧视现象,从而形成永久性歧视。[15] Matthew Adam Bruckner, The Promise and Perils ofAlgorithmic Lenders' Use of Big Data, 93 Chi.-Kent L.Rev.3 (2018). 如经济实力雄厚的企业原始信息被显示为严重资不抵债,当银行放贷算法抓取这一错误信息并作出决策时,如若未来不加改正,该企业可能将永远无法正常获取该银行贷款。
自动化算法固然是帮助人类实现进步的工具,但任由程式化的算法进行自主决策而不施以任何人类干预,自动化算法带来的种种歧视风险都将成为影响社会稳定的巨大隐患,届时将不仅涉及算法智能化技术问题,还将涉及法律、道德甚或经贸问题,[16] Mark MacCarthy.Standards of Fairness for Disparate Impact Assessment of Big Data Algorithms, 48 Cumb.L.Rev.67 (2017). 治理难度更加艰难。然而,技术的进步在促使代码自动生成的同时,智能化算法的黑箱性质也增加了人类目前对它们的认知和治理难度。究竟该如何降低或者消解自动化算法带来的歧视风险,理应成为当前法律关注的又一重点。
二、欧美规制算法自动化决策的经验研究
自动化算法被运用在各领域后滋生了诸多问题,人工智能技术较为发达的欧美国家已经对自动化算法带来的风险规制问题进行了立法探讨。纵观算法运作的整个流程可知(见图一),源数据是算法演进的基础,训练数据是学习算法自主决策的直接依据。源数据负载着民事主体的诸多隐私信息,一旦源数据收集不准确或利用不规范,训练数据对有效信息的提取就会发生错误,进而干扰学习算法对决策要素的正当权衡,致其最终作出错误决策。正因如此,欧美当前立法多以数据收集和利用为切入点对算法决策风险进行源头规制。事实上,欧美当前对算法的立法规制仅限于数据收集和利用领域,还未通过立法方式延及算法本身。因此,本部分将结合欧美数据立法规制的现实状况以及算法规制的前沿学术理论对算法风险规制问题进行详细探讨。
采用SPSS 16.0软件进行统计学分析。计数资料分析采用χ2检验或Fisher 精确概率法检验;生存分析及生存曲线绘制采用Kaplan Meier法和Log-rank 检验;患者预后多因素相关分析采用COX比例风险回归模型。以P<0.05为差异有统计学意义。
图一 算法决策流程图
(一)欧美数据收集与利用的法律规制
人工智能时代,不管算法如何向智能化阶段演进,均不能脱离大数据而单独存在。因此,防御算法风险的首要举措即是对大数据的收集与利用进行立法规制。只有对大数据收集与利用环节进行有力规制,算法决策环节才有可能降低以上风险的发生。在数据收集与利用规制方面,《欧盟数据保护指南》与《通用数据保护条例》堪称典范。其中《欧盟数据保护指南》确立了数据收集最小化原则、数据保密和安全存储原则、数据使用目的限制原则、数据处理透明原则、禁止数据二次使用原则。除通过确立以上原则对数据收集和利用行为进行规范引导外,《欧盟数据保护指南》还对数据主体明示同意、数据收集准确性、数据匿名化使用、敏感数据合理使用、数据更新和移除、违法使用数据处罚机制等具体问题进行了详细规定。[17] Bart van der Sloot,Sascha van Schendel.Ten Questionsfor Future Regulation of Big Data: A Comparative andEmpirical Legal Study, 7 J.Intell.Prop.Info.Tech.&Elec.Com.L.110 (2016). 随后《通用数据保护条例》对数据主体明示同意条款和违法使用数据处罚机制进行了重述,同时亦对数据主体和数据使用者分别创设了新的权利和义务,即数据被遗忘权、访问和携带数据权以及数据泄露通知义务[18] 被遗忘权是指数据主体有权撤回对使用者收集、利用自己数据作出的意思表示,并要求删除该数据;访问和携带数据权是指数据主体能够从一服务网站上复制并向另一服务网站传输个人数据;通知义务是指发生严重数据泄露时,使用者必须在24小时内发布数据泄露通知。 。另外,为处理数据跨境问题,《通用数据保护条例》还单独增设了一站式数据处理机制条款[19] 一站式处理机制是指成员国设置信息专员岗位,由其专门负责处理跨境数据问题。 。从《欧盟数据保护指南》和《通用数据保护条例》详尽的规定内容可知,欧盟有关收集、利用、保护个人数据的规范已经自成体系。
与欧盟类似,美国也通过立法方式对个人数据收集和利用问题进行了相应规定。美国联邦贸易委员会在《公平信用报告法》中规定,消费者报告机构、数据经纪人、雇主需要为消费者提供接触信息的渠道,以及更改错误信息的机会,否则需要承担民事责任和接受行政处罚。进一步而言,上述主体只有在消费者知情同意的情况下才可利用消费者数据进行决策。美国联邦政府颁布的《消费者隐私权法案》也明确确认了消费者对个人数据享有控制权、更改权等7种权利。[20] Nicolas P.Terry.Protecting Patient Privacy in the Age of Big Data, 81 UMKC L.Rev.385 (2012). 另外,为规范数据使用行为,减少算法滋生的隐私泄露和歧视风险,美国HIPPA隐私规则对信息去识别化进行了特别规定,其不仅要求信息去识别化只能由专家进行判定,还要求专家必须就信息去识别化判定过程进行记录。随后卫生部在《信息去识别化技术指南》中明确提出了原始信息编校、泛化和干扰技术,认为应当对数据主体的姓名、地址、数字码号等18种易于识别的信息进行模糊处理。[21] 45 C.F.R.§ 164.514(b)(2)(i) (2013). 除此之外,为防止去识别化信息被重新识别和滥用,美国学者极力建议在HIPPA中增设禁止信息被重新识别条款。[22] Sharona Hoffman.Citizen Science: The Law and Ethics of Public Access to Medical Big Data, 30 Berkeley Tech.L.J.1741 (2015). 通过分析可知,美国对收集、利用个人数据的规定虽然分散,但内容相对周全,实用性较强。
欧美虽未通过立法直接对算法作出规制,但学术界已经以算法为切入点进行了积极探讨。事实上,立法技术并非欧美出台规制算法风险规则的最大障碍,算法演进的阶段性尤其是高阶算法的不可预测性和难以解释性才是影响算法立法的最大难题(见图二)。因此,在算法立法阙如的当前,本部分将结合欧美已有学术研究成果和司法实务经验对算法风险的规制问题及其可行性进行相应探讨。
为应对算法风险挑战,欧美对个人数据的收集和利用行为均给予了高度重视。其中欧盟采用原则与规则并举的专门立法方式,对利用个人数据的行为进行全面规定,在立法上实现了指导性和可实施性的有机统一,进而从源头上实现了抑制数据过度挖掘和算法过度预测的目的。然而,过于细致和僵硬的规定也有其天然弊端,如数据每一次挖掘和输入若有不慎都极有可能违反现行法律规定,进而引发耗时持久的纷争诉讼,阻碍大数据挖掘技术的进步和抑制算法模型的完善更新。通过立法保护个人数据固然重要,但需要把握好与科技进步之间的平衡关系。相比欧盟体系化的立法机制,美国数据立法相对简化和自由,注重采用技术手段对数据进行加工处理再利用,更侧重数据主体对个人信息的管理和处置。这种立法规定既不会过度束缚数据挖掘技术的发展,也保障了民事主体的数据安全和处分自由,还有利于算法模型的及时改进。总之,采用立法方式对个人数据进行规范只能在部分程度上解决算法决策风险问题,若要进一步化解算法风险,还需要加强对算法本身的规制研究。
(二)欧美化解算法决策风险的理论探究
随着居民消费结构的升级,中国消费市场对乳制品的需求明显增加。以2016年为例,中国乳制品进口总量约195.56万吨,同比增长21.4%。其中,鲜奶、酸奶进口量增长明显:鲜奶进口63.41万吨,同比增长 38%,酸奶进口 2.1万吨,同比增长104.3%。另外,乳清粉、奶油、乳酪、奶粉的进口涨幅均在10%以上。近十年,中国乳制品进口量变化趋势如图1所示①数据是根据2007—2016年商务部相关数据整理所得。。
图二 算法分类表
欧美部分学者认为,披露计算机源代码增强算法决策程序透明度是降低算法风险的最佳措施。然而,这种观点在实践中究竟能否可行,有待商榷。首先,从理论上来看,通常只有专业人员才能熟知计算机基本编程知识,而非专业人员一般难以对其形成准确认知。这就意味着受害人作为非专业人员极有可能无法成为披露计算机源代码的适格受众,其需要寻求专业代理人对计算机源代码作出正确解读,并由其代替接受来自代码编写人员或使用人员的解释。受害人和适格受众两相分离的局面不仅使受害人徒增经济开支,还使得披露计算机源代码行为存有流于形式的可能性。其次,披露计算机源代码只能展现出机器学习所运用的相关方法,并不能揭示出训练数据驱动算法决策的规则。算法学习日益深入,专业人员只能看到输入的数据和输出的结果,一旦学习算法出现错误,专业人员也难以对算法所遵循的指令作出有效审核,并对算法决策规则和结果作出清晰解释。[23] 同注⑮。 再次,披露计算机源代码可能会引发一系列不良后果,如导致商业秘密泄露、侵犯他人隐私、妨碍正常执法,甚至会诱使违法分子对算法决策进行钻营活动,滋生二次侵权风险。[24] Joshua A.Kroll, Solon Barocas, Edward W.Felten,JoelR.Reidenberg, David G.Robinson, Harlan Yu.Accountable Algorithms, 165 U.Pa.L.Rev.633 (2017). 最后,通过披露计算机源代码来降低算法决策风险在欧美司法实践中已被证明不具有可行性。如在Viacom v.You Tube案中,原告要求被告披露控制You Tube.com搜索功能和谷歌Google.com网络搜索工具的计算机源代码,法院以保护商业秘密为由驳回了原告的此种请求。[25] Viacom Int'l, Inc.v.YouTube, Inc., No.1:07-cv-02103-LLS, 2008 U.S.Dist.LEXIS50614 (S.D.N.Y.Jul.2, 2008). 据此,披露计算机源代码并非解决算法风险问题的最佳方案。
披露计算机源代码受阻后,欧美学者又提出了以下建议,增设算法解释权[26] Merle Temme.Algorithms and Transparency in View of the New General Data Protection Regulation, 3 Eur.DataProt.L.Rev.473 (2017). 和对算法进行外部审查。[27] MaayanPerel,Niva Elkin-Koren.Black Box Tinkering:Beyond Disclosure in Algorithmic Enforcement, 69 Fla.L.Rev.181 (2017). 算法解释权旨在对算法决策过程和决策结果进行解释,然而这种建议能否实现,还有待深入分析。正如图二所示,算法演进具有阶段性,当算法处于“白箱”和“灰箱”阶段时,研发者和使用者能够对算法决策过程和决策结果进行预测和解释。然而,当算法处于“黑箱”“感知”“智能”阶段时,研发者和使用者因对算法失去了控制权,无法再对算法继续进行预测,此时算法解释权的设置便形同虚设。再者,算法侵权具有群体性,算法本身具有专业性,创设算法解释权还需要解决向谁解释和由谁解释的问题,以及双方不能就算法解释理由达成一致意见时该如何处理的问题[28] Merle Temme.Algorithms and Transparency in View of theNew General Data Protection Regulation, 3 Eur.DataProt.L.Rev.473 (2017). ,设若这些问题得不到及时解决,算法解释权就不能付诸实施。另外,与一般侵权所涉及的因果关系不同,算法决策所依据的是相关关系,即使法院判决被告对算法作出详尽解释,极值的存在未必能使原告获得胜诉。正因算法解释权面临着诸多难以克服的问题,部分学者进一步提出引入随机性原理[29] Pauline T.Kim, Auditing Algorithms for Discrimination,166 U.Pa.L.Rev.Online 189 (2017). 和零知识证明方法[30] Joshua A.Kroll,SolonBarocas,Edward W.Felte, JoelR.Reidenberg, David G.Robinson, Harlan Yu.Accountable Algorithms, 165 U.Pa.L.Rev.633(2017). 以检验算法是否存在隐性损害。前者在验证方式上比较灵活,但需逐一进行,零散耗时;后者则需要双方进行认知博弈,在不向对方透露任何信息的情况下使对方信服是否存有损害,这种方法因证明难度大而不易被普及。
值得注意的是,数据主体对数据的删除可能会降低算法相关关系的强度,影响算法决策的准确性。[34] 同注[30]。 若要从根本上解决解决这一问题,还需要使民事主体对个人数据保有更改权。诚如上文所述,大数据是算法演进的基础,数据过少或不准确将会进一步放大算法决策风险,而民事主体对数据保有更改权可有效减少因主体行使被遗忘权造成的数据贫乏现象和提高算法决策的准确性。另外,每收集一条数据均需征得相关民事主体的同意,在庞大的人口基数面前显然不可能实施[35] House of Commons Science and Technology Committee.The big data dilemma,Fourth Report of Session 2015-16. ,再加上各大互联网企业对消费者“不同意,禁止使用”条款的设置,使得数据收集更加困难,在“信息孤岛”困境无法破解的当下,若不允许为民事主体积极创设数据更改权,就无法为完善算法模型提供海量精确数据,并将数据主体从算法霸权中及时抽离出来,使其免受算法错误决策的干扰。由此,适度的数据遗忘与合理的数据更改能够保障算法决策的准确性,降低算法决策风险,同时也利于尊重数据主体的主观意愿和保障数据主体的隐私权。
由自动化决策算法推荐的定制化信息虽能暂时满足用户的个性化消费需求,但其长期铸就的“信息茧房”所带来的潜在社会危害不容忽视。自动化算法定制化的信息推荐使得用户个体极易忽视电视新闻、日报头版、宣传海报等所载信息的全面引导,⑤ B.Bodo, N.Helberger, K.Irion.Tackling the Algorithmic ControlCrisis - The Technical, Legal, and Ethical Challengesof Research into Algorithmic Agents , 19 Yale J.L.&Tech.133 (2017). 致其主动捕获、接收信息的能力弱化。再加上以个人为中心、以推送关联内容为主题的自媒体时代下,有效网络监管力量的缺失,若任由用户被动包裹在由自动化算法持续推送的不良信息茧房中,酿成的后果将不堪设想。同时,长期的信息茧房束缚也严重限制了用户个体视野的拓展,不利于形成广泛而全面的社会公共认知。
三、我国对算法自动化决策的具体规制进路
当今大数据挖掘技术的飞速发展和廉价存储器的普遍运用,使得个人数据极易被挖掘和存储。正因如此,数据主体正以数字化的形式被永久记忆。当记忆成为常态,遗忘将变得更加稀缺和困难,为民事主体创设数据被遗忘权可有效改变数字“记忆”格局。设若个人数据不能被遗忘,数字化记忆于人类而言即是束缚和限制。因为主体的“被数字化”会将其变成数据的表征,进而贬低数据主体在决策中的主导作用,直至被沦为数据奴役的对象,而创设数据被遗忘权可及时消除算法数据对个体的数字化记忆,使个体不再受特定信息和错误数据的裹挟,从而恢复个体主动塑造自我认同的原有局面。
(一)增设数据被遗忘权和更改权
统观我国历次立法过程,短时间内制定出一部完善的算法法律可能性不大。我国人工智能技术研究起步晚,人工智能技术立法经验极度匮乏,再加上实务中算法带来的风险矛盾不像欧美国家那样凸显,导致我国当前系统规制算法的立法条件相对欠缺。为防患于未然,我国依旧有必要通过立法方式对算法风险进行规制。诚如图一和欧美立法经验所示,以规制大数据为切入点是治理算法风险的必经之路。无论欧美通过何种立法方式对数据收集、利用、处理问题作出何种规定,归根结底都是数据规范化使用问题。从法律规范的可行性上而言,复杂繁琐的立法规定未必能够得以真正执行,散乱无章的法律法规有可能导致适用上的混乱。近期内我国既不能立刻出台类似《欧盟数据保护指南》和《通用数据保护条例》这样的系统性法律规范文件,也不能像美国那样将数据保护分散规定在多部法律中,只能通过小范围立法的方式对数据规范利用进行集中规定。
欧美学者认为,若以算法为切入点解决算法决策带来的风险问题,需要披露计算机源代码、增设算法解释权和对算法进行外部监督。然而,这些学术建议若要在我国付诸实施,除需要进行再次完善外,还需要设置专门机构全面负责算法审查和解释工作。一方面,与欧美相比,我国人工智能前沿理论总体上还处在“跟跑”阶段,创新方面偏重技术应用,基础研究、技术生态、基础平台、标准规范、顶尖人才等方面还存有明显差距。另一方面,我国每年大数据分析和人工智能人才缺口高达150万的具体国情,[36] 彭训文:《人工智能领域人才紧缺》,载《人民日报》2018年12月3日。 以及算法决策损害的群体性、广泛性特征,决定了披露计算机源代码和解释算法等极具专业性、技术性的工作只能交由专业机构和专业人员负责。算法安全委员会的设置,不仅能够全面应对计算机源代码披露和算法解释工作,还可全面承担算法审查和监督工作。
算法被广泛运用以来对各领域造成的风险已经备受学者关注,目前我国还未有规制算法风险的专门立法。国内学者对算法风险规制的研究成果并不多见,算法规制对策更是匮缺。因此,我国未来对算法进行立法规制时,可仿效欧美从数据规制和算法检测、监督两方面着手,结合我国现行法制体系和机构设置现状,积极探索出符合我国国情的法律规制路径。
披露计算机源代码和增设算法解释权均存有各种弊端,对算法实行外部审查能否规范算法运作过程和降低算法决策风险,还有赖于算法审查机构和审查方式的确定。根据学者建议,对算法进行外部审查既包括第三方审查也包括行政审查。第三方审查属于同行审查,这种审查机制允许第三方对计算机代码和决策标准进行审查,审查方式、审查时间比较灵活,本质上属于同行监督。算法的行政审查实则是对算法的集中监管,这种审查方式程式化痕迹比较鲜明,需要设置算法安全委员会等专门机构负责对算法进行实质性审查。为强化算法行政监管和保障算法规范运行,学者认为算法安全委员会应当对算法进行使用前批准审查和定期审查。[31] Bryce Goodman.Discrimination, Data Sanitisation and Auditing in the European Union's General Data Protection Regulation, 2 Eur.Data Prot.L.Rev.493 (2016). 算法使用前批准审查可将未标注用途的且含有损害风险的算法以及未通过批准的营销算法予以剔除,进而保证投入运行的算法都能够符合执行标准;而定期审查则有助于及时发现算法存在的隐性风险,减少算法对现实造成的损害。同时这种定期审查淘汰机制也有助于激发设计者和使用者改进和完善算法模型的积极性,进而从内部瓦解算法风险。另外,为使算法安全委员会在算法故意侵权发生后能够迅速行使监督和处罚权,学者建议应当对此专门机构进行广泛授权。[32] Andrew Tutt.An FDA For Algorithm,69Administratie Law Review.84(2017).
刘 宁:在财政部的大力支持下,全国山洪灾害防治县级非工程措施项目共下达中央财政补助资金79.38亿元,其中2012年下达41.38亿元,全国有山洪灾害防治任务的2 058个县中央补助资金已全部到位,为3年时间初步建成覆盖全国山洪灾害防治区的非工程措施体系提供了资金保障。目前,2010和2011年度项目建设总体进展顺利,2012年汛期1 000多个县已完成建设任务并投入运行,发挥了很好的防灾减灾效益,2012年度项目正在抓紧开展建设,将于2013年汛前完成建设任务。
(二)设立算法安全委员会全面负责算法审查和解释工作
从立法紧迫性上来看,我国当前最宜为民事主体创设数据被遗忘权和更改权,并在未来逐渐加强对这两种权利的保护。数据被遗忘权的创设使得主体有权决定是否删除在网络上公开过的个人信息,以及是否排除他人不合理的利用行为,进而主动界定和控制个人隐私边界。[33] 刘泽刚:《过度互联时代被遗忘权保护与自由的代价》,载《当代法学》2019年第1期。 数据被遗忘权具有积极性、主动性,可与隐私权消极性、防御性相互契合,在互联网时代共同为民事主体的数据保护筑起严密的防护墙。数据被遗忘权和隐私权并行规定的情况下,即使个人数据被网络爬虫爬取,民事主体一经发现可立即通知数据使用者予以删除,无需事后再提起隐私侵权诉讼。当前正值民法典各分编编纂汇总之际,可借此契机将数据被遗忘权与隐私权做一并规定,在隐私愈发弥足珍贵的网络时代,以强化对个人信息和数据的保护。
第一,设置算法安全委员有助于计算机源代码披露工作的顺利开展。诚如上文所述,披露计算机源代码面临着诸多问题,如计算机源代码无法向非专业人员披露、披露过程中可能引发决策钻营、商业秘密泄露、侵犯他人隐私等非法行为发生。正因如此,美国司法实务中有法院以保护商业秘密为由禁止对计算机源代码予以披露。然而,这种因噎废食的做法不宜为我国借鉴。因为截至目前还没出现能够完全解决算法决策风险的有效策略,披露计算机源代码在一定程度上确实可以遏制算法侵权现象,假若仅以商业秘密为由一味拒绝,对解决现实问题并无助益。因此,我国若要解决计算机源代码披露与后续算法侵权之间的矛盾问题,必须设置算法安全委员会,由其代表受害群体接受设计者或使用者对计算机源代码的解读。如此不仅可免去非专业人员对算法认知盲点的困扰,还可阻断非相关人员对计算机源代码的接触,避免违法行为发生。
发现式课程标准是美国在上世纪六十年代的“新数学运动”中制定的;加拿大小学引进该标准亦有十年.发现式数学,顾名思义,倡导学生主动探索数学知识.这一出发点有道理.鼓励独立探索和创新,向来是西方教育的优势.国内一些教育家提倡‘尝试教学法’,也是为了摒除灌输式的弊端.然而,北美的‘发现式数学’,将传统课程标准推倒重来,结果南辕北辙.
烟支中的成品烟丝通常由叶丝及掺配物(如梗丝、膨胀烟丝等)根据配方比例混配而成,这些组分的组织结构、化学特性均有一定的差异,因此吸湿特性也呈现不同的特性[10]。而烟草的安全含水率是实现物料贮存、风送的一项重要指标,在卷烟加工过程中,对各阶段各组分的含水率有很严格的要求,因此对成品烟丝中各组分的解吸湿特性进行研究,可以为各组分各加工阶段(回潮、干燥、风送、贮存等)目标含水率设计提供理论依据。
第二,创设算法安全委员会有助于解决算法解释权问题。除高阶算法不可预测和难易控制外,算法解释权创设的障碍还在于算法解释主体和解释对象具有模糊性。我国若通过增设算法解释权来降低算法决策风险,必须先对算法“由谁解释和向谁解释”的问题予以明确。当前来看,宜由算法设计者或使用者作为解释主体,由算法安全委员会作为接受解释的对象。首先,算法本质上是由设计者或使用者提出的解决问题的一种策略,算法要解决什么问题、建模阶段设置了哪些参数、使用了哪些替代变量、建模数据是否存有污染、极值等,只能由设计者和使用者进行说明,其他人员无从知悉也不可能代其作出解释。其次,算法侵权具有群体性、广泛性,解释者不可能向每位受害者进行一一解释,由算法安全委员会代表受害群体统一接受解释,利于提高解释工作效率和增强算法解释的可行性。再次,算法解释与验证涉及随机性原理和零知识证明等专业知识,由算法安全委员会代表受害群体统一参与算法验证过程,可及时维护受害者合法权益。
第三,创设算法安全委员会有助于对算法安全问题进行集中审查和监管。欧美学者认为,算法审查工作既可由第三方进行,亦可由行政机关负责。考虑到当前我国民间组织力量培育不充分,算法同业审查组织严重奇缺的现状,算法审查和监督工作暂时宜由行政机构——算法安全委员会集中负责。算法安全委员会既可以对算法进行使用前批准审查,还可对算法进行定期审查,全面保障算法质量安全,督促其健康运行。另外,为应对高阶算法决策风险的不可预测性和难以控制性,灵活处理各类突发算法问题,可通过立法对算法安全委员会进行广泛、集中授权。如算法安全委员会可按照侵权获利数额或营业额的一定比例对恶意利用算法进行侵权的行为人实施行政处罚。由算法安全委员会全面负责算法审查和监督工作,利于算法技术中立属性的复归,也有助于激发研发人员遵循伦理和技术规范的积极性。
(三)及时确立算法侵权责任机制以遏制算法侵权
人工智能时代,算法技术并非完全中立[37] 同注[17]。 。诚如本文第一部分所述,部分群体可能在无形之中就成为算法“信息茧房”的包裹对象,以及算法歧视和隐私泄露的受害者。通过分析可知,算法虽是解决问题的一种策略,但其在运用过程中会触发各种侵权现象。目前来看,通过立法确立算法侵权责任十分必要。算法侵权责任确立时需要着重考虑以下几方面:
第一,算法侵权相关关系的判定。司法实务中判定被侵权人所受损害与算法决策之间是否存有某种关系是算法侵权成立与否的前提。与一般侵权不同,算法侵权不适用必然性因果关系和盖然性因果关系,算法决策所依据的是相关关系[38] 同注[22]。 。相关关系弹性空间较大,极值之间差异显著[39] 同注[13]。 ,严重干扰了算法决策的准确性。在算法模型中,变量之间相关系数的大小决定着相关关系的强弱,笔者认为,只有确定变量之间存在较强的相关性,即变量之间相关系数达到0.8以上时,才能确认算法模型设计具有合理性,而后才可判定算法决策具有可信性。设若变量之间相关性较弱或不存在相关性,那么算法模型的设计就是失败的,算法作出的决策就是错误的,由此对第三人合法权益造成损害的,应当承担侵权责任。
第二,算法侵权责任主体的确定。如果算法错误决策给受害人造成了实际或精神损害,相关责任人应当承担侵权损害赔偿等责任[40] 同注[14]。 。具体言之,算法侵权发生之际,相关法律责任应当首先由算法最终使用者承担,算法设计者存有过错的,最终使用者有权向其追偿。需要注意的是,对算法设计者有无过错的判定需要根据具体算法情形进行区分:如果算法设计者未遵循相应的技术操作规范,故意违反伦理道德甚或法律,主动设置了算法中的不当规则,对第三人合法权益造成损害的,应当承担相应的侵权责任。但如果算法基于自主学习主动探索并形成自我规则的,设计者因对算法风险控制程度较低,主观恶性和过错较小,可以进行免责。
作为医院精细化管理的核心与抓手,越来越多的医院通过目标管理,建立完善的考核评估体系,提高医院管理效率与运行效率。
第三,算法侵权责任方式的确定。算法决策也可能会出现错误,给受害人带来严重人身和财产损害。如优步自动驾驶汽车在旧金山擅闯红灯,谷歌图像处理软件将黑人识别为大猩猩,马萨诸塞州机动车人脸识别算法将司机视作犯罪分子并将其驾照吊销,微软机器人Tay言语污秽并宣扬种族至上论等[41] 同注[32]。 。当算法决策给受害人造成人身、财产损害时,设计者或使用者应当及时停止使用,并积极采取警示和召回措施,主动向受害人进行经济损害赔偿。对因算法决策错误而遭受精神损害的受害人,设计者和使用者还应当进行赔礼道歉,积极消除算法给其带来的不良影响并为其恢复名誉。
由此,我国未来对算法侵权进行规制时,可进行如下规定:设计者、使用者因过错造成算法缺陷,对他人造成损害的,设计者、使用者应当承担侵权责任。被侵权人可向设计者、使用者请求损害赔偿,使用者存有过错的,设计者赔偿后可向使用者追偿,反之亦然。因算法缺陷损害他人人身、财产安全的,被侵权人有权请求设计者、使用者承担损害赔偿、赔礼道歉、恢复名誉、消除影响等侵权责任。算法投入使用后发现存在缺陷的,设计者、使用者应当及时采取警示等补救措施。未及时采取补救措施或补救措施不力造成损害的,应当承担侵权责任。明知算法存在缺陷仍然设计、使用,造成他人财产、精神健康严重损害的,被侵权人有权请求相应的惩罚性赔偿。学习算法自主作出决策致人损害的,设计者不存有过错的,可进行免责。
*本文系国家社科基金项目“一站式版权交易平台理论与实践研究”(项目编号:15BFX145)阶段性成果。
**作者简介: 孙建丽,对外经济贸易大学法学院博士研究生。