大数据时代个人信息边界的界定论文

大数据时代个人信息边界的界定论文

大数据时代个人信息边界的界定*

谢 琳

[摘 要] 个人信息受“识别性”和“相关性”两方面的限制,即当某特定的人可被识别时,与该人有关的信息才属于个人信息。在大数据时代,“识别性”和“相关性”边界逐步扩大。在识别性方面,直接识别标准已向间接识别标准过渡,且大数据识别技术的进步和数据的海量化极大提高了信息的识别可能性,导致匿名化的崩溃。在相关性方面,随着大数据画像等分析技术的发展,许多原本不能反映个体特征的信息也可能成为个人信息。对此,个人信息应采用最宽泛的定义,只要存在识别和相关的可能性,均应纳入个人信息的范畴,并对个人信息进行风险层级的划分,以相应风险层级确立相应的合规义务,从而避免个人信息保护制度因保护范围过宽而难以践行,同时也为数据控制者采取相应的保障措施提供有效激励。

[关键词] 大数据时代 个人信息 识别性 匿名化 相关性 风险路径

在大数据时代,随着大数据分析技术的迅猛发展,制定系统全面的个人信息保护法迫在眉睫。近年来,欧盟各国、日本、新加坡等纷纷制定或修订其个人信息保护法。我国全国人大常委会近期也已将个人信息保护法列入立法规则。其中,个人信息边界的界定是制定个人信息保护法的基本问题。只有当某个信息属于个人信息时,该信息才受保护。然而,在大数据时代,个人信息的边界呈现逐步泛化的趋势,难以清楚界定。能否有效应对大数据时代个人信息边界扩大的问题,直接决定了个人信息保护制度能否有效运行。本文试图对个人信息边界进行探讨,并构建相应的风险保护路径。

一、个人信息概念的界定

个人信息以可识别性作为其赋权基础。① 谢琳、李旭婷:《个人信息财产权之证成》,《电子知识产权》2018年第6期。 影响深远的世界经合组织(OECD)隐私指南、亚太隐私框架以及欧盟1995年个人数据保护指令均将个人信息定义为“与已识别或可识别的人有关的任何信息”。该定义可理解为,当某特定的人可被识别时,与该人有关的任何信息即为个人信息。

美国国家标准与技术研究院颁布的《个人可识别信息的保密性保护指南》进一步指出,个人信息可分为两种类型的信息,即识别信息和关联信息。识别信息是指用于识别或追踪某个特定的人的信息,例如姓名、社会保障号码、出生日期、生物信息等;关联信息是指与该人相关联的其他任何信息,例如医疗、教育、金融和工作信息等。② National Institute of Standards and Technology, U.S. Department of Commerce, Guide to Protecting the Confidentiality of Personally Identifiable Information (PII), Special Publication 800-122, 2010, para.2.1. 举例而言,手机号码是识别信息,而关于该手机号码的每月话费、通话时长、开机状态等则属于关联信息;微信号是识别信息,而该微信号上的聊天记录、点赞信息等则属于关联信息。

除识别信息以外,对关联信息也应予以保护。关联信息能够反映个人的个体特征,具有应受保护的人格利益。我国首部涉及个人信息保护的法律《网络安全法》将个人信息定义为“能够单独或者与其他信息结合识别自然人个人身份的各种信息”。该定义并没有明确将关联信息涵盖在内。然而我国相关判例及专家意见倾向性认为,对于该定义应做广义解释,不仅包括“识别自然人个人身份”的识别信息,还应包括与该可识别的自然人相关的关联信息。比如,近期我国最高人民法院判决,用户手机的开关机状态反映了用户生活状态或工作状态的转变,移动服务的开机提醒业务未经被叫人同意向呼叫人发送短信告知被叫人手机已开机,使呼叫人可对被叫人可能身处的状态作出合理预见或推测,这一行为侵犯了个人信息安全。① 郑州盈讯通信技术有限公司诉中国移动通信集团河南有限公司合同纠纷案,最高人民法院再审审查与审判监督民事裁定书(2017)最高法民申1974号。 洪延青也指出,对我国网络安全法的“个人身份”应做广义解释,不仅包括个人的社会身份,如姓名、身份证号码等,还应包括反映个人的个体特征的身份(即关联信息),如抑郁症等。② 洪延青:《个人数据分类的比较研究》,网安寻路人公众号:https://mp.weixin.qq.com/s/DaGHlqLnl2Ax0g1eSbibIg,2017年12月30日。

随着防汛抗旱气象业务工作的深入发展,系统数据种类逐年丰富,降水气温等水文气象要素的历史资料也得到大量收集,数据库数据容量大幅度上升,为保证数据安全和数据应用效率,2009—2010年系统数据库逐步由MsSQLServer数据库迁移至ORACLE数据库。

早期观点倾向性认为仅需保护直接识别信息。然而,在大数据时代,人们愈来愈倚重各种各样的设备与外界产生联系,IP地址、cookie、手机MAC地址、IMEI码等设备信息是否具有识别性的问题引起了巨大争议。直接识别标准的支持者认为,仅识别至某一设备,而并非识别本人,不属于个人信息。例如,在我国2015年cookie隐私第一案中,二审法院便认为,“百度网讯公司个性化推荐服务收集和推送信息的终端是浏览器”,而并非是原告本人。④ 朱烨诉北京百度网讯科技有限公司隐私权纠纷案,江苏省南京市中级人民法院民事判决书(2014)宁民终字第5028号。 在2015年英国谷歌定向行为广告案中,被告谷歌主张,依托浏览器产生的信息不是个人信息,并没有识别用户的姓名。⑤ Vidal Hall v. Google Inc., [2015] EWCA Civ 311. 理由类似于,车牌号码并不代表本人,除非已经查询到本人的身份,否则追踪该车的行踪并不受个人信息保护制度的限制。

根据该定义,个人信息的保护范围应受两方面的限制:第一,该人应该是已被识别或可被识别的(识别性);第二,信息应与该人有关(相关性)。在大数据时代,“识别性”和“相关性”的边界日益泛化,还需对此进行重新界定。

二、识别性的界定

识别性包括“已识别”和“可识别”两种情况。“已识别”也称直接识别,指无需借助其他信息即可识别出某一特定的人,例如身份证号码。而“可识别”则为间接识别,指存在识别的可能性,与其他信息相结合能够识别该人。

为保护关联信息,我国2018年5月1日开始实施的推荐性国家标准《个人信息安全规范》第3.1条专门增加了“反映特定自然人活动情况的各种信息”。而我国以往的其他相关规定也或多或少涵盖了关联信息的某些类型。譬如最高人民法院、最高人民检察院在《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》中增列了“财产状况、行踪轨迹”,工业和信息化部颁布的《电信和互联网用户个人信息保护规定》涵盖了“识别用户使用服务的时间、地点等信息”。但上述规定采用的是“活动情况”“财产状况”等具体化描述,仍无法全面涵盖所有需要保护的个人信息类型。对此,我国可考虑采用世界主流定义的表述——“与已识别或可识别的人有关的任何信息”。该定义的“任何信息”的表述就是为了给个人信息设立一个宽泛而周延的概念,其中既包括客观信息,如血液中存在的某些物质、指纹等,也包括主观信息,如小孩的画画、专家的意见或评价等。③ 医生能从小孩的画画中看出小孩的身体健康状况,且也可看出父母亲的行为方式。参见Article 29 Data Protection Working Party, Opinion 4 /2007 on the concept of personal data, WP 136, pp.6-8.关于确认专家意见属于个人信息的判决,参见C-615/13 P, Client Earth et al. v. Efsa, 2015.

个人信息的“相关性”边界也呈现动态扩大的趋势。传统观点认为,信息应能够反映个体特征,④ 王利明:《论个人信息权在人格权法中的地位》,《苏州大学学报(哲学社会科学版)》2012年第6期。 指向特定人的身份、特点或行为,或用于决定、影响该人如何被对待或评价,才属于个人相关。⑤ Article 29 Data Protection Working Party, Working Document on Data Protection Issues Related to RFID Technology,WP105, 2005, p.8.

其次,通过对该设备所产生的关联信息(如搜索、浏览记录等)进行用户画像分析(Profiling),也有可能识别出该用户。cookie等设备信息是具有唯一指向性的识别符(Unique Identifier),通过这个识别符可以将该浏览历史与某个设备相联系,进而对该设备上的浏览历史进行叠加,建立用户画像,很可能识别出该人。欧盟2018年5月生效的《通用数据保护条例》(General Data Protection Regulation,GDPR)绪言30也明确指出这一点。欧盟29条工作组2007年在《关于个人数据概念的意见》中更是指出,识别应做广义解释。识别是指在人群中区分出(Single Out)某一特定的人。姓名是区分出某一特定的人的常用方式,但并非是唯一方式,其他识别符也可以区分出某一特定的人。设备背后是用户本身,对某一设备的定向追踪能够识别该设备的行为,呈现出用户的社会、经济、心理等人格属性,并能够基于这些属性影响用户的决定,如定制个性化服务等。对此无需要求必须获悉该人的姓名,只要能区分出某一特定的人即可。② Article 29 Data Protection Working Party, Opinion 4 /2007 on the concept of personal data, WP 136, pp.12-14.

综合前述测试以及论证,大功率参量阵定向扬声器的定向音频,在室内复杂通道与空间的轨道交通车站,作为传统应急疏教引导标志的补充,有着显著的效果。其研究成果对大功率参量阵定向扬声器在其他类似场景中的推广应用,也有着积极的意义。

对于识别标准的判定,有两种不同的路径,即相对路径和绝对路径。以欧盟为例,衡量信息是否可识别的标准是,“数据控制者及任何第三方”采用“所有可能合理采用的手段”是否可以将其识别。⑤ 欧盟《通用数据保护条例》绪言26。 相对路径认为,“数据控制者及任何第三方”指的是,仅以获得信息的一方自身是否能够识别为判定标准。而绝对路径则认为,只要该信息能够被世界上某个机构所识别,则无论该机构是否实际上能够识别该信息,都视为可被识别。在欧盟2016年Breyer案中,虽然德国法院对判定路径的选择产生巨大争议,但欧洲法院最终支持绝对路径。⑥ Case C-5 82/14 Patrick Breyer v. Bundesrepublik Deutschland, 19 October 2016, ECLI:EU:C:2016:77. 对于该案的评述,参见Frederik Zuiderveen Borgesius,“The Breyer Case of the Court of Justice of the European Union: IP Addresses and the Personal Data Definition”,European Data Protection Law Review , vol.3, 2017, pp.130-137.采用绝对路径的观点具有一定的合理性。如果将相对路径中的不具有可识别性的信息视为非个人信息,则对该信息的收集利用不受个人信息保护制度的规制,有可能导致信息随意流转至具有识别能力的机构手中而被识别,产生隐私风险。

这三个月,我带着他们逛街,吃吃喝喝、旅行,他们就像两个小孩一样全程跟着我,甚至怕在车来车往中走丢,他们不会用ATM取钱,不会交水电费,不会用滚筒洗衣机,不会用电脑智能高压锅,甚至不会开装了小米盒子的电视。他们操着一口方言,不喜欢与人交流,害怕和外界接触,甚至不敢坐公交车,也不知道怎么乘地铁。

三、匿名化的相对性

同时,识别风险的动态变化也增加了新的合规义务。随着数据集的增多和识别技术的发展,当下不可识别的信息,将来未必不可识别,匿名化不再是一个静态的二元化概念,而是一个动态且变化的概念。⑥ 英国信息专员公署便指出,数据控制者应意识到再识别的风险有可能随着时间而变化,比如强数据分析技术有可能从稀缺变成常用。参见UK. Information Commissioner's Office. Anonymisation: Managing Data Protection Risk Code of Practice, 2012, p.21. 匿名化的动态变化要求数据控制者定期评估剩余风险;评估对识别风险的控制手段是否足够且匹配;监控并控制识别风险,及时发现新的识别风险;若有新的识别风险,则需要重新进行匿名化处理。⑦ Article 29 Data Protection Working Party, Opinion 05/2014 on Anonymisation Techniques, WP216, p.4.

目的或结果相关衡量的是该信息是否被用于“评价、或以特定方式对待或影响该人的现状(Status)或行为”。如果使用者基于这样的目的使用信息,或者没有这样的目的,但实际上对某人的权利或利益产生影响时,则与该人相关。例如,房屋的价格虽然关于房屋,但用于衡量该人需要交纳多少房产税时,则属于个人信息。再如,的士公司的卫星定位系统通过确定每辆的士的位置,将的士分配给距离最近的顾客。严格意义上讲,该系统所使用的位置数据与的士相关,而并非与司机相关。但该系统同时具有追踪的士司机表现的功能,检查他们是否超速、绕道或休息等,因此对个人产生影响,属于个人信息。⑦ Article 29 Data Protection Working Party, Opinion 4 /2007 on the concept of personal data, WP 136, pp.9-12.

金昌市全市规模以上工业企业有60家,其中国有及国有控股企业12家,大型企业5家,中型企业5家,小型企业50家,重工业42家。工业占国民经济的比重达到63.6%,全市产业结构比例为 5.4∶75.8∶18.8, 以工业为主的第二产业支撑作用明显,工业经济对全市社会经济的支撑作用明显,主导地位愈加突显。其中地方财政收入大部分来源于有色金属经济,可以说有色冶金经济是金昌市的命脉。然而,过去20多年的开发,开始出现储采失衡,由于后备资源严重不足,已不能在长时间内维持现有产量水平,储量以及国际镍价的双项制约使得金昌市经济止步不前。急需寻求接续和替代产业,为城市经济持续增长寻找新的动力和支撑。

中国足球就悲剧在,它似乎只有有限游戏。所以,许多人一再说中国足球没有文化。文化的核心不是学习什么与不学什么,也不在于学习了多少课时,更不在于有没有学习记录,而在于有没有发现与进入无限游戏。正因为如此,中国足球才习惯于争夺现有资源;才眼里只有出线与夺冠,才“窝里斗”得欢,一出门就丢人现眼。

对于这个问题的讨论,最后比较一致的结论为,仍应保留匿名化概念。因为匿名化是促进数据流转必不可少的工具,无法割舍。且舍弃匿名化豁免将使数据控制者缺乏必要的动力对信息进行匿名化处理,不利于个人信息保护水平的提高。同时,对匿名信息进行再识别的过程仍然并非是简单且容易的,若再识别过程需要花费与回报不成比例的过多的时间和精力,相关机构也没有足够的动机对其进行识别。③ Francis Aldhouse,“Anonymisation of Personal Data - A Missed Opportunity for the European Commission”,Computer Law & Security Review , vol.30, 2014, pp.403-418.

学习效果评价贯穿整个教育教学环节,它如同催化剂一样促进教学质量提升,促进学生成长、成才。评价方法是否科学、合理将直接影响教学质量和人才培养质量。高职院校人才培养以服务为宗旨、以就业为导向、以岗位能力点为标准,学习效果评价必须紧紧围绕人才培养目标展开。科学、合理的学习效果评价方法能够提高学习兴趣、促进学习[1],检验真实的学习效果,改进教学质量。为了培养出适应社会发展的技术技能创新型人才,促进高职教育内涵发展,论文对高职课程学习效果评价模式进行研究。

由于匿名化无法完全消除可识别的风险,为了保留匿名化概念的适用空间,某些国家立法开始承认匿名化的相对性,认为是否为匿名化的信息取决于信息的接收方。承认匿名化的相对性也意味着匿名信息并非不再受任何规制,匿名信息的自由流转性受到一定的限制。例如将进行了匿名化处理的信息转让给某个特定的研究机构,由于该研究机构掌握的额外识别信息有限,无法重新识别,该信息仍为匿名信息;但一旦被公开,则有可能重新变成个人信息。④ UK. Information Commissioner's Office. Anonymisation: Managing Data Protection Risk code of Practice, 2012, p.19. 因此该匿名化信息仅限于该研究机构使用,不能将其公开或转让给具有可识别条件的第三方。此外,数据控制者还应承诺不再试图识别匿名信息,并应通过合同禁止信息接收者进行再识别。⑤ 我国《中国互联网定向广告用户信息保护行业框架标准》第二部分第(五)节第3条。

采用绝对路径虽然考虑了所有识别的可能性,但也导致匿名化豁免可能没有适用的空间。与可识别相对应的概念就是匿名化。个人信息的定义以“识别”为核心,匿名信息去除了原信息中的部分识别符,使之不再能够被识别,不再属于个人信息,例如去除了姓名和身份证号码后,“1957年生,男,工程师,收入7万”则非个人信息。个人信息保护制度将匿名化信息排除在其规制范围之外,其意义在于为信息流转提供一个可行的渠道。数据控制者可通过对已经收集的数据进行匿名化处理,从而达到自由利用或转让数据的目的。

因此,匿名信息多在可控的有限范围内流转,公开披露匿名信息的方式已很难再适用。⑧ 提出匿名化崩溃观点的专家代表Ohm教授并非反对匿名化概念,而是认为一次性公开披露的模式已难以再适用。参见 Paul Ohm,“Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization”,UCLA Law Review ,vol.57, 2010, pp.1701-1777.首先,对于公开披露的信息的可识别性的判定,采用的是绝对标准。由于公开披露的信息可由任何人获得,因此应考虑世界上任何一方识别该信息的可能性。绝对性标准要求很高,欧盟2014年《关于匿名技术的意见》就特别指出,匿名化处理中常见的错误就是将假名信息误认为匿名信息。例如,2006年美国在线(AOL)公司公布其65万用户近三个月的搜索记录,虽然已以数字编号代替AOL的用户名,但仍有网民结合其他数据识别出其中的某些用户。① Article 29 Data Protection Working Party, Opinion 05/2014 on Anonymisation Techniques, WP216, pp.10-11. 其次,对于公开披露的信息,还应要求未来也不可识别。数据一旦公开则处于完全不可控的状态,无法再对其进行定期审查。欧盟《关于匿名技术的意见》指出,匿名化信息若再被识别则需重新纳入个人信息保护范围。② Article 29 Data Protection Working Party, Opinion 05/2014 on Anonymisation Techniques, WP216. 而对已流通至公开领域的信息再进行重新保护,显然是不具有可操作性的。除非是统计类等整合数据,例如“礼拜一轨道X上的乘客数量比礼拜二多160%”,否则很难达到可以一次性公开的匿名化标准。英国2011年“R诉信息专员案”中,英国卫生署拒绝披露晚期堕胎的详细数据,转而披露统计数据,英国高等法院也肯定了卫生署这一做法。③ 韩旭至:《大数据时代下匿名信息的法律规制》,《大连理工大学学报(社会科学版)》2018年第4期。

四、相关性的界定

但实际上,设备信息存在与其他信息相结合进行识别的可能性。首先,设备信息本身有可能与其他识别信息相结合识别出该特定的人。比如对于谷歌用户的cookie识别符,谷歌有可能结合谷歌Gmail账号等信息识别出该用户。再如IP地址,欧盟29条工作组早在2008年意见中就明确指出,虽然IP地址在多数情况下不能由搜索引擎所识别,但网络连接提供商(如宽带服务提供商)是拥有IP地址背后的用户身份数据的。法律执行和国家安全官方机构能够访问这些身份数据,在某些欧盟成员国甚至能在民事诉讼中调取这些数据,① Article 29 Data Protection Working Party, Opinion 1/2008 on data protection issues related to search engines, WP148, p.8. 例如针对网络用户下载盗版版权作品的行为,版权权利人可提起版权侵权民事诉讼,要求网络连接提供商披露IP地址背后的用户身份信息。

欧盟29条工作组《关于个人数据概念的意见》将相关性进一步解释为内容相关、目的相关或结果相关,满足任一相关性即属于个人信息。内容相关是指,当信息直接关于(About)该人时,自然为个人相关,譬如对于某个病人的疾病诊断结果自然直接反映了该病人的个人情况。但某些信息表面上是关于某件物件(Objects)的,但在实际使用情形下有可能与个人有关,此类物件往往属于某个人,或对该人产生特别的影响,或在物理上或地理位置上接近该人,此时则需运用“目的相关”或“结果相关”加以判断。⑥ Article 29 Data Protection Working Party, Opinion 4 /2007 on the concept of personal data, WP 136, pp.9-12.

对于可以随意利用的匿名信息,一般要求匿名化处理具有不可逆转性(Irreversible),不能再被重新识别。然而大数据技术使法律上的绝对匿名化概念变成令人误信的神话。许多研究表明,不存在绝对匿名化的信息。首先,已经匿名化的数据集跟其他数据集相结合,有可能重新识别该人;其次,识别技术的进步也有可能使已经匿名化的信息再次被识别。① Paul Ohm,“Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization”,UCLA Law Review , vol.57, 2010, pp.1701-1777.如果要求识别风险接近为零,则在实践中难以实现,② Khaled El Emam and Cecilia A´lvarez,“A Critical Appraisal of the Article 29 Working Party Opinion 05/2014 on Data Anonymization Techniques”,International Data Privacy Law , vol.5, no.1, 2015, pp.73-87.个人信息与匿名信息的区分也似乎已无意义。

如图4,由∠BPA′=30°,∠ABO=60°,得∠BEP=90°,∠A′EO=90°.所以所以由得于是点P坐标为

IP地址等设备信息若存在识别的可能性,则存在使用风险,应受到保护。美国早期相关立法和学者只认可直接识别标准,但随着以精准营销为代表的数据分析产业的产生,立法者与学者也意识到精准营销等产业若不受规制,将造成不良影响,因而逐步认可对间接识别信息的保护。③ Paul Schwartz and Daniel Solove, The PII Problem: Privacy and a New Concept of Personally Identifiable Information,New York University Law Review , vol. 86, 2011, pp.1814-1894.为回应精准营销的新商业风险,欧盟《通用数据保护条例》也明确将位置数据(Location Data)、在线识别符号(如IP地址、MAC地址、cookie等)纳入个人数据范围。④ 当然,并非只要是设备信息就受保护,存在识别可能性的设备信息才受到保护,譬如公共电脑的IP地址则有可能不具备识别的可能性。欧盟《通用数据保护条例》绪言24就指出“识别码、位置信息、在线识别符号或其他类似的特定因素,并不必然在所有情形下都被视为是个人信息。” 由此可见,间接识别标准已被世界各国的立法所广为认可。我国网络安全法的“与其他信息结合识别”的表述即是对间接识别标准的认可。

目的或结果相关由数据控制者或第三方的使用目的和所产生的影响决定,其边界随着技术的发展呈现出不断扩大的趋势。典型的例子是,早期用户搜索记录并不属于个人信息,但基于搜索记录的海量化整合,数据控制者能够通过用户画像技术描绘出该人的个体特征,并通过个性化推荐服务影响用户行为。有专家指出,互联网搜索记录即便不是内容相关,也应是目的相关或结果相关。⑧ Sophie Stalla-Bourdillon and Alison Knight,“Anonymous Data v. Personal Data - False Debate: An EU Perspective on Anonymization, Pseudonymization and Personal Data”,Wisconsin International Law Journal , vol.34, 2016, p.314.2015年英国谷歌定向行为广告案中,法院指出,浏览记录也可视为基于评价用户而使用,属于个人信息。⑨ Vidal Hall v. Google Inc., [2015] EWCA Civ 311. 随着大数据分析技术的发展,越来越多的信息通过大数据分析技术加以整合,能够反映出个人的个体特征,个人信息的范围不断扩大。

对相关性宜采用宽泛定义,只要存在用于分析个人特征的可能性,即可属于个人信息。如前文所述,将可随意利用的信息重新纳入保护范围,不具有可操作性。特别是在信息公开环节,信息公开者不再能够有效控制信息的后续使用,而随着信息的海量化整合,这些原本不能反映出个体特征的信息有可能能够反映出个人的特征。对此,不应要求当下的信息须反映出个体特征才受保护,除非是完全不相关的信息,否则任何与个人相关的信息都应属于个人信息。该界限在实践中是能够清晰划分的,譬如专业考试中,试卷答案反映了答题者的专业水平,属于个人信息,但单纯的试卷题目则不属于个人信息;① Case C-434/16, Nowak v. Data Protection Commissioner, 20 December 2017, ECLI:EU:C:2017:994. 移民档案中关于个人情况的资料属于个人信息,但移民局关于该人是否具有移民资格的纯粹的说理性分析则非个人信息。② Joined Cases 141 & 372/12, YS v. Minister voor Immigratie, Integratie en Asiel v. M,S, 17 July 2014,ECLI:EU:C:2014:2081.

五、个人信息的风险层级建构

如上文所述,对于个人信息的概念应采用最宽泛的界定标准,以涵盖所有需要保护的信息。有学者担心,若个人信息的定义过于宽泛,个人信息保护制度将难以落实。③ Paul Schwartz and Daniel Solove,“The PII Problem: Privacy and a New Concept of Personally Identifiable Information”,New York University Law Review , vol.86, 2011, p.1827.采用风险路径(Risk-based Approach),将个人信息的识别性和相关性进行程度上的区分,依据相应的风险程度承担相应的保障义务,可有效解决该问题。

她在回家的出租车上哭了。她有些莫名奇妙自己的眼泪。她的第一次,和一个男人,他们没有任何的恋爱程序而是直接上了床。这让她觉得有些微的耻辱,但也有些兴奋。她喜欢他,之前很朦胧,现在很确定。

在识别性方面,信息可大体分为已识别信息、可识别信息、匿名信息。由于匿名化风险的存在,匿名化信息与可识别信息已难清晰区分,其中一个重要举措就是引入假名信息(Pseudonymisation)的概念。假名信息就是经过去识别化处理,并将恢复身份的额外信息分开存放的信息。④ 欧盟《通用数据保护条例》第4(5)条。 举例而言,“00108,65岁,糖尿病患者”为已去识别化的假名信息,而“00108与张晓明”的对应关系信息则属于恢复身份的额外信息,应分开存放。⑤ 王融:《数据匿名化的法律规制》,《信息通信技术》2016年第4期。 假名信息由于保留了恢复身份的额外信息,存在识别的可能性,仍属于个人信息,但可享有法律上的一些优待性规定。近期生效的欧盟《通用数据保护条例》为促进假名化处理制定了一系列鼓励性规定。首先,假名信息享有更大的灵活处理空间。个人信息保护制度要求信息的使用必须与信息收集时所明示的使用目的相称(Compatible)。为促进大数据信息二次利用的商业模式,欧盟在《关于目的限定原则的意见》中指出,信息后续使用无需完全符合收集目的,用于不同目的也有可能被视为与收集目的相称,须进行个案分析。⑥ Article 29 Data Protection Working Party, Opinion 03/2013 on purpose limitation, WP 203, p.21 而衡量是否相称的其中一个考量因素就是是否已经假名化处理。其次,企业进行假名化处理后更容易达到合规要求,譬如进行假名化处理可视为达到“进行隐私设计及默认保护隐私”的合规要求;对于用于“公共利益、科学、历史或统计目的”的信息,进行假名化处理可视为达到“合理保障措施”的要求。最后,进行假名化处理可免于承担某些合规义务,例如进行假名化处理可视为数据控制者已采用风险管理手段保护数据安全而免于承担信息泄露通知等义务,承诺永久不再识别还可无需回应数据主体访问、修改、删除或携带自身数据的请求。⑦ 欧盟《通用数据保护条例》第5条、第6(4)(e)条、第89(1)条、绪言156、第25(1)条、第32条、第11条、第15-20条。 美国学者也肯定了欧盟的路径,认为引入假名化概念并按风险比例承担相应程度的义务能够有效激励数据控制者采取措施降低风险。⑧ Elizabeth Brasher,“Addressing the Failure of Anonymization: Guidance from the European Union’s General Data Protection Regulation”,Columbia Business Law Review , vol.2018, no.1, 2018, pp.209-253.

在相关性方面,信息也可分为个人敏感信息、个人一般信息、完全无关的信息。个人敏感信息是指“一旦泄露、非法提供或滥用,可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息”,例如银行账号、病史、基因、身份证号、网络账号及密码、性取向等。对于敏感信息,有一系列更高的合规要求,比如收集时需征得用户的明示同意,传输和存储时应采用加密等安全措施,不得随意访问等。① 我国《信息安全技术 个人信息安全规范》第3.2条、第5.5条、第6.3条、第7.1(e)条。

个人信息的风险层级即依据识别性和相关性的程度来确定个人信息的风险程度,已识别的敏感信息风险程度最高,反之匿名化的一般信息则风险程度最低。② Samson Yoseph Esayas,“The Role of Anonymisation and Pseudonymisation under the EU Data Privacy Rules: Beyond the‘All or Nothing Approach’”,European Journal of Law and Technology , vol.6, no.2, 2015, p.7.风险路径就是依据风险程度的高低确立相应的合规义务,③ 周汉华:《探索激励相容的个人数据治理之道——中国个人信息保护法的立法方向》,《法学研究》2018年第2期。 考虑数据控制者所采用的保障措施与其可能引发的风险是否相匹配。当风险过高时,数据控制者还应进行专业的隐私风险影响评估(Privacy Impact Assessment,PIA),采取额外的保障措施。其中,可参考英国“场景中合理使用(Fair Processing)”作为判定是否合规的标准,而欧盟立法中所贯穿的比例原则也体现了这一点。

综上所述,“宽进严控”已成为大数据时代个人信息保护的新兴理念,应对个人信息的“识别性”和“相关性”边界进行最宽泛的界定,以涵盖所有需要保护的信息。同时引入动态的风险路径,根据信息的风险层级高低确立相应的合规义务,从而避免个人信息保护制度因保护范围过宽而难以践行,同时也为数据控制者采取相应的保障措施提供有效激励。

〔中图分类号〕 D923.9

〔文献标识码〕 A

〔文章编号〕 1000-7326(2019)03-0069-07

*本文系国家社科基金青年项目“大数据时代个人信息保护的‘场景风险监管’模式研究”(17CFX069)的阶段性成果。

作者简介 谢琳,中山大学法学院副教授(广东 广州,510275)。

责任编辑:王 冰

标签:;  ;  ;  ;  ;  ;  ;  

大数据时代个人信息边界的界定论文
下载Doc文档

猜你喜欢