信息生命周期视角下的大数据隐私风险管理框架研究,本文主要内容关键词为:风险管理论文,视角论文,生命周期论文,框架论文,隐私论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着云计算、物联网、分布式信息处理等技术的兴起和发展,数据以井喷式的速度增长,海量信息资源开发和共享的大数据时代已经到来。大数据在给用户带来便利的同时,也存在着严重的隐私安全问题。大数据技术的关键在于对海量、多维数据的收集、分析与利用,这就不可避免地涉及对某些隐私信息的访问。近年来,各类隐私泄露事件层出不穷,如CSDN数据泄露、“棱镜门”事件、icloud云存储泄露等。用户隐私信息在大数据环境下面临着极大的威胁,如何建立一个完善、有效的隐私保护机制成为一个迫切需要解决的问题。本文追踪国内外隐私保护理论方法和大数据实践研究的最新进展,从信息生命周期视角切入,探索大数据隐私信息生命周期模型、大数据隐私风险评估体系、大数据隐私溯源问责机制等内容,在此基础上,建立大数据隐私风险管理框架,为保障大数据实践应用的安全性提供应对思路和解决方案。 1 国内外研究现状分析 当前,各国政府和学术机构都十分关注大数据隐私问题,2014年,白宫与麻省理工大学、加州大学伯克利分校、纽约大学等高校共同召开了大数据隐私研讨会,讨论了大数据所面临的隐私风险及当前的隐私保护方法[1];同年5月,白宫发布Big Data and Privacy:A Technological perspective白皮书,探讨了大数据环境下个人隐私泄露的风险及保护机制[2].中国工信部也于2014年发布了《大数据白皮书》,阐述了我国大数据发展所面临的安全与隐私挑战[3]。 从研究文献来看,大数据隐私问题一直是研究者关注的重点,目前关于大数据环境下的隐私保护研究主要集中在隐私数据加密、差分隐私保护、大数据应用实践的隐私保护等方面。在隐私数据加密技术方面,Hu H等[4]提出了一种基于同态加密的隐私存储及索引技术,可以保护数据所有者在大数据和云平台环境下的隐私;Xuyun Zhang等[5]提出了基于贝叶斯随机模型和安全传输信道的公钥加密方案,保证隐私信息在传输过程中的安全性;Daniel A等[6]提出了一种基于有损识别的数据匿名算法,可以避免用户发布和共享信息时的隐私泄露风险。隐私加密技术是针对某种特定类型的攻击,被动地防止隐私信息泄露,然而大数据动态性和复杂性的特点使得该类技术顾此失彼。 Dwork[7]提出的差分隐私保护(differential privacy)有效地解决了这一问题,差分隐私保护提供了一个广泛意义上的语义保护,无论攻击者从何角度、从何层次都只能从公开的信息或数据中获取有限的结论。差分隐私保护由人为设定的隐私参数γ控制隐私保护程度和隐私风险的大小,并通过一个严格的数学量化模型将隐私泄露的风险最小化,即使攻击者掌握了某一数据记录之外的所有背景信息,也无法推断出这一记录的任何敏感和隐私信息[8]。Kato M等[9]提出了一种基于多维直方图的数据发布方法,保证数据共享环境下隐私信息的安全性;Li C等[10]提出了一种基于向量矩阵的差分隐私信息查询方法,在保证数据公开性的同时,不泄露该数据的隐私或敏感信息。然而,差分隐私无法主动监测与评估隐私威胁,易导致数据可用性和隐私性之间的矛盾,造成“过度保护”,同时也无法对隐私泄露源进行追踪与问责,存在一定的局限性。 在大数据应用的隐私保护方面,Yan L等[11]设计了一种基于属性加密的访问控制策略,为隐私数据的安全性提供了细粒度的保护;Aiello L M等[12]提出了一个分布式的Hash散列模型,通过一个灵活细粒度的访问控制策略赋予用户调整隐私设置的权限;Ardagna等[13]针对地理隐私的不同等级,提出了模糊化处理位置信息的解决办法,保护用户的地理隐私;马晓亭[14]针对大数据时代图书馆用户的隐私保护现状,分析了图书馆用户隐私保护与感知活动面临的风险,并提出了具体的应对措施;蒋洁[15-16]阐述了大数据联动的优势及负面效应,认为出台保障数据隐私的法律规范、健全大数据运作的监管机制、提高大数据环境的透明度等一系列举措亟须进行。 综上所述,国内外研究学者将数据加密技术、访问控制策略、信任管理机制等理论方法引入大数据隐私保护领域,产生了诸多研究成果,为大数据隐私保护提供了较好的应对思路和途径。但是,已有的研究成果仍存在一些问题: (1)已有研究成果重点关注数据加密技术的改进和完善,但很少有研究对大数据环境下隐私信息从产生至销毁的全生命周期过程中所面临的风险进行宏观的分析、评估与预测。 (2)由于大数据环境的动态性和应用背景的复杂性,隐私保护的技术方案难免存在一定的局限性和漏洞,但现有研究很少关注对隐私泄漏后的追踪和问责。 基于此,本文在信息生命周期理论的基础上,建立大数据隐私风险管理框架,主动监测与评估隐私风险,并对隐私泄漏进行溯源问责,达到大数据隐私“主动式防护”的目的。 2 框架构建 大数据隐私风险管理框架的构建是将大数据领域的技术理念与隐私保护的理论方法相结合的过程,分为目标设定、原则确定、需求分析、框架构建等步骤。 2.1 目标设定 大数据隐私风险管理针对各类信息资源从产生至销毁的全生命周期内所存在的隐私风险,对大数据隐私风险主动评估和追踪问责展开深入分析。具体目标包括以下几点: (1)为大数据应用提供支持。有效的隐私保护机制是大数据应用的前提,若隐私问题不能得到很好的解决,则大数据应用是纸上谈兵。大数据隐私管理需防止大数据生命周期中各阶段的隐私泄露。 (2)促进信息资源共享。对于公开和共享信息资源的机构和实体来说,隐私保障是摆在首要位置的。在不泄露隐私的前提下,可以共享资源并允许其他用户访问。大数据隐私风险管理需提供有效的隐私保护措施降低各类隐私风险。 (3)针对具体应用领域提供应对思路和解决方案。大数据隐私管理大数据隐私风险监测与评估机制,并对大数据隐私泄露进行追踪溯源,从而在信息服务融合、社交网络、群体协作等领域获得实际应用。 2.2 构建原则 (1)主动性原则。大数据隐私风险管理应区别于传统的数据加密等被动保护技术,在隐私信息生命周期的基础上,采用层次分析法、专家打分法、模糊数学等定量与定性的研究方法,建立大数据隐私风险评估机制,主动规避隐私风险。 (2)延伸性原则。大数据隐私风险管理不应局限于隐私数据的加密与防护,虽然隐私加密技术日趋成熟和完善,但仍不能完全避免隐私信息从产生至销毁全过程中的恶意使用和泄露。大数据隐私管理需结合计算机技术、社会科学与相关法律法规,对违反隐私操作策略的实体进行追踪问责,从功能上对隐私保护进行延伸。 (3)整体性原则。大数据隐私风险管理应综合运用复杂系统建模方法,明确关键环节,框架的各个模块从功能上应相互弥补,达到整体最优目标。 (4)应用性原则。大数据隐私风险管理框架应面向具体情景,并进行可行性和有效性分析,获得实际应用。 2.3 需求分析 大数据隐私风险管理框架的设计需要考虑以下功能需求: (1)大数据隐私生命周期建模。大数据隐私生命周期建模旨在揭示大数据环境下隐私信息的生命周期特性和动力学演化机理,厘清大数据隐私保护和传统隐私保护理论方法之间的区别和联系,为后续研究和设计提供支撑。 (2)大数据隐私风险评估。大数据隐私风险评估旨在生命周期建模的基础上,主动监测和评估大数据环境下的各类隐私风险,在隐私信息利用和隐私保护两者之间进行动态博弈,从而主动避免隐私信息的恶意泄露和过度保护。 (3)大数据隐私溯源问责。大数据隐私风险溯源问责旨在对大数据信息融合背景下的隐私泄露进行追踪溯源,从功能上弥补现有隐私保护方法的不足,并对大数据隐私风险评估机制的有效性进行反馈。 2.4 框架设计 综合以上分析,本文设计的大数据隐私风险管理框架如图1所示,框架主要包括两个层面:隐私法律法规层面和隐私管理技术层面。法律法规是管理技术之外的重要保障手段,在隐私风险管理过程中,纯技术或方法替代不了法律法规对隐私侵害行为的制裁和问责。在大数据隐私保护过程中,相关政府机构应制定和完善相应的隐私法案,为用户提供有效的隐私保护机制。 管理技术层面包括以下功能模块: (1)隐私生命周期建模模块。该模块主要分析大数据隐私生命周期的形成和演化规律,运用数据挖掘和系统分析方法挖掘隐私信息的内在特征,并运用系统动力学刻画隐私信息的传播机理与演化过程,进而构建大数据隐私信息的生命周期模型。主要完成的功能包括:①隐私信息的传播机理分析;②基于系统动力学的大数据隐私生命周期模型构建。 (2)隐私风险评估模块。该模块主要分析生命周期各阶段所面临的隐私风险,设计大数据环境下的动态隐私风险监测体系,研究隐私保护对信息共享的约束及其反馈机理,建立大数据环境下的隐私风险评估机制。主要完成的功能包括:①动态隐私攻击模型构建;②隐私威胁的语义描述;③大数据环境下的动态隐私风险监测体系设计;④大数据隐私风险评估机制构建。 (3)隐私溯源问责模块。该模块主要分析大数据环境下信息集成与服务融合的运作机理,分析数据来源的多样性和复杂性,追踪与捕捉生命周期各个阶段违反隐私策略的实体行为,并对其进行问责。主要完成的功能包括:①大数据信息融合模型构建;②基于上下文的动态信息追踪模型构建;③跨平台多源的隐私信息溯源机制构建。 3 实施策略 大数据隐私风险管理框架在实际领域中的有效应用需要在法律、监管、技术等方面采取一系列措施。由于法律法规和监管条例的特殊性,本文主要从管理技术层面对大数据隐私风险管理框架的实施策略进行阐述。 大数据隐私风险管理框架从隐私保护的实际需求出发,通过研究基础理论方法,构建核心模型,开展应用研究,以应用检验和理论延伸为“纵”向主线。在把握“纵”向主线的同时,框架从大数据隐私风险管理关键问题之间的有机联系出发,注重内容的衔接和关联,形成贯穿隐私生命周期的“横”向主线:需求分析→生命周期建模→隐私攻击描述→风险监测→风险评估→溯源追踪→管理框架?实际应用→反馈调整。“横”向主线的提出有利于明确框架内容的定位,促进技术的衔接,推动框架的有效应用。具体的技术路线如下页图2所示。 (1)针对大数据隐私生命周期建模,运用数据挖掘和系统分析方法了解隐私信息传播过程中的作用主体和主要影响因素,明确诸多因素之间相互作用的因果反馈关系,采用系统动力学刻画大数据隐私信息的传播机理与演化过程,进而利用Vensim Ple仿真软件构建大数据隐私信息的生命周期模型,分析不同阶段可能遭受的隐私攻击及面临的隐私威胁。标签:大数据论文; 数据与信息论文; 技术风险论文; 隐私泄露论文; 信息泄露论文; 信息安全论文; 用户分析论文; 风险模型论文; 动态模型论文; 隐私保护论文; 风险评估论文; 框架论文;