基于信息生命周期视角的大数据隐私风险管理框架研究_大数据论文

信息生命周期视角下的大数据隐私风险管理框架研究,本文主要内容关键词为:风险管理论文,视角论文,生命周期论文,框架论文,隐私论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      随着云计算、物联网、分布式信息处理等技术的兴起和发展,数据以井喷式的速度增长,海量信息资源开发和共享的大数据时代已经到来。大数据在给用户带来便利的同时,也存在着严重的隐私安全问题。大数据技术的关键在于对海量、多维数据的收集、分析与利用,这就不可避免地涉及对某些隐私信息的访问。近年来,各类隐私泄露事件层出不穷,如CSDN数据泄露、“棱镜门”事件、icloud云存储泄露等。用户隐私信息在大数据环境下面临着极大的威胁,如何建立一个完善、有效的隐私保护机制成为一个迫切需要解决的问题。本文追踪国内外隐私保护理论方法和大数据实践研究的最新进展,从信息生命周期视角切入,探索大数据隐私信息生命周期模型、大数据隐私风险评估体系、大数据隐私溯源问责机制等内容,在此基础上,建立大数据隐私风险管理框架,为保障大数据实践应用的安全性提供应对思路和解决方案。

      1 国内外研究现状分析

      当前,各国政府和学术机构都十分关注大数据隐私问题,2014年,白宫与麻省理工大学、加州大学伯克利分校、纽约大学等高校共同召开了大数据隐私研讨会,讨论了大数据所面临的隐私风险及当前的隐私保护方法[1];同年5月,白宫发布Big Data and Privacy:A Technological perspective白皮书,探讨了大数据环境下个人隐私泄露的风险及保护机制[2].中国工信部也于2014年发布了《大数据白皮书》,阐述了我国大数据发展所面临的安全与隐私挑战[3]。

      从研究文献来看,大数据隐私问题一直是研究者关注的重点,目前关于大数据环境下的隐私保护研究主要集中在隐私数据加密、差分隐私保护、大数据应用实践的隐私保护等方面。在隐私数据加密技术方面,Hu H等[4]提出了一种基于同态加密的隐私存储及索引技术,可以保护数据所有者在大数据和云平台环境下的隐私;Xuyun Zhang等[5]提出了基于贝叶斯随机模型和安全传输信道的公钥加密方案,保证隐私信息在传输过程中的安全性;Daniel A等[6]提出了一种基于有损识别的数据匿名算法,可以避免用户发布和共享信息时的隐私泄露风险。隐私加密技术是针对某种特定类型的攻击,被动地防止隐私信息泄露,然而大数据动态性和复杂性的特点使得该类技术顾此失彼。

      Dwork[7]提出的差分隐私保护(differential privacy)有效地解决了这一问题,差分隐私保护提供了一个广泛意义上的语义保护,无论攻击者从何角度、从何层次都只能从公开的信息或数据中获取有限的结论。差分隐私保护由人为设定的隐私参数γ控制隐私保护程度和隐私风险的大小,并通过一个严格的数学量化模型将隐私泄露的风险最小化,即使攻击者掌握了某一数据记录之外的所有背景信息,也无法推断出这一记录的任何敏感和隐私信息[8]。Kato M等[9]提出了一种基于多维直方图的数据发布方法,保证数据共享环境下隐私信息的安全性;Li C等[10]提出了一种基于向量矩阵的差分隐私信息查询方法,在保证数据公开性的同时,不泄露该数据的隐私或敏感信息。然而,差分隐私无法主动监测与评估隐私威胁,易导致数据可用性和隐私性之间的矛盾,造成“过度保护”,同时也无法对隐私泄露源进行追踪与问责,存在一定的局限性。

      在大数据应用的隐私保护方面,Yan L等[11]设计了一种基于属性加密的访问控制策略,为隐私数据的安全性提供了细粒度的保护;Aiello L M等[12]提出了一个分布式的Hash散列模型,通过一个灵活细粒度的访问控制策略赋予用户调整隐私设置的权限;Ardagna等[13]针对地理隐私的不同等级,提出了模糊化处理位置信息的解决办法,保护用户的地理隐私;马晓亭[14]针对大数据时代图书馆用户的隐私保护现状,分析了图书馆用户隐私保护与感知活动面临的风险,并提出了具体的应对措施;蒋洁[15-16]阐述了大数据联动的优势及负面效应,认为出台保障数据隐私的法律规范、健全大数据运作的监管机制、提高大数据环境的透明度等一系列举措亟须进行。

      综上所述,国内外研究学者将数据加密技术、访问控制策略、信任管理机制等理论方法引入大数据隐私保护领域,产生了诸多研究成果,为大数据隐私保护提供了较好的应对思路和途径。但是,已有的研究成果仍存在一些问题:

      (1)已有研究成果重点关注数据加密技术的改进和完善,但很少有研究对大数据环境下隐私信息从产生至销毁的全生命周期过程中所面临的风险进行宏观的分析、评估与预测。

      (2)由于大数据环境的动态性和应用背景的复杂性,隐私保护的技术方案难免存在一定的局限性和漏洞,但现有研究很少关注对隐私泄漏后的追踪和问责。

      基于此,本文在信息生命周期理论的基础上,建立大数据隐私风险管理框架,主动监测与评估隐私风险,并对隐私泄漏进行溯源问责,达到大数据隐私“主动式防护”的目的。

      2 框架构建

      大数据隐私风险管理框架的构建是将大数据领域的技术理念与隐私保护的理论方法相结合的过程,分为目标设定、原则确定、需求分析、框架构建等步骤。

      2.1 目标设定

      大数据隐私风险管理针对各类信息资源从产生至销毁的全生命周期内所存在的隐私风险,对大数据隐私风险主动评估和追踪问责展开深入分析。具体目标包括以下几点:

      (1)为大数据应用提供支持。有效的隐私保护机制是大数据应用的前提,若隐私问题不能得到很好的解决,则大数据应用是纸上谈兵。大数据隐私管理需防止大数据生命周期中各阶段的隐私泄露。

      (2)促进信息资源共享。对于公开和共享信息资源的机构和实体来说,隐私保障是摆在首要位置的。在不泄露隐私的前提下,可以共享资源并允许其他用户访问。大数据隐私风险管理需提供有效的隐私保护措施降低各类隐私风险。

      (3)针对具体应用领域提供应对思路和解决方案。大数据隐私管理大数据隐私风险监测与评估机制,并对大数据隐私泄露进行追踪溯源,从而在信息服务融合、社交网络、群体协作等领域获得实际应用。

      2.2 构建原则

      (1)主动性原则。大数据隐私风险管理应区别于传统的数据加密等被动保护技术,在隐私信息生命周期的基础上,采用层次分析法、专家打分法、模糊数学等定量与定性的研究方法,建立大数据隐私风险评估机制,主动规避隐私风险。

      (2)延伸性原则。大数据隐私风险管理不应局限于隐私数据的加密与防护,虽然隐私加密技术日趋成熟和完善,但仍不能完全避免隐私信息从产生至销毁全过程中的恶意使用和泄露。大数据隐私管理需结合计算机技术、社会科学与相关法律法规,对违反隐私操作策略的实体进行追踪问责,从功能上对隐私保护进行延伸。

      (3)整体性原则。大数据隐私风险管理应综合运用复杂系统建模方法,明确关键环节,框架的各个模块从功能上应相互弥补,达到整体最优目标。

      (4)应用性原则。大数据隐私风险管理框架应面向具体情景,并进行可行性和有效性分析,获得实际应用。

      2.3 需求分析

      大数据隐私风险管理框架的设计需要考虑以下功能需求:

      (1)大数据隐私生命周期建模。大数据隐私生命周期建模旨在揭示大数据环境下隐私信息的生命周期特性和动力学演化机理,厘清大数据隐私保护和传统隐私保护理论方法之间的区别和联系,为后续研究和设计提供支撑。

      (2)大数据隐私风险评估。大数据隐私风险评估旨在生命周期建模的基础上,主动监测和评估大数据环境下的各类隐私风险,在隐私信息利用和隐私保护两者之间进行动态博弈,从而主动避免隐私信息的恶意泄露和过度保护。

      (3)大数据隐私溯源问责。大数据隐私风险溯源问责旨在对大数据信息融合背景下的隐私泄露进行追踪溯源,从功能上弥补现有隐私保护方法的不足,并对大数据隐私风险评估机制的有效性进行反馈。

      2.4 框架设计

      综合以上分析,本文设计的大数据隐私风险管理框架如图1所示,框架主要包括两个层面:隐私法律法规层面和隐私管理技术层面。法律法规是管理技术之外的重要保障手段,在隐私风险管理过程中,纯技术或方法替代不了法律法规对隐私侵害行为的制裁和问责。在大数据隐私保护过程中,相关政府机构应制定和完善相应的隐私法案,为用户提供有效的隐私保护机制。

      管理技术层面包括以下功能模块:

      (1)隐私生命周期建模模块。该模块主要分析大数据隐私生命周期的形成和演化规律,运用数据挖掘和系统分析方法挖掘隐私信息的内在特征,并运用系统动力学刻画隐私信息的传播机理与演化过程,进而构建大数据隐私信息的生命周期模型。主要完成的功能包括:①隐私信息的传播机理分析;②基于系统动力学的大数据隐私生命周期模型构建。

      (2)隐私风险评估模块。该模块主要分析生命周期各阶段所面临的隐私风险,设计大数据环境下的动态隐私风险监测体系,研究隐私保护对信息共享的约束及其反馈机理,建立大数据环境下的隐私风险评估机制。主要完成的功能包括:①动态隐私攻击模型构建;②隐私威胁的语义描述;③大数据环境下的动态隐私风险监测体系设计;④大数据隐私风险评估机制构建。

      (3)隐私溯源问责模块。该模块主要分析大数据环境下信息集成与服务融合的运作机理,分析数据来源的多样性和复杂性,追踪与捕捉生命周期各个阶段违反隐私策略的实体行为,并对其进行问责。主要完成的功能包括:①大数据信息融合模型构建;②基于上下文的动态信息追踪模型构建;③跨平台多源的隐私信息溯源机制构建。

      3 实施策略

      大数据隐私风险管理框架在实际领域中的有效应用需要在法律、监管、技术等方面采取一系列措施。由于法律法规和监管条例的特殊性,本文主要从管理技术层面对大数据隐私风险管理框架的实施策略进行阐述。

      大数据隐私风险管理框架从隐私保护的实际需求出发,通过研究基础理论方法,构建核心模型,开展应用研究,以应用检验和理论延伸为“纵”向主线。在把握“纵”向主线的同时,框架从大数据隐私风险管理关键问题之间的有机联系出发,注重内容的衔接和关联,形成贯穿隐私生命周期的“横”向主线:需求分析→生命周期建模→隐私攻击描述→风险监测→风险评估→溯源追踪→管理框架?实际应用→反馈调整。“横”向主线的提出有利于明确框架内容的定位,促进技术的衔接,推动框架的有效应用。具体的技术路线如下页图2所示。

      (1)针对大数据隐私生命周期建模,运用数据挖掘和系统分析方法了解隐私信息传播过程中的作用主体和主要影响因素,明确诸多因素之间相互作用的因果反馈关系,采用系统动力学刻画大数据隐私信息的传播机理与演化过程,进而利用Vensim Ple仿真软件构建大数据隐私信息的生命周期模型,分析不同阶段可能遭受的隐私攻击及面临的隐私威胁。

      

      (2)针对大数据隐私风险评估,首先运用本体和元数据等技术对生命周期不同阶段的隐私威胁进行语义描述,构建基于“名称—属性—属性值”三元组的动态隐私攻击模型,进而利用模糊数学和粗糙集理论对各类隐私攻击进行模糊化打分和排序,主动监测隐私风险;其次,采用成本最优和动态博弈的研究方法,在信息共享和隐私保护两者之间进行权衡,避免过度保护,并结合PIA(Privacy Impact Assessment)、EBIOS(Expression of Needs and Identification Security)、模糊层次法等风险评估方法[17],综合分析隐私风险发生的概率和影响,建立隐私风险评估机制,从而起到风险预警作用。若隐私泄露,则依赖溯源问责机制对泄漏源进行溯源问责。

      (3)针对大数据隐私溯源问责,首先,利用关联数据、本体、RDF(Resources Description Framework)等技术[18],对非结构化、异构、分布式的信息资源进行统一的语义描述,构建大数据环境下的信息融合模型,了解大数据隐私信息来源的动态性、复杂性和异构性;其次,在现有RBAC(Role Based Access Control)模型的基础上,结合普适计算理念和水印标签技术,构建动态信息追踪模型;在此基础上,利用数据溯源技术,建立大数据环境下的隐私溯源问责机制,对生命周期各阶段的隐私泄露源进行追踪和问责,并分析泄露原因,从而进一步完善隐私风险评估机制。

      在上述基础上,明确大数据隐私风险预测和溯源问责的关键环节,运用复杂系统建模方法构建大数据隐私风险管理框架,利用开源平台Hadoop MapReduce和Apache Lucene对具体应用场景下的可行性和有效性进行分析。

      4 实例分析

      大数据技术可以帮助图书馆分析用户行为、建立知识服务引擎、优化信息资源组织方式。然而,大数据技术的关键在于对用户信息(阅读爱好、浏览记录、个人需求等)的收集、分析与利用,这就不可避免地会涉及对某些隐私信息的访问。因此,本文在大数据隐私风险溯源框架的基础上,从隐私风险主动评估的角度对图书馆用户的隐私保护进行应用分析。

      4.1 隐私风险定义和度量

      本文将图书馆用户隐私风险定义为“在图书馆进行知识挖掘和信息推送的工作过程中,用户隐私信息遭受损失的可能性和不确定性”[19]。因此,隐私风险的度量函数可以表示为:

      R(x)=R(C,P) (1)

      

      

      4.2 隐私风险因素分析

      本文根据信息系统的安全模型[20],将风险因素分为外部威胁因素和内部脆弱因素,将风险损失分为直接损失、能力损失和费用损失。

      (1)外部威胁因素是指图书馆信息服务过程中用户可能面临哪些隐私威胁,主要包括黑客攻击、数据泄露和篡改、信息滥用、服务中断等;内部脆弱因素是指分析图书馆信息服务过程中存在哪些缺陷和漏洞易导致隐私泄露,主要包括软硬件和通信网络的漏洞、管理上的不严谨、用户自身的疏忽等因素。

      (2)风险因素造成的直接损失主要包括服务环境恶化、通信被干扰、个人信息泄露等;能力损失是指隐私风险事件发生所造成的服务中断、延迟和削弱;费用损失是指隐私风险事件发生后重新恢复正常服务所产生的费用。

      4.3 隐私风险评估流程

      (1)确定权重

      

      本文在AHP主观赋权法的基础上,引入Shannon信息熵[21],计算各项风险因素的信息熵值,根据信息量的大小来确定客观权重。

      

      设AHP主观权重为

,Shannon信息熵计算的客观权重为

,加入调节因子γ,则第i项风险因素的主客观综合权重

为:

      

      其中,调节因子γ可以根据偏重情况进行动态调整。

      (2)隶属度计算

      隶属度计算是为了确定每一项隐私风险因素对应于风险等级的隶属度,本文将图书馆用户隐私风险等级定义为5级:V={

}={风险很低,风险较低,风险中等,风险较高,风险很高}。

      

      (3)模糊评估

      模糊评估是根据每项风险因素的等级进行评估,定义评估向量为C:

      

      5 结语

      本文总结归纳了大数据隐私保护的研究及实践现状,分析了当前隐私保护过程中存在的主动性保护不足、缺乏追踪问责措施等问题,尝试从信息生命周期视角,构建大数据隐私风险管理框架,探索大数据隐私生命周期模型、大数据隐私风险监测与评估体系、大数据隐私溯源问责机制等内容,对框架实施的技术策略进行了详细的阐述,并给出了一个应用实例。

      有效的隐私保护机制是大数据应用的前提,本文所设计的大数据隐私风险管理框架从信息生命周期的角度提出了关于大数据隐私保护的新理论和新方法,为解决大数据实际应用中的隐私保护问题提供了应对思路和解决方案。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于信息生命周期视角的大数据隐私风险管理框架研究_大数据论文
下载Doc文档

猜你喜欢