应对档案数据库中敏感数据挖掘威胁的实证研究,本文主要内容关键词为:数据库中论文,数据挖掘论文,敏感论文,实证研究论文,档案论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
当前,信息资源共享与档案敏感信息保护之间的矛盾日益加深,为了在保证档案敏感信息安全的前提下扩大和深化档案信息资源共享,迫切需要研究面向信息资源共享的档案敏感信息保护问题。档案数据库所面临的敏感信息威胁主要来自于三个方面,即未经许可的访问、网络上传输的泄露和数据挖掘的结果。其中,未经许可的访问和网络传输的泄露方面的安全手段主要有预防和检测等,包括身份认证、访问控制、加密、审计、入侵检测、安全隔离等传统的信息安全技术。档案学界在讨论档案信息化建设的时候,也提出要将这些技术应用于档案管理系统安全和档案信息安全保密中,本文在此不作赘述。
在应对针对公开档案信息的敏感数据挖掘威胁方面,档案学界还未形成真正有效的对策。我们应立足积极应对、主动防御的方针,将隐私保护技术应用到面向信息资源共享的档案敏感信息保护研究领域,对档案信息资源中的敏感信息本身进行保护处理,从源头上防范攻击者对档案信息资源的过度挖掘和恶意攻击,达到保护档案敏感信息的目的[1-3]。同时,摈弃直接删除、屏蔽敏感信息的简单做法,保持公布信息的可用性,有利于档案信息资源的共享利用。本文在分析档案数据库中的敏感信息保护问题的基础上,引入敏感元组及其密度的概念开展实证研究,阐明以保护档案敏感元组为核心的保护思路,提出基于敏感元组的档案数据库敏感信息保护方案。
2 档案数据库中的敏感信息保护问题
现代信息技术的发展使得搜集和分析信息的能力正以几何级数增长,互联网的交互性和强大的数据传输能力更是大大加快了信息数据库的整合。网络环境下,个人信息被非法利用、敏感信息被攻击截获的情况屡见不鲜,而在档案信息的开放利用过程中,一些敏感信息很容易被恶意攻击者过度收集,以用来进行非法挖掘分析。比如,对从公开档案信息中搜集获取的孤立、零散、微观的个人信息,如健康状况、宗教信仰、行为习惯等,进行相关性分析,经过系统整理或数据挖掘后,就能得到关于某个人或某个敏感事件的深层次、全方位、综合性的信息内容,造成敏感信息的不当泄露。
尽管如此,隐私保护和信息共享之间的矛盾同样体现在对隐私档案的共享利用当中。隐私档案是公民在工作学习、职业活动以及个人生活中形成的,不愿让人知晓或公开的各种秘密文字、文件材料、声像材料等。隐私档案包括个人基本情况、各级组织对个人的考核、评价、定性使用、党纪政纪处分及依据事实[4]。以人事档案为例,对于个人而言,自身的敏感信息无疑是个人隐私,但目前几乎所有的政府部门、企业、公司等不同类型的机构都会对其内部人事状况进行搜集、记录、统计和分析,在此基础上充分挖掘单位人才结构和人力资源状况,以进行科学研究和辅助决策,如选人、用人和人才培养等,应该说,人才信息是国家、政府部门、企业的重要战略资源,对其进行共享利用和挖掘分析能够发现人才建设的规律,进而改进人才培养。同样,包含丰富个人健康医疗信息的电子病历对于个体而言,其病症信息是高度敏感的,一般情况下不希望别人知道。然而这类信息对于医学研究而言是宝贵的信息资源,根据这些真实数据,可统计出某种疾病在不同性别、年龄段、民族或地域人群中的发病概率等。
在档案数据库中,个人隐私信息资料往往表现为关于特定个体的详细而微观的数据记录,这些表达和描述个体信息的数据记录被称为“微数据”(Micro data)。由于它直接表征个体,且包含个体不愿为人所知的隐私信息,一旦泄密,就可能对特定个体造成精神和物质的双重损害。因此,迫切需要研究针对档案信息数据库敏感信息保护的方法和技术。
3 档案数据库中敏感信息保护的思路
3.1 档案数据库中敏感信息保护的要求
档案数据库中大量的个体信息表现为由属性值组成的数据记录,并以关系数据表的形式进行存储和传输,数据表中每个数据记录均包含多个属性值,并与现实中的某一个体相对应。一般来说,数据表中的记录属性可以划分为以下四类:
1.标识符(ID):可以用来直接标识、识别个体身份的属性,如身份证号码等,这些属性通常在数据发布时被隐匿。
2.参用标识(IR):能够在其他外部信息或外部数据源构成的背景知识帮助下识别个体身份的属性,如年龄、区号、邮编等。
3.敏感属性(SA):包含个体隐私信息的属性,如疾病、犯罪记录、所受处分等,个人往往不希望这些信息被别人知晓,因此必须防止这类属性被泄露。
4.非敏感属性(NSA):除上述三类属性以外的其他属性。
为了使档案数据库中个体敏感信息不被他人获得,一个较为直接的方法就是在公布数据的时候,直接隐匿标识符属性和敏感属性信息,但是这样一来,数据库的共享利用者面对的是一个不完整的数据集合,基于其上的数据统计分析可能无法进行,数据集合也就失去了其共享的价值。所以,这一做法是对隐私信息的过度保护,不足取之。
实际上,保护隐私数据的目的并不是要隐藏数据记录的某一种属性,而是要阻止记录中的敏感属性值与某个特定的人或者实体关联起来。也就是说,如果能够使得敏感属性值脱离特定的个人或实体,数据集中的个体隐私就得到了保护。然而,这一过程却并不容易实现。简单的做法是,将数据集合中能够直接标识、识别个人或实体身份的标识符属性字段删除或用代号代替,比如“身份证号码”、“姓名”等,但是,这种方法并不能达到个人隐私和敏感信息保护的目的。攻击者可以通过组合查询参用标识属性,同时链接其他的公开数据源,来推断出某种敏感信息与个体之间的联系,从而追踪到具体的个人或实体,造成敏感信息泄漏。事实上,Sweeney的研究[5]早就证明,即使发布信息表时隐匿了个体标识符信息,但是通过链接其他一些公开的信息表(如社区选民登记表)的邮编、出生日期等参用标识属性,仍然可以做到唯一标识美国人员身份信息,而且其准确率相当高,竟然达到87%。笔者认为:因为在数据发布之后,数据提供者既不清楚数据接收者所拥有的其他资源(攻击者背景知识),也不能对接收者的数据挖掘行为进行控制,所以,如果在发布前不对数据进行处理,切断或者弱化参用标识属性与敏感属性之间的联系,就不能保障敏感信息的安全性。因此,档案数据库中的敏感信息保护研究的基本要求就是,设法切断参用标识属性与敏感属性之间的关联,以此来抵御外部链接攻击和背景知识攻击。
3.2 以保护敏感元组为核心的基本思路
档案数据库中敏感信息保护的基本要求是切断或弱化参用标识属性与敏感属性之间的联系,然而,现有的大部分敏感信息保护方法都是只基于敏感属性的,也就是将数据库中的敏感属性作为保护对象,对敏感属性进行隐私保护处理。但事实上,同一个档案信息数据库的敏感属性值中,含有一些可以接受发布的非敏感值,而真正需要保护的是敏感值,而不是整个敏感属性。因此,针对敏感值的隐私保护更为直观和有效。我们从敏感属性值所在的记录元组出发,借鉴一些成熟的隐私数据保护方法[6],给出一种基于敏感元组的档案数据库敏感信息保护方法。
该方法的基本思路是以档案敏感元组为保护对象,引入部分非敏感元组,形成敏感数据泛化分组,并使每个分组满足k-anonymity要求和敏感元组密度限制。与此同时,尽量减少非敏感元组的泛化,提高发布数据的精确度,减少发布数据的信息耗损,如其他元组只需隐去标识符属性,然后与泛化分组合并后即可发布。在此基础上,根据档案敏感属性值对个体的重要性程度,对其赋予不同的权值作加权处理,也就是说,不同的档案敏感属性值在分组中具有不同的密度,这样,敏感信息保护就能够适应不同的保护需求,而提供了一种个性化的隐私保护方案。分析表明,只对敏感元组和部分非敏感元组进行泛化处理的方法,能够降低发布信的泛化程度,提高所发布信息的精度,也能够节省隐私保护计算的时间和空间开销,提高方法的效率;引入敏感元组密度的概念,则能够在一定程度上提高发布数据的安全性,同时满足个性化隐私保护需求。因此,整体来看,基于敏感元组的档案敏感信息保护方法的优势不仅在于简单易行,而且在于它能够提高发布信息的精度,保证敏感信息的安全度,能够更好地解决保护敏感信息和提高信息可用性之间的矛盾。
3.3 基于敏感元组的档案数据库敏感信息保护方法
为了更清楚地表达和描述基于敏感元组的档案数据库敏感信息保护的基本思路和方法,下面以某单位人员信息为例,对档案信息数据库敏感信息保护问题进行说明。
[实证1]表1为一份虚拟的某单位人事档案信息原始数据表,其中“处分事由”是敏感属性,如果直接共享原始数据,就算隐去“姓名”,也还是会造成敏感信息的泄漏。比如,熟悉这个单位的相关人员,就有可能能够根据“性别”、“年龄”、“文化程度”等属性,推断出“打架”的人是谁、“偷窃”的人是谁等等。
[实证2]表2是根据传统的k-anonymity,-diversity规则(k=2,l=2)对数据表进行隐私保护处理以后得到的匿名数据表,从一定程度上切断了敏感属性值与个体的联系,起到了隐私保护的作用,但也造成了信息损失。
对比原始数据表1和匿名数据表2,表2能够在一定程度上保持个体隐私,达到隐私保护的目的。然而,仔细分析数据表中敏感属性值的分布及其特点,可以发现,敏感属性“处分事由”中有的属性值为“无”,在这种情况下,个体不存在敏感属性值保护需求,只有“打架”和“偷窃”等敏感属性值才需要进行保护。
[实证3]可以只对表1中含有敏感值“打架”和“偷窃”的记录进行保护,得到基于敏感值保护的匿名数据表3。
从上述分析和图例可知,表2是对表1中所有记录进行泛化处理的结果,表3则只对表1中t2、t4、t5和t7这四个记录进行泛化。显然,两种泛化策略的隐私保护程度是一样的,但表3中的结果在数据精度和匿名处理时间上优于表2,即表3所采用的隐私保护方法具有更少的信息损失和更高的效率。因此,与传统的隐私处理方法相比,由于保护对象更具针对性,基于敏感元组的档案数据库敏感信息保护方法,可更好地改善发布数据的质量和敏感信息保护处理效率。
4 档案数据库中敏感信息保护的实现方法
4.1 档案数据库中敏感信息保护的实现框架
在上述以保护敏感元组为核心的基本思路和保护方法基础上,我们构建了档案数据库中敏感信息保护的实现框架。图1给出了该框架结构图。
图1 档案数据库中敏感信息保护实现的框架结构
从图1可知,该框架自顶向下是一种分层结构,可分成接口层、处理层和存储层三个层次。各层的主要功能描述如下:
(1)接口层:档案信息数据库敏感信息保护和共享系统与外界的操作界面。用户登录认证以后,接口层的用户访问接口可接受和获取各种访问请求,供后续处理过程使用;信息共享接口则提供最终的信息视图界面,并可提供信息共享的各种辅助功能,如下载、打印等。
(2)处理层:档案信息数据库敏感信息保护整个框架中的核心部分,包括访问控制和基于敏感元组的信息保护处理两个功能模块。基于敏感元组的信息保护处理即是对原始档案信息数据库进行隐私保护处理,形成匿名化以后可发布的档案信息数据库。访问控制模块将访问者输入的访问请求与档案馆制定的隐私保护策略进行比较和匹配,根据匹配结果决定是否授予访问权限,以及授予访问权限的大小。
(3)存储层:主要负责信息的存储管理,即档案信息资源库和经过隐私保护处理的可发布的档案信息资源库,这两类信息资源库都由档案权威机构如档案馆等档案信息拥有者来统一管理和发布。
4.2 基于敏感元组的档案敏感信息保护的基本方法
基于敏感元组的档案数据库敏感信息保护的基本方法,也就是有针对性地对需要保护的敏感元组单独进行k-匿名运算,而非敏感元组的信息不进行泛化。参考文献[6]中隐私数据保护方法的算法,表3即采用了基于敏感元组的信息数据保护的基本方法,它与表2所采取的基于敏感属性泛化的方法相比,在数据精度和匿名处理时间上优于后者,具有更少的信息损失和更高的效率。由此分析得出,当表中敏感元组数量较少时,由于只对敏感元组进行匿名运算,基于敏感元组的档案敏感信息保护的基本方法能够较好地提高数据发布的整体精确性,减少信息损失,提高匿名化处理效率;当表中含有较多敏感元组时,则基本退化为普通的k-anonymity
基于敏感元组的档案敏感信息保护基本方法只对敏感元组进行k-anonymity运算,导致敏感元组密度恒为1,容易造成隐私泄露隐患。比如,对于表3而言,若事先知道这个单位的某位人员45岁、初中文凭,便可从表中得出他有“偷窃”的前科。为了消除基本方法中的隐私泄露隐患,这里对基本方法进行改进。
[实证4]首先对敏感元组进行mk-anonymity运算,然后引入(l-m)k个非敏感元组[7],并对其进行泛化运算,使得匿名后每个分组中的敏感元组密度满足用户设定的敏感元组密度m。由于Ni≥mk,因此,T*中泛化后的每个等价类中的元组数Ni+Ni(l-m)/m=Ni/m≥k。算法满足k-anonymity要求,并能保证所有分组的敏感元组密度为m,从而可以克服传统k-anonymity算法中敏感元组密度难以控制的问题,以及基本方法中敏感元组密度为1的缺陷。表4即是采用改进的方法(k=4,m=0.75)对原始数据表进行匿名处理以后的结果。
4.3 对敏感元组赋予属性权值的加权保护方法
在上述改进的方法中,每个分组的敏感元组密度都为m,这表示敏感元组被识别的概率均为m。然而,在实际发布的隐私数据中,个人对不同敏感值的保护要求和担心程度是有差异的。例如,在考虑表1中“处分事由”的属性值“打架”和“偷窃”时,人们可能会希望“偷窃”的元组得到更好的保护。因此,可以根据这种隐私保护具体需求,对不同的敏感值和敏感元组赋予不同的权重,从而实现对敏感元组的区别保护。加权敏感元组保护的思路是根据敏感元组保护需求的差异性,在重要的敏感元组分组中引入较多的非敏感元组,降低敏感元组的密度,使得重要的敏感元组匿名泛化后的安全性大于一般敏感元组,从而实现更有效的保护。对不同的敏感元组赋予权值进行加权保护的实现与上述改进的方法类似,只要将后者中计算每个分组的元组数换成计算敏感元组加权的元组数即可。
[实证5]表5是一份从病历档案中抽取出来的、虚拟的医疗信息原始数据表,“疾病”是敏感属性,假设其中的“艾滋病”、“癌症”和“G传染”是敏感属性值,且其重要程度依次递减。由于“艾滋病”、“癌症”和“G传染”是敏感属性值,且其重要程度依次递减,因此,对这些敏感元组的保护力度相应递减,方法实现中具体表现为这些敏感属性值对应的敏感元组密度依次为递增。
[实证6]表6为采用加权方法处理后的电子病历医疗信息匿名数据表,其中“艾滋病”、“癌症”和“G传染”所在分组中敏感元组密度分别为0.25、0.5、0.75。由此可见,不同的隐私保护方法有不同的特点,在选择隐私保护方法的时候,应当充分考虑整个数据集中敏感属性的密度、敏感属性值的具体特征,以及数据拥有者或敏感信息相关人员对敏感属性值的保护要求和担心程度,再选择合适的方法、赋予相应的权值对其进行保护,使得发布的数据在数据可用性和敏感信息保护程度之间实现平衡。
5 结论
分析上述几种方法可以得出以下结论:第一,依敏感信息的保护程度,加权方法优于另外两种方法,其在敏感元组数不变的情况下,对重要敏感元组分组中引入了更多的非敏感元组,敏感元组密度小于改进方法中的密度,更加适合对特殊敏感元组的保护;第二,基本方法在信息损失方面优于改进方法和加权保护方法,其发布的数据保留了更多的有用信息,有利于档案信息数据的共享利用和在其基础上的知识挖掘和发现;第三,在方法性能方面,基本方法的时间耗时处于较低水平,改进方法引入相应数量的非敏感元组进行泛化,在针对每个分组统计非敏感元组的过程中,需要多次访问数据库,时间耗费较多。因此,还需进一步改进和优化算法、提高引入非敏感元组时的效率。由此可见,不同的隐私保护方法有不同的特点,在选择隐私保护方法的时候,应当充分考虑整个数据集中敏感属性的密度、敏感属性值的具体特征,以及数据拥有者或敏感信息相关人员对敏感属性值的保护要求和担心程度,再选择合适的方法、赋予相应的权值对其进行保护,使得发布的数据在数据可用性和敏感信息保护程度之间实现平衡。
目前,档案数据库建设已经成为档案资源建设的重要部分,尤其是电子档案数据库在各类档案数据库中占据着越来越重要的地位,人事、婚姻、公证、房产、医疗、保险等档案信息系统数据库中包含大量的个人隐私信息,有必要运用敏感数据保护技术对其进行处理,以保护公民个人隐私。在选择敏感数据保护方法、技术和具体参数的时候,档案馆应该综合考虑特定档案数据库中包含的敏感属性特征和敏感信息保护程度要求。假设敏感属性值在整个敏感属性数据集中所占的比例较小,就可以采用基于敏感元组的基本方法或改进的方法。例如,一般情况下某单位中受到处分的人员数量较少,处分事由属性中的大部分值都是非敏感值,只有少部分需要加以保护,那么就可以采取基本方法或改进的方法进行保护。另外,如果敏感属性值之间存在敏感程度高低差异,则可以采用如对疾病属性的保护处理的加权方式。同时,选择保护方法和技术时还应充分考虑档案数据库所面向的发布环境,如档案数据库是对社会公开发布还是系统内部资源共享等具体情况,区分发布环境和保护程度要求,以对档案数据库中的敏感信息进行安全、合理、适当的保护处理。