大数据环境下电子文件鉴定研究,本文主要内容关键词为:鉴定论文,环境论文,文件论文,数据论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
大数据环境下,数字化、存储设备低廉、易于提取、全球性覆盖这四个驱动因素已经使世界进入记忆模式,无用、冗余的信息给决策造成了干扰。[1]如何在海量数据中发现具有价值的数据成为大数据环境下面临的首要问题。[2][3]存储技术和存储空间的发展对传统鉴定观念的适用和发展带来了影响。[4]在新环境下,传统鉴定理论如分析来源原则、双重价值论、利用决定论、职能鉴定论、宏观鉴定论等理论也需要进一步发展以适应新环境的要求。因此,在大数据环境下,电子文件鉴定理论与方法发展的新方向成为当前文件与档案管理领域亟待研究的重要课题。 一、大数据环境下电子文件鉴定面临的挑战和问题 (一)电子文件鉴定的功能发生转变 传统环境下,鉴定的目的是发现有价值的文件,同时也节省了文件与档案的存储成本。但是在大数据环境下,云存储技术有了较大发展和广泛应用,存储空间不再紧张,存储成本和难度大大降低。另外,全文检索技术的发展使大批量数据中的快速检索与知识发现成为可能。因此,在数字环境下,电子文件鉴定工作应由单纯的价值判断向价值、安全结合的方向转变。[5][6]也就是说,虽然处置与销毁可能不再进行,但是文件筛选、价值判断、安全保护会越来越受到重视。[7][8][9]从安全角度说,大数据环境拓宽了文件的利用途径,在鉴定过程中需要对这些可能涉及隐私的文件加以甄别和保护。[10][11]隐私保护与电子文件的信息安全是开放的数据环境下所发展出来的新命题。电子文件是对事件的记录,如果不注重隐私保护和信息安全,就会造成国家、组织和个人信息泄露。尤其是在大数据环境下,信息泄露所带来危害的控制难度将会大大上升。[12][13]对隐私和安全问题的识别已是大数据环境下鉴定领域亟须关注的新问题,现有研究只是提出这一方向,而未能指出原因以及解决隐私和安全问题的办法。 (二)电子文件鉴定的方法发生转变 信息技术的发展使得传统鉴定在为谁鉴定、由谁鉴定、如何鉴定三个方面发生了变化。[14]20世纪90年代,冯惠玲教授就认为面对海量电子文件,“直接鉴定法”遭遇到严峻的挑战。[15]在大数据时代,要制定电子文件鉴定策略以应对社会对文件的价值需求,建立电子文件管理系统自动鉴定的原则和适用标准。[16][17]澳大利亚国家档案馆认为在新的数据环境下预测文件的价值具有较大难度,转而对不保存该文件所带来的风险进行鉴定。[18]数据量的增大必然导致工作量的增加,大数据环境下鉴定的工作量将会成倍剧增,鉴定方式随之转变。同时,自动鉴定方式要求梳理鉴定流程,并在电子文件管理系统中设计鉴定模块或独立开发鉴定系统,以实现系统自动处理。 (三)电子文件鉴定过程中需要对文件价值进行深度挖掘 张斌教授认为在新的数据环境下,应当完善研究方法,加强信息分析方法、知识挖掘方法、计算机辅助决策工具等应用。[19]可以采取系统捕获文件、抓取文本信息、进行特征匹配等方式对电子文件开展智能鉴定。[20]大数据时代的信息价值密度低,需要对文件的价值进行全面而准确的挖掘。[21][22]文本挖掘、语义分析是对文件进行内容级管理的具体体现和有效方式,不仅体现了大数据环境下电子文件鉴定的自动化实现,而且反映出复杂数据环境中数据特征提取、价值发现的难度提升。 二、大数据环境下电子文件鉴定的理论与方法基础 (一)“绿色鉴定”理念的提出 在开放的数据存储和利用的环境下,通过互联网和社会媒体,以构建集体记忆为目的,由计算机系统对社会中的多元价值取向进行分析,从而综合评估文件的价值、隐私、安全等级、处置风险等因素的过程,即“绿色鉴定”。这一鉴定理念的内涵包括:(1)为何鉴定?新的数据存储、传输、利用环境下,鉴定的功能和作用进一步拓展,不仅体现为价值判断,也要考虑信息安全和隐私保护等问题。(2)谁来鉴定?大数据环境下,电子文件鉴定是开放的,因此其鉴定主体类型也更加丰富。通过互联网和社会媒体,电子文件鉴定的主体类型更加多样,能够快速表达意见。(3)为谁鉴定?基于个人记忆和集体记忆构建的需要,大数据环境下鉴定问题需要考虑多元价值取向。(4)鉴定什么?大数据环境下鉴定的对象与内容极大扩展,包括电子文件的价值、隐私、安全、技术、环境等。(5)如何鉴定?新技术环境赋予电子文件鉴定的新方式,文本挖掘、语义分析、智能分析在鉴定中广泛应用。 (二)“绿色鉴定”的维度 1.价值维度:电子文件鉴定要体现大数据环境下多元价值取向。对利益相关者及其需求的考虑。在鉴定策略构建中考虑电子文件的多元价值,利用利益相关者理论对不同主体需求进行综合分析。对集体记忆构建的价值贡献。电子文件在集体记忆构建中的作用凸显,如虚拟网络群体所产生的电子文件对其集体记忆的价值。 2.功能维度:大数据环境下电子文件鉴定功能得以拓展。高速、海量的数据传输特点要求鉴定隐私文件。大数据环境下文件的传输速度快,利用途径广,文件之间的关联分析更加全面,要对涉及隐私信息的敏感文件进行甄别和权限设定。与传统文件管理环境所不同,大数据环境下的电子文件管理系统具有高度的动态性。随着数据存储环境、管理环境的不断更新,电子文件所面临的安全风险也不断增加。安全评估也是大数据环境下电子文件鉴定的新的内涵。开放的利用环境下需要鉴定文件的安全状况。对大数据环境下的电子文件,及其存储载体、管理系统的安全等级进行评估,并实施安全防护方案。 3.方法维度:大数据环境下电子文件鉴定方法发生转变。数据量大、数据类型多样要求鉴定策略实施自动鉴定。面对大数据环境下的海量数据以及复杂的数据类型,需要系统能够采取语义分析,对电子文件进行自动鉴定。数据关联要求鉴定策略关注处置风险的评估。大数据环境下电子文件鉴定工作量巨大,如果难以从正面对文件价值、安全等进行评估,可以逆向思考,从处置风险的角度对文件进行鉴定。 三、大数据环境下电子文件鉴定策略与关键问题 (一)电子文件鉴定策略 大数据环境下电子文件鉴定策略包括:第一,选取鉴定方法。结合“档案在集体记忆构建、国家资源建设”方面的作用,以及鉴定的影响因素,分析电子文件鉴定在多元价值取向、内容智能分析、处置风险评估、隐私保护、安全评估等方面的关键点。第二,识别鉴定的维度。基于大数据环境下的鉴定需求,分析电子文件的鉴定对象维度、鉴定主体维度、鉴定方式维度、技术维度等所包含的影响因素。第三,构建鉴定的指标体系。基于鉴定的维度,分析电子文件鉴定的指标体系,以及各指标所占的比重。第四,设计鉴定流程。设计大数据环境下电子文件鉴定的基本流程。即如何对国家层面、组织层面的职能与业务体系进行评估、选择与组合鉴定方案、鉴定的实施等。第五,开发与实施鉴定工具。根据大数据环境和鉴定的需要,构建内容分析模型、价值评估模型、风险评估模型、安全评估模型等,分析鉴定在系统中的功能需求,从而开发相应的鉴定工具。 (二)电子文件鉴定的关键问题 1.建立统一的数据标准体系。大数据环境下的文件鉴定虽然具有智能性、语义性的特点,但是需要依赖一定的数据标准。对大数据的处理不是随机和无序的,而是对随机和无序的数据进行规律总结,从而发现鉴定的标准。因此,对于大数据环境下电子文件的处理同样依赖于标准数据管理体系的建立。第一,遵循基本的数据封装标准。目前,国际标准数据封装参考OSI7层参考模型。在该模型中,每层主要负责与其他机器上的对等层进行通信。每一层的协议数据单元一般由本层的协议头、协议尾和数据封装构成。电子文件管理系统中数据封装也应参考这一基本模型。在同一封装标准下,基于统一的数据类型,系统可以实现对数据字段的抽取和分析。第二,建立规范的术语体系。电子文件鉴定依赖于标准术语体系的建设。参照术语体系中的关键词与电子文件进行对应匹配,可以快速定义文件的内容和所涉项目单元。第三,构建可行的元数据采集标准和实施方案。大数据环境下电子文件元数据标准需要对文件的来源、文件在网络与数据库中的关联关系进行详细描述,便于构建文件之间的关联网络,从而对文件的关联价值进行判断。 2.建设具有大数据处理能力的文件鉴定系统。受制于海量的文件、多样的文件类型,大数据环境下对电子文件进行鉴定完全脱离人工鉴定模式和流程,依赖计算机系统进行自动识别和鉴定。因此,在大数据环境中鉴定电子文件,具有大批量处理能力、智能化价值判定功能的文件管理系统成为该项工作开展的技术基础。已有文件管理系统在对文件采集、分类、鉴定、处置、利用等模块,按照已有的传统文件与档案管理流程进行设计,对于大数据环境下电子文件管理存在明显的滞后性。系统建设应在既有的电子文件管理系统上重点关注以下模块的功能设计:第一,智能化的文件识别模块。在大数据环境下,存储文件的数据库具有动态性的特征,文件管理系统能够自动识别需要鉴定的电子文件,并对数据库进行跟踪,不断更新文件鉴定的内容和标准。第二,语义级别的文件内容分析模块。大数据环境下文件鉴定应深入文件的内容,进行语义级别的分析。因此,电子文件鉴定系统应当具有分词、词间关系处理、重点词语与术语库自动匹配的功能。 3.制定规范的电子文件鉴定标准。鉴定标准是判断文件价值、有用性、可用性的依据和核心。因此,在大数据环境下有效开展文件的鉴定工作,需要制定统一的鉴定标准,并形成可行的鉴定方案。“绿色鉴定”理念不仅关注大数据环境下电子文件的价值,而且需要对电子文件的安全、隐私保护充分考虑,并评估电子文件的处置风险。第一,价值判断标准。价值判断是大数据环境下电子文件鉴定的核心工作。文件价值的发现、判定和保护是文件与档案管理的使命所在。在大数据环境下,制定具有明确参考价值的文件价值判断标准,为鉴定的开展提供可靠依据。在这一标准中,充分考虑文件的利益相关者、文件所反映事实的利益相关者、文件与文件之间的关联、事实与事实之间的关联关系,这样才能有效定义多元化的价值诉求。第二,隐私保护标准。隐私保护是开放的大数据环境下电子文件鉴定的功能拓展。隐私保护标准就是要明确哪些类型的文件可能存在侵犯隐私的可能、可能涉及的隐私有哪些、这些隐私会涉及哪些利益主体。通过隐私保护标准在电子文件鉴定过程中定位具体的文件、隐私和相关主体,起到保护隐私的作用。第三,安全评估标准。在大数据环境下,要从文件内容、软硬件存储环境、系统安全性等角度对电子文件的安全进行评估。因此,电子文件鉴定中的安全评估也要综合考虑文件内容的可获取性、文件存储的合理性和稳定性、系统设计的安全性和兼容性。第四,处置风险判断标准。处置风险判断标准需要考虑一旦对文件进行处置,其后果会有哪些。因此,处置风险判断标准应包括处置的类型、每一类型所面临的风险、各种风险的类型和等级、风险的降低策略和可能性等。大数据环境下电子文档的识别研究_大数据论文
大数据环境下电子文档的识别研究_大数据论文
下载Doc文档