SHUZILANTAI〉〉〉数字兰台
大数据时代档案管理新视觉
刘必全
摘 要 档案大数据,即一定空间及时间范围内全部档案数据所形成的集合。档案大数据和大数据之间存在数据海量、类型丰富以及处理快速等诸多共性,同时在数据价值密度、可靠性以及保真性等方面也存在明显差异。对于档案大数据而言,提炼出有价值的信息,在此基础上实施有效地预测是其一项核心内容。
关键词 大数据 档案管理 大数据档案
一、大数据概述
计算机和网络发展至今,各行各业都在一定程度上利用计算机来处理各自的业务,这一过程产生了大量的数据,这也使得现代社会的信息量飞速增长。一般以数据挖掘技术为工具,为相关业务提供有力支持,从而在繁杂数据之中发掘和提炼出有价值的信息。本文对档案管理工作中大数据的应用进行了研究,探讨了相关的新理念及新技术,并指出了此类应用所面临的机遇和挑战。所谓大数据,指的是在数据量及其类型大幅增加的促使下而形成的各种规模庞大、类型丰富、信息量惊人的数据集,并且还对所产生出的数据集进行有效地信息收集、过滤去冗,然后对有价值的信息进行提取的一个技术架构与技术过程。分析大数据会发现,“4V”一体是它的主要特征,分别是数据量庞大、处理速度快、数据类型多以及数据真实。首先,数据集(Volume)非常庞大,指在采集和分析的数据量异常庞大,数据量已经从传统的TB 级别飞跃到了PB 级别。第二,处理速度(Velocity)快,需以获取的数据为对象展开系统分析,且要保证分析的实时性及有效性。以图像处理为例,在连续不间断的图像进行实时监控过程中,可能有效的数据只有几毫秒,因此这和传统的数据挖掘技术具有本质的不同。第三,数据类别(Variety)大,分析大数据的数据源会发现,它存在一定的不固定性,其无论是在数据种类方面,还是在格式方面,均呈现出不断增加的趋势。第四,数据的真实性(Veracity),大数据包含的那些信息是在真实环境中进行收集并加以提取的。同传统数据相比,大数据存在明显差异,需要利用到若干种处理技术,将收集到的数据转换成结构化类型,之后才能进行后续使用。具体如表1 所示。
表1 传统数据库和大数据存储比较
二、档案管理
档案是“过去与当前国家部门、社会机构和个人从事政治、经济以及科学等一系列活动过程中直接产生的对社会乃至国家有一定保存价值的各种文字、图表或者音像等各类形式的历史记录”。能够发现,档案由三大要素共同构成,它们分别是载体、价值以及活动。在科学技术迅速发展的推动下,档案载体经历了“甲骨→金石→简牍缣帛→纸墨文书→磁带→硬盘等现代存储工具”的变革;无论是使用目的,还是使用方法,均会给档案价值带来一定的影响,由此可见,档案价值属于一种主观因素、客观因素共同作用下的判断。活动指的是为达成既定目的而实施的一系列行动,涵盖包括时间、地点以及事件在内的各种因素,在具体的表达方式上也呈现出日益变化的趋势。纵观档案的整个发展历程可知,其在内容上经历了文字到音像再到视频的转变,表现形式愈加生动,信息容量也是与日俱增,另外,数据读取速度也有了大幅提升。当前电子政务正处于不断发展之中,在此背景下,电子文件管理成为了各级政府的一项基本工作,电子文件会产生档案,其载体借助数据流之类的形式快速、便捷地生成,无论是价值鉴定,还是存储,又或者是数据采集工作,均经由网络系统进行相关处理,被赋予了较为理想的时效性。
第一,农村集体在机体构成上具有非自然性。农村集体是集体财产的所有权人,是集体范围内成员个人结合的整体[9]。农村集体是一种社会存在,不能像自然人一样形成意思,必须依赖于作为集体财产管理者的自然人。由于利益函数的现实差异,实际控制人极可能侵害集体利益。正如耶林所说,“团体财产的管理者对于一个社会最是危险。没有哪一个窃贼会像管理他人财产的管理者那样发现偷盗是如此容易”[10]。
《中华人民共和国档案法》指出,“收集→整理→保管→鉴定→统计和利用”属于基本的管理流程,上述环节的处理主要依靠人工的方式来实现,上述管理流程同样能够运用于电子文件管理领域,区别在于该领域会综合运用包括网络传输、数据库以及计算机在内的多种现代技术。详见图1。
图1 档案管理流程图
三、大数据技术构架
计算机、传感脉冲等电子设备驱动能够主地、连续不断地把事物的最新状态信息实时传输到计算中心,这部分采集到的数据形成了庞大的数据,数据的来源,广度高、深度深、类别复杂,对于格式不同、类别不同、复杂程度不同、特点不同的来源数据,在物理上、逻辑上或者形式上的汇集,从数据中挖掘出内在实体和关系,并通过关联规则和聚类融合之后对数据进行有效的储存分析。数据存储的方法有:采用联邦数据库、中间件模型和数据仓库等方法,来保证数据的量,同时要求对选取数据进行去冗余,但是如果信息去容的粒度过细,反而会把需要的数据过滤掉,相反,却无法完成有效的数据去冗。由于数据的存储方式不具有唯一性,因此需要使用分布式存储方式,而Hadoop 和NoSQL(Not Only SQL)都属于分布式存储技术的一部分。Hadoop 分布式文件系统(Hadoop Distributed File System,下文称为HDFS)是根据谷歌的GFS 的思想来实现的。HDFS 属于一种具有开源特点的分布式文件系统,能够在分析HDFS 的基础上来加深对分布式文件系统的了解。因此,HDFS 是用来学习分布式文件系统的一个很好的对象。HDFS 具有高容错、高吞吐量数据访问以及适合大规模部署等特点。大数据最核心的业务包含了数据分析、数据挖掘以及数据融合,而数据关联与聚类分析是数据融合中的两大主要任务。在大数据业务处理中,由于数据冗余过大,维度较高,对现有的聚类和分类形成了巨大的挑战。所以,形成了一系列经典算法,较为知名的有k-means 聚类、D-S 证据理论以及小波变换等。对于产生的庞大数据,同时处理会产生大量的处理时延,因此需要把数据进行划分然后并行处理,因此需要一个并行的编程模型——MapRe—duce,MapReduce 程序被设计用来并行处理海量数据,其设计思想是将问题“分而治之”,把一个对大数据集的操作,分配成若干个小数据集而进行处理,最后再对不同中间结果进行合并处理,从而求取出总的最终结果。它可应用于多个领域,主要包括对grep 进行分布,对排序进行分布,对web 访问日志进行分析,对文档进行聚类处理等。整个搜索的索引等需要处理大规模数据的工作。然后再把这些经过处理的数据进行存储,进入计算机系统进行分析,可以挖掘出所需要的信息,为利用者提供服务。大数据的核心价值在于预测分析,通过拥有全部的总体数据样本测试出相关模型,计算出与模型相对应的事件发生概率,最终提供优化解决方案以便支持决策(如图2)。
图2 大数据的技术架构
四、大数据下的档案管理
1.整合我国政府、企事业单位以及其他相关单位的档案管理计算机软件,依托先进的云计算技术,构建出能够满足实际需要的计算机档案管理系统,实现对各类档案信息资源的有机整合。
在我国信息化发展战略逐渐深入的大背景下,电子政务得到了迅速发展,同时电子商务也迎来了良好的发展契机,这给档案大数据的实践应用提供了相当广阔的平台,构建和完善集约化的档案云计算网络体系引起了广泛关注,因为它是顺利构建档案大数据应用平台的一项主要的基础性工作。档案大数据应用平台是依托档案云计算网络而发展的,如今通信、金融、国有大中型企业等实现档案数据集中统一管理,为档案大数据的发展奠定了基础。为档案大数据跨越关联的海量数据分析目标的实现,必须搭建档案大数据应用平台。
综上,下行方向裂缝的开裂程度较上行方向更严重,纵缝尤为明显,这与上下行的行车荷载大小相吻合。且下行方向出现车辆超载的情况,根据刘彦光等学者的研究[4 ],超限重载车是引发纵缝的主要因素之一。
3.打破我国机关、团体、企事业单位之间的档案和档案信息资源之间的数据壁垒,推动档案不同系统,不同单位间的数据开放共享。建设全国统一的档案数据模型和行业档案数据中心,开发档案数据分析挖掘的模型库和规则库,挖掘和利用档案大数据的巨大价值,以整个社会为服务对象,提供实时、高效的档案信息资源共享功能。
4.构建档案大数据应用系统平台,总体架构应按照档案实际内容的流程实现,即从档案数据的采集、智能处理、数据挖掘与智能检索应用平台三个层次实现。开发档案大数据分析工具,通过建立政治、经济活动、基本建设、科学研究、医疗卫生、教育、社区等档案数据采集平台进行数据采集,在智能处理平台上对这些非结构化信息、多媒体信息和用户信息进行分析,接下来通过档案数据应用平台获得相关的数据挖掘结果,并将之提供给检索平台以及档案信息自动编研平台。分析档案大数据技术不难发现,其不仅广泛,而且复杂程度高,所以给档案管理部门提出了更高要求,要求其和计算机技术部门之间建立起高效的协作关系,开发出适应档案大数据管理,自动进行数据关联、多维度分析的档案大数据平台。作为档案管理部门,应基于云技术层面构建起配套的档案信息化管理架构,并对档案业务的整个建设流程加以系统梳理。档案的收集实现前端控制,将档案管理融入到办公、合同管理、工程项目管理等系统中,将处理文件材料过程中许多后期阶段的控制手段提到最前端。档案馆还应该有目的有计划地采集那些存在一定价值、形式丰富的数据资源,包括电子邮件、网页以及社交媒体等,在此基础上构建一个以互联网为基础,将各类档案数字资源当做主体的,综合运用包括文本、图片以及音视频在内的多种形式,从而实现对中国记忆数字资源库的构建和不断完善。档案的管理需要建立起服务于海量异构数据的底层存储及分布式系统架构,当数据量超过服务器承载能力时,档案平台所具有的数据存储功能不仅要满足可扩展的需要,同时还应满足可用性的需要。为了实现集成分析,存储时可“通过设置连接器,让那些非结构化的数据转换成结构化数据之后,能够以极快的速度和分布式数据库系统内的关系型数据进行融通,如此一来,便可实现对大数据的及时、有效分析”。对于档案大数据而言,其价值集中反映在应用上,利用对档案资源的深入挖掘,能够在档案资源、用户需求之间进行高效的双向控制。在上述过程中,将会应用的多种技术,主要包括数据集成技术、数据存储技术、数据分析技术、语义处理技术等等。档案部门应紧扣自身的主要业务,准确把握档案核心所具有的原始性介质,积极推动档案数字化进程,立足于数字档案馆这一先进平台,借助数据挖掘等技术,对目标档案信息资源进行有机转化,使之成为结构化数据,并在适当范围内开放数据,从而使得整个社会能够从中受益。具体来说,应对业务部门的实际需求予以全面且深入地调查,构建匹配的数据模型,以海量数据为对象加以处理,包括聚类处理、分类处理以及相关性分析,找到数据之间的关系,从而实现全智能服务,将淹没的数据变成“活”信息(如图3,见下页)。
2.数据治理,建立档案数据管控体制,定义完整的档案数据管控流程和档案数据责任体系,对档案数据实施全流程管理,其中包括数据获取的管理、数据加工的管理、数据分发的管理,数据使用的管理等。在提升档案数据管控能力的基础上,开展数据治理和数据评估工作,有效提升档案数据的及时性、准确性和完整性。
如,分析医疗档案原先采用的档案管理模式可知,需在患者正式出院之后,花费较长的时间进行收集、分析和整理才能生成一份较为完整的医疗档案。而医院引入先进的医疗管理信息系统之后,自患者挂号开始,在接下来的门诊环节、缴费环节、化验环节、取药环节、手术环节、住院环节、出院环节等,均能够即时地获取医院提供的包括电子病历、处方以及费用单在内的一系列数据信息,所形成的数据均可以为后续环节提供有价值的参考。很明显,此类以各个治疗环节为基础具有即时生成特点的医疗档案,能够如同传统纸质档案一般有效承载各类信息,然而无论是在收集环节,还是在归档环节,又或者是在利用环节,均和纸质档案存在明显差异。
图3 档案信息大数据平台框架
五、结束语
大数据的理念及技术正不断趋于成熟,必将在各行各业得以广泛应用,同时也面临诸多挑战。在大数据背景下,对现阶段数字档案所涉及的大数据挖掘技术及其发展前景进行了相关研究,能够实现对档案数据更为全面和深入的应用,优化与健全档案知识挖掘所应用方法及模式,为更为优质的档案知识服务奠定坚实基础。本文先阐述了大数据的相关概念及主要特征,指出了档案大数据知识挖掘领域需要重视的一些技术问题以及未来研究方向,旨在为相关实践应用奠定更为理想的基础。在档案数字化不断深入的大背景下,档案大数据引起了业界的高度关注,当下的档案馆服务正在积极转移自身的重心,更加关注数字档案的知识挖掘工作,以期为政府的各项决策提供更为强大的数据支持。在大数据时代,对于整个档案界来说,必须把握好自己的核心业务,围绕档案数据的核心价值——原始记录性,在数字档案馆数字化建设的基础上,建立地区性乃至全国性的共享平台,推动云计算、语义分析、数据挖掘等新技术的应用,依法向相关单位和个人开放档案数据,从而为整个社会提供更为优质的服务。在大数据环境下,更应不断提升对信息资源的开发和利用水平,这已然成为衡量国家综合实力的一个关键因素。纵观全球各国可知,数据已然成为重要的国家资产,尤其在创新方面发挥着关键作用。作为档案部门,应积极转变传统的思维模式,准确定位自身的管理职能,由传统的“管档案”不断向“管数据”过渡,大力推动大数据战略,营造集高效性、灵活性等优点于一身的云环境,利用以“云”为基础的IaaS 平台、DaaS 平台以及AaaS 平台,对可靠的数据源进行发掘并提取出所需的各种类型数据,并对最关键的数据进行优先处理,与此同时,还要合理规划保存内容,并明确保管期限。利用对既有档案馆藏资源的有机整合,针对目标数据实施有效发掘,可将其转化成更具价值的知识资源,对于企业而言,如果能够有效利用此类资源,无疑会大幅提升自身的综合竞争力,对政府部门而言,依托大数据能够更好地开展一系列社会治理工作,提高执政为民的质量和影响力。
11月26日下午至27日,浙江省自然资源厅执法监察局在杭州组织召开了2018年全省国土资源执法案卷质量评查工作会议。会议汇报交流了案卷质量评查工作开展情况和2018年工作思路,对全省各地上报的2018年度参评案卷质量集中评查。浙江省自然资源厅相关处室负责人,各设区市和有关县(市、区)执法监察系统负责人参加了会议。
参考文献
[1]于英香.档案大数据热的冷思考[J].档案学通讯,2015(2).
[2]张文元,张倩.大数据技术与档案数据挖掘[J].档案管理,2016(2):33-35.
[3]张林华.论我国公民档案信息权意识的嬗变[J].档案学通讯,2014(6).
[4]赵彦昌,段雪茹.大数据环境下档案信息资源整合的SWOT 分析[J].北京档案,2016(11).
[5]周枫.大数据时代档案馆的特征及发展策略[J].档案与建设,2013(8).
[6]李小晨.大数据时代背景下的档案管理探讨[J].云南档案,2013(6).
[7]张淑芳.浅议“大数据”时代下的电子档案建设趋势[J].档案管理,2013(6).
[8]郑彩云,向少华.基于大数据的高校档案管理信息化建设探讨[J].开封教育学院学报,2016,36(8):215-216.
[9]王涛.大数据时代背景下的高校档案资源共享研究[J].兰台世界,2016(4):75-76.
[10]张倩.高校档案物联网大数据处理平台的构建方案研究[J].档案与建设,2016,33(2):39-43.
New Vision of Archives Management Based on Big Data
Liu Biquan
Abstract Big data of archives is the collection of all archives data within a certain space and time scope. Between archives big data and big data, there are many similarities such as mass data, abundant types and fast processing as well as significant differences in data value density, reliability and fidelity. For archives big data, it is a core content to extract valuable information and implement effective prediction based on it.
Keyword big data; archives management; archives big data
中图分类号 G271
文献标识码 A
收稿日期 2019-05-13
DOI: 10.16565/j.cnki.1006-7744.2019.12.12
★作者简介: 刘必全,西南大学档案馆副研究员。