数据价值:大数据时代档案价值的新发现,本文主要内容关键词为:价值论文,数据论文,新发现论文,档案论文,时代论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号:G270 当今世界,大数据的浪潮扑面而来,正在到来的数据革命必将改变我们的思维、工作与生活。美国麦肯锡全球研究院2011年6月发布题为《大数据:下一个创新、竞争和生产力的前沿》的研究报告认为,数据正成为与物质资产和人力资本相提并论的重要生产要素,大数据的使用将成为未来提高竞争力的关键要素。2015年9月,国务院印发《促进大数据发展行动纲要》,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。历史经验告诉我们,只有把你自己的战车和其他一些更伟大的东西绑定到一起的时候,你才能发现你真正的能量。当档案“遇上”大数据,它将获得一种“新能量”,这种“新能量”就是本文讨论的主题——档案的“数据价值”。 1 传统档案价值的实质是一种“信息价值” 在信息时代,人们对档案与信息的关系有着基本的共识:档案信息是信息的一种存在形式,档案是人类社会的一种重要信息资源。人们在给档案下定义时,往往使用“文件”“文件材料”“记录”“历史记录”“文献”等属概念,而“文件”“记录”“文献”等无一不是信息的存在形式。许多档案定义更是直接把“信息”作为属概念来使用。如冯惠玲教授、张辑哲教授主编的《档案学概论》一书认为:“档案是社会组织或个人在以往的社会实践活动中直接形成的具有清晰、确定的原始记录作用的固化信息。”①王李苏主编的《企业档案信息管理》一书把档案定义为“人类社会活动中直接形成的各种文件转化而来的并系统组合的信息。”②霍振礼认为“档案是机关、团体、单位或个人在社会实践活动中,为了满足日后查证、研究和复制需要留存的,并经过系统整理和鉴定的信息材料。”③ 我们知道,档案价值是指档案对国家、社会组织或个人的有用性。档案价值具有不同的具体表现形式,我们称之为档案的价值形态。档案学界对档案价值形态从不同的角度有不同的划分,如原始价值和从属价值、第一价值和第二价值、证据价值和情报价值、现实价值和长远价值、利用价值和保存价值等。但不论如何划分,不论何种价值,“而就其诸多作用的性质来说,概括起来有两个基本方面:一是凭证作用,二是参考作用,或称情报作用。因为这是档案作用的主要特点和档案价值的基本结构,所以也称为档案的基本价值”④。把凭证价值和参考价值作为档案的基本价值也逐渐成为档案界的共识。 关于档案的凭证价值和参考价值的思想,最早是由美国的档案学家T.R.谢伦伯格在《现代档案——原则与技术》一书提出的,他指出:“在讨论美国国家档案馆所逐渐形成的那些鉴定标准时,我要提到两个问题:(1)公共文件内关于产生它的那个政府机关的机构组织和职能运行的证据;(2)公共文件关于与政府机关有关的个人、法人团体、问题和情况等情报资料。因此,公共文件有两种价值,即证据性价值和情报性价值。”⑤我国档案界一般将档案的证据性价值表述为“凭证价值”,或通俗地称为档案的“凭证作用”,而将档案的情报性价值表述为“参考价值”,或通俗地称为档案的“参考作用”。所谓档案的凭证价值,就是指档案能够作为其形成者的有关情况(如单位的组织、职能、开展的活动、个人的自然情况等)的证据;所谓档案的参考价值,是指档案所记载的内容对档案形成者及其以外的机构、组织和个人的参考意义和作用。从上述关于档案基本价值的阐述中我们不难看出,传统档案价值理论对档案价值的判断和分析都是基于信息层面的,无论是凭证价值,还是参考价值,都是通过查阅档案满足人们查证查询某一信息的需求而实现的价值,我们可以统称为档案的“信息价值”。 2 “数据价值”——大数据时代档案价值的新发现 麦肯锡全球研究所认为,大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据技术的真正意义不在于掌握海量数据,而在于对这些含有意义的数据进行专业化处理,并处理后获得新知识应用于创新实践。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 “大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。”⑥大数据让我们拥有“一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。”⑦用大数据的视角来审视档案的价值,我们会有新的发现。档案不仅具有信息层面的价值,还具有数据层面的价值,这是一种与“信息价值”完全不同的新价值,我们不妨称它为档案的“数据价值”。档案的“数据价值”是指在大数据背景下档案作为一种重要的数据资源所具有的价值,是一种通过大数据技术处理、挖掘和应用而获得的价值。 为了更好地了解档案“数据价值”的实质内涵,我们不妨将其与档案的“信息价值”作一比较分析。档案“信息价值”与“数据价值”的区别主要表现在以下几方面: 一是价值特性不同。档案“信息价值”是显性的,档案中记载了什么样的信息内容是一目了然的,人们可以通过查阅档案直接获取相关信息;而档案的“数据价值”则是隐性的,从档案中无法直接获取,只通过大数据技术对海量档案数据进行处理挖掘才能使之显现出来。比如,通过查阅气象档案,我们获知了杭州市某一天的气温变化、降雨量,这时候实现的是档案的“信息价值”;通过对气象档案数据和雨具销售数据的比对分析,我们知道了近10年来杭州市气温、降雨量变化与雨具销量的关系,这时候实现的就是档案的“数据价值”。因此,也可以说,“信息价值”是档案的表层价值,“数据价值”则是档案的深层价值。 二是价值关联度不同。档案“信息价值”具有相对独立性,当人们只是获得档案信息层面的价值时,一般情况下,一份档案、一条记录都可以独立发挥作用;档案的“数据价值”则具有关联性,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。当一条档案数据或者一批档案数据孤立存在时并没有什么数据价值,只有与其他数据进行关联分析时才有新的应用价值,甚至需要进行跨领域的数据分析,才有可能形成真正的知识和智能,产生更大的价值。比如,当我们将低保档案数据与户籍、房产、车辆、银行消费等数据的叠加比对分析时,就可以更准确地甄别低保对象,杜绝类似“住着别墅开着宝马领低保”的现象,实现精准扶贫。 三是价值时效性不同。档案“信息价值”时效性较弱,档案中记载的信息不论你查与不查,用与不用,它都在那里,不增不减,不离不弃。绝大多数档案在机关、企事业单位形成后10年、20年以后才移交给档案馆,档案“信息价值”可以在更长时间里仍然得以发挥。相对而言,档案“数据价值”时效性要求更强,处理速度快(Velocity)是大数据的4V特征之一,数据的价值会随着时间快速衰减,过时的数据分析结果的应用价值就会大打折扣。因此为了保证大数据的可控性,需要让档案数据流动起来,把静态数据转变为动态数据,缩短数据收集到获得数据分析结果之间的时间,使得大数据成为真正的即时大数据,只有这样档案“数据价值”才能得到有效实现。 四是价值层次不同。档案“信息价值”主要表现在微观层面,是一种个体档案价值。如档案中记载的信息可以证明某一文件中记载了某一事实,或者某一事情在某一天发生过等等,因此,为了保证档案“信息价值”的有效实现,必然要求档案的微观记录是真实的、可靠的、准确的,特别是档案凭证价值的实现,更是要求档案具有原始性;而档案的“数据价值”更多体现在宏观层面,是一种总体数据价值。在大数据时代,思维方式要从精确思维转向容错思维,当拥有海量数据时,绝对的精准不再是追求的主要目标,更应注重的是数据的规模、完整性、多样性,甚至可以容许一定程度的错误与混杂,“适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。”⑧ 综上所述,档案“数据价值”是一种隐性价值、关联价值、动态价值、宏观价值,是大数据时代可资挖掘的档案新价值。 3 提出档案“数据价值”的现实意义 3.1 档案“数据价值”的提出丰富了档案价值观。张斌教授指出:“我国档案界一直比较注意对档案价值具体表现形式的总结和研究,并取得了较多的成果。但是其研究也存在较明显的缺憾:一是对档案价值形态的理论研究基本上处于‘零散状态’,没有统一地、系统地把其作为档案价值理论体系的一个有机组成部分进行研究;二是对某些档案价值形态的认识比较浅显,感性认识的成分居多,缺少进一步的、深层次的理性思考”⑨。大数据为档案价值理论研究提供了新视角,引入档案“数据价值”的概念丰富了档案价值的内涵,拓展了档案价值的外延,揭示了新时代的档案价值取向,有利于人们树立新的档案价值观,对于引领和指导大数据背景下的档案工作实践创新意义重大。档案的“信息价值”是档案的传统价值,档案的“数据价值”是档案在大数据时代的新价值,只有综合分析档案的“信息价值”和“数据价值”,才能更完整地勾勒出大数据时代档案价值的完美曲线。因此,档案学界应该审时度势,更多地从“数据价值”和“信息价值”这两个维度去研究档案的价值,这样可以使我们更加全面深刻地理解和把握大数据时代的档案价值的内涵,更加准确地认识和把握大数据时代的档案价值的内在规律,从而把档案价值理论研究引向深入。 3.2 档案“数据价值”的提出大大拓展了档案的外延。一方面,一些价值密度低的原始记录在大数据应用中产生了巨大的价值,有了档案的完全属性。在“小数据”时代,许多信息记录虽然具有“原始记录性”,但因其价值密度低、保管成本大于利用价值而不能作为“档案”留存下来,如机械运行实时数据、业务系统数据、网络访问日志、聊天记录等。到了大数据时代,数据存储成本越来越低,许多以前难以存储的数据都可以保存下来。“当这些价值密度低的数据汇合成PB级别时,人们便可以从中挖掘出价值。”⑩比如,当企业收集了大量的机械运行时产生的震动、温度、转速等数据后,就可以建立预测模型,在机械故障发生之前消除存在的隐患。淘宝网鼓励买家与卖家在旺旺上聊天的时候将聊天记录保存下来,在具体的投诉环节,相互之间的聊天记录可以作为一种证据去为自己辩护。而诸如婚姻登记、房产登记、土地、社保、户籍、工商、税务、城市交通管理等信息系统更需要实时地将“记录”转化为“档案”,这些价值密度低的记录将成为大数据的重要来源。另一方面,一些原本没有保存价值的不归档文件材料,有了归档的必要性。大数据有一个最大的特征,它不再是样本思维,而是一个全体思维,大数据需要的是所有可能的数据。在传统档案理论中,档案是经过鉴定确认有保存价值而归档保管的记录,归档范围实质上是一个“重点数据”的理念,而不是“全体数据”的理念。在大数据视角下,原先未纳入归档范围的单位数据(文件、记录等)重新变得有价值了。也许,我们已经到了应该考虑归档一个单位全部数据的时候了。 3.3 档案“数据价值”的提出为档案工作创新实践提供了指引。一是应把电子档案作为档案管理的主体。在纸质时代,档案“数据价值”是无法挖掘的,档案“数据价值”的挖掘和应用必然是建立在电子档案管理的基础之上。随着大数据技术的发展,特别是非结构化数据处理技术的日渐成熟,电子档案已成为大数据的重要来源,可直接用于数据处理和分析。在实践中,我们应该用大数据思维来重塑档案工作的制度和流程,把电子档案作为档案管理的主体,把电子文件归档和电子档案管理作为主要工作内容,从而为大数据在档案领域的应用奠定扎实基础。二是推进档案数据化。档案“数据价值”挖掘应用的前提是档案数据化,只有档案成为一种可计算分析的“数据”,我们才有可能发现其“数据价值”。推进档案数据化有两个方面的工作:一方面,是传统载体档案需要数据化,而不仅仅是数字化。基于词频和语义的分析将是大数据分析的重要手段,实现档案信息的全文检索是大数据分析的前提。如果只对纸质档案进行图片化处理,将给未来大数据开发利用带来障碍;另一方面,是档案数据需要采用云存储技术。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分,大数据必然无法用单台的计算机进行处理,只有将海量的档案数据存储在云平台上,档案数据才能被计算、分析和挖掘。三是推进档案鉴定工作的变革。在大数据面前,传统的档案鉴定方法是行不通的,“面对着巨量的电子文件,我国长期以来提倡的‘直接鉴定法’将在此遇到严峻的挑战,文件鉴定人员逐一阅读每一份电子文件的原文恐怕实在是无能为力”(11)。而且,档案“数据价值”需要从“全体数据”中挖掘,“逐份鉴定”的传统做法显然是与之相背离的,在大数据背景下,我们只能采取以一个项目、活动、事件,甚至一个机构的“全部数据”为基本单位的“宏观鉴定法”。四是拓展档案利用服务的深度和广度。基于档案“数据价值”的档案利用服务将发生翻天覆地的变化,查准、查全变成了小菜一碟,深入的数据处理将赋予档案数据更大价值,档案利用服务具有明显的放大效应。正如《大数据》一书的作者涂子沛所说:“‘大数据’之‘大’,更多的意义在于:人类可以‘分析和使用’的数据大量增强,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值,带来‘大知识’‘大科技’‘大利润’和‘大发展’。”(12)基于档案“数据价值”的档案利用服务将朝着开放性、社会化、多元化和智慧型的方向发展,围绕档案用户的个人化需求,提供网络化、知识化的精准服务。 注释: ①冯惠玲,张辑哲.档案学概论[M].北京:中国人民大学出版社,2001(6). ②王李苏.企业档案信息管理[M].江苏科学技术出版社,1988(8). ③霍振礼.信息材料与档案、科技档案的定义[J].档案学通讯,1987(1). ④吴宝康.档案学概论[M].北京:中国人民大学出版社,1988(1). ⑤[美]T.R.谢伦伯格.现代档案——原则与技术[M].黄坤坊等译.北京:档案出版社,1983. ⑥⑦⑧[英]维克托·迈尔—舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛阳燕,周涛译.杭州:浙江人民出版社,2013. ⑨张斌.档案价值论[M].北京:中央文献出版社,2000. ⑩陈明洁.大数据时代对档案现代化影响和要求[J].档案管理,2013(6). (11)冯惠玲.电子文件的双重鉴定《拥有新记忆——电子文件管理研究》摘要之三[J].档案学通讯,1998(3). (12)涂子沛.大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活[M].桂林:广西师范大学出版社,2012.数据价值:大数据时代档案价值的新发现_大数据论文
数据价值:大数据时代档案价值的新发现_大数据论文
下载Doc文档