档案大数据研究热的冷思考,本文主要内容关键词为:档案论文,数据论文,冷思考论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G275.7 1 审视档案大数据研究热 自从2012年美国奥巴马政府投资2亿美元启动“大数据研究和发展计划”以来,全世界掀起了大数据研究的浪潮,我国政府为了争夺新一轮技术革命的制高点,从中央到地方都重点进行大数据方面的布局。在这样的国际国内氛围中,各行各业各领域几乎到了言必称大数据的地步,似乎不谈论大数据就是不与时俱进,不与大数据扯上关系就不是创新。“据不完全统计,2013年国内外关于大数据的论文、调研报告总量已经超过5万篇,相关图书亦有近百种。”[1]然而,在大数据热涌的同时,也有专家特别是IT界人士对大数据被过度解读、渲染与神化的现象提出质疑。 大数据是一个总称性的概念,它还可以细分为大数据科学、大数据技术、大数据工程和大数据应用等领域。[2]大数据公司如Teradata等的研究领域一般集中于大数据技术的研发,科研机构与高校大多聚焦于大数据科学的研究,政府、企业等则将大数据研究重点放在大数据工程与大数据应用方面。档案界的大数据研究主要着眼于大数据应用。 在档案信息化领域,学者们对大数据研究跟进较快,从学术论文发文情况看,档案大数据研究是近两年档案信息化研究的热点,研究内容从对档案大数据的概念、内涵与特点的挖掘,对大数据时代档案馆建设、档案工作机遇挑战、档案服务、档案大数据价值、数字档案馆建设等方面的探讨到对档案学科影响的分析,涉及内容广泛,成果数量不菲。在中国知网“学术期刊总库”之“档案学、档案事业”子库中检索篇名为“大数据”的论文,有89篇,其中2014年67篇,2013年21篇,2012年仅1篇,可以看出大数据研究在档案学领域急剧升温。 毫无疑问,“大数据”和“大数据时代”概念的提出不仅给IT业以及大型企业带来了冲击与挑战,对政府与学术界亦影响深远,同样给档案信息化工作带来了新理念、新技术,也带来了新的机遇与挑战,档案信息化建设面临着转型与创新。然而,我们在进行技术创新与管理转型的过程中,应保持理性,档案信息化工作有其本身的规律、特点和任务,不必为了贴上大数据标签而透支大数据概念。本文拟对档案大数据研究中的两个关键问题进行分析,澄清某些认识,为档案界大数据研究与建设提供参考。 2 解析档案大数据概念误读 时下,大数据不再仅仅是一个技术名词,而是逐渐演变成一种修辞和符号,大数据时代更成为替代“信息时代”“网络时代”的一种新提法。各行各业以及各学科在与大数据亲密接触中,存在着不同程度的概念泛化、夸大与误读。其实,“大数据仅仅是企业现在所做事情的简单延伸。大数据并没有任何翻天覆地的变化”[3]。档案大数据也是如此,大数据时代对其概念的拓展必不可少,但并不需要牵强地附会。 在已发表的档案大数据研究论文中,大多数作者根据大数据概念的“4V”特征,来论证档案数据确实符合大数据的“数据量大”、“速度快”、“类型多”以及“价值密度低”的特征,从而得出档案大数据时代到来的结论。本文认为,这些解读确有合理之处,但也有些未能抓住大数据概念的本质,有望文生义之嫌。 2.1 档案数据与大数据的实时与动态性特征相异 大数据更强调实时性与动态性,“大数据往往以数据流的形式动态、快速地产生,涌现特征明显,而且自身的状态与价值也往往随时空变化而发生演变,数据的采集、处理都要求具有很强的时效性”[4]。因此,大数据概念中的“大”主要是指由机器自动生成的数据量增长巨大,比如“引擎中内置的传感器,即使没有人触摸或者下达指令,它也会自动地生成关于周围环境的数据”[5]。 大部分研究者界定档案大数据存在的一个重要理由是档案数字资源的存量与增量的庞大,但是却忽略了大数据的“大”不仅仅是数量上的大,还由于动态性与实时性所带来的数据加速度增长。档案数字资源更多的是滞后的、静止的、稳定的数据,比如已归档电子文件,档案数字化文件等数据信息,尽管其总体数据量也是巨大的,但是其增长速度,实时采集、动态获取能力与大数据所指向的相差甚远。近几年也有关于在线电子文件归档方面的研究,但此“在线”非彼“在线”,此“在线”只是不同于物理归档的一种逻辑归档方式,而归档的内容是确定的,只不过借助网络媒介而已,与彼“在线”的网络实时捕获内容的不确定性不同,因此,这方面档案数据的大数据特征不明显。 当然,我们不否认大数据时代档案数据数量扩张速度增长以及实时捕获不确定信息的可预期性。随着网络实时和动态数据的井喷,这些数据中隐含着很多有价值的信息,若不采用实时归档方法,很多信息和记忆稍纵即逝。因此,档案归档范围势必扩大,不同种类的档案资源库建设会日益成熟。如何实时捕获有归档价值的电子文件,如何实时对网络电子文件进行自动标引等工作可能是档案界在大数据背景下应该重点关注的问题,档案归档理论也要随之拓展和变迁。我们可以展望理想的大数据时代的档案管理“将在云平台上建设云档案系统,实现云存储,档案馆的‘收’将是数据实时、自动归集”[6]。 2.2 档案数据与大数据的决策与预测性特征背离 决策与预测是大数据的核心功能,“目前大数据应用的领域主要集中在互联网、零售、金融等数据密集型行业,这些应用以服务自身企业数据挖掘需求为出发点”[7]。企业数据挖掘即利用大数据分析进行商业决策和预测。一些互联网公司因此可以利用他们的在线全数据进行数据分析与挖掘,例如谷歌通过观察人们在网上的搜索记录来预测冬季流感的传播[8];亚马逊通过用户上网购物与浏览的数据预测他们的购物习惯和购物偏好。这些预测性研究有两个特征:一是用于数据挖掘的基础数据量非常庞大,且是机器自动生成的实时监控数据。二是网络对于人们微观行为的干预能力,即个性化服务能力大幅提高。 反观档案数字资源,提供证据、给予公众解惑是其核心功能。尽管档案学术界很早就提出知识管理与知识挖掘,但档案领域的知识挖掘尚停留在概念和理论探讨阶段,且探讨的是基于数据仓库即历史数据的基础上,与大数据时代的实时数据不同。尤其值得注意的是,档案数据是经过鉴定后筛选的数据集,与大数据要求的“全数据”特征相背离,因此,这些数据不适宜作为实时决策或者预测的基础数据。当档案部门建立了自己的网络平台系统,可以实时采集、实时归档、实时计算,那么档案馆的功能才会扩展到发现与预测。 2.3 档案数据管理技术与大数据技术偏离 大数据不是凭空想象出来的新符号,而是计算机与网络技术进步的产物,起初,是由于“需要处理的信息量过大,已经超出了一般电脑在处理数据所能使用的内存量,因此工程师们必须改进处理数据的工具”[9]。这些处理工具改进之后,企业发现原来不能处理的海量信息可以处理了,原来可以处理成本却很高的海量信息现在的处理成本明显下降。技术的进步改变了以往只能处理“小数据”的状态,使得数据存储、处理与分析技术产生了质的飞跃,科学研究方法论也发生了质的转变。 在小数据时代,由于存储技术与处理速度的局限,我们无法将所有的数据(全数据)作为数据处理的对象,若要进行数据价值分析,一般是先要模型构建与观点假设,然后采用数据抽样方法选取有代表性的数据,这种研究方法下数据分析的准确度取决于模型的健壮性与抽样方法的适用性和科学性。而技术的发展特别是云计算、并行与分布式计算以及非关系型数据库技术的发展使得计算机的存储能力、运算速度、分析方法有了根本性的转变,以往的技术瓶颈得以解决,这种转变使得科学研究不再必须依赖模型与抽样。 我国目前的档案信息化建设,其主要任务包括电子文件的归档、管理与长期保存,馆藏档案的数字化工作以及数字档案馆及电子文件(档案)备份中心建设等。档案信息化技术类工作如网络软硬件基础设施建设、软件系统开发、档案数字化扫描等大多采用招标和外包的形式。同时,档案数字资源几乎都是非在线的“冷数据”,对存储与处理速度的要求低于大数据所指向的网络实时运算的“热数据”,因此大数据所要求存储与运算等方面的技术问题在档案数字资源管理方面表现不明显。档案大数据研究者的着眼点大多集中于档案数字化建设中数字资源总量的膨胀,而忽略了大数据的技术本质。 尽管大数据时代NoSQL(非关系型数据库)在处理超大规模和高并发SNS类型的纯动态网站方面相比传统关系型数据库SQL优势明显。但是构建大数据时代的档案信息化管理平台和纯动态网站不同,并不一定要选择非关系型数据库系统,而要根据档案数字资源管理的特点,可以“利用关系数据库系统在处理结构化数据方面的效率优势,在此基础上叠加针对非结构化数据和流数据的系统,从而实现最低成本的大数据平台演进”[10]。 基于以上分析,本文认为,档案大数据研究存在概念泛化的倾向,应回归理性。诚然,由于大数据概念的号召力使得其内涵在悄悄地发生演变,也越来越广义化,涵盖了云计算、数据挖掘、数据分析等内容,但不代表可以模糊大数据的基本特征而将其无限泛化。有人提出要重新阐释档案,“一切数据和记录都将成为档案”[11]的提法未免过于武断,因为“仅从大数据的‘大’望文生义,很容易演化为又一场圈钱、圈地运动。像云计算、物联网那样,一哄而起,盲目建设……”[12]。 3 剖析档案大数据之数字化建设误区 档案数字化资源总量大,类型多样化,这成为档案大数据研究者定位档案大数据的基本依据。然而,“数字化带来了数据化,但是数字化无法取代数据化”[13]。相反,数据化可能取代数字化。 3.1 数字化与档案数字化 “数字化”是计算机和网络技术发展之后出现的新术语,一般是指把模拟数据转换成用“0”和“1”表示的二进制码。数字化本是一个技术性很强的概念,但其含义在美国学者尼葛洛庞帝1996年出版了《数字化生存》后内涵发生了变化,广泛地指向一种虚拟的、数字化的生存方式。 档案数字化是指将非数字化形式的档案通过一定的技术处理转化成为数字形式的档案,非数字化形式的档案包括诸如纸质档案、声像档案等。档案数字化工作包括两个层面:一是档案目录的数字化,也称档案目录数据库建设;二是档案全文和多媒体的数字化,也称档案全文和多媒体数据库建设。我国档案事业“十五”、“十一五”以及“十二五”规划中均将建设档案目录数据库、档案全文数据库和档案多媒体数据库作为档案信息化的目标和任务。档案信息化研究者也对档案数字化过程中出现的一些问题进行了研究和探索,“如数字化档案信息压缩及存储的关键技术问题、知识产权问题、法律地位问题等”[14],档案数字化理论与实践工作取得了一些成绩。 3.2 档案数字化不等于档案数据化 在大数据概念出现之前,“数据化”并不单独作为一个术语出现,而是以数据化管理、数据化运营等形式出现。英国大数据学家维克托,迈尔-舍恩伯格在他的《大数据时代》一书中提出了“一切皆可量化”的数据化概念,即指一种把现象转变为可制表分析的量化形式的过程,这里数据代表着对某件事物的描述,数据可以记录、分析和重组它[15]。很多数字化工作是通过扫描的形式把一些非数字化信息变成“0”和“1”的数字化形式以便于计算机阅读,但是扫描的数字化的内容是以图像的形式储存,不能通过检索词进行检索,也就是数字文本没有数据化,而数字文本的数据化即对图像中的数字内容进行识别、分类、著录和标引等。 另外,一些计算机技术文献中,常将数据化定义为将数据结构化后存入数据库中,可以利用数据库管理系统对这些数据进行管理和利用,从这个意义上看,目录数据库的建立是目录数据化而不是数字化,但是我国大部分档案馆在扫描档案全文后并没有做数据化工作,即档案全文数据库没有建立起来。 档案全文数据库构建过程中,“档案著录是基础性的至关重要的工作环节,档案著录质量的好坏将直接关系到档案信息的交换、互联互通,实现信息资源共享和社会利用”[16]。一些档案馆常常标榜其数字化多少万页纸质档案,数字化多少万张照片,但由于这些扫描后的数字化档案没有做好著录、标引等工作,因此无法完成主题词、关键词与全文数据库的检索。大数据时代有一个口号是“数据化代替数字化”,正切中目前我国档案数字化的时弊。由于档案信息化评价常以数字化档案数量而没有以数据化档案质量作为考核指标,致使很多档案馆尚未将数字化档案的数据化工作纳入日常业务管理工作中。 3.3 档案数据化引领服务模式创新 服务是档案事业的永恒主题,随着档案界公共服务呼声的高涨,档案服务范围从最初的证据服务扩展到资源服务。大数据时代提出的一个新目标是价值服务,因为“拥有大量的数据本身并不会增加任何价值,数据的核心是价值,而驾驭数据的核心是分析”[17]。因此,有档案学研究者着眼于大数据时代档案数据价值挖掘与个性化服务,认为“从大量数据中分析潜在的价值,决定着大数据时代档案馆的发展水平及方向……档案馆的传统业务将向档案资源的数据分析、数据挖掘方向转移,对大量数据的分析与处理将成为档案馆的主要业务”[18]。 本文认为,数据分析和数据挖掘确实可以作为档案业务的拓展,也是档案服务创新的重要内容,但是档案馆的核心业务不会随着大数据的改变而改变。因为“数据分析并不是档案人员的专长,但是,为大数据分析提供基础数据则是档案工作在信息时代的价值所在”[19],即档案数据化是档案数字化建设的发展方向。档案数据化之后,档案大数据的数据基础才奠定起来,才有可能去讨论档案的数据挖掘与数据的深度整合。 综上,档案大数据的建设首先要重视档案数据化工作,而不仅仅是数字化扫描工作,只有这样,我们才能积累更多“活”的数据,才能“从数据累积的量变过程转化为‘数据智能’的质变过程”[20]。在数据化的过程中,数据质量的提高是数据化的关键。数据质量的提高包括两个层面:一是目录数据库录入信息时的校验,一般采用双机录入的形式,即由两个人分别录入同一个数据库,然后通过机器进行校对;二是全文数据库著录标引的标准与规范的制定与更新。尽管档案行业拥有较完善的标准体系,在数据的标准化规范化方面较有优势,大数据时代档案馆的数据控制权也日益凸显,但是针对大数据管理的新规范制定将是大数据时代档案学研究的又一新领域。 4 结语:大数据时代的档案信息化——在创新中坚守 首先,大数据时代档案信息化建设要创新。大数据确实给我们提供了新的管理理念、技术、模式与研究方法,作为档案学研究者与档案工作者,应该打破传统框架,不能桎梏于旧的思路和方法。“智者,在强震没有发生之前嗅到气味”[21],“大数据时代,档案部门应勇担重任”[22],档案研究者与工作者对正在发生的技术变化与时代变化应有专业敏感度,以免机遇稍纵即逝。 其次,大数据时代档案信息化建设要坚守。大数据时代不要放弃已有的一些经验,对传统管理方式不应一概抹杀,档案馆在积极应对大数据带来挑战的同时,要做到在创新管理模式的同时坚守优秀的经验和理念[23]。近20年来,我国档案信息化建设取得的成绩有目共睹,一些实践经验和技术运用是在长期实践过程中总结出来的,一些基础性的工作也不能因为大数据时代的到来而改变。例如,能用最小成本最简单的技术解决的问题没有必要硬要扯上最新的大数据技术;如果我们还没有做到足够的数据积累,还没有统一的标准体系,就暂时不要去空谈什么数据价值分析。 最后,大数据时代要重视合作。档案部门在新兴技术方面不具有优势,因此大数据时代档案馆的跨领域、跨机构、跨部门合作尤其重要,Hopkins说:“没有哪一个群体能解决所有问题。不同于传统的商业智能环境,大数据的分析和应用需要业务分析人员、数据整合专家,以及业务部门走到一起,开展通力合作。”[24] 总之,变革与创新是档案信息化发展的必然趋势,也是档案馆在大数据时代的生存之道。档案馆作为历史信息资源的最大拥有者,如何抓住大数据技术快速发展的契机,创新管理技术与服务模式,成为档案部门面临的新课题[25]。但在变的时候不能盲目去做削足适履与本末倒置的事情,而是应该根据档案信息资源的特点和工作职能,在做好一些传统工作的基础上,拓展适合自己新的发展路径。标签:大数据论文; 企业档案工作规范论文; 档案数字化论文; 数据与信息论文; 信息化规划论文; 档案管理系统论文; 云计算论文; 信息化时代论文; 数字化时代论文;