信息分析方法在档案领域的应用综述_档案管理论文

信息分析方法在档案领域的应用现状综述,本文主要内容关键词为:现状论文,领域论文,档案论文,方法论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      目前,档案学科正向基于信息资源的管理阶段迈进,在此阶段,为推动经济社会发展,对档案信息资源实行科学、有效的开发利用与管理成为首要任务。[1]在此历史背景下,为实现对档案信息资源的深度加工寻找方法指导与工具支持尤为重要。

      信息分析是一项内容广泛的信息深加工处理和情报提炼活动,它以大量相关的原生信息为处理对象,通过对原生信息内容的分析、综合或评价,以提炼出对管理、决策等活动有支持作用的情报,为管理、决策等活动服务。[2]作为一门综合性学科,信息分析吸收、借鉴了其他学科的分析方法,其方法体系如图1所示,主要包括:哲学方法、一般分析方法与具体分析方法(统计分析方法、计算机辅助信息分析方法及新兴信息分析方法)。[3]

      

      图1 信息分析方法体系

      信息分析方法的应用性及档案信息资源开发的必要性,为针对二者的结合研究提供了思路。本文从信息分析方法与档案结合的视角,采用文献调查方法,针对信息分析中层和底层方法在档案领域的应用现状进行文献综述。通过预调研和专家讨论,最终确定的文献调研方法如下:

      *检索词:“档案(archiv*)”+“分析(analys*)”;“档案(archiv*)”+“方法(method*)”;“档案(archiv*)”+具体方法名称,如数据挖掘;

      *检索数据库:中国期刊全文数据库、中文科技期刊数据库、万方数据资源系统、中国重要会议全文数据库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、Web of Science三大引文库、ProQuest系列数据库、Engineering Village(EI)、ACM(美国计算机协会)电子期刊数据库;

      *检索策略:标题检索+关键词检索,并对检索结果进行了相关性分析和有效文献过滤。

      调查结果发现,信息分析与档案学科领域内尚无针对信息分析方法在档案领域应用的专题研究,相关研究分散在信息分析方法分析的具体技术在档案领域的应用研究之中。

      一、一般分析方法及其应用

      一般分析方法,即科学整体层次的方法,在信息分析中具有普遍适用意义的科学方法,主要包括:比较、分析与综合、推理。一般分析方法作为一种逻辑方法,贯穿人类思维过程的始终,其应用范围广泛,并对具体方法的应用形成指导,但其方法本身决定分析结果仅是定性的描述,缺乏定量分析。本文不对一般分析方法在档案领域的具体应用作深入探讨。

      二、统计分析方法及其应用

      相对于一般分析方法,统计分析方法主要基于定量分析,主要包括描述性分析、回归分析、聚类分析、时间序列分析和主成分分析。作为一种分析工具,统计分析方法为档案领域信息分析提供了一套信息收集、处理、分析、解释的方法。统计分析方法具体应用如下:

      (一)描述性分析

      信息的分析始于描述,通过描述发现信息的基本特征是进一步分析的基础,描述性分析包括用图表展示信息和用统计量描述信息。在我国档案管理领域,描述性分析应用如下:

      1.档案或电子文件分析。档案的描述性统计主要针对档案的现存状况进行分析,旨在了解档案的数量、种类、保存状况等,通过对调查所得信息进行汇总计算,得出档案数量总计结果、比例、增长率等结果,进而为档案管理提供依据。例如,欧盟Moreq2010标准、[4]美国DOD5015.2、[5]国际档案协会ICA标准[6]以及我国GB/T29194-2012《电子文件管理系统通用功能要求》[7]对ERMS系统电子文件的统计分析和报表报告要求给出了具体规定。

      2.档案工作分析。描述性分析主要在档案管理工作和档案教育工作中得到应用。第一,档案管理工作分析,在档案管理工作中,描述性统计方法主要应用于档案利用环节分析:统计数据或来源于统计年鉴、年报等二手信息,或由相关调查人员通过问卷调查直接获得;统计指标主要围绕档案资源、开放主体及利用者形成;分析结果主要通过频数分布表、列联表和条形图、饼图、曲线图呈现,涉及的统计量包括频数、比例等。第二,档案教育工作分析主要集中于对档案高等教育的描述性分析,所得信息大多来自相关问卷的调查结果;主要针对档案教育工作中的档案学专业、教师、课程、招生就业、人才培养情况进行分析;通过频数、比例统计量对结果进行描述;以频数分布表、列联表、条形图、饼状图的形式呈现统计结果。

      3.档案学理论分析。针对档案学理论,大多学者通过选择信息源、进行检索、提取信息、确定有效信息的过程开展档案学研究,其主要研究对象确立为:作者、期刊论文、核心期刊、国家社科基金立项及研究现状。描述性统计分析方法主要应用于对研究结果的处理和呈现,如通过频数分布表、列联表、饼图、折线图展示信息分布,通过频数、比例统计量呈现信息分析结果。

      综合考察描述性统计方法在档案领域的应用情况,该方法在档案、档案工作、档案学不同方面的应用有不同的侧重点,应用于不同方面的分析有不同的信息收集与信息处理方法。自20世纪80年代,档案领域引入描述性统计方法至今,档案领域对于此类方法的应用主要限于信息展示,且应用模式和方式单一,缺乏突破性研究;注重总量的计算,忽视所得信息整体及变量之间的结构和关系;限于用简单的图表展示研究结果,缺乏对信息的概括性度量。因此,描述性统计方法在档案领域应用仍处于初级探索阶段。

      (二)回归分析

      回归分析是处理两个或两个以上变量之间依赖关系的一种统计分析方法。我国对回归方法在档案领域应用的研究现处于起步阶段,国外则主要应用回归分析方法开展档案信息资源开发利用工作,其应用特点可归纳如下:国外档案领域较早引进了回归分析方法,主要应用于档案信息内容开发,其方法的应用是一个由关系确定、回归分析、模型检验到趋势预测的完备过程。

      (三)聚类分析

      聚类分析是对个体或对象分类,以揭示客观事物内在本质的分类规律。国内对聚类分析在档案领域应用的研究较少,其关注点在于对聚类分析方法应用到档案领域本身的探讨,以寻求适合档案领域的特定聚类分析方法。[8]国外是将其视为一种辅助研究的工具,作为分析档案信息的一个过程、一种手段,其最终目的为解决实际问题。

      (四)时间序列分析

      时间序列分析是通过对历史数据变化的分析,来评价事物的现状和估计事物的未来变化。有学者提出基于时间序列分析进行档案危机管理的理念,将危机生命周期理论与时间序列分析相结合。[9]严格来说,该理念并非统计学意义上的时间序列分析,而只是按时间管理事件的一种思想。该方法在国外档案领域的应用主要集中于科技档案信息分析,包括医疗档案、考古档案、测绘档案和环境档案,应用时间序列分析有不同的目的:对于过去长期积累数据,一种是揭示过去事物或现象的原貌与规律,一种是探究事物或现象的时间发展规律,以预测未来;对于短期积累数据,主要用于探究事物之间的相关关系。

      (五)主成分分析

      主成分分析是利用降维的思想,在损失部分信息的基础上把多个指标转化为几个综合指标的多元统计方法。目前,我国针对主成分分析方法在档案领域应用的研究较少,有学者曾用主成分分析方法对电子档案工作人员离职行为影响因素进行分析。[10]国外档案领域对主成分分析方法的关注集中于档案信息内容开发,一种是以档案信息内容为分析对象,运用主成分分析法分析档案内容信息,以检验已有经验、模型的正确性,并在此基础上做动态分析;另一种是探究针对特定档案类型的主成分分析方法,通过比较,为特定档案类型选择适宜的分析方法,在此过程中,档案内容信息仅为方法选择提供数据支持,而非特定分析对象。

      三、计算机辅助信息分析方法应用

      数字化、网络化时代的到来提升了信息分析的难度,与此同时,人们对高质量信息分析成果的需求有所增加,在此背景下,计算机辅助信息分析成为发展趋势。为实现对档案领域数字化、网络化信息的分析,档案界将计算机辅助信息分析方法引入档案领域,其具体应用如下:

      (一)数据挖掘

      在技术领域,数据挖掘被定义为运用相关技术从数据集挖掘知识的过程。数据挖掘在档案领域应用主要包括以下几个方面:

      1.数据挖掘应用于档案管理业务环节。在档案管理领域,相关学者开展了数据挖掘在档案编研选题和档案提供利用环节的研究,通过对档案信息管理系统中保存的档案管理业务信息的挖掘,揭示其中隐含的规律,进而推进馆藏资源建设、提升档案信息服务的水平。

      2.数据挖掘应用于网络信息资源开发。网络信息资源通过网络信息记载了社会的发展变化,是档案不可或缺的重要组成部分,应用数据挖掘分析网络信息资源成为大势所趋,其具体应用包括:采用数据挖掘技术对Web档案所保存的海量信息进行深层次分析和研究,使网络信息资源分析从简单的数据统计分析过渡到信息分析、从数据的处理过渡到知识发现,[11]并将分析结果以可视化的方式呈现;[12]为从用户角度推进网络档案信息资源个性化服务,基于Web的数据挖掘技术得以提出,该方法从Web文档与Web活动中,发现并获取用户的潜在需求,探索建设以用户为中心的智能化服务平台,应用Web数据挖掘技术建设数据库。[13]

      3.数据挖掘在数字档案馆中的应用,为实现有效管理和利用档案信息资源,需采用数据挖掘技术转变信息资源管理模式,基于数字化档案信息的内容特征挖掘出隐含的、有效的数据模式,实现方便、快捷提供数字化信息资源的目的。[14]

      在档案领域,数据挖掘的对象由档案管理数据,尤其是用户信息,扩展至档案内容信息;数据挖掘的范围由档案管理系统中的信息扩展至网络信息资源;在档案管理机构的应用由传统实体档案馆到数字档案馆,其应用逐步扩展,数据挖掘的层次、深度逐步提升。由于档案领域传统的信息组织方式无法满足数据挖掘对高质量信息的需求及数据挖掘技术应用面临的诸多问题,使得这些不足制约着数据挖掘在档案领域的应用。

      (二)联机分析处理

      联机分析处理(OLAP)即共享多维信息的快速分析,主要用于验证性信息分析,以支持决策。档案领域应用OLAP的理论探讨如下:OLAP应用于档案管理系统构建和分析,为实现对数据的深入分析奠定基础;随着万维网的普及和网页归档日益得到认可,全面记录网络发展,不仅需要实现网页档案信息的收集,更需要实现对于积累的网页内容和附加信息的分析处理,在此基础上OLAP逐渐转向对网页档案信息的分析和处理。[15]国外对于档案领域应用联机分析处理的研究主要集中于商业范围档案信息开发,属于实际应用范畴。

      (三)社会网络分析

      社会网络分析对社会关系结构及其属性进行分析,以观测整体网络结构及特定变量位置和变量间关系。在档案领域社会网络分析应用如下:对作者合作网络、引文网络及研究主题关联网络进行分析,通过构建针对特定问题的关联网络,以探究网络整体结构及内部关系,揭示档案领域内部规律及趋势;此外,档案领域开展了对社会网络分析具体技术及工具的探讨。社会网络分析在我国档案领域主要用于档案学研究,且对于研究现状的分析多于面向未来的预测。国外,社会网络分析主要是作为一种档案信息分析的模型、机制、工具,侧重于应用,通过对档案信息的分析实现辅助决策的目的。

      四、新兴信息分析方法应用

      面对信息数量的增长及数据类型的增加,传统的信息分析方法无法应对新形势的挑战,在信息分析的数量、质量及难度方面遇到了障碍,因此,研究、发展新兴信息分析方法成为客观必然。在此背景下,档案领域开展了新兴信息分析方法应用的探讨。

      (一)大数据分析

      随着网上数字档案资源的增加以及国内外档案网站知识服务的开展,网上数字档案大数据分析成为新兴研究的热点,相关研究主要集中于技术探讨:相关学者在分析档案大数据知识挖掘需求与挑战的基础上,对档案大数据知识挖掘的关键技术进行总结;针对大数据分析技术进行研究以构建档案用户行为大数据分析系统。[16]目前,国外主要应用大数据分析方法开展电子健康档案内容分析,预测疾病的相关影响因素,以进行针对性防御。

      大数据分析主要针对数字化环境中产生的数字档案进行分析。大数据分析在档案领域应用问题属于档案学前沿研究,现仍处于理论探讨阶段,其最终实现需要一系列工具与技术的支持,虽然目前应用范围不是很广泛,但为档案领域信息分析提供了新的分析视角,为未来数字档案馆建设、知识服务、个性化服务提供了方向。

      (二)语义分析

      语义分析旨在分析词义及词间的语义关系。语义分析在档案领域的应用包括:第一,数字档案资源语义检索。传统档案信息检索基于语法结构进行检索,无法识别与处理语义关系,信息检索结果与用户需要信息之间存在较大差异。在此背景下,构建语义关联数据网络、语义检索研究日益兴起。第二,数字档案资源体系建设。当前,数字档案资源体系的语义异构问题,阻碍了数字档案的利用和共享,建立档案领域本体、实现语义组织,在此基础上推进数字档案资源体系语义互操作,将实现数字档案资源的开放互联和有效整合。第三,检索语言语义网络化。为实现档案检索工具在语义网络环境中的应用,需将传统的检索语言迁移至语义网,基于RDF的SKOS为检索语言语义网络化提供了可行路径。此外,国外档案界较早关注了语义分析,对于语义分析的研究主要集中于医疗档案信息语义分析的实现过程,通过语义分析工具和结构化词表构建语义网络。

      语义分析是一个集成语义组织语言、资源建设与语义检索的综合方法,各过程相互关联、相互影响,但目前语义分析在档案领域的研究倾向于分散化,强调各方面界限的同时忽略各阶段的连接,针对某一环节的探讨易于忽略前后相继的环节。

      (三)智能分析

      智能分析是将智能算法嵌入到数字信号处理中,通过分析和提炼移动目标的各种行为模式,形成核心算法。例如,智能分析技术已应用于电子文件管理系统的自动化测试工作,进而提高测试效率和测试结果的客观性。[17]智能分析处于发展状态,其在安防及图像分析方面的优势,将为档案保管及检索提供新的思路。

      通过以上对信息分析方法在档案领域应用现状的分析,可得出以下结论:第一,相对于其他信息分析方法,一般分析方法在档案学领域的应用范围最为广泛,且对具体方法的应用形成指导;第二,统计分析方法中描述性分析应用较多,适用范围广,其他统计分析方法应用较少;第三,计算机辅助信息分析方法在档案领域均有所应用,其应用范围由传统环境向网络环境扩展,分析对象由档案管理信息转向档案内容信息;第四,新兴信息方法得到了档案领域的关注,探索新兴信息分析方法在档案领域的应用成为趋势;第五,计算机辅助信息分析方法应用集中于对档案工作进行分析,尤其是档案管理工作的开发利用环节;第六,国外注重应用研究,方法应用系统完善,国内注重理论研究,方法应用较为零散。总之,我国档案领域在信息分析方法的应用方面已积累了一定的研究与实践经验,但处于探索阶段,需要系统地引进领域信息分析的理论与经验,进而推动档案学科向信息资源管理阶段发展。

标签:;  ;  ;  ;  ;  ;  

信息分析方法在档案领域的应用综述_档案管理论文
下载Doc文档

猜你喜欢