基于数据挖掘技术的档案个性化利用服务初探_数据挖掘技术论文

基于数据挖掘技术的档案个性化利用服务初探_数据挖掘技术论文

基于数据挖掘技术的档案个性化利用服务初探,本文主要内容关键词为:数据挖掘论文,档案论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

统一领导分级管理的档案管理体制造成我国各专业档案呈现条块分割的现状,档案资源比较分散。随着经济的发展和社会档案意识的提高,人们不再满足于是否能找到档案,而是如何方便、快捷地利用档案。因此,如何针对多元化的用户利用需求,提供优质、高效的个性化档案利用服务,是从事和研究档案工作者关心的话题。

一、对个性化档案利用服务的认识

利用和服务是相辅相成的一对概念:有利用的需求才有服务的必要,提高服务质量也是为了更好地满足利用需求。个性化的档案利用服务包含以下两点:第一,个性化的档案利用需求,即“由档案利用者个体特性而决定的对档案信息需求的一种信息组合,也就是由利用者个性对档案信息需求的决定关系而产生的一系列对利用者个体有意义的信息”[1]88。第二,个性化的档案服务必要。信息技术改变了人们的信息获取方式和习惯,相对于以往的上门索取,人们更偏向网络服务。但其受制于用户层次、利用软硬件以及检索词汇等因素,因而针对不同的利用需求提供个性化服务显得尤为必要。

二、传统的档案利用服务现状及问题

“传统的档案服务主要是档案人员坐等档案用户上门利用档案的被动服务,主要包括用户查档、检索工具介绍、简单的咨询服务、定题服务、制发档案证明以及出版档案编研成果等形式。”[2]82虽然现在档案界在服务理念、方法和技术等方面都发生了一些积极变化,但这种被动服务方式未被彻底改变,仍影响档案利用。

档案利用是档案工作环节中的一个重要部分,也是检验档案管理成果的一个重要指标。由于我国统一领导分级、分专业管理的档案管理体制,各档案室定期向各级区县档案馆移交。档案馆内的全宗按来源划分,即来源于同一机构的所有档案为一个全宗,这样能很好地保持其历史活动的原貌,但同时也造成了条块分割的局面。例如某房地产开发公司要查找2007年某一期开发项目,要查该房产的施工蓝图和楼盘的人住情况等资料,他先要到城建档案馆找出施工图,再去公司所在区县的档案馆找出其企业档案,才能查到整个项目从前期规划到后续销售的状况。如果要做一个有关该省级房地产开发的专题报道,还得去各个区县档案馆搜集相关素材,这对于查找和利用档案都相当不便。为了进一步说明这类问题,作者按照用户利用档案的不同目的,把用户群体大致分为三类说明。

1.出于查考、考证目的的企业、机关和个人。这类用户主要利用档案的凭证价值,需查找相关原始凭证办理某项事宜。如用人单位需核实员工的学历、资历等事宜;个人查找家谱档案,或者涉及利益纠纷需要原始凭证。这种类型用户的特点是目的性明确,要求具体,所需档案的针对性极强,且一旦查找到相应档案就达到利用目的。由于这些与民生最贴切的档案可能涉及不同全宗,甚至隶属不同主管机构,查找起来相当繁琐;而且这类用户相对缺乏档案管理知识,不了解全宗分类,因此在查找相关档案材料时往往不能得心应手。

2.以科研、编研为目的的学者、研究员。这类利用者主要是从事科研工作的学者和文献编纂研究员,拥有丰富的科学文化知识和深厚的历史文化内涵,他们查找档案是个知识积累和完善的过程,时间往往跨度很长,且并非一两次就能解决。因此他们需要大量纵横古今的档案,对材料历史的广度和深度、档案的成套性和完整性等方面要求很高,需要丰富的馆藏资源支持,而现有分散的单个档案馆藏无法满足利用。

3.以宣传和教育为目的的社会工作者。这类用户往往是档案和传媒机构工作者,利用馆藏开展一些主题展览或政策的宣传普及活动。他们所需要的档案往往不单拘泥于纸质形式,更偏好一些照片和音像档案等能比较生动形象地表现活动的载体。但同时这又与档案按来源分类的整理方法有所冲突,需要跨全宗甚至馆际联合检索,因此这也是目前比较棘手的问题。可以看出,传统的档案服务方式虽然便于档案管理,却不便档案编研开发等后续工作的开展,更加便于公民利用。自2007年国家档案局局长王刚提出搞好民生档案建设的观点后,关注民生、服务社会大众,满足不同类型社会群体对档案的利用需求,使得建立个性化的档案服务尤为必要。

三、基于数据挖掘技术的档案个性化利用服务

1.数据挖掘技术简介

数据挖掘,就是“从大量数据中挖掘或抽取出知识,它是指:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。”[3]226

2.数据挖掘应用于档案个性化服务

(1)建立以省级为单位的所有档案馆藏联合的数据仓库,实现一站式服务。这是提供个性化服务的最初也是最基本环节。虽然档案按照其来源而划分不同的全宗,同一全宗内档案不得分散,不同全宗内档案不能混淆。但现如今,仅一个档案馆的馆藏量已远不能满足人们的利用需求,奔走于多个档案馆之间又耗费大量的人力、财力。电子文件的出现给我们建立馆藏资源联合的大型数据仓库提供了可能。我们可以以省级为单位,把各区县所有档案馆的馆藏信息组成一个庞大的数据仓库。各档案实体仍分散地保管于其所在的档案馆,但通过对纸质档案数字化及电子文件的有效管理,使档案信息集中存储于数据仓库中,各档案馆馆藏之间相户关联,形成一个丰富的档案资源网络。建立不同深度的标引层次,可以灵活地组建不同的检索方法。可以效仿“新加坡a2o提供对NHB各个独立的数据库进行‘一站式’的搜索”[4]221,成为一个内容丰富且不拘泥于实体存储的,信息互联共享的档案信息资源网。

(2)采集基本信息,挖掘用户需求。对用户信息进行数据挖掘主要有两方面内容:一是如何提取用户的信息需求,二是获得用户需求数据后如何利用挖掘技术对这些数据进行处理。有两种方法:第一,直接调查法。通过设置一些与用户的对话窗口,由用户配合完成数据的收集过程。采用该方法所获得的用户信息详细、可靠。首先,在用户注册时,除了收集必要的个人信息外,还可以适当设置用户分类信息以及个人偏向的信息获取方式等。然后,收集用户使用结束后的信息反馈,利用一系列关联分析等数据挖掘方法,对现有数据进一步挖掘,以掌握用户需求和利用的变化规律,逐步完善个性化服务。第二,跟踪用户的行为推测用户兴趣。这一方法不需要用户主动配合,只要记录用户访问服务器时在服务器上留下的日志文件,如包括访问者的IP地址、用户类别等一些关于用户访问记录的物理信息。对这些深度挖掘,能够了解用户的访问路径等,便于档案人员主动把握用户需求,从而更加高效地提供利用服务。

(3)统计检索和浏览记录,提供人性化服务。利用统计分析的方法,统计用户档案检索时使用的检索词:哪些是有意义且能准确查到相应档案的,哪些是无意义但大家普遍都会误用的,哪些是有意义而检索词库里面又没有的词汇。通过以上分析,不断调整和完善数据仓库中的检索关键词,以提高查全率;同时可以针对不同文化层次的档案用户提供个性化的检索界面和相应的检索帮助。可以设立“人工在线帮助”窗口,给遇到问题的用户及时提供帮助。“在个性化检索中,既能对用户提出的要求提供最贴切的信息服务,还能依据个体个性特征,主动收集个体可能感兴趣的信息,甚至预测个体可能的个性发展,提前收集相应的信息,最后以个性化方式显示给个体”[5]16,这样能提高用户的查准率。同时,统计网页的访问频率、访问时间、访问路径以及同一时间还访问了哪些站点等,了解用户的使用习惯和利用兴趣,运用数理统计和关联规则等方法,针对不同用户改进页面和网站结构的设计,修改网页之间的链接,产生动态推荐超级链接列表。“把用户想要的东西以更快更有效的方式提供给用户,把挖掘分析结果放入以用户注册时的用户名为单位的个性化数据库,当用户再次进入系统时,系统可以自动根据个性化数据库提供给其符合信息需求的页面”[6]14,这有助于发掘用户在使用时的知识盲点和对于界面友好程度的反馈,提供人性化服务。

(4)用户兴趣关联和推荐,提供高效服务。关联规则生成可用于找出在某次服务器会话中最经常一起出现的相关网页,这些网页之间可能并没有超链接直接访问,但可能往往是用户关心的内容。因此,可以通过数据挖掘找到同类用户的共同关注点,主动向用户推荐。例如,像网上售书一样,在用户搜索“英语四级试卷”一词后,能检索到《大学英语四级全真试题》、《大学英语四级全真预测卷》等书籍,同时也会有《英语四级阅读特训100篇》、《大学英语四级词汇》等与之密切相关,但又不完全按照检索要求的相关书籍,也有“浏览此书的其他用户同时也关注”这个提示字眼,列举出例如《计算机二级考试指南》、《英语中级口译教程》等书籍,方便查找。在档案的个性化的利用服务中,用户兴趣关联规则的挖掘使检索更加高效。

(5)编研兴趣专题,主动提供服务。在传统的档案工作中,虽然也有各式各样的利用需要,但由于条件限制,档案利用多限于用户上门查询以及档案部门被动提供服务为主,档案服务的个性化难以真正地全面进行。通过对用户兴趣的统计,档案人员可以了解当前社会普遍关注的热点、公民个人利益等一些关系民生和社会发展的问题,利用数据仓库中的馆藏资源进行主题分类,搜罗分散在各档案馆中的各类载体档案,形成出版物或开展主题活动,如《淮海路百年写真》、《奉贤收藏》等书籍的编研出版等,记录历史,切合民生,主动满足用户兴趣提供利用。当然,由于时代不断发展,用户的利用需求也是多变的,可能我们的编研成果会有滞后性,但它们能真实地记录和反映历史,起到宣传和普及的作用。

档案利用服务是档案工作中永恒的探讨话题。档案部门只有为用户方便、快捷地提供本领域内权威的信息服务,档案工作才能获得公众的认可,才能进一步获得发展空间。信息技术的不断发展和完善,使我们能利用数据挖掘技术针对档案用户各种利用需求,充分挖掘其特点,提供个性化的档案利用服务。相信档案界可以为更好地服务民生活,服务社会,为社会经济的发展画出完美的一笔。

标签:;  ;  ;  ;  

基于数据挖掘技术的档案个性化利用服务初探_数据挖掘技术论文
下载Doc文档

猜你喜欢