知识服务型档案网站构建研究,本文主要内容关键词为:服务型论文,档案论文,知识论文,网站论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
开展知识服务为档案工作的发展提供了机遇,也对档案工作提出了更高的要求。作为档案馆对外宣传、用户服务重要平台的档案网站更是需要适应知识服务的发展要求。伴随着档案信息化的不断深入,必须对知识服务展开研究,应用相关理论与技术对档案网站进行优化与改进。
一、档案网站与知识服务概述
目前,大多数档案馆都开设了档案网站,按时间、形成单位、主题词等特征对档案进行组织分类,提供Web浏览、检索、下载等功能,以此为档案用户提供网络服务。在这种服务体系下,档案形成了层级分明的组织结构,档案用户可以查询到自己需要的文件。然而,档案的历史价值是体现在文件之间的联系之中的①,仅以分类法、主题法作为档案组织方法,在组织结构上只能以一维或二维架构对文件进行组织划分,容易割裂文件间许多逻辑联系,不能从知识认知上为档案用户展示档案文件所记录的事物及其多种关系,大大降低了档案资源的利用效能。比如档案用户查阅某政策法规文件时,当前大多档案网站并没有以多维角度同时展现该文件的历史背景、颁布依据、修改变化以及相关的其他文件。而且档案网站缺乏必要的分析、综合等功能②,不能进行档案的系统调研、科学评价和决策支持,没有将文件中的知识联系与有效、潜在有用的能用于解决特定问题的知识充分提供给用户,与知识服务的要求有相当距离。
知识服务是以用户为中心,以信息、知识的搜集、分析、重组为基础,根据用户的具体问题和个性化环境,把服务融入用户解决问题的全过程,提供能够支持用户实际需求的应用服务③。所以,对于档案用户来说,在使用网站时希望看到的不仅是层级分明的结构化文件资源页面,而且是能够根据其需求,提供多种角度查询、浏览及多种方式获取档案知识的多元化服务网站。
二、档案网站知识服务的要求
档案知识服务是建立在用户需求、专门知识和服务功能基础之上的一种价值取向,体现的是“用户”、“知识”和“服务”。构建知识服务型档案网站,需要突出以下几个方面。
1.用户需求
档案用户类型众多,不同的用户对文件信息的需求不同,历史研究者为研究某个领域,需要的档案内容面广、时间跨度长;而企业中的档案考证,要求查找非常具体、准确。档案用户使用资源的侧重点也不同,举个例子,城市建设档案数据库中,不同用户输入相同查询词‘建筑节能’,可能感兴趣的是建筑节能材料与建筑节能规划不同方面的文件。
把握用户的信息需求,是开展深层次服务的关键。通过用户填写网站注册信息可以获知他们的偏好、兴趣等信息,但实际中大多数档案网站没有开设用户注册功能,而且用户需求是不断变化地,相当数量的用户不愿手工提供、修改注册信息,应主要通过用户的网站使用记录隐式地收集用户的需求信息④。档案用户访问网站时的查询、浏览等使用记录能够较客观地反映他们的习惯、需求特点,通过对这些记录进行分析与研究,围绕档案用户的需求有针对性地建设资源,设计档案组织方式与服务方式,把用户的需求融人档案知识服务的整个过程之中。
2.知识挖掘、组织
知识服务是面向用户的,以提供知识为目标的,构建知识服务型档案网站,需要将文件中的知识予以提取、挖掘、解释。知识元是构成知识结构的最小独立单元,是从文件中提取的定义、信息报道等对特定事物的具体描述⑤。将文件中的知识元进行抽取与链接,可以方便用户查找,降低其获取知识的难度。
在组织结构上,不仅应以一维或二维架构组织文件,而且应同时站在用户与知识的角度对文件信息知识进行组织,利用多种组织方法结合用户需求将档案知识以多维方式表示、序化,为用户提供多种知识线索,帮助用户获取知识。
3.多样化、个性化的服务
档案用户信息需求的细化和深化,需要档案网站动态地适应变化需求和改变服务模式。档案知识服务必须保证原有基本的检索、资源导航等通用功能,满足档案用户的共性需求。同时,开设个性化、多样化的服务功能与方式,比如应用Web2.0中的Blog等相关技术丰富档案用户对知识共享、个性化的需求。通过有效的服务减少档案用户获取知识的成本,确保服务价值增值,让档案用户体会到服务的价值。
三、档案知识服务体系构建
档案网站知识服务体系主要分为知识资源建设层、知识网络整合层与知识服务应用层,如图1所示。知识资源建设层主要包括档案信息数据库、知识元数据库、知识库与用户使用记录信息库,为开展知识服务提供数据基础;知识网络整合层对各种数据源进行挖掘组织,将资源整合成具有多维知识联系的知识网络;知识服务应用层将档案中的文件及各种知识联系表示、展现、传递给档案用户,提供各种服务应用功能。
图1知识服务系统结构图
1.知识资源建设层
档案信息数据库按照元数据著录标准,比如EAD(档案编码著录Electronic Archival Description)标准,将文件的题名、形成时间、文种、载体、密级、主题词、正文等特征以元数据格式存贮。
知识元库是由文件中抽取的知识元、知识元链接和描述构成的数据库。建立完备的知识元库是一项巨大复杂的工程,例如CNKI的知识元库中的知识辞典具有1400多万概念知识元。档案机构人力、经费有限,可通过增量方式从档案信息数据库进行知识元抽取,逐步建立知识元库。关键词汇的自动抽取可利用分词系统,比如中科院的ICTCLAS系统,其具有较成熟的分词、词性标注等功能,可以较容易地提取出人物、地名及其他关键词。但需要注意的是,分词粒度过小容易将所需的关键词切分,相反,不能切分出所需的关键词,仅通过控制分词粒度很难提取出所需知识词汇。通过填加用户词典可解决此问题,但这样不能提取出许多未知词汇,需要对分词结果进行词性、语法结构分析来合并被切分的词汇,例如:合并‘建筑/n节能/vn’为建筑节能,减少提取的关键词与原文中词汇表达的语义损失或不符。知识元链记录知识元间在时间、顺序、因果、从属上的关系。知识元链可以手工标注,结合统计归纳、关联等技术自动分析实现。知识库主要根据知识元库与档案信息数据库建立而成,记录文件所包含知识元的不同排列组合⑥,可独立存在或嵌入档案信息数据库与知识元库。
用户使用记录信息库存贮用户访问网站时的输入流、点击流和用户的偏好、兴趣和身份认证等注册信息。常用的用户使用记录数据来源可通过Web服务器日志文件获得,日志文件具体地记录了用户的使用行为,每条记录描述了用户对资源的请求时间、IP地址、请求的资源及相关参数等。经过页面访问识别、用户识别等预处理,生成主要包括访问时间戳、用户标识、查询关键词、请求的文件等记录信息。
2.知识网络整合层
知识网络整合层运用分词标引、自动摘要、关联规则挖掘、序列模式分析、分类聚类等技术对档案文件进行分析与挖掘,根据不同用户的兴趣、偏好等需求使用多种知识组织方法动态地为用户组织文件。其中,知识组织作为构建知识服务的一项关键环节,应主要从以下四个方面进行:
(1)基本的信息组织。以全宗号、案卷号、题名、形成时间、关键词等基本特征及分类法、主题法组织档案,即以信息视角对档案进行组织,通常也是网站组织分类的基础架构方法。
(2)基于知识元链的组织。知识元链将知识元组织起来,按事物发生顺序、因果关系、引用关系、人物关系等逻辑联系组织起来,展现档案的内在联系。比如将某项政策规定的形成依据、变化、发展组织起来,为档案用户提供系统化的知识。同时,包含知识元的文件间也可形成连接,一起形成组织各种知识的逻辑联系。
(3)基于文件内容重组的知识组织。使用数据挖掘方法对档案知识间的逻辑联系进行重组,对文件间的联系进行深度整合,挖掘档案中存在的隐性知识⑦。比如通过聚类算法,以人物、地点、事件、学科、查询词及文件所包含的知识元及其不同组合聚合,形成具有内在知识联系的文件集合;利用关联算法,挖掘文件中某些特征的共现模式,将具有模式中特征的文件组织起来,发掘档案间的知识联系。基于重组的方式随着网站中档案资源的变化,可动态地更新档案知识组织联系,并且能够弥补分类法、主题法造成的文件间逻辑联系割裂的缺点。
(4)基于个性化的知识组织。不同的用户具有不同的知识结构与使用习惯,将用户的不同需求融入知识挖掘与组织之中,能够为用户提供更多有针对性的知识。通过对用户使用记录分析、挖掘能够推断出用户视角下的文件与文件之间、查询词与文件的关系,发掘档案用户个体对资源的应用模式,建立用户个人使用模型,以此针对用户的偏好、兴趣组织档案资源,比如不同用户相同查询词下网站提供的档案文件集合具有不同的内容或排列顺序。将具有相似查询词、访问文件等需求特点的用户聚类分组,建立社团模型。将全体用户作为一组,把用户最常用的文件、查询词组织起来,比如常见的按照文件点击率排行组织文件,建立全体用户模型。对于新用户,可以先根据全体模型进行资源组织,再根据访问记录逐渐建立与确立他们的个体模型、社团模型,进行知识组织。比如将用户所属社团模型组内的文件组织起来,作为服务推荐的内容,利用其他相似用户的信息帮助用户获取知识。同时,根据时间建立用户的长期与短期使用模型,使组织方式能够根据用户的需求变化做出相应调整。通过用户使用记录进行知识组织,从用户角度建立知识联系,充分体现用户的需求。
用户模型中访问的文件通常是用户根据个人经验与知识结构查找、发现的,它们具有一定的内在逻辑联系,是解决某一问题的方案或满足用户具体需求的知识集合,而且可能包含体系中组织方法没有发现的知识联系。有针对性地对不同集合进行分析研究,能够发现不同类型用户的使用方式、关注的文件信息,发掘档案中新的更多的知识。
同时,通过对查询词进行分词、同义扩展与相关概念关联等语义分析,并对用户查询的文件进行排序计算,确定文件的相关度或重要等级,提高检索的准确率与查全率。各种方法可以单独使用也可以组合成更多的组织逻辑,相互补充、相辅相成,提供多样化的知识组织,从不同的视角提供不同的方法进行知识发现,使档案信息资源成为内容高度集中而又相互关联的知识网络。
3.知识服务应用层
知识服务应用层包含通用服务、个性化服务与增值服务。通用服务有Web浏览、检索、资源导航、查询关键词智能提示等基本功能,并在浏览、检索界面中将知识元、文件间的各种链接与关联展现给用户,为用户提供知识线索、知识导引。个性化服务根据使用记录发掘而来的使用模式或用户的定制要求,为用户提供个性化的Web页面、栏目,为其动态调整网站结构、显示的文件信息及知识联系;利用E-mail、SMS等多种传递方式将档案文件自动发送给用户。增值服务,主要包括参考咨询、代检代查、文件解读、专题研究与报道等,提供能够用于决策支持、解决问题的服务。
同时,把用户浏览、查询式的自助服务提升到基于内容的互动服务,增强与用户的互动,采用实时咨询、BBS,应用Blog、Wiki和SNS等促进知识共享、知识交流,满足用户对个性化以及即时访问数据和信息的实际需要。
4.其他相关技术
档案馆之间异地异构访问数据的需求越来越多,知识服务型网站应该具有通用的开放标准接口。Web Service以XML技术为基础,是一个跨平台的、与语言无关的标准。Web Service依照UDDI协定进行目录查找,通过SOAP协议进行访问,而且只要WSDL接口封装良好,外界用户难以访问服务端的数据。依靠Web Service可以实施网站之间的连接和集成,共享不同档案馆的信息资源与应用功能。传统网站架构方法建立在紧耦合基础之上,相对固定,扩展性、灵活性较低。Web Service标准的成熟和普及应用为实现SOA(面向服务架构)提供了有力支持。知识服务型门户网站是面向服务的,可以引入SOA,优化网站基础架构,提高架构的灵活性。比如在知识资源整合层与服务应用层间再抽象出一个层次,细化实现功能与业务逻辑。
在与Web用户端的交互中,Ajax的数据异步调用(无刷新更新页面)技术,可对网页的加载进行优化,减轻服务器的负担,加快知识组织动态重组、个性化组织的响应速度,增强用户的使用体验。在数据交互中使用JSON替代XML作为传输格式,相对于XML数据,可以减少数据的传输量,并且使Web用户端数据解析的难度降低、性能提高。例如,通过ExtJs、Jquery可以设计出具有更好使用体验的Web服务应用。
注释:
①冯湘君.档案馆与图书馆知识服务的比较分析[J],图书馆工作与研究,2006(4):19-21.
②王兰成.论知识集成环境下的档案信息组织与检索发展[J],档案学研究,2008(5):45-50.
③杜也力等.知识服务模式与创新[M],北京图书馆出版社,2005.
④Shen X.Context-Sensitive Information Retrieval Using Implicit Feedback[C].In Proc.OfSIGIR 2005:43-50.
⑤温有奎.基于知识元的文本知识标引[J],情报学报,2006(3):182-190.
⑥姜永常.基于知识元的知识仓库构建[J],图书与情报,2005(5):73-75.
⑦杨立.数字档案馆知识组织层次体系探讨[J],档案学通讯,2009(5):56-59.