网络环境下叙词表协同编制系统的构建,本文主要内容关键词为:词表论文,环境论文,系统论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G254
修回日期:2011-08-09
目前,基于关键词的网络信息检索和信息组织,由于计算机无法识别检索项目的语义,所以在信息查全、查准方面存在严重问题。诞生于20世纪50年代的叙词表,已经在人工和数据库信息标引和信息检索方面取得巨大成功[1]。在网络信息时代,基于网络的新的数据内容的叙词表,将会焕发出新的活力,发挥自身在知识组织、知识导航、智能检索、双语检索、语义检索等方面的优势,为网络时代的知识组织和检索做出贡献[2]。网络环境下,叙词表的编制和应用环境发生了巨大的变化,编制方式已向网络在线协作完成发展,选词和词间关系的建立有海量数据支撑,使用方式从纸质版本的人工使用时代向网络版机器使用时代发展,主体用户从专业的标引检索人员向普通读者或机器后台使用转变[3]。这些变化需要不断研究和探索网络时代的叙词表编制方法[4]。基于此,本文结合中国科学技术信息研究所的叙词表协同编制实践,对网络环境下叙词表编制的协同处理深入探讨,以期更好地发挥叙词表在知识组织中的作用。
1 网络环境下叙词表协同编制动因
目前,国内外已经出现了较多的不同学科领域的叙词表,广泛应用于各种类型信息资源的组织。以往,叙词表的编制重点放在规范叙词表编制的标准化上,而当前环境下,叙词表所要解决的关键问题则是不同系统、不同标准下面向不同用户的词表协同编制与互操作问题,旨在满足用户对多种类型信息资源无障碍检索的需求。
1.1 叙词表编制网络时代的变革
网络信息的爆炸式增长使用户对于基于Web的不同信息的需求随之增长,越来越多的叙词表成为信息检索系统的一部分,旨在提高检全检准率,满足用户不同层次的检索需求[5]。因此,要求通过叙词表的协同编制建立知识组织体系,将互联网和信息机构内部网的大量信息通过统一的规范和词间关系关联起来,实现不同类型词表的互通互联以及信息检索等服务上的互操作。在这一背景下,有关叙词表以及其他知识组织体系的研究不断涌现,如分类体系[6]、知识分类和本体等[7]。从叙词表编制的最新进展来看,其编制对象都得到了不同程度的扩展,开始涵盖其他类型的知识组织体系,不同类型的词表相互渗透和包容,词表之间的界限变得模糊。如美国叙词表标准涵盖了列表、同义词环和知识分类等受控词表[8],英国叙词表规则涵盖了分类体系、知识分类、本体、主题标题表等多个结构化词表[9]。因此,在网络化、数字化环境下,进行叙词表的协同编制,实现不同系统、不同用户对叙词表系统的互操作已成为叙词表编制的未来发展趋势。
信息技术、网络技术的发展,为叙词表协同编制提供了可能性:从编制时间看,通过协同编制,可以加快编制速度,适应网络时代信息组织与信息检索的发展;从地理空间上讲,通过网络环境下的协同编制,可以实现不同地理区域内的领域专家异地完成同一知识组织体系的构建,这在人类手工编表时代是不可想象的;通过叙词表的协同编制,可以不受时空限制,实现知识组织体系的快速构建。
1.2 叙词表的应用方式决定编制方法
为了适应信息资源管理向知识资源管理进化的趋势,信息组织系统也不断地发生变革,要求组织信息资源,促进信息向知识的转化,实现知识的获取和利用,推动知识创新[10]。网络环境下,叙词表的协同编制系统构建涉及三个层面:①数据交换——叙词表的协同编制首先要实现不同叙词表以及其他应用系统之间的数据交换;②跨语种的叙词表映射——跨语言检索要求不同语种的叙词表间实现一定规范格式下的相互映射;③叙词表系统间的互操作——为方便用户对多个系统、数据库或网站的一站式检索,不同类型的词表或知识组织工具之间要实现互操作。目前,众多研究者在不同程度上对叙词表的协同编制问题进行了探讨,但其完善还依赖于数据交换、词表映射和互操作实践的发展。
2 叙词表协同编制系统架构与运作机制
2.1 叙词表协同编制系统的基本功能要求
在网络环境下,叙词表编制将实现利用海量的数字信息资源,通过计算机抽取相关的专业术语和词间关系,通过领域专家的人工辅助干预,构建适应现代网络信息资源特点和各类用户需求的叙词表,在功能上,为实现以上目标,叙词表编制系统主要有以下几个方面的要求:①灵活的扩展能力。系统管理员可以根据自身所需叙词表的特点,灵活地配置叙词表的基本单元(概念)属性,而无需要求软件提供商进行客户化的开发。并且,系统管理员可以根据其需求授予不同的编辑人员或编表用户不同的操作权限,既保证系统操作的规范性,也能使叙词表协同编制灵活开展。②基于Web的应用程序架构。通过Web实现不同类型、不同地域编表用户的协同工作,通过叙词表开放编制平台进行符合自身需求的叙词表加工,使得共同加工一个叙词表成为可能。③支持建立多语言的叙词表。除中文外,建立同时由多种其他语言数据构成的叙词表,包括英、法、德、日、韩等主要语言。④完善的叙词表加工功能。除建立增、删、改叙词表中的概念等基本功能外,系统还应支持移动子树、调整狭义概念顺序、查找替换、导入导出数据、生成各类报表等高级功能。⑤全面的搜索功能。系统在支持各种主流关系数据库,如Oracle、MS SQL Server、My SQL等基础上,应通过各种检索方法满足不同层次用户的检索需求,以确保编表用户能够快速地找到所需信息。
2.2 叙词表协同编制系统的运作机制
叙词表在网络环境下的协同编制,是随着网络技术的发展而进行的革新,例如Web2.0技术的成熟与应用,为叙词表的协同编制提供了新的发展机制。叙词表联机操作是叙词表在网络环境下应用的主要形式之一[11],具有兼容化和集成化的发展趋势,从而,在叙词表的编制上要求建立与之相适应的协同机制,满足不同叙词表之间的协同操作和不同层次编表用户对词表的联机编制需求,包括任务分配与编表用户权限的划分、任务审核以及故障预警和冲突解决机制。
2.2.1 任务分配与用户权限划分机制 编表用户的系统操作权限与其所分配任务密不可分,系统按学科领域以词汇或概念为基本单位对数据集加工任务进行划分,分配给不同学科领域编表用户进行加工。因此,编表用户在任务操作的过程中,不同层次的编表用户具有不同的任务权限。
系统首先根据单位编表用户的学科特点对加工任务进行一级分配,单位编表用户再根据本单位加工人员的实际情况对任务进行二级分配。首先,加工编表用户只能够对自己任务范围内的数据进行编辑,而对于其他任务范围的数据只能浏览。其次,在关系构建阶段,考虑到概念间的相互参照,编表用户可在任务范围内数据与范围外数据间建立参照,但不能在范围外的数据间构建关系。由于词汇和概念可能属于多个学科领域,因此任务划分允许有重复。再次,对于重复部分的数据,多个编表用户对其都有操作的权限;但是在同一时间,只能有一个编表用户对同一条词汇或概念进行编辑,且以时间先后为优先依据,因此,一旦编表用户对词汇或概念进行编辑操作,该词汇或概念即被锁定,包括词汇/概念的基本信息、概念参照项的基本信息。
2.2.2 审核机制 首先,个人加工任务权限的有效时间小于其所属单位编表用户权限的有效时间,并且个人加工编表用户任务完成后提交给所属单位编表用户,数据加工状态更改为“初审”,原个人加工编表用户不能再对已提交的数据进行编辑。其次,单位编表用户/初审编表用户对本单位的加工任务进行初审,如初审不合格,可将加工任务驳回或再次分配,加工任务驳回或再次分配后个人编表用户重新拥有编辑权限。最后,初审合格后提交到复审编表用户,复审编表用户对所有单位编表用户的加工任务进行复审,如不合格,将加工任务驳回单位编表用户或重新进行任务分配。
2.2.3 危险预警和冲突解决机制 系统建立了一套完善的危险预警和冲突解决机制,能够及时发现叙词表协同编制过程中的错误、违规操作和冲突,并根据危险和冲突程度予以相应的解决处理。首先,定义和界定“危险操作”,包括:新增词、删除词、修改词、多个编表用户多次修改同一数据超过3次,即对同一词汇/概念/关系,如果出现多个编表用户反复作相同的修改超过3次,则将该词汇/概念/概念间关系的编辑升级为“危险操作”,或者编表用户对自己某项操作标记为“危险操作”;然后,被标记为“危险操作”的操作将直接上报到审核编表用户,原有编表用户对该数据的编辑权限被收回,由审核编表用户对该词进行判断和进一步操作。如果冲突发生在一个单位范围内,则将“危险操作”上报到单位编表用户/初审编表用户,个人加工编表用户的权限将被收回;如果冲突发生在多个单位间,则将“危险操作”上报到复审编表用户,收回单位编表用户和个人加工编表用户对该数据的编辑权限。
3 叙词表协同编制系统构建
3.1 叙词表协同编制系统架构与运作流程
当前,网络信息资源增长迅猛,亟须对其进行组织以供用户检索利用。而传统的叙词表编制速度缓慢,无法及时收录和补充覆盖各学科领域的新词汇,因此,需要改变单一的、独立封闭的叙词表编制体系,将各个学科领域的专业人员、用户纳入到编制系统中,实现叙词表编制的协同操作。
叙词表的协同编制包括从叙词表的数据导入到同义词的归并、网络在线协同建立词间关系、词表校验和词表输出等一系列工作流程所需的各种功能模块。网络环境下叙词表协同编制系统架构如图1所示。
图1 网络环境下叙词表协同编制系统架构
叙词表的协同编制旨在实现网络环境下多人分工协作流程化的叙词表编制。根据叙词表建立的原则,系统按照以下流程进行构建:表的建立与数据导入;同形词、同义词的处理;词表校验以及任务管理,如图2所示。
图2 叙词表协同编制系统运作流程
3.2 叙词表的建立
根据叙词表编制方式,系统采用以下标准,即叙词表包含一个主表和一个范畴表,另包含一个或多个附表,也可能是唯一的“分面属性表”。主表的结构包含两种方式,可以选择标准主表结构,也可以在标准主表结构的基础上进行扩展,自定义主表结构。系统将两种方式相结合,并建立与之对应的范畴表。
3.2.1 标准主表结构的确立标准主表包括以下字段词汇描述项:款目词、汉语拼音、语种、英文译称、定义、范畴号、备注;其概念间关系类型包括:用、代、属、分、参、族、用和、组代,如表1所示。
3.2.2 自定义主表结构 系统在标准表结构中已有的词汇描述信息的基础上,可对数据进行描述项的增加,但新增的描述项旨在记录描述性信息,而不记录关联性(与其他表的字段关联)信息。同时,在“用、代、属、分、参”5类关系下进行扩展以增加新的关系类型。
3.2.3 建立相应的范畴表 根据主表的结构和所录数据情况,对叙词进行范畴定义,建立范畴表。通过唯一的范畴ID标识范畴,利用代码记录范畴在层级体系中的位置,并为每一个范畴表添加相应的范畴号和范畴名。
3.2.4 完善叙词表的描述信息 在给叙词主表命名的同时,完善有关表的描述信息,如图3所示。
图3 叙词表描述信息
3.2.5 建立叙词表对应的附表和分面属性表 附表是从主表中分离出来的专用词汇表,是叙词表的重要组成部分。可在主表的基础上,在叙词表中增加附表,其结构选择与主表结构相同。为了进一步说明主题概念归类的依据,规范叙词表的使用,系统在叙词表体系中增加“分面属性表”,用来表达叙词表概念的分面属性及其之间的层级关系,其结构类似于范畴表结构。
3.3 叙词表的导入
叙词表的导入主要包括主表、范畴表、附表、分面属性表(现有的叙词表一般不具备)的导入,可导入一个完整的子表,也可在已导入的子表中批量追加外部数据:①选择导入的表及导入表的格式,如EXCEL、SKOS、MARC等格式;②选择导入的目标表的结构,系统默认为“标准表结构”,若不满足要求,编表用户可自定义表结构,并导入外部数据;③将来源表与目标表结构匹配,确定需要导入的字段;④导入表数据,系统可提示和自动处理导入过程中的逻辑错误。
在叙词表导入的过程中,最重要的一步是目标表与来源表的合并,包括主表、附表以及范畴表的合并。系统在选择目标表主表的基础上选择来源表及所需合并的数据范围,将目标表与来源表结构进行对比,确定来源表中可合并的字段;对来源表数据按照特定要求进行筛选,筛选的维度按拼音首字母、范畴、词族、关系类型、层级、分面、词勾选,可同时考虑多个筛选维度,如图4所示。
图4 叙词表导入
3.4 叙词表数据的处理
来源于多表的数据合并后,可能存在词形相同却表示不同概念的可能性,需要经过同形词处理,其目的是判断词形相同的词是否是同一概念。如果是同一概念,则将词汇信息进行合并;如果为不同概念,则要进行相应的区分。绝大部分的同形词表达的是同一概念,只有极少的同形词会有歧义。为了将工作量控制在一定的范围,系统采取如下方式处理:同一范畴内的同形词默认为同一概念,系统自动将词汇信息合并,只对不同范畴内的同形词进行人工判断。
系统首先选择处理的数据范围,对同一范畴的同形词进行归并,并对不同范畴的词汇进行查重处理,然后,对同形同义词进行合并,对同形异义词进行区分。在同义词的处理上,辅助人工进行同义词(异形同义词)的识别:①系统在选择的数据范围内,自动识别出可能的同义词并列出;②人工判断同义词,并对同义词进行概念层面的处理。
为了保证词与词间关系的准确性,系统提供了便捷的词表维护和自动校验功能,对叙词的关系、属性数据进行完整性和一致性等逻辑校验,对校验出的逻辑错误及详细信息提供浏览显示,并对相应错误进行修改。
3.5 叙词表编制系统前台设计
系统前台包含了叙词表编制所需的各类主体功能,即词汇显示、功能选择、词汇检索、主体窗口、词汇编辑和日志浏览:①从不同角度显示词表的编制,即词族、范畴、字顺和词汇检索结果展示4种方式;②数据导入、数据导出、词表校验、数据统计、词表输出、任务列表、编表用户管理等词表编制的主要功能模块纳入功能选择区;③前台提供了供用户以不同模式进行叙词的检索,包括前方一致、部分一致、后方一致、组配检索、范畴检索和序号检索模式;④为编表用户提供不同功能模块下的数据操作及相关信息,并显示在主体窗口中;⑤编表用户在词汇编辑区可选择自己领域内的词汇进行权限内的增、删、改等基本操作;⑥在日志浏览区,可以查看记录的编表用户对词汇所做的各种操作日志,便于系统管理员管理系统中的词汇。叙词表协同编制系统前台如图5所示。
图5 叙词表协同编制系统前台
叙词表编制系统工具不仅包含编表用户在叙词表编制过程中所用到的数据导入导出、词汇增删改等常用功能,而且还包含编表用户在编制不同词汇过程中所需的特定功能,只有这样,才能很好地支持编表用户对叙词表的编制,最终编制出一部完整的、高质量的、满足用户需求的网络化叙词表。
4 结论与下一步工作
目前,叙词表协同编制系统基本上分模块实现了叙词表协同编制的不同功能,不同编表用户可以在局域网上在线进行词汇资源的基本管理、选词与词汇分类、同义词归并、等级关系的建立、相关关系的建立、基本逻辑错误检查与辅助修改、叙词表数据的导入与导出等基本操作。经过十几家工业技术各领域信息机构协作单位的共同测试,基本功能运行平稳,为《汉语主题词表》(工程技术版)的协同修订与编制奠定了坚实的基础,同时也为《英文超级科技词表》的编制提供了技术平台。
目前的协同编制平台已经能够完成叙词表编制的基本功能,但主要工作是在局域网上完成的。在广域网上的测试情况是:虽然也可以运行,但随着数据量与逻辑矛盾的增加,运行速度可能会减慢,甚至由于死循环的存在使系统运行出现“死机”现象,同时也会存在网络带宽影响运行速度的可能。针对这些问题,下一步的开发工作将从以下两个方面进行探索:①继续以局域网为主,词表中不同专业在大类内完成编制工作,在基本没有逻辑错误的基础上,转入广域网进行大类间的合并,基本思想是分步完成编制工作;②以广域网为主,所有编表用户测试在同一网络、同一时间共同完成编表任务,这种方法的特点是网络在线同步完成叙词表编制工作。笔者将全面测试和探索这两种不同形式的叙词表编制方式。