新闻数据机器检查语言初探_主题词论文

新闻数据机器检查语言初探_主题词论文

新闻资料机检语言的设想,本文主要内容关键词为:语言论文,资料论文,新闻论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1新闻资料机检语言的现状与问题

90年代初,新闻资料工作已开始步入计算机管理阶段。目前,中央级的报纸已基本上全部建库,省级报纸已正式上机检的有解放日报、湖北日报、南方日报等16家,处于开发阶段的有广西日报等。不少单位已发行新闻资料数据光盘,或将数据库联上Internet网。但是,各家的检索平台和检索工具各自为政,几乎每家都有自己的一套分类法。1996年,新闻资料学会推出了《新闻资料机检代码表》(以下简称《代码表》),试图统一各单位的机检分类法。因该表不够成熟,大家仍持观望态度。

综观现有的各种机检分类法,主要有两种编制模式:一种是参照《中图法》来改编。《中图法》是国家标准总局采纳通过的一部综合性分类法,为广大用户所熟悉,由其改编而来的分类法易于规范化、标准化。但《中图法》是先组式的体系分类法,用于机检不能充分利用计算机的后组配功能,类分资料亦有诸多不便,须加以改造。《新闻出版报》的机检分类法就是参照《中图法》来改编的,它根据该报的特点对《中图法》做了一些有益的改动,同时还标引了关键词,其做法给人们提供了一种思路。另一种模式是打破《中图法》的体系结构,只分为政治、经济、文化三大部类,标记符号则多种多样。《代码表》可说是后者的代表,这种改编模式,易于标引,实用性强,也能较好地利用计算机的功能。但因过分追求实用而导致类目设置和标记符号的使用随意性较大,不利于标准化、规范化。

在叙词语言方面,新华社于1987年编制了一部《新闻叙词表》。该表收正式词8603个,非正式词1201个,覆盖国内外政治、经济、文化各方面,但一直没有真正应用于机检。

信息化、网络化是新闻资料工作的发展趋势,新闻资料机检语言必须顺应其要求,解决以下问题:

(1)在机检尤其是联网的环境中,新闻资料的检索主要是由用户独立进行。同时,用户的成分不再局限于编辑、记者,因为新闻资料光盘数据库的普及、与Internet联网,使全社会每一个人都有可能成为潜在的用户。因此,新闻资料机检语言必须以终端用户,而不仅仅以标引人员作为使用对象来考虑。

(2)新闻资料机检语言的规范化、标准化。如果继续维持目前这种状况,即使每个新闻资料数据库都已采用各种方法提高了查全率、查准率,但当用户需要联机多库检索时,仍会产生新的查全率和查准率问题。

(3)各种机检语言最好能够互相兼容,包括分类语言与叙词语言的兼容,新闻资料检索语言和图书情报资料检索语言的兼容,以便于用户熟悉一种检索语言,就能找到所需的各种资料。

2新闻资料机检语言的设想

2.1新闻资料机检语言的总体构想——分类主题一体化

目前,各家的新闻资料数据库都是全文检索系统,可用自然语言中的任意字或词进行检索,由于“任意词”缺乏上下文的语义关联,同一个概念还有同义词、近义词,并且有不同的词组表达方式,误检率、漏检率都很高。尽管各种数据库对题名、作者、栏目、日期、版次等资料特征也进行了标引,但如果不是有着特定的查询目标,也难于利用这些字段进行检索。因此,还必须用人工语言(分类语言或主题语言)进行有效的控制。

新闻资料是新闻活动的产物。它源于社会生活,因而极具动态性。如果采用主题词(配合自由词)标引,最能充分揭示新闻资料的内容和特征。但是,当用户要查找一些借鉴性、参考性的资料,希望鸟瞰全貌、触类旁通时,则需借助于分类的途径。所以,笔者设想建立一种分类主题一体化的新闻资料机检语言,把分类法的族性检索与主题法的特性检索结合起来,满足用户的不同需求。首先,确立一个易于推广、具有稳定性的《新闻资料机检分类法》,在此基础上,再编制一部分类号与主题词的双向对照索引式的《新闻资料分类主题词表》,实现分类主题词一体化,为检索者提供分类与主题词的查找途径,同时也能够正确引导用户从分类途径去选择准确的主题词来检索。

分类法的主要作用是系统查找(查全)资料,分类级别不必太细,各种动态性的细小专题可用标引主题词的办法来解决。因为主题词不受类号的限制,增删起来比较方便。至于主题词标引难的问题,如果配备了《新闻资料分类主题词表》电子版,通过类号自动(或机助)标引主题词,就会迎刃而解。

2.2《新闻资料机检分类法》的编制

统一的分类法必须在相当长的一个时期内是稳定的,类目的稳定是分类法稳定的基础,一级类目的稳定更为重要。《代码表》的一级类目是按专题序列,随意性、动态性都较大,将会导致《代码表》缺乏必要的稳定性;此外,《代码表》的类号不能正确反映类目之间的隶属关系,不利于扩检和缩检;如果要扩充到四级类、五级类,所配类号又会太长。《中图法》以科学分类为基础,体系结构比较稳定,标记符号比较科学,其第四版是1999年3月才出版的,当前的新学科、新事物、新主题已基本补充进去,还兼容了类分资料的类号,较以前版本更方便使用。此外,我国第一部对照式的综合性分类主题一体化检索语言《中国分类主题词表》是由《中图法》和《汉语主题词表》相结合而设计出来的,基于该表电子版的通过分类号添加主题词的方法已成功运用于书目机读数据的标引中。如果参照《中图法》来编制《新闻资料机检分类法》,则可直接利用《中国分类主题词表》来实现自动(或机助)标引主题词,并进一步编制出更加符合新闻资料实际的《新闻资料分类主题词表》。因此,尽管《中图法》存在一定的局限性,我还是倾向于用《中图法》第四版来改编《新闻资料机检分类法》。

2.2.1《中图法》的局限性。

《中图法》的分类标识是先组的、固定的、不可分拆的。它对类目进一步划分时,采用从总到分,从一般到具体的做法,通常把类列的子目分成两大部分,第一部分是总论性或理论性的类目,第二部分是专论性或具体问题、具体概况的类目。对各种具体概况性资料则采取世界——中国——地方的排列方式。同一类型的问题“专论入有关各类”,在总论性部分、世界部分、中国部分重复反映,一方面造成资料的分散,另一方面由于严格的层层隶属关系,致使类目结构繁琐,也容易导致标引和检索的错误。这也是《中图法》不适于新闻资料分类的主要原因之一。

2.2.2利用组配分类法的原理对《中图法》(第四版)进行改造,编制《新闻资料机检分类法》。

组配分类法的基本特征是分“面”,“面”是指可以表征一类事物某一方面属性或问题的一组简单概念或单纯类目,几个“面”结合起来可以表达一类很专指的概念。其分类标识是散组式的,可以分拆的,具有很大的灵活性。它比体系分类法更适于机检。由于在新闻资料检索系统中,不存在资料排架的问题;同时,计算机有着巨大的存储能力和强大的后组配功能,故可利用组配分类法的原理对《中图法》进行改造或在标引上做一些变通,使之变得简洁实用,又能充分利用计算机的功能。改编方法主要有以下几种。

2.2.2.1国家、地区号单独标引

各国、各地区的概况性资料,国家、地区的区别号单独标引,或者在独立的字段中标引,在主表中可以不再区分国别和地区。如果资料类型差别较大,或者资料数量较多,也可保留原来的类目,但不必细分国别或地区。

2.2.2.2部分具体专论、具体概况改用总论性类目,或“总论”与“专论”合并

图书文献中,系统性、一般性论述的图书著作较多,因而《中图法》对于每个专题的各方面、各类型的问题在总论部分列类较详尽,而在各国具体概况中列类较略。新闻资料则大多是各种具体概况的动态性资料。所以,可以取消一些专题中具体概况的类目,改用总论部分的详细类目。

因为主表中不必区分国别和地区,所以可把一些被分散的“总论”与“专论”合并到一块,从而部分地解决《中图法》的“分散与集中”的矛盾。

2.2.2.3多属性标引

具有多重属性的资料,采用多属性标引,即同时给予几个类号。检索时,在相关的类目中都能找到有关资料,通过计算机的布尔逻辑检索,则可达到更高的专指度。多属性标引可用于以下几种类目:(1)专论仿总论分的类目;(2)交叉学科和一些描述复杂的复合主题;(3)“可用组配编号法”的类目;(4)多重列类类目;(5)交替类目;(6)在总论和专论均有列类的共性问题,改编时,只在总论部分列类反映,专论的共性问题也可采用多属性标引。

2.2.2.4决定类目的取舍和类目使用级别

《中图法》有些类目的细分方法并不完全适用于新闻资料,要根据新闻资料的实际情况来决定类目的取舍,同时,视资料类型和资料数量的多寡,确定类目的使用级别。如自然科学部分的类目,有的只使用到一、二级即可。

2.2.2.5增加新类目

增加新类目主要针对下面三种情况:(1)新学科、新事物、新概念;(2)新闻资料特有的文献类型;(3)《中图法》列类很简单,而新闻资料内容却很多的类目。

2.2.2.6增加或修改类目注释

对于含义不明确的类目,或与《中图法》的使用范围、分类方法不同的类目,要增加或修改类目注释来说明。此外,对于不再细分的下位类也以注释的形式列于该类之下,以便于归类。

2.2.2.7修改总论复分表的部分类目名称;标引时,总论复分号单独标引

新闻资料各类中均可能出现的问题,用总论复分表的形式来列表。对《中图法》总论复分表中的部分类目的名称加以修改即可。如“-5丛书、文集、连续出版物”,可把其类名改为“专栏、专刊专版”,并把其下位类作相应的改动。标引时,总论复分号与主类号分别单独标引,检索时再进行后组配。单独标引,也使总论复分号有了独立的检索意义。

如“G4教育类”,按照组配分类法的原理,可分成“国家和地区”、“教育活动的各种问题”、“各级各类教育”三个“面”,各个“面”展开自己的的类目,不同“面”的类号组配起来检索则可以达到较高的专指度。具体改编方法是:国别、地区号单独标引,取消G51/G57世界各国教育事业的类目,把世界、中国、各国的教育事业内容合并起来,并提升到G4教育之下,教育政策和概况改用总论复分表进行复分,其他内容则使用总论部分G41/G48的类目;而专论部分G61/G79各级、各类教育中,不再重复反映G41/G48中出现的各种共性类目,各级、各类教育的共性问题只需同时标引一个各级教育类号和一个共性问题类号即可。

用上述方法改编的《新闻资料机检分类法》,克服了原《中图法》的局限性,便于新闻资料的标引,能充分利用计算机的后组配检索功能。其中也体现了《代码表》的编制思想。

2.3《新闻资料分类主题词表》的编制

《新闻资料分类主题词表》可以在的《中国分类主题词表》电子版的基础上进行改编。目前的《中国分类主题词表》电子版中的分类号仍然是《中图法》第三版的类号,在四版的基础上修订的新版本将于今年底出版。《新闻资料分类主题词表》可待新版本出来后再着手改编。

改编时要做两方面的工作:一是因为在改编《新闻资料分类表》时,对《中图法》的部分类目作了改动,需要做相应的调整:把原类号所对应的主题词对应到新的类号;另一方面,由于新闻资料的特殊性,要增加一些新闻报道中的常用词汇,删掉那些极少用到的词。改编的方法是在各家新闻资料单位的实际标引积累的基础上进行。把调整后的《中国分类主题词表》电子版存放到新闻资料检索系统的辅助库内,标引时,通过上述改编好的《新闻资料分类表》确定一个类号后,采用计算机的自动转换技术,由辅助库中的《中国分类主题词表》通过分类号添加主题词。如果找不到确切的主题词,则采用自由词(或关键词)标引,这些词标引在新闻资料数据表的“自由词”字段。“自由词”的标引可参考新华社编制的《新闻叙词表》(因该表未经实践验证,而且编制时间已有10多年,所以只能作参考用)。当标引的数据积累到一定程度后,把新闻资料数据表中的“分类号”、“主题词”、“自由词”三个字段的内容筛选出,由一个权威机构把各家的数据合并起来,组织专家利用这些数据编制《新闻资料分类主题词表》。由于其中的“主题词”是来自《中国分类主题词表》,所以,只需对那些“自由词”进行处理,从中提取或提炼主题词,并补充到“分类号”、“主题词”、“自由词”三者的对应表中,随之也确定了主题词与部分自由词的对应关系。用这种方法可以确定新闻资料中实际使用的基本词汇,也吸取了《汉语主题词表》和《新闻叙词表》的成果,编制成一个相对定型的适于推广使用的《新闻资料分类主题词表》。此表是分类号与主题词的双向对照索引,可从分类号标引主题词或从主题词标引分类号,实现分类主题一体化。

《新闻资料分类主题词表》确立之后,还会不断出现新事物、新概念、新词汇,仍需对这些新概念、新词汇进行后控制,方法如上述操作一样。

如果“自由词(关键词)”与“分类号”、“主题词”的对应关系积累多了,可以进一步利用计算机的自动转换技术和自动抽取关键词技术、词频统计技术,实现自动标引。自动标引在新闻资料工作尤其是在制作回溯性数据中有着极大的用处。回溯性数据的标引工作如此巨大,每家新闻单位都有几十年的回溯数据要做,从这个意义上来说,对分类号、主题词、自由词(或关键词)三者的对应关系的研究,意味着巨大的经济效益。此外,建立了三者的对应关系后,还可以为用户提供一些智能化的帮助,用户可直接用分类号或主题词来检索,也可以输入一个自由词的提问,系统自动显示出所对应的分类号、主题词以及具有相同对应关系的所有自由词,供用户选择查询。这种“傻瓜”检索方式,应该是新闻资料检索方法的发展方向。

3结语

建立分类主题一体化的新闻资料机检语言,就是要编制出一部符合新闻资料实际的《新闻资料分类主题词表》。这必须建立在编制一部规范化、标准化的《新闻资料机检分类法》的基础之上,这是最关键,也是目前最为紧迫的。《代码表》已推出4年余,但反响不大。笔者提出利用组配分类法的原理对《中图法》进行改造,改编《新闻资料机检分类法》的设想,兼容了各家之长,适用于机检,也容易为用户接受,自认为是可行的。由于类表在体系结构和标记符号上基本和《中图法》保持一致,解决了新闻资料机检语言与图书情报资料检索语言的兼容问题,亦利于新闻资料机检分类法的规范化、标准化,同时可以弥补新闻资料界在分类法的研究和修订、维护方面的薄弱之处。在此基础上,再利用现有的《中国分类主题词表》和《新闻叙词表》,编制出《新闻资料分类主题词表》,实现新闻资料的分类主题一体化,甚至自动标引,并为用户的检索提供智能化的帮助。

标签:;  ;  ;  ;  

新闻数据机器检查语言初探_主题词论文
下载Doc文档

猜你喜欢