报纸数据库建设中的信息著录和标引问题,本文主要内容关键词为:报纸论文,数据库论文,建设中论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号:G35
报纸是人们喜闻乐见的出版物,以其新闻性、及时性、连续性、深入性等特点受到了人们的青睐。随着信息技术的发展,报社和读者都有对报纸文献进行微机检索的迫切需要。报纸数据库的建立是实现这一需求的必经之路。而报纸信息的著录和标引是建立报纸数据库的重要一步。本文论述了其中的一些理论和实践问题,以就教于各位专家和同行。
报纸文献是一种被广泛利用的信息源,具有特殊的参考价值和史料价值。过去,为了解决查检报纸文献的困难,一般采用编制分类索引和剪报两种方法。但剪报不能实现从多途径对报纸文献进行检索,且成本较高;分类索引则不能一步检索到原始文献。随着信息技术的发展,电脑在报界得到了广泛的应用,光盘数据库开始取代分类索引和剪报,成为新的条件下人们查检报纸文献的方法。1990年底,《经济日报》建立了我国第一个报纸信息数据库,随后《人民日报》、《文汇报》、《科技日报》、《光明日报》的报社也建立了各自的新闻信息数据库。
1.数据库建设中的信息著录和标引的基本情况
(1)从建设的单位来看, 我国的报纸数据库的建设基本上还是处于各报社自行开发阶段,即是由报社自己组织开发,主要供自己使用,其中的信息著录和标引工作也主要由自己完成,而不是象国外那样由专业的文献信息服务机构去完成。
(2)从数据库的类型来看, 所建的数据库主要有两种:全文数据库和题录数据库。全文数据库是能够并且必须包括大量一次文献的数据库。用户通过各种检索手段或按指定的提示进行检索或按指定的关键字词能够检索到全文。全文数据库一般由外表特征、内容特征、出处和原文4个部分组成。标引工作主要是完成对报纸文献信息的外表特征、 内容特征、出处的揭示。但是由于各个报社的特色和习惯的不同,导致具体的字段的设置也有不同之处。题录数据库与以前编制的索引有类似的地方,其中的标引工作主要是完成对文献外表特征的揭示,不能够查检出原文。
(3)从学术研究的水平来看, 人们对报纸文献数据库建设的研究还远远不够,还没有形成一套系统和成熟的理论来指导实践工作。据文献调查表明,专门论述报纸索引和数据库(包括剪报资料分类)的文献大约有20多篇,其中包括了个别索引专著中的章节,著者有宋明亮、黄恩祝等。其中专门论述其中的信息著录与标引问题的论文就更少了。
2.数据库建设中的信息著录和标引应考虑的问题
1999年,《长江日报》社进行了《长江日报》(1949—1999)光盘数据库的建设,笔者有幸参加了其中的信息著录和标引工作,通过实践,体会颇丰,现就工作中遇到的几个带有普遍性的问题谈几点体会,以就教于各位专家和同行。
●报纸数据库的建设必须考虑到报纸文献的特点
报纸文献作为一种特殊类型的文献,其与普通图书、期刊论文等有许多不同之处。报纸文献最明显的特点就是海量信息,其所涉及的内容非常广泛,所以其中有些内容并不具备检索价值,对这些内容,可以将其编制成题录数据库,即只对其形式特征进行著录和标引。如报纸上常见的分类广告、有些专版、专刊等。而对那些有检索意义的内容如:消息、通讯、报道等进行重点著录和标引,这样既可以体现出报纸的功能与特点,又可以节省大量的人力、物力、财力。报纸文献也有其独特的地方,如头版头条,它是报纸的一个重要的检索途径,所以必须对其进行著录和标引。通过头版头条内容的变化可以看出社会发展的过程。前不久,就有一本书收录了《人民日报》几十年来的头版头条。
报纸文献还有地域性的特点,有些报纸是全国性的,所反映的范围较广;有些报纸是地方性的,主要为地方的经济建设和生活服务,所涉及的地域相对要集中一些。在对两类报纸文献进行著录和标引时,必须有所不同。那么标引过程中如何体现出地方特色?笔者认为如果采用分类法,就可将有关本地的代表性的企业、单位单独列出类目;如果采用关键词法,可以将企业或单位的名称加在关键词后。
除以上特点外,报纸还有专业性和综合性之分。专业性的报纸比综合性的报纸所涉及的范围要窄一些,这些都是编制报纸数据库时必须考虑到的。
●建立全国统一的著录和标引规则
规范化和标准化是数据库的生命之所在,要想数据库产品得到普遍的承认和广泛的使用,这两点是必须具备的。现在普通图书和期刊论文的标引都有了规范的准则如:《文献著录规则》、《文献主题标引规则》等,并且建立了全国统一通用的数据库。如重庆维普的《中文科技期刊数据库》。而报社在进行数据库的开发和编制时基本上还是自行其是,自谋其政。这与我国报业的发展状况是不相适应的。因此,建立全国统一的报纸文献的著录和标引规则势在必行。
(一)外表特征。(1)日期。(2)版次。(3)版名。 按每一版面上方或版面中显示的有关信息进行著录。(4)款号。 每一条信息按录入顺序编号,这样可避免遗漏或重复标引,即使标号有误,在标引过程中也可以得到纠正。(5)标题,分为引题、主题、副题。(6)作者。包括摄影者、插图者、题词者等。(7)体裁。包括消息、通讯、 评论、图片、读者来信、小说、诗歌、散文、书画、公告、通告、启事、声明、答记者问等。并且以前4种为主。(8)栏目名。一般指报纸上比较固定的、长期性的栏目的名称。(9)专题名。 有些报纸除了有专栏外,还有“专题”,即一些临时性、短期性的系列报道。(10)专刊名。这是由报纸中四个版面所组成的特定内容,如《人民日报》的《大地周刊》。专刊的出现,是社会的发展与读者需要的统一,反映了报纸的形式和内容随着时代的发展而丰富。(11)连载号。用于对连载的和转版的信息的标识。(12)特殊细节项。包括是否是头版头条,是否带有图片或是图片报道。如果是的话,就在相应的标识下作上记号。
(二)内容特征包括:(1)分类号。根据所用的分类表, 通过对信息进行分析然后选取相关类目的分类号即可。(2)类目名称。 这个实际上不需要标引者操心,因为标引者选出了分类号就确定了类目名称。(3)主题词。按所确定的主题词的抽取规则进行。
(三)来源:按每条信息开头提供的新闻机构的名称进行著录。
(四)备注项:用于对一些特殊问题或者对以上未尽事宜的补充。
以上就是笔者认为在对报纸文献信息进行标引和著录的大致项目。我们可以参考普通图书的著录规则,规定著录和标引时详略的等级。各报社可以根据自己的实际情况选用。
建立全国统一的著录和标引规则,是为将来实现对报纸文献进行联网著录和标引做好准备。现在普通图书的编目已经可以联机进行,报纸数据库的建设也一定会向着这个方向发展。
●分类法和主题法在报纸数据库编制中的应用
分类法和主题法是对文献的内容进行揭示与组织的两种方法,这两种方法各有千秋,不能笼统地说孰优孰劣。从笔者标引工作的实践来看,最好的办法是同时进行分类标引和主题标引的工作,如果不能够做到这一点,考虑到与历史的衔接,在现阶段可以分类法为基础,同时参照主题法的一些做法来对分类法的缺陷进行弥补,即走分类和主题相结合的道路。
为了与普通图书和期刊论文的标引工作统一,笔者认为报纸的分类法应以《中国图书馆分类法》为蓝本,同时结合报纸文献的特点做一定的修改。由于报纸文献本身具有按人物或按事件发生地点或事件内容性质等聚类的特点,因此不能够按普通图书分类法那样严格地按照先学科后国别、年代等原则进行限制。
从标引工作者的角度来看,分类法比主题法更容易掌握。分类法是按学科来进行分类,符合人们日常的思维习惯;且分类法容易达到规范性和统一性;而主题法由于抽取主题词的方法比较复杂,如果采用自由抽词的话,其很难达到规范、统一。但分类法的体系结构比较固定,类目多是先组式定组型的,其体系结构常常落后于现代科学技术的发展,而且增补类目,修订类表十分困难。而报纸涉及的内容相当广泛,社会生活的每一个方面都可能包含在其中,并且,随着社会的发展,新事物不断出现,新名词、新说法也在报纸上反映出来,分类法不可能很好地概括所有的内容。为了克服分类法的缺点,可以结合主题法的优点采用以下一些做法来补救。①按事物主题集中列类。②采用组配方法描述文献内容主题。这样可以增强标引与检索文献的专指度与灵活性。③设置交替类目和参照类目。这样可以强化分类语言的多元检索性能。④多重列类法。这样可以提高文献的标引能力和检索效率,增强对电子计算机检索系统的适应能力。⑤编制相关类目索引。这可将分散在不同学科的有关概念排列起来,其后标明相应的分类号,供标引者和检索人员查找类号使用。
但从长远的观点来看,因为编制数据库的目的是为了满足读者进行计算机检索的需要,从检索者的角度而言,如果不是对分类法特别熟悉的话,一般不会优先选用分类号作为检索的途径,检索者首先想到的就是主题词的途径。使用主题法进行数据库的编制,可以更好地发挥报纸数据库的检索功能。笔者认为在使用主题法进行标引时,最好采用自由标引。自由标引是不依据词表的一种主题标引法,标引人员在对文献内容进行分析之后,按一定的规则自拟标引用词来表达文献主题。就报纸文献而言,可以从标题和内容中进行选择。其不需要词表进行控制,标引速度要比使用词表的主题标引快许多,这样可以降低成本。
报纸数据库的编制是运用现代信息技术对报纸信息进行处理的过程,其是一个崭新的课题,其中的一些理论和实践问题都值得我们深思,希望本文能够抛砖引玉,促进此项工作的开展。
指导教师:张帆 华中师范大学信息管理系教授
[收稿日期]2000—05—06
标签:文献论文;