报纸文献是一种极为丰富而未被充分开发的信息源——关于发展报纸文献索引和数据库的思考,本文主要内容关键词为:文献论文,报纸论文,是一种论文,信息源论文,未被论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 报纸文献作为信息源的重要价值
报纸文献指报纸上登载的消息、文章、广告等一切文字和图像资料,是非常重要的信息源,具有特殊的参考价值和史料价值。其特点是:
(1)报纸文献是全社会的档案
社会各个领域的新事物,一般都会在报纸上作报道,作为一种凭证,可以说,报纸文献是全社会的档案;
(2)报纸文献是第一手文献
报纸消息和某些文章,都是由记者采访、通讯社发稿或亲身经历者撰写,大多属于第一手文献,具有很强的原始文献价值;
(3)报纸文献内容异常丰富
报纸消息无所不包,加上报纸有种类繁多的专栏、副刊,内容异常丰富,对社会各行各业都有参考价值;
(4)有些内容为报纸文献所独有
有些内容,特别是消息报道或广告之类,以及短小精悍的记述性文章,为报纸文献所独有,在其他文献中是很难找到的;
(5)报纸文献的有序性
报纸往往对某一事件作连续报道,具有时序性和系统性,可方便地追溯某一事件的来龙去脉,或某一领域、某一事业的发展经过;
(6)报纸的可近性
报纸发行量极大,普及面甚广,具有可近性,又不象广播和电视那样信息转瞬即逝,可以说是公开的档案,人人都可利用。
2 索引和数据库是开发报纸文献信息源的主要手段
报纸文献特别零散,即使关于同一事件、同一领域的资料,也往往刊载在多日甚至相隔很多时间出版的报纸上,各报纸的报道既有交叉又不相同,成为有效利用报纸文献的难题。
过去,为了解决查找报纸文献的困难,一般采用编索引和剪报两种方法。剪报不可能从多种角度对报纸文献进行检索,但有可直接检出文献原件的优点。索引则可从多种角度对报纸文献进行检索,虽不能一步检得文献原件,但可用书本式出版,其成本大大低于剪报。
即使是做卡片式索引,成本也比剪报低。剪报需要用两份报纸,才能剪得正反两面的有用文献,还要贴在纸上,分类装订或放在纸夹中,用柜子或架子存放,成本比做索引高。将剪报印刷发行(如人民大学的《复印报刊资料》)是一种改进,但选材范围有限,往往不能满足订户的专门需要。
过去为报纸做索引,一般只为每篇文献做一条索引款目,按分类编排,并未充分发挥索引方法的功效。从报纸文献的书本式和卡片式索引以及印刷的剪报,到编制题录式数据库和全文数据库是很大的进步。全文数据库必然含有索引,等于“索引+剪报+电子化”,优点更多,但目前收录多种报纸文献的全文数据库还少见。
总之,索引和数据库是开发报纸文献信息源的主要手段。
3 报纸文献的索引和数据库目前还寥若晨星
我国报纸文献索引(指书本式索引)甚少,仅有《人民日报索引》、《光明日报索引》、《解放军报索引》、《文汇报索引》、《中国青年报索引》以及《全国报刊索引》哲社版、《复印报刊资料索引》等很少的几种。报纸文献数据库也很少,只有《人民日报数据库》、《经济日报数据库》、《解放军报数据库》等几种全文数据库和报社、通讯社的一些专门数据库以及《全国报刊索引》(哲社版)的题录数据库。其他报纸未见出版发行索引或数据库的。与我国出版两千多种报纸的数量相比,真可谓寥若晨星。庞大数量的报纸文献资源,远远没有得到充分开发利用。
4 报纸文献索引和数据库理论与技术的研究薄弱
我国报纸文献索引和数据库理论与技术的研究十分不足。据文献调查,专门论述报纸索引和数据库(包括剪报资料分类)的文献约20多篇,其中包括了个别索引专著的章节。著者有宋明亮、黄恩祝、张效赤、于爱萍、侯汉清、沈焱、李雄藩、黄秀文等可数的几位。其中以宋明亮和黄恩祝的研究最为具体、深入。张效赤写了多篇报纸索引评论和国内外对比的文章。
5 报纸文献需要建立一整套特殊的著录规则和标引规则
前面提到我国报纸文献索引和数据库理论与技术的研究薄弱,其中特别是指对报纸文献的特殊性很少研究,未能根据报纸文献的特点建立一整套特殊的著录规则和标引规则。这次“全国报纸文献索引和数据库技术研讨会”的征文选题,就是针对这种需要提出来的。
报纸的新闻标题,一般都有两行或三行,主标题有时不能说明新闻报道的实际内容而不宜全录,有时正、副标题应合并,有些标题因使用简称而含义不明,有些标题经过若干年后使人不易理解,有些标题过长,等等,这都需要进行改写,所以,制订一个针对新闻资料的著录规则是很有必要的。
特别是报纸文献的标引,从便于检索,充分发挥其价值看,不可能对各种性质、各种专业领域的报纸文献,采用简单粗略的标引规则,而应针对不同的索引对象,制订具体的标引规则。如人物的标引、地区的标引、机构的标引、会议的标引、政治文献的标引、社会新闻的标引、经济文献的标引、文化事业和文化活动文献的标引、文学艺术作品的标引、体育新闻的标引、医药卫生文献的标引、科学技术文献的标引、广告的标引,等等,都应规定出必须标引的内容和不必标引的内容,这样才能保证索引和数据库的检索功能。
6 关于报纸文献使用标引用语之我见
索引和数据库是否能使其用户全、准、快、便、省地查找到所需文献,选用什么标引用语可以说是一个重要的环节。
我国报纸文献索引历来都是使用分类法编排,几乎找不到使用主题法编排的实例。近年来有些研究者主张采用主题法。对于内容庞杂、主题细小的报纸文献来说,使用主题法确实可更好地发挥报纸文献索引和数据库的检索功能,但分类法在报纸文献的检索中仍有其价值,不可废弃。近年来出现的报纸全文数据库,也是两者兼而有之的。
采用主题法,是采用主题检索语言(属人工语言)标引呢,还是采用自然语言标引呢?我以为采用自然语言较好。因为采用自然语言标引适应性强,标引比较容易,速度快,成本低,而且专指度高,对报纸文献的标引较为合适。
但是采用自然语言标引,还有采用自动抽词标引和人工赋词标引的不同。我以为采用自由标引法是对报纸文献数据库较好的方案。
自由标引是不依据词表的一种主题标引法,标引人员在对文献内容进行分析之后,按一定规则自拟标引用词来表达文献主题。就其实质而言,是一种在文献检索中利用自然语言的方法。自由标引的优点在于:由于不使用词表控制,标引速度要比使用词表的主题标引快许多倍,这还意味着标引成本的降低;可使用与文献主题专指度一致的词进行标引,保证较高的检准率;标引过程是通过标引人员主题分析的,如果标引人员具有一定的业务水平,则其标引质量可大大高于自动抽词标引。
由于自由标引对标引用词不加控制,所以在检索中也存在着自然语言检索法的某些缺点,这可以用后控制词表来补救。
7 数据库应是开发报纸文献的主要形式
数据库可以说是现代的索引形式。一般说来,数据库都是一个索引体系,可提供多种检索途径和多种检索方法,所以检索比较方便,检索效率大大高于书本式或卡片式索引。由于印刷技术的改革,现在的书本式索引也是由数据库产生的,在某种程度上可以说目前的书本式索引是数据库的副产品。
编制数据库比手工编制索引效率要高得多,许多工序可实现自动化,不但节省人力、缩短编制时间,提高索引质量,而且可降低编制成本。数据库更可在互联网上提供使用。
特别是,出版书本式索引目前已越来越困难,因索引的印数不可能多,如要出版,须给出版社大额补贴,否则出版社不愿出版(如《申报索引》虽有很大价值,但终因无经费补贴出版社而中止出版),即使是报社自行出版,可行性也不大(如复旦大学图书馆为《新民晚报》代编索引,由该报自行印刷发行,也终因经济上的问题,出了两期而中止)。如果编成数据库,当需要少量书本式索引时,也能以较低的成本打印出来。
由此可以说,数据库是今后开发报纸文献的主要形式。以出版书本式索引为目标的索引编制计划,已不是索引事业发展的方向。
8 有计划地系统地开发报纸文献资源
面对庞大的报纸文献资源,全国有计划地系统地进行开发,以避免各自编制那些既重复又不全而缺乏使用价值的数据库,这是一个很重要的问题。
较好的方案,是各报开发本报的数据库,或一个地区的各地方报纸联合编制一个数据库,专业报纸按专业联合编制数据库。这样做,可与本报、本地、本专业的需要紧密结合。编制数据库时应采用全国统一的或基本统一的著录规则和标引规则。
再由某些有条件的单位,利用各报、各地编制的数据库或某专业联合编制的数据库,用套录的方法进行二次开发,编制一些专题的或专业的全国性报纸文献数据库,或有选择的全国性报纸文献综合数据库。把全国两千多种报纸的文献完整地编成一个巨型数据库,这样庞大的计划估计难以实现。
当然,这样有计划地系统地开发报纸文献资源,也是要逐步实现的,规模只能是由小到大,不可能通过一个庞大的计划来实现。但如果大家都循着这个方向走,就可以充分开发报纸文献资源,避免重复浪费,提高效益。
这或许只是一种理想,在市场竞争的形势下,或许不会循着这个既能充分开发报纸文献资源又可避免重复浪费的方向走,而是先以“百花齐放”的形势发展起来,然后再在竞争中形成某种秩序。
9 开展服务是发展报纸文献索引和数据库的动力
许多信息公司、剪报公司能够立足和发展,靠的就是他们拥有一定数量的报纸文献资源和利用索引与数据库技术,有针对性地提供信息服务。从这点看,开发报纸文献数据库与开展信息服务相结合,是发展报纸文献索引和数据库的动力。这种服务,图书情报机构有条件做,报社资料室也有条件做。但当各报社编制数据库的工作未普遍开展起来的时候,不可避免地会造成人力物力的重复浪费。
收稿日期:1998-12-20
标签:数据检索论文;