引文索引系统再开发研究,本文主要内容关键词为:引文论文,再开论文,索引论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号 G354文献标识码 A文章编号 1007-7634(2004)09-1133-04
1 引言
引文索引是基于文献之间的引用与被引用的关系,由来源文献和被引文献(citation)有序合理组合形成的二次文献,从而揭示科学文献、学科之间的内在关系。计算机技术和数据库技术应用于引文索引系统,促进了引文索引系统的发展,也给文献计量学研究提供了条件。由于计算机处理数据的高效正确、处理动态数据的简单方便,统计分析科学可靠,方法手段多样,计算机引文索引系统成功应用于实际,并为科学研究提供了确实可靠的数据。
计算机引文索引系统根据功能划分子模块,可分为:数据处理模块、信息查询模块和统计分析模块。
数据处理模块的主要功能是完成来源文献、被引文献的数据录改、相关数据字典的维护,索引文献的组织与管理,数据的归并、分类和检查等。
信息查询模块的主要功能是分别对来源文献和被引文献进行信息查询,根据提供的检索入口和检索项的布尔逻辑关系构造检索式提交给系统,得到系统返回结果。
统计分析模块的主要功能是根据引文索引数据,采用统计学原理,完成对个人、学科、地区、机构等发文量和被引用数的统计和排名,并分析文献的动态规律(集中、分散、聚类增长和老化等规律)和用户行为特征,分析学科发展历史等。
中文社会科学引文索引(简称CSSCI)正式基于这样的思想创建的,填补了国内社会科学引文索引的空白,为文献计量学研究提供了大量的原始数据材料,推动人文、社会科学的繁荣发展,也有利于海内外人文、社会科学的交流发展。
CSSCI适应网络时代的发展要求,面向网络提供方便快捷的查询服务,开发了中文社会科学引文索引网络版,并获得了很大的成功。但随着用户访问量的增加和访问要求的不断提高,原先开发的网络版已不能符合要求,急需要新开发系统。经过近一年的努力,新引文索引系统采用ISAPI服务器扩展,构造DLL,以DLL的形式装在服务器内存地址中,能实现较高的检索效率和多线程并发请求的需要。新引文索引系统采用高效的全文检索算法,并能实现检索项的布尔逻辑关系运算,通过界面检索项构造布尔逻辑表达式,从而提高了查全率和查准率。新系统经过较长时间的测试,已对外服务,能实现较高的检索效率。
本文在引文索引系统的基础上进行开发,力图克服引文索引的不足,实现由引文索引向全文数据的转化,满足用户获得全文的需要,并且提出建立合作机制和交换机制,整合网络信息资源,发挥信息资源的最优功效。
2 引文索引与全文数据库
引文索引不仅为信息查询开创了新思路,而且能为评介个人、学科、机构、期刊的学术成果提供了量化依据。引文索引属二次文献,只提供题录,没有全文。大量用户通过引文查询相应的文献是想研究某一问题、某一方法、某一理论、某一学科的发展规律和走向,从而确立或矫正自己的研究方向,而用户想获得全文作进一步研究时,引文索引只能提供该文献的题录信息,用户只能根据题录信息到图书馆查找相应的纸质信息,或者到全文数据库查找电子化信息,一般需要用户付费。可见,引文索引要适应用户的需求,应提供全文数据服务,供用户下载或浏览。
我们新系统采用全文检索技术,能高效正确地实现查找,并能正确命中全文数据,供用户下载或浏览。但我们没有构筑自己的全文数据库,其原因有:
①全文数据库的录入和维护需要大量的人力、财力;
②构筑自己的全文数据库,造成网络信息资源重复建设,造成重大的浪费和信息冗余。
因此,开发引文索引系统的当务之急是如何合理有效地利用网络信息资源,与全文数据提供商建立合作交流机制,为我所用。
引文索引有其自身的特点,主要实现从来源文献到被引文献的相互引证关系,而一般全文数据库不能实现引文的检索功能,只提供一般常用项实现检索而得到全文或题录信息。CSSCI的引文较为复杂,引文包括参考文献、脚注、文中注和文中引等,而且引文著录很不规范,时有错误。虽然CSSC工作人员采用技术规范和人工核查的手段,但不能完全杜绝错误的产生。究其原因有:
①作者不重视引文,引文错误或不正确、不规范;
②编辑杂志社不规范引文格式,多种多样;
③数据录入过程中产生的错误,或校验中对改错。
基于以上原因,引文数据极有可能不规范或错误,因此我们呼吁杂志社编辑和作者重视引文的重要性,严格遵守GB7714—87《文后参考文献著录规则》,加强引文著录规范的力度和强度。
这里,我们基于的引文索引假设是正确和规范的,而CSSCI的引文数据是人工标引录入的,并经过处理和规范校验的,其正确性和可信度较高。
下面将介绍引文索引系统实现引文索引向全文数据库转化的设计思想和系统实现过程。
3 基于协作机制的引文全文数据库系统
网络信息资源的动态性、分布性和异构性等特点造成网络信息资源得不到有效的利用。大量集中式的搜索引擎不能遍历整个网络,只是其中的一小部分,而且网络信息的动态时效性,造成搜索引擎更新不及时,信息失配严重。尽管大量网络资源的存在,但要利用网络资源提供全文服务,还需要大量的工作要做。因此基于Internet的WEB信息资源实现引文全文数据库系统是不切合实际的。
我们选用了具有结构完善、布局合理、更新及时、检索方便的商用数据库作为合作者,这也符合双方的利益关系。
3.1 设计思想
基于Internett和TCP/IP协议,通过相互开放数据库接口的方法,建立起一种异构数据库供应商之间相互合作,取长补短,高效地利用网络信息资源的协作机制。由于数据库提供商的利益驱动和商业竞争的规则,这种协作机制一般在不同服务领域内的数据库之间实现较为容易和现实,而且这种协作机制可以是一对一的关系、一对多的关系和多对多的关系。
3.2 系统模块
引文索引系统的架构仍分成三大模块:数据处理模块、信息查询模块和统计分析模块,但这三个模块都要作相应的变动,以实现与全文数据库的协作。数据处理模块要处理引文索引记录与全文数据库相应记录的映射关系,并对数据处理过程中部分字段属性作变动。信息查询模块分成两种查询类型:题录查询和全文查询,处理全文查询时调用协作全文数据库的接口函数,实现全文数据库的访问权限,但对用户来说这一操作是透明的。统计分析模块同样可以根据使用的数据不同分为两种形式:内部数据统计分析和调用外部数据作为补充的统计分析,这样能提供更全面正确的统计结果。
3.3 系统设计
根据引文索引系统的功能模块,系统设计分三个阶段:数据处理阶段、信息查询阶段和统计分析阶段。
3.3.1 数据处理阶段
CSSCI引文索引数据库包括:来源索引、被引索引、期刊载文库、个人作者索引、团体作者索引、公共代码字典(包括地区代码、文章类型和机构类别等)、期刊字典、关键词词库和分类字典等。数据处理阶段的任务主要是从引文索引中抽取字段构造映射表,从映射表中的字段组合去查找该条记录在全文数据库对应的记录号等信息。
引文索引包括来源文献和被引文献,来源文献均来自经过选择的具有较高学术水平、权威性和代表性的期刊论文,而被引文献种类繁多,包括:期刊论文、图书、报纸、会议文献、学位论文、信件、报告、法规、标准等,其中期刊论文占70%。由于特种文献的电子化和公开化程度不够,加上它们只占少量,故本文以期刊论文为例说明数据处理中遇到的问题。
来源索引,作为CSSCI的主要索引,它与系统中各索引和字典有着链接关系。来源文献通过记录序号与被引文献发生联系,通过刊名与刊名字典联系。来源索引的主要字段有:来源文献记录序号、篇名、作者、作者拼音、文章类型、文章分类、学科门类、作者机构、作者地区、刊名、年代、卷期、引文数和关键词等。
被引索引,主要存放来源文章中被引用文献的信息。被引索引用来源文献记录号与来源文献联系。被引文献的主要字段有:来源文献记录序号、被引作者、被引刊名、被引篇名、被引出处、被引年份、被引文献类型和被引用类型等。
期刊字典,用来存放CSSCI收录期刊的基本信息,确保数据录入时刊名规范,保证期刊的统计信息准确可靠,也记录期刊信息的变更和历史。期刊字典的主要字段有:期刊代码、期刊名称、主办单位、出版单位、创刊年份、出版周期、ISSN、通讯地址、邮政编码、期刊分类、期刊前身和期刊后继等。
数据处理阶段的主要目标是:从来源索引、被引索引、期刊字典出发构造期刊映射表(见图1)。
来源文献有记录序号,而被引文献只有来源文献记录序号,为了实现无论来源文献还是被引文献的记录映射,需要对每篇期刊论文进行唯一标识。因此我们对记录序号进行重新定义。
来源文献:原有记录号后增加两位数字00,表示该篇是来源文献。
被引文献:原有来源文献记录号后依次加两位数字01、02、03……,依次表示第一篇被引文献、第二篇被引文献、第三篇被引文献……。
这里我们对于来源文献构造检索式:ISSN+年代卷期+起止页,而对于被引文献,由于著录信息存在不全、错误或不规范等问题,故采用较为简单的检索式:ISSN+篇名+作者,通过全文数据库供应商提供的接口函数到对方数据库中查找记录的全文记录号。若查得则写入表中,并设置有效性值为真,若查不到该记录的全文记录号,则返回为空,设置有效性值为假。同时,对映射表支持3种原语操作:增加、删除和更新。保持映射表记录与引文索引的一致性。
期刊论文映射表是由来源索引和被引索引抽取而成的,其中ISSN,是从期刊字典转化而来的。
3.3.2 信息查询阶段
用户信息查询要求分为题录信息查询和全文信息查询两种,题录信息查询完全能在引文索引中实现,不予讨论,主要讨论全文信息查询过程及其实现。
用户信息查询实现全文映射的步骤见图2。
①用户登录并提交布尔逻辑检索式到引文索引系统;
②返回检索结果,若只要求题录信息则转③,若要求全文信息则转④;
③可查看题录的详细信息,供批量浏览和下载,保留结果或清除结果继续;
④调用全文数据库供应商提供的接口函数API访问其全文库,根据映射表中的记录号查得全文记录的值,并返回全文记录。
其实,映射表的生成有两种方式:一是在引文索引数据库中增加一张映射表来存放引文索引的记录序号和其对应的全文数据库中全文信息的记录序号,映射表是以文本形式静态存放的,当需要时调入内存中,根据对应关系访问全文数据库。不过这张表需要更新维护,以保证信息的有效性与一致性。二是动态生成映射表,根据用户检索到的题录信息,构造检索式,通过API定位到全文数据库中的记录号,存放在临时表中,临时表中也存放引文索引和全文数据库对应的记录号。
静态映射表对系统负担较轻,检索效率较高,但容易出现信息失配、失效的问题,同时需要维护更新。动态映射表动态生成映射表,不需维护更新,但增加系统负担,检索效率不如前者。
我们选用静态映射表,并对其定时维护更新,保证映射关系正确。
3.3.3 引文索引分析阶段
建立有效的分析体系,不仅需要科学完善的分析方法和指标,而且需要正确完整的数据支持。因此建立协作机制可以选用引文索引没有收录的信息源的数据,得到更为科学的评价结果。
当然,基于协作的引文全文库系统的目的是合理有效利用网络资源,取长补短,这样引文索引也在全文库中发挥检索作用。
3.4 实例分析
CSSCI基于上述分析,合理有效利用网络资源,与重庆维普合作开发全文数据库,利用维普已有的信息资源,获得调用其数据库全文浏览的权限,进而为CSSCI用户提供全文服务,而这一过程对用户来说是透明的。
实践证明,这种做法是可行的,而且成本较轻,减轻引文索引的负担,具有很高的效率,又有利于网络资源的协作活动的进一步开展。
4 结语
本文只讨论了与特定全文库提供商的协作机制,如果要在Internet领域内建立任意多家数据库提供商之间的合作,则需要利用元数据,规范各自的语义表达,并用HTML这种成熟的标识语言来语法描述元数据,而且W3C提出用RDF/XML作为描述网络信息资源的语言和框架,可见用元数据来描述存储在异构数据库中的信息的条件已经形成了。因此,数据库提供商能提取自身的元数据,方便用户的检索、发现。
数据库提供商是动态的,能满足提供商随时参加或退出协作计划,因此需要登记注册机制,将数据库提供商的信息状况和服务能力、服务地址等写入注册数据库。用户的检索请求只要与注册数据库匹配,并把检索式分解到各个数据库中进行单独检索,并返回结果,对结果进行去重的操作。
网络信息资源的整合与建立有效的协作机制之间有直接的关系。网络资源的无限大给利用和管理带来了巨大的问题,建立基于元数据的分布协作式信息检索系统是将来检索的发展方向,而目前的集中式搜索引擎已不能十分满意的满足人们的检索要求。元数据库的建立需要很多努力,建立元数据库中需要自动分类、自动标引和自动文摘等处理技术。