人文社科中文数字化资源发展现状、问题与图书馆的应对策略,本文主要内容关键词为:中文论文,发展现状论文,图书馆论文,应对策略论文,人文社科论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近年来,得益于ICT产业发展和数字图书馆建设,人文社科中文数字化资源发展十分迅速,各图书馆也都有了一定的馆藏规模。早期对读者文献需求的语种分布特征研究[1]和清华大学最近对读者数据库使用情况的调查[2]都表明,人文社会科学研究最主要或最常用的参考资料仍然是中文。要使中文数字化资源成为图书馆数字化资源体系中最重要的组成部分,尚面临诸多问题和障碍。如何建设人文社科中文数字化资源(简称中文数字化资源或数字化资源,下同)馆藏,图书馆也有一些困惑。本文在概括中文数字化资源发展现状的基础上,分析了目前存在的问题,提出图书馆建设中文数字化资源馆藏的若干应对策略。
1 数字化资源及其类型
数字化资源也被称之为数字资源或电子资源,目前尚没有严格定义。从广义上看,它是文献信息的表现形式之一,是将计算机技术、通信技术及多媒体技术相互融合而形成的以数字形式发布、存取、利用的信息资源总和。从狭义上看,有时又可称为电子出版物,按照我国的规定[3],它是指“以数字代码方式将图文声像等信息编辑加工后存储在磁、光、电介质上,通过计算机或者具有类似功能的设备读取使用,用以表达思想、普及知识和积累文化,并可复制发行的大众传播媒体。媒体形态包括软磁盘(FD)、只读光盘 (CD-ROM)、交互式光盘(CD-I)、照片光盘(Photo- CD)、高密度只读光盘(DVD-ROM)、集成电路卡(IC Card)和新闻出版署认定的其他媒体形态。”
图书馆的馆藏主要是较系统化、经过组织的知识,因此作为馆藏的数字化资源更多是侧重于狭义意义上的电子资源。与传统印刷型文献相比,数字化资源类型更为丰富。例如,从数据组织形式上看,可以分为数据库、电子期刊、电子图书、网页和多媒体资料等;按存储介质则可分为磁介质和光介质两类,每类又可分为多种;按数据传播范围可分为单机和网络化两类,而利用方式上则存在本地利用和网络租用两种形式的不同。各种分类方法存在一定交叉,图书馆需根据自身条件和环境选择合适的类型作为馆藏。
2 中文数字化资源发展现状
上世纪90年代中期以前,受诸多因素的影响,中文数字化资源的发展并不顺利。数据库数量多,但规模小、种类少,且多为二次文献,商业化程度低,主要供本部门或系统内部使用,较少对外提供服务。据统计,只有《中文科技期刊数据库》和《中国科学引文索引》等少数数据库有一定影响[4],中文数字化资源既没有对读者产生太大吸引力,更没有对图书馆资源建设产生重要影响。只是在近十年尤其是新世纪以来,伴随ICT技术扩散,中文数字化资源才得以飞速发展。
2.1 中文数字化资源的类型比较齐全,品种多样,规模快速扩大
虽然我国可用于馆藏的中文数字化资源建设起步晚,但发展快,短短几年,国外几乎所有类型的数字化资源,现在国内都已有对应的中文类型。有些类型如电子书等的应用和普及甚至超过了在国外的应用。品种也日渐丰富,逐步形成了一定程度上的竞争。如综合性期刊全文数据库,在全国范围内有影响的就有4家。电子书品种更为丰富,既有单本的,也有专题性的;既有古籍电子书,也有工具性的电子书和印刷本的电子书;在全国范围内有影响的电子书资源库也有4种,而可以提供电子书解决方案的技术厂商则达数10家。各种专题数据库和数值型数据库等也都纷纷涌现,图书馆不仅有了比较大的挑选余地,如何评价这些数字化资源以便作出更好选择这一课题也摆到了图书馆管理者的面前。
规模是对读者和图书馆产生吸引力的重要条件之一。目前主要类型的中文数字化资源数据库都有了相当大的规模,且快速增加。例如,清华同方建立的中国期刊全文数据库用约10年时间累积全文超过1600万篇。重庆维普建立的中国科技期刊全文库收录期刊达8000余种,几乎囊括了所有中文期刊杂志。书同文数字化完成的《四库全书》和《四库丛刊》古籍全库近9亿汉字,包括图像版和全文版,可全文检索,可用于单机、局域网或互联网。
2.2 综合性商业化全文数据库资源数量占据绝对多数,影响日益增加
从网上对国家图书馆、中国社会科学院、北京大学、中国人民大学等四个单位现有人文社科中文数字化资源的统计,绝大多数是综合性商业化全文数据库,以期刊全文和电子书全文为主,其次是综合性全文如中经网、中国资讯行和国研网等,学位论文库和报纸全文库等近年发展也很快。除数值型数据库外,其他专业性专题数据库虽然品种多,但数量有限。
鉴于我国传统出版机构规模小,出版品种单一,所以中文数字化资源缺少类似Elsvier这种由传统出版机构出版的大型综合性数据库。这些出版机构以自己纸本文献为基础推出的数字化资源产品,除《〈人大报刊复印资料〉全文》和《〈人民日报〉全文》等少数规模较大的综合性数据库外,大多数由于内容规模小、系统化程度低而影响有限,目前数量也呈递减趋势。由于版权和管理体制等原因,目前也缺少类似Js tor这种由学术机构联合完成的非赢利性中文数据库。
现由第三方出版的中文数字化资源基本上都是以商业化为目的。由于读者真正需要的是资源内容,在存储成本大幅度降低、网络访问速度大幅提高的情况下,企业、图书馆和读者三方的动力导致数据库多以全文为主。而以综合性数据库为主的原因主要是,从需求角度看,图书馆对形式单一的传统书刊采访有经验,但中文数字化资源属新现象,缺少用户信息反馈,在存在预算约束和大多数数据库没有形成特色声誉前,大多数图书馆必然倾向于优先引进综合性数据库,以满足其读者专业多样化的需要。从供给角度看,企业没有自己的纸本文献作依托,综合性数据库既能提高规模,扩大影响,又能满足图书馆需求,因此它们存在出版综合性数据库的动力。当综合性数据库规模和影响积累到一定程度,企业也可以根据不同需求定制专题数据库。
2.3 资源应用方式逐渐从单机应用向系统性、网络化的方向发展
由于计算机性能低,存储容量小,网络环境不成熟,早期的中文数字化资源大多以光盘甚至软盘形式发布,以单机应用为主,部分数据库可以安装在服务器上供读者在局域网内使用。这种应用方式有很多缺点,如数据携带和安装不方便、读者使用范围受限制等,数据规模快速扩张时尤其如此。
得益于技术进步,中文数字化资源的应用方式正逐渐向系统性、网络化方向发展。系统性主要表现在资源逐渐改变小软件面貌,数据库开始占据主流,数据规模也越来越大。网络化主要表现在图书馆和厂商都必须考虑资源基于网络尤其是互联网的应用,如局域网镜像、安装、网络存储或网络访问权等,读者也更习惯和偏好于网络化。资源应用方式的升级目前还处于过渡阶段,例如多数中文综合性商业数据库都是既有光盘版,也可以镜像,或直接通过互联网访问。随着 ICT进一步发展,可以预计,中文数字化资源应用方式的网络化将是一个趋势。
2.4 资源总体使用性能价格比相对较高
与外文数字化资源相比,无论是资源规模与价格比,还是资源使用频率与价格比,中文资源的性能价格比相对都比较高。除中文是人文社会科学研究的主要参考文献语种外,主要有两方面的原因导致其价格相对较低:中文数字化资源的生产成本和整体物价水平低,应用方式相对落后。
3 中文数字化资源发展存在的问题及对图书馆的影响
中文数字化资源在迅速发展的同时,也存在一些问题,对图书馆构建数字化馆藏资源体系有着不可忽视的影响。
3.1 资源分布结构不尽合理,产品同质化严重,影响图书馆引进
当前,人文社科研究活动盛行时政和应用科学研究,纯理论研究和人文研究受关注较少。受此影响,中文数字化资源在学科分布上也呈现出与此类似的分布特征。经济管理类的数字化资源数量最多,其次是时政类,不仅各种综合性数据库大多涉及这些学科,专题或者专业类数据库也多与此相关。对于历史、哲学、考古、语言等纯人文科学,综合性数据库只有《〈人大报刊复印资料〉全文》和清华同方的中国期刊库等有所涉及。除此之外,只有为数不多的以传统纸本出版物或古籍为基础的数据库,如《文史哲》和《考古》等数据库(分别以纸本《文史哲》和《考古》为基础),大多以单机软件应用为主。可见,资源学科和类型结构尚不完全合理。
现有中文数字化资源数据库是在诸多因素混合作用下的产物,由于时间短,市场的淘汰机制尚没有充分发挥,数据库多是从数量上扩大规模,缺乏专业特色和应用优势,产品同质化严重,也影响到图书馆的引进。综合性期刊数据库表现尤其明显。例如,重庆维普、清华同方和万方三个主要中文期刊全文数据库分别收录期刊8000、7000和5000余种。据统计,截止到2004年我国出版期刊9490种[5]。对类似中国社会科学院图书馆这样的人文社会科学研究综合性图书馆而言,三个数据库中具有馆藏意义的资源重复超过 70%。除此而外,综合性的经济数值型数据库、法律法规数据库和党建党史数据库,除功能存在差异,内容同质化也很严重。
3.2 版权保护和利益分配机制不健全,对资源库质量和发展产生负面影响
虽然中文数字化资源的版权保护和授权存在多种模式,但严格从现行法律来看,都存在一定的问题。例如,超星直接向作者取得授权,忽略了出版机构,同时无视其他共同作者在作品中的利益。方正A pabi直接向出版社取得授权,但忽略了作者。有些资源库甚至未经原出版单位和作者同意,也引起了许多纠纷甚至法律诉讼[5]。相对而言,较为符合我国现行法律且颇受推崇的是代理授权模式,但无论是作者还是原出版机构,从该模式获得的收益极其有限。此外,在使用功能中对“复本”的处理也是一个问题。因此,除传统出版单位自己出版的数字化资源外,大多数中文数字化资源库没有建立起很好的版权保护和利益分配机制。
版权保护和利益分配机制不健全,版权所有人缺乏激励,这种情况已经开始影响到中文资源库的质量和进一步发展。例如,对学术研究有重要参考价值的部分核心期刊开始终止与期刊库的合作,以至某些曾颇有影响的期刊全文库质量呈下降趋势。经过多次法律诉讼后,中文电子书数据库的建设速度明显减缓。几乎可以肯定地说,在中国加入WTO后,国民知识产权意识日益提高,与国际接轨是势在必然。如果不能建立有效的版权保护和利益分配机制,不仅会影响资源库的质量和规模、数量的扩大,甚至还可能危及到资源库的存在和发展。
中国社会科学院图书馆在2002年的小规模调查表明,尽管数字化资源利用存在种种便利,但学术研究所参考的中文文献仍主要依赖印刷型资源,其原因是中文数字化资源的质量不高[7]。清华大学图书馆 2005年的调查也表明,人文社科读者比自然科学读者更偏好印刷型资源,纸本图书仍高居各种主要利用的资源之首[8]。方正Apabi统计资料显示,在读者下载排行中,文学类图书最受欢迎,接下来依次是中小学教辅类、医药保健类、高校教辅类、计算机类、经济管理类、建筑类、外语类、法律类、休闲娱乐类,这也从一个侧面说明了中文数字化资源对科研的参考作用还相当有限。除上述版权保护和利益分配机制不健全的原因外,企业缺乏专业人员,不了解图书馆需求,而图书馆不制作或不参与制作中文数字化资源也是重要原因。
3.3 出版商过于重视抢占市场,资源库对标准和系统互操作性重视不够
数字化资源的主体是各种形式的资源数据库,其本质是一种信息系统。对图书馆和读者而言,确保信息系统遵循一定的标准和相互之间的互操作性十分重要且必要。在早期,由于还没有提出元数据、XML和DOI等议题,资源不是供互联网使用,国外资源库大多遵循的是文件格式标准。近年来,国外出版商非常重视资源库的标准,强调资源库与图书馆其他应用系统如图书馆自动化集成系统(LAS)之间的互操作等。图书馆引进的不仅包括数字化资源,实际上也包括技术和服务手段。
中文数字化资源库起步较晚,理论上我们应该更重视标准和系统互操作性,但事实上却正好相反。由于中文数字化资源库在起步阶段即面临着巨大的市场需求,尽可能抢占市场的企业将在未来竞争中占有优势。企业实力不强,技术研发能力跟不上,商业模式尤其是企业赢利模式固有的缺陷使得企业单靠技术或资源无法发展甚至生存下去。要想既锁定用户,又阻止其他企业拷贝自己的模式,甚至寄希望于通过对市场和用户的控制最终让其他厂商遵从于自己制订的标准,企业就必然有动机推出自有标准的技术和资源库。也许是因为企业认为“标准之争就是市场之争”,大多数中文数字化资源库都是“自立门户,各自为战”。资源库最重要的应该是资源和功能,但中文资源库出版商所争的似乎都在围绕相对封闭的数据格式、浏览器和阅读器等标准。以电子书为例,既能提供基于XML的元数据,又能提供与LAS衔接的几乎没有。期刊全文库也多数是孤立的应用系统。从单一企业当前利益出发,这无可厚非。但对图书馆而言,将会影响到整合资源和应用平台,并影响对读者的服务能力。
4 中文数字化馆藏资源体系建设的若干对策
4.1 图书馆中文数字化馆藏资源体系建设的基本原则
数字图书馆建设和读者迫切需要数字化资源,针对中文数字化资源现存的种种问题,有人认为,由于图书馆自身而非企业更明白读者需求,因此主张通过自建的方式,对馆藏图书、期刊和古籍等进行大规模的数字化,按需生产并保证质量。几年前图书馆界出现的数字化浪潮实际上正是这种指导思想的反映。
实际上这种观点并不可取。从诞生之日起,图书馆在馆藏资源生产与应用上的角色定位一直比较明确,也少有争议,即出版商负责一次文献的生产(出版),图书馆仅是消费者而已。为了更好地帮助读者利用一次文献,图书馆从应用的角度出发可以生产一部分二次文献。更重要的是,从成本和运营角度看,对于同等规模的数字化资源,图书馆自建的生产成本远比引进成本高很多。从全社会的角度,同样的资源重复数字化也是一种浪费。如果图书馆生产的目的不是供自己利用,商业经营不是图书馆的长项,显然也违背了图书馆的职责。版权保护法规不健全,版权协商交易成本高昂,这都使版权问题成为一道难以逾越的鸿沟。
中文数字化资源在多数图书馆都有了一定规模,得到很好利用。基于上述理由,笔者认为,尽管中文数字化资源的现状存在诸多问题,但由于图书馆的本质是提供信息服务,其长处在于应用,而非生产资源,因此图书馆进一步加强中文数字化资源体系建设仍要贯彻以引进为主、自建为辅的基本原则。
4.2 深化图书馆之间的联合和合作,充分发挥行业协会的协调作用
中文数字化资源质量低,资源库不重视标准和互操作性的重要原因之一是资源出版商对图书馆需求和应用系统的理解不够透彻,而单个的图书馆缺乏与企业协商甚至讨价的能力。因此,图书馆应加强相互之间的沟通和合作,以正式或非正式联合组织的形式[9]与出版商协商和协作,甚至参与资源库的系统升级和功能改进,出版商也能对市场和服务对象有更多了解。在这方面,CALIS在引进外文数据库时曾通过积极沟通使OCLC、ProQuest等数据库为国内图书馆作了大量改进工作,有丰富的操作经验,是一个很好的表率。但CALIS主要定位于外文资源的集团采购,与国内出版商的协商和协作较少,对中文资源的出版没有足够影响。尽管有政府包括政策和资金的大力支持,参与CALIS的图书馆仍不到全国高校图书馆的一半。图书馆参与的主要目的还在于获得更优惠的价格[10][11],获取更多的数字化资源。这也说明,国内图书馆之间的联合组织规模还不够大,数量还不够多,目的还比较简单。
国内图书馆系统主要是条块分割式管理体制,例如高校系统、科学院系统、社会科学院系统、党校系统、政府机关和公共图书馆等。由于同一系统内图书馆的需求近似,图书馆日常联系和业务协作较多,这种体制可能更有利于组成联合体。例如CALIS、CSDL和JALIS等其实都是很成功的例子。图书馆通过联合和合作,既可以增强同数字化资源出版企业的谈判力量,完全也可以采用JSTOR的建设和运营模式合作建设中文数字化资源库,不仅成本低,标准的遵守和质量有保障,而且贴近读者需求。
现有的如中国图书馆学会、中国社会科学情报学会等各种图书馆组织实际上是一种更正式的图书馆事业发展协作组织,其会员不仅包括图书馆,而且也包括资源出版企业。因此,它可以、也有条件组织图书馆会员与出版企业协商,甚至制定某些资源数据库的建设标准用以指导中文数字化资源的建设工作。
4.3 适度开展数字化业务,自建中文数字化特色资源库
目前市场上由企业出版的数字化资源大多是有较好商业潜力或需求相对较大的资源,多数有纸本文献,数字化的目的主要是方便利用[12]或便于尽快开展网上信息服务[13]。图书馆要建立具有本馆特色的中文数字化馆藏资源体系,仅依赖引进数据库显然不够,必须以恰当的方式自建数据库加以补充。当然,自建数据库的内容应该有一定的限制:或者出于文化挽救[14],或者是为满足需求的特色馆藏,无论是在制度上还是在系统功能涉及上还应该对版权保护有很好的解决方案。
收稿日期:2006-05-23