我国社科数据库信息资源分析与研究,本文主要内容关键词为:信息资源论文,我国论文,数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
数据库产业是信息产业的重要组成部分,数据库的生产、使用和发展情况常被用来衡量一个国家信息技术、信息产业的发展水平。本文对《中国数据库大全》收录的1038个数据库进行了统计分析,着重分析了我国社科数据库的特点及其存在的问题,并对如何解决这些问题进行了探讨,旨在使我国社科数据库信息资源建设尽快走上产业化发展的道路,为我国经济发展及时提供必要的信息。本文的统计数据全部取自《中国数据库大全》(中国计划出版社,1996.1)。
1 统计表
表1为我国社科、科技数据库对比统计。说明如下:(1)本表所示英文数据库数目由两部分组成,一部分为纯英文数据库数目,另一部分为该英文数据库同时也有中文版。(2)本表文种部分只收中文、英文,其它语种未计算在内。(3)数据库项目不全的,只是所缺项未计算在内。(4)数据库总量(IC万条以上)和数据库所占空间(100MB以上)两项计算时有交叉。
表2为我国数据库的地区分布统计。说明:限于篇幅只列出排序的前6位。
表2.我国数据库的地区分布统计
社
科
库科
技
库
地区文摘库题录库合计地区文摘库题录库合计
北京 11713 130 北京 204
27
231
广东 34 43 77 上海 26228
上海 37 9
46 江苏 16622
四川 14 30 44 四川 14519
天津 35 8
43 吉林 13316
山东 12 26 38 天津 12416
表3为数据库数据时间跨度分布统计。说明:(1)本表统计以1995年为基准,即数据起始年为1995年的,则时间跨度为1,1994年的为2,其余依此类推。(2)限于篇幅只列出排序前8位。(3)题录库未计算在内。
2 我国社科数据库的特点
从统计结果可以看出,我国社科数据库除具有一般数据库的特点,如数据库总量成倍增长,数据库容量明显扩大,光盘数据库成为主要服务方式等[1]外,还具有以下特点:
2.1 更新周期短
社科数据库以日、月为更新周期的占21%,而科技数据库该项仅为9%。一般来说,社科信息相对科技信息老化速度要慢得多,但社科信息中的商业经济等信息,由于商业与经济活动的不断发展变化,始终处于运动状态中,用户获得该信息的及时与否会直接导致商业与经济上的重大得失。这就要求作为收集传递该方面信息的数据库,必须及时迅速地反映商业与经济发展的最新动态,迅速更新其内容,统计结果正好说明了这一点。
2.2 数据库地区分布较为分散
科技数据库主要集中在北京地区,共有231个数据库,占51%。而社科数据库在北京、广东、上海共253个,占43%,四川、天津、山东等省区数据库数量与上海也相差不多,这说明我国社科数据库地区分布相对比较分散。
2.3 社科数据信息老化慢
社科数据库数据起始年为1949年的有28个;而科技数据库该项仅为6个,超过15个的最早时间为1984年,这说明社科信息老化速度慢,生命力强。
2.4 数据库容量大
社科数据库容量在100MB以上为76个,占24%,10万条以上为87个,占27%,而科技数据库容量在100MB以上为87个,占23%,10万条以上为75个,占20%;同时,从数据时间跨度分布看数据时间为1990年(含1990年)以后的社科数据库为161个,占51%,科技118个,占31%(题录库未计算在内)。从这两组数据可看出社科数据库虽然数据回溯时限虽较短,但容量比较大。
2.5 社科数据库局限性较大
统计表中纯英文数据库科技为106个,占23%;社科为11个,占1.9%;含中、英文的数据库科技为106个,占23%,社科40个,占6.8%。这可能是因为社科信息的内容有明显的政治倾向性,各个地区、各个国家由于政治制度、文化传统的不同,对社科信息有不同的选择标准和不同的接受程度。因此,社科数据库外文库建设相对于科技库有较大局限性。
由此可看出,社科数据库相对于科技库有其本身的特点,所以在具体建设时,应充分考虑社科数据库的特点,才不至于走弯路。
3 我国社科数据库建设的主要问题及其原因分析
3.1 数据库更新比例低
科技数据库为62%,而社科数据库仅为41%。究其原因主要有:(1)只有少数数据库形成了一定规模,能做到常年更新扩充,多数则还封闭在各个建库单位的计算机中或仅在有限范围内提供服务。因此,这些用户对数据更新要求并不是十分迫切。(2)一些单位为追求现代化,在资金、技术、人力、物力等条件尚不十分充分的条件下匆匆上马建设数据库,结果受相关条件制约,数据更新跟不上。(3)建库单位数据来源不足,数据加工无保证,自然也不能保证数据的及时更新。
3.2 大型数据库少
数据库所占空间在100MB以上的比例为24%,10MB以下的比例为29%,有近一半在10MB~100MB之间,而美国1975年数据库平均容量已达175MB。造成这种现状的原因主要有:(1)数据追溯时间短。从数据时间跨度统计表可看出,时间跨度在5年以内的比例为45%。(2)协调合作意识较差。我国各种信息机构直接隶属于或依赖于上级主管部门,对外基本上处于封闭状态,相互间协调、合作比较困难,多数处在孤军作战的状态下。(3)资金投入不足。我国多数靠国家投资建设数据库,“七五”期间各部委电子化信息系统建设总投入约200亿元,而用于数据库的投入只有5~10亿元[2]。这些原因使得数据库建库单位不能形成有利于建设大型数据库的环境,阻碍了大型数据库的建设。
3.3 题录数据库比例偏高
科技题录数据库为77个,占17%;而社科题录数据库为271个,占46%,将近一半,这种状况显然不能满足为我国经济发展提供必要的社科信息的需求。其原因是:(1)这些建库单位在资金、技术、人力、物力等方面仅能满足筹建题录数据库的需要。(2)数据来源不足,无法进行深加工。(3)多数库未对外服务,目前状况已基本上能满足本系统或本单位需要。这些因素致使社科题录数据库数量远远高出科技题录数据库。
3.4 全文数据库比例偏低
586个社科数据库仅有6个全文数据库,所占比例仅为1%。全文数据库比二次文献数据库有更多、更好的检索方法。更重要的是其传递的信息是完整的。然而该种数据库的比例却极低,其主要原因有:(1)文字、数据等信息数量大,抽调相当的专业人员去标引、填写著录单困难较大,一般部门都无法承受。(2)难以使之有序化,有些词甚至根本没有相应的词表和分类法可利用。(3)内容表现形式多样,含有大量多媒体信息,处理较为困难。
3.5 社会发展急需的经济类数据库比例偏低
经济类数据库共297个,占社科数据库的50%(占总数据库的29%),但其中题录数据库162个,占54%,这种状况与我国经济的高速发展极不相称。实际上数据库的开发只有以市场需求为导向,才能有生命力。市场需求变化,数据库内容、类型等也应随之变化。然而,我国有关部门在开发数据库时,很少考虑市场需求,基本上是自己开发、自己使用,很少考虑广大用户的需求。而商品经济高度发达的美国,其数据库生产与经营是以商业界为主,自然其产品与服务也均围绕用户需求运作,致使其数据库信息资源在经济发展中起着非常重要的作用。例如,1989年美国信息服务业规模达920亿美元,占全球信息服务业的50.7%。同期,我国信息服务业规模为15~20亿元,只占世界信息服务业的3‰,占我国GDP的2‰[3](此处所指信息服务业主要指电子信息服务业)。
以上问题是根据统计表得出的,鉴于我国国情及实际需要,有关人才培养问题、全国范围统一协调建设问题、数据库的标准化建设等问题也不容忽视。
4 我国社科数据库信息资源建设应采取的对策
针对我国社科数据库信息资源建设中存在的问题及社科数据库的特点,结合国情,可采取如下对策:
4.1 统一规划,使我国社科数据库信息资源建设协调发展
国家应建立统一的管理机构并组织有关人员对我国社科数据库信息资源分布状况进行进一步调查。在调查的基础上结合我国社科文献资源分布状况确定社科数据库信息学科网络资源建设中心单位(或单位群),从宏观上进行调控,避免重复建设,消灭空白学科,使每一学科的建设都达到相对完备程度。具体实施时应坚持“统筹规划、合理布局、分工协作、覆盖齐全、各具特色”的原则[4]。
4.2 社科数据库应加强数据信息回溯工作
社科数据库数据起始时间在1990年(含1990年)以后的占51%。然而社会科学知识由于累积性不如科技知识强,所以新的著作不能完全包含和取代以往著名社会科学家的著述内容,它们在很长时间内都具有非常大的参考价值。同时,科学家在对社会现象进行研究时,往往也要求对社科文献信息进行相当大深度的回溯[5]。因此,社科数据库建设时只有进一步加强数据的回溯工作,才能适应社科发展的需要。
4.3 社科数据库应加强文摘库,特别是全文数据库的建设
目前,社科题录数据库几乎占整个社科数据库的一半。随着用户需求的变化原有的这种以文献为存储单元的数据库已不能满足用户需求。所以建库单位一方面要对已建的数据库进行深层次的开发,另一方面要特别注意加强全文数据库的建设,增强数据库数据的完整性、可靠性,提高服务水平。
4.4 发展大型数据库,促进其商品化进程
市场的需求推动着信息服务业的发展,信息机构要想在信息服务业中站稳脚跟,就必须拥有雄厚的信息资源和以优质服务来争取用户,占领市场。鉴于我国社科大型数据库少的现实,在国家的统一协调下,相应学科的主要建设单位应联合起来,发挥群体优势,建设相应学科的大型数据库,来满足社会发展需求;同时逐步推进数据库的商品化进程,最终走以库养库的道路。
4.5 为适应我国市场经济发展的需要,重点发展商业、经济数据库
我国经济类数据库虽然数量较多(50%左右),但有54%是题录数据库,这种状况根本满足不了我国市场经济发展的需求。而1989年全世界5110个数据库中,89%为商业、金融类数据库[6]。因此,我国有关部门应牵头组织和动员社会相关系统及机构,开发建设一批实效性较强、与市场关系较为密切的商业、经济数据库。
4.6 信息部门与出版社联合建库,加快全文数据库的建设
目前我国出版社采用激光照排和轻印刷系统出版书刊已占绝大多数。但他们采用轻印刷的目的只是出版印刷版的书刊,而通过电子排版软件加工的机读文本只是中间产品。当书、刊出版后,这种机读文本仅作为纸型保存,有的根本不予保存,所以这种中间产品对于出版者与印刷者来说是无足轻重的,只要纸质的正式出版物一经出版发行,它也就没有太大价值了。其实,这种机读文本完全可以用来建立全文数据库。当然,这种机读文本本身并不能称为数据库,还需对它进行进一步的加工处理。这种加工处理技术并不太复杂,而且利用该种机读文本建立全文数据库及其检索系统的条件已经成熟,如武汉大学图书情报学院已成功完成《湖北省地方志大事记》等全文数据库及其检索系统[7]。所以由信息部门与出版社联合建设全文数据库是加速全文数据库建设,同时又节省人力、物力、财力的最佳模式。
4.7 学科建设与系统建设相结合,促进学科数据库资源建设的完备性
学科建设与系统建设相结合,是指以学科建设为目的,学科信息网络资源中心与专业系统相结合,这样,可进一步提高相应学科资源建设的完备程度。经济、金融、财税等部门利用公用通信网和专用通信网建立了相应的全国性信息系统[8],这为我国社科数据库信息资源建设奠定了基础。再加上负责学科网络资源中心建设的信息部门在人员素质、硬件设备、信息来源等方面都有可靠保证。这两方面结合可起到相互补充的作用,从而保证社科数据库信息资源建设的学科完备、学科资源相对完备。
4.8 注意维护,及时更新
由统计表知,社科数据库能做到经常更新的仅为41%,而年更新量在50MB以上或5000条以上的比例仅为10%。这样,多数数据库由于不能保证数据及时更新,使花了很大力气建起的数据库,随着时间的推移,贮存的信息的价值会越来越低,最后成为死库。因此,数据的不断更新是保证一个数据库生存的活力。所以,每个建库单位都应注意数据库的维护,并及时对其进行更新。