加快科技信息服务业现代化进程_科技论文

加速科技信息服务业的现代化进程,本文主要内容关键词为:服务业论文,科技信息论文,现代化进程论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

Abstract Modern information service is using computersas the main processing tools.The database is the kernel ofmodern information service, and is also important. inevaluating a

country's

capability

utilize

informationresources.constructing,robustness and self- development ofdatabase constitute the main part of information servicesprovided by CDSCTIC. This article analyzes the status ofdatabase development in recent

20

years

through

thestatistical data and compares it with that in

foreigncountries.Some opinions are given about the construction ofprofessional document databases in China.

Keyword Information service Document database/Databaseconstruction

现代信息服务业是指以计算机为主要处理手段的信息服务业。而数据库则是现代信息服务业的核心,也是一个国家信息资源开发利用程度的重要标志。80年代以来,发达国家以每年20%左右的速度增长,美国的数据库年产值80多亿美元,日本1886亿日元(约15亿美元),西欧近20亿美元。据1991年初统计,全世界已有5000多个数据库, 2200 多种CD—ROM光盘数据库,近几年来,超文本、 多媒体技术的迅速发展和应用,使数据库进入一个声、图、文一体化的崭新发展阶段。美国的数据库无论从数量、质量和品种方面,还是从利用率和产值方面,都居世界绝对领先地位。美国有3000多个数据库,有2300多个从事数据库生产、服务和销售的公司。其中较大的有10个联机服务系统:Dialog、OBIT、BRS、MEDLAS(MEDLINE)、CAS、OCLC、DMS/DRI、Profile、DUN andBradstreet(邓白氏)、DOW Jones Damkers Report(美联社)。洛克希德公司的Dialog系统,就有430多个数据库,3亿个记录,其中文献数据库186个、事实数据库82个、全文数据库86个。在全世界的100多个国家和地区有14万个用户。日本的数据库产业起步较晚,但发展很快。日本全国有2354个数据库,其中国产的约800个。 从事数据库服务的机构有213个。日本的数据库,除国产的800个以外,大多是从美国引进的。西欧的数据库产业虽然比美国要落后些,但也有很大的潜力。据1990年统计,西欧国家共有数据库1200多个,其中德国300多个,英国280个,法国250个,意大利100个。欧共体有100 多个联机系统通过分组数据交换网组成EURONETDIANG(欧洲直接信息存取网络),是一个基于分组交换网的大型信息资源网络,它互连了德、法、英、瑞士、意大利、西班牙、比利时、瑞典的分组交换网[2]。市场潜力很大。

世界各主要国家数据库业概况见表1。

表1 世界各主要国家数据库业概况

注:数据来源于国家科委情报司统计资料:美国(1991年初)、日

本(1991年初)、西欧(1990年)、中国(1991年底)。

1 我国数据库现状

我国的数据库业是从70年代起步的,其发展采取了国家确定重点自主开发和引进国外数据库资源并举的方式。1975年为配合汉字信息处理系统工程,由中国科技情报所和北京图书馆组织全国500多个单位, 用了3年时间,编成了一部有10万余条词的《汉语主题词表》, 为在全国范围使用汉字叙词表,建立汉字文献数据库打下了基础。同年,北京文献服务处开始引进美国政府研究报告GRA数据库进行试验服务, 以此为基础,北京文献服务处目前已建成中西文数据库16 个, 文献记录总量1200万篇以上。在“七五”期间,国产汉字数据库和管理信息系统发展很快,具有初步规模的数据库达千余个,分布在科技、工程、商业、金融、财政、交通、税务、文教、卫生、新闻出版、能源、公安、民政和国家事务等各个方面。据1991年底的统计,已登记备案的数据库有 806个,总记录数达5000万以上,“七五”期间总投入为5~10亿元[2],其专业分布见表2。

表2 我国数据库的专业分布

部 门

数据库数量 占百分比

部 门

数据库娄量 占百分比

党政 172.1%农林 18

2.23%

劳动福利 36

4.46%资源 48

5.95%

军事 3

0.37%能源 19

2.75%

计划统计100

12.4%交通运输 49

6.07%

财政金融 23

2.85%轻工

4

0.49%

文教203 25.18%冶金 15

1.86%

科技136 16.87%建筑环境 11

1.36%

邮电新闻 253.1%机械电子 13

1.61%

卫生体育 27

3.34%航天 15

1.86%

商业贸易 44

5.45%合计 806100%

在806个数据库中,有509个标明了所含的信息量。其分布见表3。

表3 我国数据库记录量分布

记录数

1万以下 1~10万 10~100万 100万以上

数据库数量 283 16354 9

占总数百分比

55.931.7

10.71.8

可见,我国的数据库绝大部分(占87.6%)数据总量在10万条记录以下,多数运行在微机上。

据“数据库指南”(1992年)提供的数据,目前我国已建成的数据库中,有连续生产能力,有一定规模并可以向社会提供服务的数据库分布为:基础科学类13个,工业技术类46个,农、医类8个,交通运输类4个,经济、管理类33个,综合类19个,文教、社会及其他有14个。在基础科学和工业技术方面的59个数据库中,文献型数据库有25个。

我国基础科学和工业技术领域已建成的文献数据库共25个,记录总量为144.62万条,以联机检索开展服务的数据库18个,占72%;用其他形式,如出售数据库、软盘等5个,占20%;采用微机服务的11个, 其中有的同时采用联机检索和微机服务,而有5 个数据库只采用微机一种服务方式,数据库的信息利用不能充分发挥。这25个文献数据库基本上都是专业文献数据库,记录量大多在1万条以上,只有3个数据库,记录量在1万条以下。25个文献数据库使用的词表约有19个, 几乎是各库有各库的词表。在专业文献库建设中,这是一个十分突出而又棘手的问题。

国防科技文献数据库建设,在80年代有了很大发展,据不完全统计,已建成的文献数据库有49个,总记录量为1329万条以上,开展联机检索的数据库22个,占总数的44.9%;采用其他形式的,如出售软盘、光盘、磁带等有21个,占42.8%。国防科技文献数据库有1/2以上未开展联机检索,只运行在微机上,也不出售软盘和磁带。国防科技信息中心已建成的文献数据库有16个,并开展联机检索和出售软盘、磁带服务,分布在全国20个城市的用户终端已达到190台左右, 成为我国目前最大的国内联机情报检索系统。该系统的累计检索课题达4万个以上。

与发达国家,特别是美国相比,我国的数据库业还很落后,但经过10几年的努力,我国已建成了一定数量的数据库,目前的问题是数据库业产值很低,全世界信息服务业(包括咨询业)1991年产值达2030亿美元,而我国包括咨询业在内只有30多亿人民币,占世界总产值的3 ‰左右,占我国GNP的比例约2‰,与发达国家占GPN2%相比,差距很大。我国建成的数据库中只有少数几个数据库,如中国企业、公司及产品数据库(事实数据库)、科技成果库(事实数据库)、中国专利库(文献数据库)、中文期刊篇名库(文献数据库)、法规库(全文数据库)等能够“以库养库”,进入良性循环,绝大多数数据库要靠国家投入才能维持发展。

2 我国数据库建设主要特点

2.1 发展不平衡

我国已建的数据库多数为文献型的科技和工程技术数据库,几乎占总数的一半(表4)。而发达国家的数据库中,商业、 金融方面的数据库占很大比重。如日本1989年2128个数据库中(包括引进国外的),商业数据库881个,占总数的41.4%。从数据库形态看, 一次信息(全文、事实、图形信息)占71.8%,二次信息(目录、文摘)占28.2%。我国的数据库多为二次信息库。

表4 我国已建数据库分布

类 别 数 量 百分比

科技和工程技术

360 45%

文教卫生 234 29%

经济、金融、商业 130 16%

社会与其它81 10%

2.2 建库规模小水平差

我国数据库处于初建阶段,数据库容量小,时间覆盖范围也小,时效性差,标准化程度也不高。基本上是各自为战,自给自足。有些数据库信息总量在1万条以下,有的只有几千条,多数运行在微机上, 没有形成网络。影响流通,影响产值。

2.3 生产手段落后缺乏管理

我国的数据库生产目前仍处于自给自足,“手工作坊”式的低级生产阶段,没有形成专业化规模生产能力。数据库生产及数据库服务业缺乏管理,基本上处于各自为政,各行其事的状态。这不但造成资金浪费,重复劳动,使数据库生产难以上规模、上技术。也给用户造成极大不便,影响使用,影响产值。

3 对专业文献数据库建设的几点建议

3.1 必须进行充分的可行性论证

3.1.1 经费支持 数据库业是一个资金密集型产业, 建设一个数据库及库建成以后开展服务都需要有一定的资金投入,而我国的数据库建设普遍感到资金不足,这固然与我国经济基础不够雄厚有关,但目前存在着的社会缺乏数据库的发展意识和使用意识的现象极大地影响着数据库业的发展,如果决策者们对建设和使用数据库缺乏自觉性,数据库建设就难以有足够的资金保证。

3.1.2 劳动力保证 数据库业同时又是一个劳动力密集型产业, 尤其在现阶段,我国还是以“手工作坊”式的低级生产手段来建库,无论是建文献型数据库,还是数值型数据库,均需投入大量劳动力进行数据加工。要解决这个问题,根本的办法当然是“上技术”,但在目前,由于自动标引尚处于试验阶段,还不能用它来减轻数据加工的劳动量,我们不妨由两个渠道来解决这个问题,一种办法是采用“机辅标引”,即将建库所用的主题词表存放于计算机中,建成一个主题词库,再设计出数据加工(标引)时使用的各个程序供标引人员上机标引时选择合适的主题词使用。用这种办法可以节省标引人员反覆查表所需要的时间,并大大减少了由于人为原因出现的差错,它适用于采集原始文献的数据加工作业。另一种解决劳动力不足的办法是采用“数据套录”,所谓“数据套录”,就是从已建成的数据库中,检索出特定专业领域的文献记录在软盘上,再转换成ISO/2709格式或设定的格式, 然后在相应软件(如Micro CDS/ISIS软件)支持下,在微机上建立专业数据库。这种办法不但解决了劳动力不足的问题,而且还解决了专业文献库建设时数据来源缺乏的问题,也避免了重复劳动,达到了资源共享。我们在建设“机场工程科技文献库”时,比较成功地运用了这一技术。

3.1.3 用户预测 用户是数据库的生命力之所在,有了用户, 数据库才有其存在的价值和意义。我国目前的数据库建设偏偏在这点上论证不足,为了报奖而建库,或遵从某长官意志而建库并不鲜见。这种现象必须改变。

3.2 使用词表的选取

文献数据库建设中,使用词表的选取或编制是一个十分突出而又棘手的问题。从标准化和方便信息服务方面考虑,最好能使用统一的词表,但实际上是行不通的,譬如已形成国标的《汉语主题词表》和已形成军标的《军用主题词表》和《国防科学技术叙词表》在建设专业文献库时并不能满足要求,为了建库,还得选取或编制适合自己的词表。目前基础科学和工业技术文献数据库有25个,使用词表竟多达19个。

建库时,对于词表的选取或编制不外乎下面几种办法:

①选取一个与自己专业相近的词表作为本库的使用词表。例如:属于化工系统的单位在建自己的数据库时,不妨选用《化工汉语主题词表》;国防科技部门建库时尽量选用《国防科学技术叙词表》。

②向《汉语主题词表》或《军用主题词表》的某一部类靠拢,适当增加批量本专业的词汇,编制一部本库所用的词表。这样做既可节省编表时间,又便于标准化。例如《中国建设科技文献库》的使用词表《建设汉语叙词表》,基本如此。

③自行编制主题词表。当上面两种办法都不适用时,只好自行编表,这是一种既费时耗力,又不能保证质量的办法,应当尽量避免。我们在建“机场工程科技文献库”时,采用半经验法编制词表,即从现有的几部相关词表中抽取一定数量的词作为词表的基础词,再通过标引一定数量的文献,补充批量的主题词,经过词的规范化处理后,形成非正式的《机场工程主题词表》,作为以后数据加工时标引的依据,随着标引数量的增加,不断补充新词(自由词),待积累到一定数量后,根据规范化原则,参考自由词词频,将自由词作规范化处理,升为主题词,编制成正式的《机场工程主题词表》以供使用。

我们在编制词表的过程中,尽管利用了计算机辅助编表,但在选词、词的规范化处理、汉英对照等方面,还是投入了相当大的劳动力,也耗去了很多时间。如果再要建立词的等级关系、用代关系,其工作量会更大。建设数据库本来就是一项劳动力高投入的工程,再加上一项高投入的编制词表工作,势必会使建库工作量增大,经费增加,周期延长。这点,决策者们在论证时一定要充分考虑到。

3.3 数据来源的保证

不管是建文献库,还是数值库,数据来源是一定要保证的。数据可从两个方面获取,一方面是本单位的馆藏,另一方面可从其他数据库通过数据套录获取。利用数据套录来建库,也可称为二次建库,可能会涉及到一个敏感的“版权”问题。在建库和建成以后的开发、生产、应用、贸易等等方面可能涉及到的版权问题大致有:①保密问题;②数据库的著作权保护。它又包含两个方面的问题:①构成数据库的软件本身;②作为数据库内容的数据所形成的作品。对于数据库,尤其是专用数据库,凡内容是国家的重要档案或企业内部的经营、管理信息、技术秘密、营业秘密等不能为外人知悉的信息,必须由国家的法律和法规予以规范,以保护国家和企事业单位的权益,防范他人用不正当手段窃取数据库有关信息。数据库作为一种利用电子技术形成的新型“作品”理应受到著作权的保护。数据库的构成包括用于数据库的计算机软件和作为数据库内容的“信息”,对于软件,根据计算机软件保护条例,软件开发者对其所开发的软件(包括数据库管理系统、应用数据库软件、数据处理软件),享有著作权。软件著作权的保护期为25年,期满后,还可申请延续25年。对于构成数据库内容的“信息”则主要适用著作权保护。数据库具有储存数据、检索数据的功能。使用数据库所存的数据,并不是软件,而是信息资源。从这个意义上看,数据库可视为一种编辑作品。信息是一种资源,本着资源共享的原则。建库者在享有建库(或者说编辑)著作权的同时,又本着资源共享的原则,在市场运行机制下,开展出售数据库、软盘、磁带等服务,与法律是不违背的。在建设数据库时,从其他数据库获取数据来源,一方面弥补了本单位建库时数据来源不足的困难,另一方面也大大节省了劳动力,加快了建库速度。不失为一种既经济又快捷的建库之路。

标签:;  

加快科技信息服务业现代化进程_科技论文
下载Doc文档

猜你喜欢