图书馆馆藏文献数字化——虚拟图书馆信息资源建设的重要内容,本文主要内容关键词为:图书馆论文,信息资源论文,重要内容论文,文献论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G250.76 G253
1 图书馆馆藏文献数字化的意义
随着网络技术的迅速发展,利用电子网络远程获取信息与知识的虚拟图书馆已成为图书馆未来的发展方向,图书馆将成为信息高速公路上的重要节点。虚拟图书馆的出现和发展,直接引发了传统图书馆的重新定向问题。传统图书馆欲在网络环境中生存并得到发展,必须在信息资源建设、信息服务、管理方法、队伍建设等方面作出相应的调整。
在网络环境下,人们不再重视对信息载体的获得,而是注重对信息的有效吸收。为适应这种变化,图书馆不能只局限于向用户提供本馆文献,而应提供包括网络信息在内的所有可得信息。因而图书馆信息资源建设的对象就不再是传统的文献,而是包括传统文献、电子出版物和网络信息在内的涵盖范围甚广的信息资源。图书馆信息资源建设的手段不仅包括入藏文献信息,也应包括对光盘信息、网上信息的组织、导航和租用,以及对图书馆所藏纸介质文献的数字化。总之,图书馆文献资源建设的概念应深化、扩展为信息资源建设。
新的信息交流方式——网络信息交流的出现,使社会成员可以通过网络方便、快捷地获得最新科技信息和其他人类生产的知识与信息,但目前网络信息资源建设中也存在着许多问题:
●网上信息资源在满足用户信息需求方面还有较大差距,特别是网上中文信息数量较少,质量也不高;
●网上信息来源复杂多样,真实性、可靠性无确实保证;
●总体上,网上信息生产处于一种无序化状态,信息的组织化程度不高;
●由于法律上并没有规定网络服务商要承担保存信息的职责,因此网上信息具有易逝性的特点,信息资源的积累较为困难;
●网络上与科技发展密切相关的信息较为丰富,而人文社会科学方面的信息在品种、数量、学科领域等方面均比较欠缺。
由于上述原因,虚拟图书馆在一定时期内并不能完全替代传统图书馆,换言之,传统图书馆将会长期存在,并与虚拟图书馆互为补充,共同承担满足社会信息需求的任务。但这种存在与互补的前提是,传统图书馆要努力适应信息数字化的趋势,充分发挥自己的文献资源优势,为虚拟图书馆信息资源建设做出自己的贡献。
作为社会文化、教育、科研机构,图书馆长期扮演着社会文献保存者的角色,通过文献资源建设工作,将社会知识、信息组织化和序化,形成了其他社会机构所不拥有的丰富而独特的文献信息资源。传统图书馆收藏的大量经过加工、标引、整序的文献资源,不仅是图书馆服务的基础,也是虚拟图书馆重要的信息源。因此,图书馆目前的一项最为迫切的任务,就是馆藏文献的数字化工作。
所谓馆藏文献数字化,是指图书馆利用多媒体技术、数据库技术、数据压缩技术、光盘存储技术、网络技术等技术手段,将馆藏印刷型文献、缩微型文献、音像型文献等传统介质的文献,转化为数字化、电子化的光盘文献或网络信息的工作。
馆藏文献的数字化,可以充分发挥图书馆的文献优势,加强信息资源建设工作,丰富网上虚拟图书馆信息资源的品种与数量,促进虚拟图书馆的发展,同时也为图书馆开展特色信息服务创造条件。
2 我国文献数字化建设工作的进展
我国图书馆文献资源的数字化工作应当追溯到80年代对国外光盘数据库的引进。十多年来,我国光盘数据库及其他类型光盘文献的发展经历了引进后初步利用阶段、二次开发利用和自行研制三个阶段,现在已进入由光盘单机版向网络版过渡的新阶段。
2.1 光盘引进后逐步利用阶段
1986年国家海洋局情报所首先引进CD-ROM ASFA (水科学和渔业文摘)及LSC(生命科学文摘),其后,国内引进的光盘品种逐年增加, 用户也不断增多。高校图书馆和情报机构在引进光盘数据库方面一直走在同行的前列,成为引进和利用光盘的主要用户。
本阶段光盘的主要利用方式有:①课题检索;②辅助采购和进行西文编目;③作为国际联机检索预处理手段,用于人员培训和机检教学;④进行文献统计和计量学分析;⑤对光盘数据库收录的各国期刊及文献量进行调查;⑥用于了解某一专家的学术成就和跟踪某一学科的发展动态;⑦作为情报研究的重要工具。
2.2 二次开发利用阶段
主要利用方式为:①套录数据建立专题数据库,进一步提高光盘的利用率;②提示检出文献的馆藏地址,实现检索一次文献的一条龙服务;③用于建立远程光盘网络,开发光盘检索软件的通信功能,研制仿光盘系统,将光盘技术与通信技术进行整合,实现光盘网络化[1]。
2.3 自行研制阶段
1992年,中国科技信息研究所重庆分所率先在国内推出《中文科技期刊CD-ROM光盘数据库》,标志着我国光盘数据库进入自行研制阶段。
在自行研制光盘数据库的最初阶段,各单位开始独立地建立专题文献数据库,所采用的技术主要是利用现成的数据库工具,载体为计算机硬盘、软盘等,形式以题录型、索引型数据库为主。 据统计, 截止到1997年,全国已有1038个数据库,其中科技数据库占很大比例[2]。
近年来我国许多领域的信息机构、出版社、信息技术公司已开始研制各种类型的光盘出版物,如光盘图书、光盘报纸、光盘期刊、教学软件、游戏软件、音像制品以及图形、图像、数值和多媒体数据库等。其中,中文全文检索光盘数据库的研制与开发,使我国文献数字化工作进入了一个新的历史阶段。
较早的全文光盘数据库有北辰公司的《人民日报》光盘等,而影响较大的有万方数据公司等单位开发的《中国科技文献数据库》,中科院的《中国计算机科学技术数据库》、《中国科学文献数据库》,中国国防科技信息中心的《中国国防科技文献数据库》等;1996年清华大学光盘国家工程研究中心与清华信息系统工程公司联合创办了我国第一部大规模集成化学术期刊全文电子检索系统《中国学术期刊(光盘版)》(CAJR),目前入编期刊已超过3000种。此外,还有北京超星公司开发的扫描版中国现代期刊、档案光盘等。
部分图书馆也已开始独立开发或与公司联合开发,用扫描版或全文版将馆藏文献加工成数字化文献,如上海图书馆将馆藏古籍善本制成数字化文献并上网流通,武汉大学图书馆等制作的扫描版《四库全书》、北京大学未名科技文化发展公司与北京大学出版社联合开发的《20世纪中国思想史光盘资料库》以及上海人民出版社、香港迪志公司、北京书同文公司合作开发的《四库全书》扫描版及全文版光盘等,都是这样的数字化文献。
目前,我国的文献数字化工作已进入由光盘单机版向网络版过渡的阶段,如国家图书馆的电子图书馆工程,提供网上浏览馆藏文献的功能;万方数据公司的ChinaInfo(中国信息)中文检索系统于1997年8月正式进入因特网;国内一些重要的报纸期刊也都制作了网络版,如《光明日报》、《广州日报》、《中国计算机导报》等。
我国港台地区的文献数字化工作开展得较早,在台湾地区,“倚天”全文检索软件应用得最为广泛。利用该软件,台湾制作了电子版的《二十四史》、《全唐诗》等;香港中文大学计划将重要的中国古籍制作成电子版,已完成先秦部分,总字数已超过1亿汉字。
中文光盘及网络信息开发研制工作,为我国的虚拟图书馆建设及图书馆虚拟馆藏建设创造了必要的条件。同时,入藏光盘出版物以及自行研制或合作开发光盘文献,也成为我国图书馆文献数字化建设的重要手段。
3 图书馆文献数字化中的关键性问题
3.1 数字化文献生产的组织机构
随着对数字化文献的广阔市场和发展前景的认识的深入,我国从事数字化文献生产的机构日益增多,主要包括各类型文献信息机构或其下属的经营开发性公司、出版社、报社和期刊社、信息技术公司等。文献信息机构多采用与专门的信息公司联合开发的方式,由文献信息机构提供文献底本,由信息公司负责技术实现。部分公司资金充裕,采用大工业生产方式制作数字化文献,如中国学术期刊中心、书同文公司等;部分公司受资金等因素制约,规模较小;有一些文献信息机构则采取事业单位的管理体制来进行数字化文献生产。
3.2 数字化文献的选题
数字化文献是否能有市场,选题至关重要。在我国光盘文献生产的早期,以图像文献为主要内容的光盘,如各种美术、文物、摄影等占有绝对地位。近几年,人们逐渐认识到文献型光盘出版物的重要,各种文献型光盘的数量增加很快,有的已可上网传播。
图书馆馆藏文献中有不少适合转化为数字化文献,但在转化时需注意:
●图书馆应将本馆所藏特色文献转化为数字化文献,如古籍善本、近现代重要期刊和图书、历代档案、非书资料和各种影音资料等;
●在文献数字化过程中,既要考虑文化保存和传播功能,又要考虑市场效益;
●要加强数字文献资源建设中的协调与合作,避免重复开发建设。
3.3 数字化文献的主要类型
在将传统文献转化为数字化文献时,主要有两种数据存贮形式:
一是采用扫描录入方式将文献或图片资料按原貌逐页存贮为图像文件,并为其编制题名、责任者、分类、主题词或关键词、名物等索引,利用索引可以检索并显示索引词所在页面的图像文件。图像文件的存储、处理、压缩、转换等可通过目前较通用的扫描软件如“Photoshop ”或“扫描大师”等来实现。每一图像文件赋予一个文件名,作为该文件的地址,与对应的索引记录相联接。索引可以用数据库方式建立,以某条记录所揭示的对应页的图像文件名为地址与该页图像相联接。该方式的优点是可以保存文献的原貌;制作技术相对简单;可用于保真度要求较高的古籍、档案、手稿、照片等资料的数字化。缺点是占据存贮空间较大,即使采用较为完善的数据压缩技术,所能存贮的文献内容也远远小于用文本方式存贮的内容;标引工作量大且技术要求高;不能逐字、逐词检索到某字词所在的句、段。
二是用文本方式存贮文献内容,辅之以全文检索系统构成的全文检索数据库。全文检索既可以通过对数据库内的全部字词编制索引(字的内码与地址相对应)的方式对数据库中的文字进行逐字词检索,也可不编字词索引而采取逐字词遍历的方式从文库中查找相应的字词,前者的缺点是索引占据的存贮空间较大(中文全文数据库字词索引所占空间大约是原文本所占空间的5倍左右),但检索速度较快; 后者则可以节省编制索引所占据的空间,但检索速度较慢。这就是人们所熟知的“以空间换时间,以时间换空间”的原则。全文检索数据库除可以对全文库进行逐字词检索外,还可配以题名、责任者等索引辅助检索,也可以对文库中的人名、地名、关键词等编制规范文档,进行后控,以提高查全率和查准率。目前市场上成熟的中文全文检索系统还可以实现模糊检索和逻辑检索,并可为用户提供下载、打印等功能。该方式的优点是可以逐字词快速检索到所检索字词及文库中所有涉及该字词的句段,因此,全文检索方式是学术研究和信息检索的理想的查询方式;用文本格式存贮占用空间小;网上传输占用机时短,因而较之扫描版可以大大节省通讯和数据传输费用。缺点是不能保留文献原貌,原文献的字体、着重符号等编辑信息无法保存;文本录入过程中会出现较多的文字错误,从而造成较大的校对工作量;如果缺少必要的规范和后控,全文检索的查全率和查准率都较低。
也可以将上述两种存贮方式结合起来,即全文版挂接扫描版。理想的制作方式是先制作扫描版,然后利用OCR 技术(光学汉字识别技术)将其转换为文本格式,从而建立文本与页面的一一对应关系。使用时,用户可用全文版检索到特定词所在句段,必要时可调阅该句段所对应的页面文件(扫描版),用以观看文献原貌或校对文字错误。
3.4 支持全文检索的汉字库容量问题
中文文献数字化的另一个重要问题是支持全文检索的汉字字库问题,全文检索系统功能的发挥,依赖于汉字库的容量。目前中文全文检索系统所涉及的文献不仅包括简体汉字的现代文本,也包括繁体汉字的古代、近代文本。国家标准一、二级字库包括常用简体汉字6763个,仅能支持简体字文本的全文检索,国家标准扩展汉字库(GBK)收字2万个,ISO10646汉字库收词2.7万个, 可以在一定程度上支持繁体汉字文本的全文检索。但用这些字库处理古籍是远远不够的,因为中国古籍所使用的单个汉字的总数在7、8万以上(如《康熙字典》收字近5万个)。 所以,必须有容量相当的汉字大字符集用以支持古籍电子化工作。据悉,长沙某研究所已研制成10万字的大字符集,希望它能够早日被作为国家标准推广,使古籍全文检索能够有足够的字库来支持。
即使汉字库的容量非常之大,在具体工作中,仍然有一些文字无法用字库中的汉字检索,如古代钟鼎文、甲骨文、篆字或其他图形汉字等。对于这些表外字,需用图形文件建立一个表外字库,用该表外字库检索文本中相应的表外字(该技术可用于古文字研究全文检索数据库的制作)。如果不欲以这些表外字作为检索途径,则可以采用较为简单的办法,即将这些字扫描成图形文件,挂接在文本中。这些汉字可以显示,但不可检索。
3.5 数字化文献的后期制作工作
在图像版数据库或全文检索数据库的基础上,可以用光盘刻录机制作成光盘自用或者商业发行,或是制成网络版放在服务器上提供远程检索服务。
4 我国文献数字化工作亟待解决的问题及解决方案
4.1 数字化文献市场开拓与投资方式中的问题
由于数字化文献的市场尚在拓展之中,真正商品化的数字化文献市场机制还不完善。十余年来,国家已投入10亿元制做了近千个数据库,但据有关统计,其中有45%是科技方面的数据库,真正能有市场价值的只有百余个,且仍然以文摘、全文和科学数据库为主。在这些数据库中,容量小的只有几兆,大的也就几百兆,能够提供商品化服务的数据库不到10%,且生产周期长,更新速度慢,数据不齐全,缺少连续性、系统性、内容重复、分散,导致数据记录信息的时效性比较差,长期以来,只收到少量的服务费用,还谈不上数据库的自我维持,大多数是年复一年财政上的不断输血。所以,很多数据库都难以再维持下去。根本谈不上更新和服务[3]。
由于市场化程度低,只有少数生产数字化文献的机构开始实现投入产出的良性循环,如中国学术期刊(光盘版)电子杂志社采取市场化运作方式,向银行贷款,大工业生产,已开始收支平衡。但多数机构采用财政拨款或小规模融资、滚动投入的发展办法,很难形成规模效益,也很难实现市场化。今后,图书馆等机构在数字化文献开发中,应考虑采用市场化的运作方式。同时,数字化文献是高科技、高风险项目,有许多产品社会效益突出,但经济效益较低,或者经济效益的体现需要一定的时间,国家有关部门可考虑建立风险基金或风险贷款,以支持数字化文献工作。
4.2 数字化文献的版权问题
各种类型数据库的建立多是利用原有的文献资料编辑而成,有的甚至是全文献录入,这必然牵涉到版权问题,如对所采用的资料的版权付费问题,以及数据库本身的知识产权保护问题。从国际通行的做法来看,数据库产品包含了开发人员的智慧投入和辛勤劳动,理应受到法律保护;数据库中所收录的资料也应向在保护期内资料的原创人员支付版权费用。
目前我国有关的数字化文献开发生产机构版权观念不强,主要体现在向原创者支付版权费用的意识不强,不经允许即直接采用原始资料,或以少量经济补偿的办法获得使用权。目前看来,产生的版权纠纷事件还不多,但已开始出现;随着公众版权意识的增强,这个问题将有可能威胁到许多数字化文献开发生产机构的生存和发展。
今后,我国在版权法的修改补充上,应注意在数据库的版权问题上作出较为详细具体的规定;对于开发生产单位来说,也应提高版权意识,避免版权纠纷。
4.3 数据库生产中有待解决的关键技术问题
4.3.1 提高数据库检索效率问题
由于数据库制作与标引方面的问题,我国生产的各种数据库的查准率和查全率都不尽如人意。应注意提高索引库的标引质量,对于文本中出现的人名、地名等专门词汇和关键词,应建立规范档并进行有效的后控,作为用户检索界面的重要组成部分,以提高检索效率。
4.3.2 自动标引与汉语字词的自动切分问题
目前许多全文检索库提供的检索途径比较少,主要原因在于标引需要花费大量的人工和时间。由于提供的检索途径过少,特别是文中关键词未被提取,使得检索效率较低。如果能够利用机器自动标引,则可以节省人工和时间,而自动标引的前提是汉语字词的自动切分问题的解决。目前已有一些解决方案,但实用化尚需时日。特别是目前研制的汉语字词自动切分技术仅适用于规范的现代汉语文献,而不适于古代汉语及近代半文半白的文献。
4.3.3 简体数据库转换为繁体数据库的问题 我国台湾、 香港等地通行繁体汉字,内地数据库进入港台地区的最大障碍在于简繁转换问题。由于简体与繁体字并非一一对应,即许多是一对多的关系,因此简体版数据库转换为繁体版数据库后错误百出,影响使用。此外,港、台地区所用的繁体字与大陆所用的繁体字也有所区别,这更加剧了简繁转换的困难。现有的智能繁简转换系统仍不能达到百分之百的正确转换率,今后应研制功能更强的智能化的繁简转换系统。
4.3.4 数字化文献上网传播时的加密问题和收费使用问题
通过加密和授权使用,辅之以网上信用卡支付等方便的支付方式,可使网上信息制作机构通过服务获得收益,从而保证信息维护、更新和建设所需的费用,使得数字化文献建设真正走上良性循环的道路。
图书馆在数字化文献建设中还应当加强统一规划,进行共享,避免重复浪费。特别是对于网络信息而言,虚拟图书馆环境使存储在某个地方的文献可以方便地被其他地方的用户使用,为避免网上信息的冗余与浪费,保证网上文献信息资源的全面、充足与系统,客观上要求在数字化文献工作中加强馆际协作协调,使各馆上网信息资源各具特色,互不重复雷同。
另外,图书馆文献数字化工作要与利用网上信息、建设虚拟馆藏的工作互相补充。图书馆可以利用超文本链接技术,将网络上现有信息进行虚拟链接,建立图书馆的虚拟性馆藏;也可通过网络与现有商业性数据中心等信息中心链接,租用其数据库或有关光盘文献。在这个过程中,要做好知识组织工作,包括信息的分类、主题标引、编目,并进行网络信息导航,以充分发挥图书馆传递信息的中介职能。
标签:图书馆论文; 全文检索论文; 文献论文; 文本分类论文; 虚拟商品论文; 虚拟技术论文; 虚拟网络论文; 文本分析论文; 数据检索论文;