文献资源数字加工与发布标准研究,本文主要内容关键词为:文献论文,加工论文,数字论文,标准论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 背景
目前,国内众多的图书馆以及其他相关图书情报机构,正在进行或即将进行各种图书馆文献资源数字化项目。对文献资源数字加工标准的研究和把握,不仅是对文献资源进行数字加工的前提和基础,而且是加工生成的数字资源得以长期保存和广泛共享的重要保障。因此,文献资源数字加工标准的研究和厘定,相关原则和格式标准的提出和推荐,对于我国图书馆界的数字图书馆资源的建设,有着重大的指导意义和参考价值。
2 制定标准的原则
首先,数字加工是一项非常复杂的工程,其复杂性不仅源于不同的应用环境和需求,而且源于数字资源的多样性。同时,数字加工又是一项资金密集型的工程。进行文献资源数字加工需要大量的资金投入,以便支付设备、场地和人员所需的费用。因此,如何做到投入和产出的最佳效益平衡,达到数字资源的长期保存和广泛共享,是制定和选用标准时需要重点考虑的一个方面。
其次,文献资源数字加工也是一项风险很大的工程。数字化、网络化的技术发展可以说是日新月异,数字加工技术在不断演变和快速更新。在数字化的起步和准备阶段,应尽可能的选择有着广泛的应用基础,并具备升级和转换条件的成熟技术,才能够最大限度地减少风险,避免重复和浪费。
因此,有关文献资源数字加工标准的推荐和提出,必须遵循以下几项原则。
(1)前瞻性:在考虑当前需求的同时,尽量考虑未来的需求,以便提高数字化产品长期使用的可能性;推荐采用对专门文献资源的原件内容进行数字化加工所适宜的最高分辨率;推荐采用可以避免在未来进行再次扫描的扫描级别,以尽可能减少重复加工的可能;
(2)专指性:充分考虑不同类型文献资源的特点和对其进行数字加工的特殊性因素。在对不同类型文献资源的特点进行分析的基础上推荐相关的数字化加工标准;
(3)标准化:在标准制定过程中,尽可能直接引用和采纳国际上已经普遍应用的技术标准和规范。在多项技术标准共存的条件下,优先考虑和推荐国际标准、工业标准和非个例的(非私人的)行业通用标准;
(4)技术无关性:当前的技术局限不应成为确定文献资源数字加工标准,比如扫描级别等的因素。
(5)局部的可包容性:文献资源数字加工工程是高投入工程。在充分考虑到我国经济实力、技术加工成本、实现时间等综合因素的基础上,提出最低标准的概念作为数字加工项目的实施底线。
3 数字资源类别与特点分析
数字资源是可以通过计算机网络获取和利用的各种信息资源的总和。目前的数字资源从创建和生成角度分析由两大类组成:直接(原生)数字资源和转换(再生)数字资源。
(1)直接(原生)数字资源
电子文本:如电子版的图书、期刊、教参书、论文等;
数据库:对各种信息数据的关系型结构化组织,如基因图谱、各种检索目录等;
知识资源:如知识库、百科、年鉴、工具书、辞典、传记、会议录等;
网络资源:包括网址导航、各类网络服务,如新闻、BBS、电子邮件、游戏等;
软件资源:包括各类管理软件、工具软件、程序设计软件等;
短信息服务:如手机用短消息、笑话、图库、音乐等移动资源;
图像资源:如照片、图片、幻灯等;
视频资源:如VCD、DVD、LD、HDTV等;
音频资源:如CD;
动画资源:如Flash动画、3D动画、虚拟现实等;
多媒体综合文献资源:如PowerPoint电子演示板,DOC文件等。
(2)转换(再生)数字资源对象
纯文字类印刷本:其文字边缘明显规整干净,没有色调变化。如含有文字和简单图表的图书等;
图书、报刊所含插图:其插图特征分为雕版(含凹雕、凸雕)、平板和胶版印刷;
照片、图片:包括明信片和各种规格尺寸的照片;
手稿、信件、档案文牍:多为手写,或因时代原因印刷模糊的对象,如信件或草稿、草图等。通常尺寸较规则,大小在A4-A3左右。从保管原始文件的角度考虑,数字图像要求能反映出其原始物理特征,即原始的特点和手法。许多原始材料已变色,或色泽污染或纸张易脆。因此其数字化影像通常显示出变色、严重折痕和各种复杂色调。
古籍(刻印本图书、方志):多为有数百年历史的图书,存世稀少或为孤本,或者有重要纪念意义,属各馆珍藏。其物理实体具有的收藏价值远远超出其内容文字所蕴含的信息;通常因表面尘垢、烟熏火燎、水浸污染,以及其他原因而损坏,造成文字难以识别。纸张通常较薄,色彩偏黄,刻版印刷,文字较大。
古籍(彩绘本图书、契约):以图像为主,多为散页,其他特征同刻印本图书。
古籍(拓片):未托裱之原拓,纸张质地多很薄,长年叠放,折痕明显。幅面较大或超大,字体不小,但印鉴相对精细微小。由于石材常年受自然界风雨侵蚀,部分字迹或图案残损模糊。色彩以墨色为主,少量朱红色。国外不多见。
书画:包括印刷或手工完成的艺术作品。如水彩画、素描、油画、海报和书法等。通常尺寸较大或特大,绘制精细,有色彩要求。古代文物:包括木制、砖石、青铜、陶瓷、泥塑等类文物器皿,属三维物体,形式多样,具有丰富的文字和图案内容。
缩微平片、胶卷:包括16mm、35mm、70mm缩微胶卷和105mm的缩微平片。
摄影胶片:正片或负片,基于塑料或玻璃,如35mm胶卷、幻灯片,4×5,5×7和8×10英寸的摄影胶片。
地图、遥感图、建筑设计图等:幅面尺寸很大,含有精细的内容,线条图表和文字。出自人工手绘或者印刷,有严格的比例尺和代表不同内容的特别地理标记。有彩色或黑白、矢量图或位图之别。
视听资料:包括摄像带、录像带、电影胶片,以及录音带、唱片等。
上述资源为现代图书馆的收藏主体,也是现阶段数字图书馆资源建设的着眼点。仅从数字加工的角度来看,主要关注对象是转换数字资源;但若论及发布的标准和应用,也不能遗忘原生数字资源。有关音视频数字资源加工发布标准,由于涉及的应用多样化,推荐统一的标准存在一定的难度,本文不予讨论。
4 资源加工级别与用途
本文选取传统印刷型纸基和胶片类资源推荐资源加工级别。根据扫描加工和发布的不同要求,传统印刷型纸基和胶片类资源可再分为两类:图书、期刊、报纸、教参书、论文类,以及散页为主照片图像类。不同资源类型的数字加工级别的制定因其资源特点的不同而有所区别。
参考国外经验并结合北京大学图书馆的实践经验,上述资源的应用级别一般定义为“档案典藏”、“复制加工”和“网上发布”等三个级别。其中由于用户对网络图像有特殊要求,要同时兼顾图像的清晰度和网上传输速度,因此将网络图像进一步定义为“精细”、“普通”和“袖珍”等三个级别。
见表1“资源加工级别的定义与用途”。
表1 资源加工级别的定义与用途
级别
表示用途
适用范围
符号
供档案保存及必要时高品质出版印刷使用,不供上网。可作格式转
档案典藏级 A换和复制的母本。文件格式为TIFF,不压缩或无损压缩。对不同类各类需要长久保存,有相当收
Archives 型的对象,其色彩、扫描精度、位深等参数的具体要求也不尽相同, 藏价值的文本,图像资源。
Image以最大限度体现原件细节为底线。
拓片,地图;工程图等超大幅
高精度保存级TIFF文件占用的空间很大,为了使用方便,在保存 面图像;4×5,8×10英寸摄
复制加工级
级和浏览级间增加此级别用做派生浏览级图像的母本文件,或者 影胶片等信息含量丰富,体积
Process P
供专家、合作伙伴及专门组织的成员在网上有权限的访问以及较 大的图像。图书类资源的文字
Image高品质的印刷。屏幕显示长边约6000像素以上。以JPEG/JFIF/PNG 图像因其TIFF/G4压缩后文
格式保存,轻度压缩。 件体积不大,没有做此级存储
的必要。
网上发布级Display Image
拓片,字画,地图,古籍彩绘
供网上访问,下载和粗略打印。屏显尺寸相对较大,长边像素本,书影,手稿,珍贵照片,古
精细浏览级 L3000dpi左右。以JPEG/JFIF/PNG格式保存,中度压缩。 籍珍善本,孤本等需要在网上
放大浏览的资源。
普通浏览级 M供网上访问,下载和勉强打印。通常以屏幕显示尺寸为度(宽<
所有适于网上传播的静态图
=1024;高<=768),以JPEG/JFIF/PNG格式保存,高度压缩。 像资源。
袖珍浏览级 S缩略图,长边像素在90-120之间,以256色的GIF或高度压缩的书刊文件(多幅合成图像)的封
JPEG格式保存。面,影视海报标贴,单幅的照
片图像。
这里需要注意的是,图书报刊文件类资源通常在原扫描精度的基础上,将若干有序的单页图像合成为一个PDF、HTML或XML格式的电子文档,浏览时其页面图像大小可根据需要调节。有些电子图书生成软件,在打包时可适当对原加工的数字图像进行再次压缩。例如将以300DPI扫描的原始图像压缩为150DPI的浏览图像,以便提高网上传输的速度。
5 资源加工与发布的推荐标准和最低标准举例
限于篇幅等原因,本文仅以图书类资源和拓片类资源为例,说明资源加工与发布的推荐标准和最低标准。(更为全面的文献资源数字加工与发布标准,见科技部《我国数字图书馆标准与规范建设》项目网站,http://cdls.nstl.gov.cn/2003/Whole/TecReports.html#allreports)
(1)图书类资源:该类资源以黑白文字及图表为主,灰度和彩色插图为辅;尺寸规格统一,主要由封面、目录、提要和正文等部分构成,数字加工项目通常有对目录、提要或正文的文字进行OCR的要求。基于此,在进行数字加工时,首先要充分考虑OCR的需要,建议以600DPI的精度扫描,印刷字体越小(如7号字以下),扫描精度要求越高;其次,文本和插图可以分别以不同的精度扫描,并以不同的格式存储。例如文字页以600DPI的TIFF/G4,插图以300DPI的JPEG;再次,发布时建议统一转换成PDF、HTML、XML或CEB、PDG等电子文档格式。见表2“图书类资源数字加工推荐标准和最低标准”。
表2 图书类资源数字加工推荐标准和最低标准
主要参数
规格级别分辨率(DPI) 文件格式
色彩位深
推荐
最低
保存A
600 300 TIFF/G4,JPEG
1位黑白
<16开 发布8位灰度 300 150 PDF,HTML,XML
24位彩色 CEB,DJVU,PDG
RGB
封面S
72 72
JPEG,PNG,GIF
保存A
300 200 TIFF/G4,JPEG
<8开
发布 同上 150 150 PDF,HTML,XML
CEB,DJVU,PDG
封面S
72 72
JPEG,PNG,GIF
(备注:封面和插图页可作彩色扫描或灰度扫描,一般文字页作黑白扫描。其中黑白扫描的存储格式为TIFF G4压缩,彩色和灰度扫描可以300DPI保存。TIFF文件不压缩或无损压缩,或者采用JPG2000。)
(2)拓片类资源:该类资源幅面较大或超大,记载字体字号相对一般印刷品要大很多,但其收藏时加盖的印鉴刀锋相对精细微小。由于石材常年受自然界风雨侵蚀,部分字迹或图案残损模糊。未及托裱之原拓片,纸张质地很薄,长年叠放,折痕明显。拓片通体色彩以墨色为主,少量朱红色。基于此,在进行数字加工时,首先,要注意拍摄或扫描局部平面的平整和光线均匀;其次,考虑到在大部分情况下没有OCR需求,对较大幅面的拓片可以适当降低扫描分辨率;再次,对于图书馆级的应用,建议采用专用的高端数字扫描系统加工;而对于博物馆级的应用,建议采用专用的KODAR数字照相系统加工;另外,由于图幅较大,保存级的TIFF格式文件大小通常为数百兆/一幅,而一般发布级的JPEG格式文件大小最高为数兆,因此,为满足精细印刷等需要,建议生成原大(同分辨率和像素数)的JPEG图像作为研究加工级保存。见表3“拓片类资源数字加工推荐标准和最低标准”。
表3 拓片类资源数字加工推荐标准和最低标准
主要参数
载体
级 分辨率(DPI)
文件格式
备注
规格
别色彩位深
推荐 最低
A 600
600 TIFF,PCD
P
24/48位彩色
600
600
小幅L RGB或
300
JPEG
<=A3
M CMYK100
PNG
S 7272 JPEG,GIF
A 600
300 TIFF,PCD
通常做彩色
中幅P 600
300 扫描。建议
<=A1
L 同上300
JPEG分5级建档
M 100
72 PNG 超大幅面的
S 7272 JPEG,GIF
或转换为
A 300
200 TIFF,PCD
SID格式文
大幅或 P 300
200 件发布发布
超大幅 L 同上150
JPEG显示分辨率
>2米
M 100
72 PNG 为72DPI
S 7272 JPEG,GIF
120或
A 2400 2400TIFF,PCD
4×5P 2400 2400或以相当原
或8×10 L 同上1200 JPEG 件边长
英寸摄 M 600
72 PNG x600DPI的
影胶片 S 7272 JPEG,GIF精度扫描。
6 结论
文献资源数字加工是数字图书馆资源建设中的一项重要工作。数字加工标准与规范的制定、提出、推广和应用,是数字资源得以长期保存和广泛共享的不可或缺的前提条件和保障基础。文献资源数字加工是一项极具复杂性和挑战性的工作,既要从宏观的应用角度来进行规划,也要对各种数字资源的加工技术有充分的微观洞察。
本文简要分析图书馆收藏的文献资源的范围和特征,结合国内外主要参考项目和相关数字化参考标准,按照一定的原则提出文献资源扫描加工的建议标准和最低标准,并从不同的角度推荐了文献资源数字加工的通用标准,旨在引起各有关方面对文献资源数字加工相关标准规范的重视,为促进我国数字图书馆标准规范建设工作的长足发展抛砖引玉。
最后需要特别提出以下两个问题。
(1)技术发展和进步对标准的影响:数字图书馆是伴随着计算技术、信息技术、电子技术、网络技术、通讯技术,存储技术等等应用科技的发展而诞生成长的。随着技术的迅猛发展,数字图书馆的标准也处在动态的变化过程之中,在某种程度上,这种变化为标准的制定和使用带来难以把握的困惑。因此,标准和规范的最佳选择策略是以目前所提出的建议标准作为参考。随着技术的发展和时间的推移,人们应该不断对有关标准和要求做出适当的调整和修订。
(2)相关因素对标准的实际执行的影响:对专门资源的加工,以数字图像扫描采集为主。高质量图像的产生,除了依据必要的标准外,还涉及扫描设备、显示设备和印刷设备的性能与质量;操作人员的业务水平和责任心;数字化技术发展水平等诸多因素。选用标准的高低与数据加工成本,存储成本和数字化目的密切相关。在某种程度上,这些因素对扫描结果的影响甚至远远大于扫描精度的影响。