图像资源数字加工标准及其应用,本文主要内容关键词为:及其应用论文,图像论文,加工论文,数字论文,标准论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
收修改稿日期:2010-11-11
1 引言
图像资源建设是数字图书馆信息资源建设的重要内容之一。图像资源包括尚未数字化的、以不同形式和载体存储的信息资源,如普通图书、胶卷胶片、古籍手稿、拓片地图、照片彩页、报纸、小型实物以及各种复合文献;还包括最初产生时即以数字图像形态存在的信息资源,如图书附带的数字图像资源、源于互联网的自产资源、三维动画、平面动画等;也包括文献经过数字化加工后派生出的数字图像资源,如由图书、期刊、学位论文、古籍、拓片、地方志、甲骨、老照片、年画、手稿等文献加工派生出的各种资源类型。图像资源数字加工是运用图像扫描与处理,文字、图像的识别以及对数字化初始信息的各种再加工技术,将大量已存在的、以不同形式和载体存储的信息资料,如文件、图片等,转化成能够为计算机处理的数字化信息。图像资源数字化具有资金密集和风险性大的特点,因此为了发挥最佳效益,实现数字资源的长期保存和广泛共享,标准的制定有重要的意义。
在过去的几年中,世界各国各地的图书馆,如美国国会图书馆(LC)、美国加州数字图书馆(CDL)等,开展了一系列数字化项目,积累了大量的数字资源和标准规范成果;国内的“我国数字图书馆标准规范建设(CDLS)”项目和“大学数字图书馆国际合作计划(CADAL)”项目也都取得了阶段性进展,但未能形成全流程的、完善的标准规范体系和可操作性强的操作指南,导致图像数据资源在保存和利用方面存在很多问题,因此制定统一、有效、适用的标准势在必行。
2 图像资源数字加工标准的现状与问题
从国外和中国台湾地区数字化项目的数字加工标准及其实践成果来看,美国国会图书馆的“关于文本和图像数据数字化转换的技术规范”(The Library of Congress Technical Standards for Digital Conversion of Test and Graphic Materials[1])、美国加州数字图书馆的数字图像格式标准(California Digital Library Digital Image Format Standards[2]、CDL Guidelines for Digital Image[3])、英国国际敦煌项目的图像数字化和管理标准文件(The International Dunhuang Project Standards for Digitization and Image Management[4])、台湾“数位典藏国家型科技计划”的《数位典藏技术汇编》[5]等,分别在图像数据加工的编码规则、元数据规范和著录规则、格式体系、应用级别、扫描设备、图像处理、品质检验、命名规则、数据保存和管理等方面形成了具有广泛应用基础的标准和技术体系,并且相关的技术文档表明,图像资源数字化加工的流程和标准随着技术的变化而不断进行调整。
随着数字图书馆建设的深入,我国一些数字图书馆项目也在图像数据加工标准领域积极探索,并取得了一定的成果,如科技部CDLS项目[6]的《数字资源加工标准与操作指南》和《专门元数据规范》;教育部CADAL项目[7]的《数字化文本加工规范草案》和《数字化文本元数据规范草案》等,事实上这些标准成果正在为高校数字图书馆的相关建设项目所用,实际指导着中国数字图书馆的实践。
尽管如此,国内外典型的数字化加工项目以及相关的图像资源数字加工标准规范成果方面尚存在一些普遍的问题,主要表现为:
(1)偏重于图像数据加工流程和操作指南方面的细致规定,尤其是技术指标,而未能针对各个类型资源的特色和数字对象创建的所有环节设计完整的通用标准和指南,未能形成统一的、完整的加工标准与工作规范体系;
(2)受到项目运行机制等的限制,标准规范成果未能跟上图像加工相关技术的飞速发展,现有的标准规范体系无法完全满足目前图像加工的需要;
(3)数字加工标准与其他相关标准成果如元数据标准、DOI标准等之间未能建立有效的关系机制。
3 图像资源数字加工标准的研制原则
为保障标准的制定,首先需要确定标准的研制原则。图像资源数字加工标准的研制原则是在充分调研国内外相关标准规范的基础上、结合现时的需求而提出的。因此,图像资源数字加工标准形成了具有特色的内容体系,解决了图像资源数字加工标准中的关键问题,必将适应当前及今后我国数字图书馆实践项目的发展。
3.1 同步化——参照最新的国际标准
在标准制定过程中,尽可能直接引用和采纳国内外已经普遍应用的技术标准和规范。一些指标的制定考虑到最新的实践情况以及最新的技术情况,一些校验方法采用国内外最新的校验工具和方法。重点参考了美国国会图书馆国家数字图书馆计划的“关于文本和图像数据数字化转换的技术规范”和中国台湾地区的“数位典藏国家型科技计划”的技术资料汇编以及科技部“中国数字图书馆标准与规范建设”项目“数字资源加工标准规范与操作指南”子项目的相关成果。
3.2 兼容性——与相关标准保持一致性
图像资源数字加工标准,横向上保持与相关同期标准,如与国家图书馆《数字资源(文本、音频、视频)加工标准与工作规范》、《数字资源对象管理规范》及唯一标识符、元数据、长期保存等子项目相关成果的一致性;纵向上尽量保持与CDLS项目、中国高等教育数字图书馆(CADLIS)及其他大型数字图书馆建设项目的标准规范的可转换性和易转换性。这样既保持了与同期其他相关标准的协调,又兼顾历史标准的继承。
3.3 适用性和体系化——涵盖多种资源类型,形成完整的内容体系
从涵盖的资源类型来看,图像资源数字加工标准适用于各种图像资源类型,包括尚未数字化的文献资源,原生数字图像资源和已经数字化加工的派生数字图像资源。
从内容体系来看,图像资源数字加工标准的内容包括图像数据资源数字编码标准和内容标记标准、资源的格式体系及应用级别标准、加工流程标准等,涵盖了图像数字资源创建的所有环节。
3.4 可操作性——完善的工作流程和详细的操作指南,指导数字加工项目的具体实施
图像资源数据加工标准详细描述了各类型图像资源的加工流程,并详细规定了数字资源加工立项、文献资源检查和前期处理、文献资源保护、设备和技术参数的选取和设定、数字加工设备选取、加工设备标准验证与检测、数字资源创建步骤、数字图像的后期处理、元数据加工、保存等各个加工环节的工作规范,是可操作性非常强的、可实施的标准规范,对于数字图书馆的加工实践具有非常现时的指导意义。
操作指南侧重标准规范的实施,对各个加工流程的操作步骤、注意事项以及相关的工作规范等做出详细的规定。对于不同类型资源,例如文献资源、原生数字资源、派生数字资源,分别给出具体的操作流程和图表说明(见图l、图2和图3);对于各个加工流程的操作步骤、注意事项和工作规范给出详细说明;对于特殊资源类型或是特殊问题,单独给出详细的操作指南,以便解决实际操作过程中可能遇到的问题;解决目前图像数字资源标准不统一、成品质量和格式各不相同的问题;参照国外的数字加工项目和其他实践案例,例如美国国会图书馆的数字加工技术标准[1],形成相对细致和实用的操作指南;加工环境和原件保护;原件有损坏的情况,提供解决方案;图像加工级别要考虑再版(印刷出版),不仅加工品质要达到印刷级别,对于数据对象的内容也要完整再现(广告页也不能缺失);对于某些超出目前加工现状的较高标准,在指南中推荐适用标准的设备。
4 图像资源数字加工标准的内容
4.1 数字编码标准
图像的采集、压缩、编码采用的标准直接决定了图像数字资源的质量、大小以及长期保存和使用的有效性等。考虑到目前的技术水平以及未来的可用性,结合目前图像资源的现状及应用的要求,参考美国等图书馆数字化项目有关图像资源数字化相关技术文档,给出图像数据加工的常见编码标准,包括JPEG、JPEG2000、TIFF和GIF等。具体如表1所示:
4.2 内容标记标准
内容标记规定了图像数据加工过程中涉及的元数据及其创建所遵循的准则。考虑到图像数据标准与其他并行标准的关系,规定描述元数据的相关元素应遵守相应的“元数据总则”和“专门元数据标准与著录规范”项目成果的规定,管理元数据元素应遵守相应的“管理元数据规范”项目成果的规定。
4.3 格式体系
格式体系指图像资源数字化加工的保存格式、复制格式、发布格式等体系及其相应的格式标准。
对于文献资源的数字加工,其保存级的文件格式建议存储为TIFF格式。普通图书文本页可以选择GroupIV压缩的黑白二值图、或是无压缩的8位灰度图扫描,普通图书的黑白照片页或彩图页可以选择8位灰度图或24位彩图扫描;小型实物采用激光扫描,三维立体建模建议采用常用格式VRML、OBJ、STL或PLY等保存;出版印刷为目的或复制加工级的文件存储格式建议选择TIFF、JPG或JPG2000。该级别的文件通常由保存级的TIFF文件批处理方式压缩或转换生成;服务级(网络访问)文件建议选择JPG、JPG2000或将它们封装到PDF文件中。缩略图可以考虑采用JPG或GIF格式。
对于原生数字资源,建议以原文件格式进行保存,或者转换成主流存储格式进行保存。例如对于矢量图形来说,可根据资源对象的应用软件选用不同的格式保存;对于图文影音和三维数据兼有的多媒体复合资源来说,可以选择PDF、DOC、PPT等格式;对于网络资源的镜像保存,应该考虑WARC存档格式[13]。
4.4 应用级别标准
根据图像用途不同,图像资源应用级别包括长期保存级、复制加工级、浏览服务级等的数字化标准。
(1)长期保存级是为长期保存及必要时复制作高品质的出版印刷用,也可作格式转换,是复制加工级的母本。文件格式为TIFF,不压缩、不上网。对不同类型的对象,其色彩、扫描精度、位深等参数的具体要求也不同。
(2)复制加工通常仅在个别资源(如拓片、地图等大幅面)类别中设置,由保存级TIFF文件1∶1转换生成,有较高的精度和较大的尺寸,供专家、合作伙伴及专门组织成员网上有条件权限的访问,也可供一般品质的出版印刷使用。个别超大幅面图涉及多幅拼接时,还要预先压缩图像尺寸或比例。
(3)浏览服务级按其服务权限(例如全文浏览或分段浏览、全图浏览或缩略图浏览、是否允许打印下载等)而设有不同的标准。例如供普通读者网上访问,可下载和打印,屏显尺寸相对较大,图像最长边的像素不超过3000,图像分辨率300ppi;再如缩略图,图像以图标显示,通常图像长边的像素不超过120,图像分辨率为72ppi或96ppi。
4.5 加工流程标准
图像资源加工流程标准化对图像资源加工的管理具有重要意义。考虑到图像资源类型多样性、结构复杂性及其用途多样性,针对不同文献资源的特点及其在加工流程上的区别和同质性,制定相应的加工流程标准,规定不同类型图像资源的加工流程,如图1、图2、图3所示。
4.6 命名规则
为了管理和保存数字对象,需要制定数字图像文件的命名规则。命名规则制定时可以考虑资源的类型与数量、数字加工的历史与工作流程等因素,不同资源单位数字加工标准中的命名规则可以互不相同,但需要在本单位内部保持各类型对象数据命名规则的一致性。
以国家图书馆为例,对文本、图像、音频和视频资源采用了统一的命名规则,规则如下:
项目代码+文献代码+结构代码+资源级别代码
图1 文献资源加工流程
图2 原生图像数字资源加工流程
(1)各段代码直接连接,不使用连接符号;
(2)项目代码为项目编号+项目年,项目编号为3位数字,代表国家图书馆数字化项目的编号,项目年为2位数字,代表该项目的加工年份;
(3)文献代码为7位流水号,代表数字化项目当年加工的文献的编号;
(4)结构代码。结构代码由结构编号+4位流水号组成。结构编号为1位字母,代表对象数据的封面、目次、正文、附录等结构信息。结构数据代码后以4位流水号表达对象数据的最小单位。结构数据代码的1位字母与流水号之间不需连接符号,流水号不足4位的前面补0;
(5)资源级别代码。资源级别代码由1位字母组成,代表资源的应用级别。例如A代表长期保存级,P代表复制加工级,A和P两个级别可根据文献资源的类型选择使用;发布服务级中设定3个级别,分别为L级、M级、S级,对于不同类型的资源,可以选择使用。针对本文的图像资源,L、M和S分别代表大图、中图和小图。
图3 派生图像数字资源加工流程
5 图像资源数字加工标准的应用
5.1 标准应用需要适应加工环境和加工项目需求
图像资源数字加工标准在应用过程中需要考虑设备、人力、技术、资源和服务环境等因素,需要结合具体的应用案例选择合适的加工流程和技术参数等。
以北京大学图书馆民国期刊数字化加工项目为例。民国期刊品种繁多,除了北京大学图书馆外还有很多图书馆有此收藏,且也有部分数字化资源提供网上服务,例如国家图书馆和CADAL项目,因此民国期刊的数字化要考虑将来的资源共享和交换;同时民国期刊也是北京大学师生使用频率较高的资源,数字化以后要能够很好地为校园网提供服务。针对这个项目的背景和特点,北京大学图书馆在应用数字加工标准时除严格遵循加工流程外,也做出了多项调整。
(1)资源清点和确定数字加工技术方案
北京大学图书馆馆藏民国期刊总约10000种,其中孤本、早期、破损的期刊约3000种,是加工过程中需要重点保护的对象,采用数码相机拍摄以便最大限度地保护原件;其他约7000种期刊根据流通现状分为三期分批次进行数字化加工,采取扫描作业方式。关于技术参数,由于民国期刊拟作为重点资源参与CADAL项目的二期建设,所以结合CADAL的技术要求确定为:普通文本采用600dpi黑白二值扫描;有插图的页面采用600dpi 256级灰度扫描;彩页采用600dpi真彩色扫描。
(2)元数据和数字对象命名规则
北京大学民国期刊数字化加工项目预先确定了发布方案,确定采用麦达特色库系统面向北京大学校园网提供服务,元数据采用科技部的专门元数据规范成果中的期刊论文元数据标准(根据民国期刊的特色和发布要求对元素有所改动)。为了适应这一发布,数字化加工完成的民国期刊的数字文件命名均采取了“期刊索取号+卷期”的规则,而没有采用标准中约定的命名规则,主要是为了便于实现数字对象与其元数据的批量挂接。
除了民国期刊项目以外,北京大学图书馆先后完成了古籍、拓片、舆图、学位论文、民国图书等的加工,现在还继续进行着教学参考书、民国期刊等的加工;此外还自主进行了珍本字画和书影、多媒体资源(讲座、素材、节目等)等的数字加工工作,总加工量累计达到10余万册1300余万页、31.6TB(统计数据截至2009年底),并且绝大多数都在校园网上为北京大学教学科研提供服务,受到师生的好评。这些成果都是在有效应用标准规范的基础上取得的。
5.2 标准应用需要处理好相关标准之间的关系
图像数字加工标准中的元数据加工标准、文件命名规则、资源发布利用与长期保存等,分别与元数据规范、数字对象唯一标识符规范以及元数据封装标准之间有着密切的关系,既要相互关联引用又会相互影响,处理好这些关系,是图像数字加工标准应用的重要环节。
(1)元数据加工标准应与元数据规范充分衔接
元数据加工标准是数字加工标准里一个重要环节,数字加工流程中的元数据加工包括元数据规范的选择、元数据的创建、元数据与对象数据以及元数据与元数据之间的关联、元数据与对象数据的封装等方面。
元数据加工标准与元数据规范之间没有必然的先后顺序,但两者之间必须充分衔接才能确保数字化加工项目的顺利进行。元数据加工环节一般只需要著录技术元数据和部分管理元数据信息,这些信息有些可由软件自动生成著录,例如TIFF头标区的各种技术参数可以通过软件读取;有些只能手工著录,但无论自动还是手工都需遵守相应的元数据规范,并与对应的元数据规范保持一致性衔接,才能确保加工形成的数字对象能够被有效地发布利用。例如一本带有彩色插页的图书,需要对插页单独进行彩扫及元数据描述时,应分别著录普通文本图像/彩色图像的技术元数据以及整本电子图书/插图的描述元数据信息,并需要建立相应的关联,关联可以选择使用描述元数据“相关资源(Related Collection)”元素描述,也可以选择使用结构元数据揭示。前者需要将对象数据和元数据进行打包后提交发布,后者需要对元数据进行封装后发布。
(2)文件命名规则应与数字对象唯一标识符规范区分对待
文件命名规则在数字加工标准中具有重要作用,命名规则要能够适用于各种类型(包括图书期刊等印刷型文本、古籍、手稿乐谱、地图字画、甲骨、拓片、海报图片、胶片胶卷等)的资源,要能够反映同一源载体生成的不同数字资源(长期保存级、复制加工级、浏览服务级),并且要求使用方便,操作简单,具有唯一性;要能够反映文件的基本信息,方便找到文件。由于文件命名规则是用来进行数字文件的管理,为了方便管理,文件的命名常常需要具有一定的含义,并且需要考虑这些数字文件的物理载体的保存政策。
数字对象唯一标识符(DOI)是数字对象从加工产生开始、到发布利用、长期保存都会唯一使用的一个标识符。DOI规范规定了DOI的命名规则和解析规则,DOI规范和元数据规范以及注册机制密切相关,一般而言,DOI并不需要具有明确的含义,因为DOI是注册生成的,通过DOI解析服务器可以获取数字对象的元数据信息,来解决利用和管理的问题。
文件命名规则和DOI规范是两个不同的规范,其管理和发布服务的机制是完全不同的,对于图书馆而言,要采取哪种方式解决资源的发布和管理,是需要首先考虑的。例如,对于一本图书,其结构至少包括封面、目次、正文、索引等部分,进行数字加工时每页形成一个数字图像,这个数字图像可以作为一个数字文件来管理、也可以作为一个数字对象来管理——前者可以采用文件命名规则对其命名并保存管理,然后将多个数字文件打包封装成为一个电子图书进行发布利用,可以为整本电子图书注册一个DOI;后者则采用DOI规范为其注册一个DOI,这需要为每页数字图像进行元数据登记,发布利用和管理等也是以每页为对象来进行。
应该为什么样的数字对象注册DOI,DOI是否需要具有实质性的含义,比如资源类型或内容的体现,一直是存在争议的。笔者认为DOI规范是基于资源共享的,想要共享并且想要让他人方便获取的资源才需要去注册DOI,DOI并非用来解决数字对象的内部管理问题。所以如果想要管理内部的数字文件,需要制定自己的命名规则,至于资源发布利用环节中不同数字对象之间的关联和调用可以用结构元数据或者元数据封装标准(METS)来解决。
标签:数字图书馆论文; 元数据论文; 数字图像论文; 命名规则论文; 数字技术论文; 代码管理论文; 项目类型论文; doi论文; 图书馆论文;