图书馆信息资源数字化项目实施要素分析,本文主要内容关键词为:信息资源论文,项目实施论文,要素论文,图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
图书馆信息资源数字化项目的实施是一项比较复杂的系统工程,其中项目规划、数字化内容选择、数字化流程准备、数字文档保存、元数据析取、知识产权管理和项目管理等7大要素是这项工程的核心内容。 每一要素的实施都要遵循一些基本原则。对这些要素包括内容和实施原则的探讨不仅从微观角度有助于规范数字化项目的管理,提高项目实施效率,而且从宏观角度也有助于国家层面上的图书馆信息资源数字化统一平台的构建。
1 项目规划
图书馆信息资源数字化的第一步工作就是对项目进行规划,项目规划的目的是明晰下述5个典型问题:做什么?谁来做?在哪里做?什么时间做?如何做?可通过确定项目目标、组合人力资源、调研相似项目和分析项目实施风险等来实现。
(1)项目目标。每一个数字化项目都有其自己的明确目标,通常情况下, 数字化项目的目标有两大范畴:其一是将图书馆馆藏中具有较高价值的文献资源数字化后通过因特网面向公共提供浏览,以实现文献本身的传播价值;其二是保护易碎载体资源。项目目标不仅对数字化内容选择标准的确定有非常重要影响,而且对元数据生成、数字资源在线发布、生产质量控制和整个项目管理等各个阶段都有直接关系。因此,确定项目目标是整个项目实施的关键环节。
项目目标的确定应遵循的基本原则有[1]:项目目标必须具体、明确,并具有可操作性;与图书馆可用资源相比,项目目标应具有现实性;在多馆合作的数字化项目中,项目的目标应体现各参与馆的价值。
(2)人力资源组合。项目实施之前,所需人力资源必须是可获取的。 人力资源不仅包括图书馆中可以抽调的工作人员和外聘人员,还包括项目实施所需的技术和知识,以及相应的软硬件资源等。
人力资源组合应符合下述要求[2]:确保有足够的人力资源来实施项目; 将人员分配固定到每一项工作中;对项目所需的软硬件知识和技能进行培训;人力资源组合的重点在于构建一个既具有项目实施所需技能又有类似项目实施经验的技术人员核心集体。
(3)相似项目的调研。调研已经实施的类似项目, 一方面有助于规划项目实施所需的软硬件,制订合理的生产流程,避免类似项目中的一些失误;另一方面有助于激发项目设计者的新思维,使项目规划更加周密和完善,并且通过与相似项目的比较,比较准确地估算出项目实施的工程量。另外,通过参照其他类似项目,可以确认要实施项目的可行性,从而增强对项目实施结果的自信。
在项目规划初期,相似项目调研的时间越早越好。调研过程中,项目规划小组尽可能地与已实施类似项目的规划人员接触,学习经验,汲取教训。
(4)项目实施风险分析。项目规划的目的在于尽可能地保证项目成功实施。 然而,规划本身并不能排除所有风险,所以,构建一个框架体系从而以一种有效的方式来应对不可预见的风险就成为了项目规划的一项任务。
图书馆信息资源数字化项目的风险分析至少应包括下述五个方面的内容:(1)知识产权风险。数字对象通过因特网传播的本身就是对原始文献的再次发布,这期间涉及到原始文献的知识产权问题,其中的风险分析有:对一些没有经过许可的文献资源,进行数字化发布,其后果是什么?如果的确构成了侵权,对项目的影响是什么?(2)可靠性风险。对一些公共信息资源,其法律价值是非常重要的,采取什么方法确保信息资源来源的可靠性?(3)真实性风险。采取什么方法和使用什么工具确保数字化后的内容与原始资源的一致性?(4)资金保障风险。项目实施的资金保障对项目达到预期目的来说同样存在着潜在风险。如果在项目实施过程中出现了资金保障问题,对项目的影响有哪些?应对方案是什么?(5)技术人员风险。雇佣技术人员或有经验的人员是否可行?如果不可行,对项目的实施计划的影响有哪些?
2 数字化内容选择
数字化内容选择是图书馆信息资源数字化项目的一项重要工作。选择的标准取决于项目目标,不同数字化项目的内容选择标准可能存在着很大差异。比如,高等院校图书馆的数字化项目可能会选择学生的参考用书,而博物馆则会选择知名度高的收藏品进行数字化,从而增加用户的访问量,或者对易碎的工艺品进行数字化,以减少人工操作。内容选择包括选择标准的建立和选择过程管理两方面。
(1)内容选择标准的构建。 选择标准至少受下述几个方面的因素影响:项目目标、技术限制、经费限制、版权和知识产权限制以及在相同领域中其他数字化项目等。
选择标准应体现下述内容[3] :对于采用其他方法无法获取或较难获取的文献资源,数字化将提供一种获取方式;对于非常大众化的文献资源,数字化将提供一种更加广泛和容易的浏览方法;对于载体非常脆弱的文献资源,数字化将提供一种新的保存方式。另外,数字化项目的主题、版权和知识产权状态、已经存在的数字版本的可获得性、数字化成本以及独家资源的在线浏览等因素也是选择标准的主要内容。
选择标准应清晰明了,并由各投资方认定。选择标准应以文件方式记录下来,以便在整个项目实施过程中,图书馆馆藏资源之所以数字化和不数字化的原因一清二楚。
(2)数字化内容选择过程管理。根据已构建的标准,选择要数字化的文献资源。对每一件要数字化的资源对象都要按照内容选择标准进行严格评估。如果不满足其中的个别指标,就要记录下来。如果选择标准将一些非常重要的或关键的文献资源排除在外,就需要对选择标准重新审核和修改,这些修改也要记载下来。一旦某件资源对象被选择进行数字化,其详细信息就要记载在数字化项目管理库中,数字化项目管理库将记载所有被数字化的资源在整个数字化过程中被操作的所有信息。
3 数字化准备
数字化准备包括数字化工作环境的布置和软硬件系统的安装调试。环境应该适合于数字化的操作,包括光亮度、湿度、震动以及被数字化资源的移动等。硬件安装包括数字化过程所需的扫描仪、数码相机等有关设备,以及连接这些硬件设备的计算机网络基础设施。软件系统包括图像生成软件、过程处理软件、元数据析出软件和质量控制软件等。
(1)硬件系统。典型的硬件系统包括数字图像生产设备(数码相机、扫描仪以及用于胶卷、模拟视频和音频的数字化转换设备等)和连接这些设备的数字化平台(计算机、操作系统、网络等)。其中数码相机和扫描仪是目前采用的两种不同图像生成设备,用于两种不同的生产方式。硬件系统对项目最终产品的质量有着重大影响。因为购置硬件设备投资较大,如果项目周期较短,可以选择租用或使用其他机构的设备,这样可以节约项目经费。
硬件系统的安装和调试应注意的事项有[4]:①硬件系统安装完毕后,要对其质量和性能进行测试,可采用对各种样品进行数字化后的图像质量进行评估的方法来调试硬件系统的性能。②图像生成设备的分辨率要调到合适程度,这取决于被数字化资源的性质。比如,对于数字化后利用较低的资源,分辨率应该低一点,但分辨率必须保证数字化过程中能够抓取资源对象的信息细节。如果调高分辨率不能抓取资源中更多信息,那么高分辨率也就失去了意义,因为高分辨率生成的图像要比低分辨率占用更大的存储空间。③图像生成设备所生成的图像文件应以无损或尽可能少损失的格式保存,符合这种要求的典型格式是TIFF。④与扫描设备相连的计算机应该配置大容量的存储设备,从而保存数字化生成的图像文件,并应及时备份。
(2)软件系统。由硬件系统生成的数字化文件在使用之前常常需要加工处理,比如,颜色需要修整,图像的边沿需要剪切等。另外,生成的主文件的体积常常非常大,需要压缩以便存储和网络发布传播。这些工作都需要相应的软件来完成。
硬件系统常常自带一些软件,但对大多数的数字化项目来说,这些软件具有的性能都是不够的。因此,数字化项目应该视其经费情况采购一些性能较好的软件。
对软件性能的要求取决于项目的目标。应该注意的是,如果不修改数字化生成的主文件,很多软件都可胜任其他基本操作。但是,这样处理的时间加上其他方面的成本常常要远高于性能强的软件购置成本。
软件起码应该具备的功能有:打开大体积的图像文件;修改图像的分辨率和颜色;对一个特定图像文件,能够以不同的体积,存储为多种版本;可以选择和复制图像中一部分,并将其作为一个文件来保存;以不同的文件格式进行导出。一些免费软件可以胜任这些功能,但购买商业软件不仅可以保证质量,而且还节约时间,并可获取技术支持。
在需要OCR识别的数字化项目中,OCR软件的选择也是非常重要的。任何OCR 软件都允许手工编辑和修改,但不同的OCR软件的编辑和校对性能不一样, 因此时间和人力的消耗也有很大差异,所以对各种OCR软件包进行评价是必要的。
(3)数字化环境。 许多珍贵资源和易碎载体资源在数字化过程中对环境都有一定的要求。尤其是数字化过程对资源本身导致负面影响的操作,环境尤为重要。
设置数字化环境应注意:咨询专家意见,确保原始资源搬移的安全以及数字化环境的适宜;数字化场所应固定,不宜随便更换,因为工作场所的变更或重新布置常常会导致原始资源的损伤、丢失和其他负面影响,并且也会导致时间的浪费;如果原始资源对光亮度和湿度有特殊要求的话,数字化环境就应该尽可能地满足这些特殊的要求。
(4)原始文献的搬运操作。在很多情况下, 被数字化的原始文献资源都是非常珍贵的,因此,对搬运过程可能导致的负面影响应该降到最小程度。
在搬运前,咨询长期保管原始资源的工作人员,并将任何搬运的特殊要求输入到数字化项目库中,搬运时,应该查询这个数据库。数字化项目本身应该具有灵活性,对独一无二的原始资源的任何损伤都是无法挽回的,而数字化项目的任何不便都是可以克服的。如果可能,将数字化设备(如:数码相机)带到原始资源的存放处进行数字化,这样就避免了搬运操作可能导致的负面作用。
4 数字文档保存
从长远角度考虑,任何一个数字化项目的目标之一就是对被数字化的文献资源进行保护和存取。对数字化主文档以及相应元数据文档的保存和迁移也是避免重复数字化的一种方法,并因此也保护了一些载体脆弱的原始文献。数字文档保存涉及到数字文件格式、计算机存储介质的选择和数字文档迁移三个方面。
(1)文件格式的选择。数字化过程的结果常常是以未压缩的TIFF 格式保存的主文件以及相应的元数据文件。文件格式和压缩方法对数字化信息的利用有重要影响。因此必须考虑有关文件的格式、标准文件的大小、网络传输速度、各种类型的输出设备(显示器、打印机等)等因素。
文件格式的选择要充分考虑各种相关的标准、使用的用户数量以及目标用户群采用的支撑软件等因素[5]。使用某种格式的用户数量是一个重要指标,它反映了该格式的用户支持程度。另外,还要考虑当格式变化时,可持续的格式迁移的可行性。
主文档的体积常常比较大,适合于本地存储,但不适合于因特网传输。因此,为了网络传输的需要,采用一些图像处理软件将主文档转化为体积较小的版本,目前常用的传输格式有JPEG 2000、PNG和GIF等。
单纯从技术角度,可能会有一些更具吸引力的文件格式。但要牢记,如果不采用标准的格式和存储介质,图像文件以及相应的元数据在进行国际数据交换和网络传输时将是最大障碍。
(2)存储介质的选择。因为涉及到数字资源的长久保存, 存储介质的选择在项目规划时就显得尤其重要。一些非常著名的数字化项目就是因为存储介质的过时而导致数字资源的报废。
存储介质选择的基本原则有:数字化项目所生成的数字文档应保存在服务器上,并有备份,如果这个服务器不是数字化项目专用的,数字文档还应保存在一个可移动的介质上。所有数据(包括主文件和元数据文件)都应备份在两种不同的介质上,并且单独保存。目前,存储介质CD-R正在被DVD所取代,DVD的存储容量大,并且其阅读所需的硬件设备已经在PC机上普及,虽然DVD的写入设备比较昂贵, 但即使是规模最小的数字化项目也可以支付得起,另外,在可以预见的未来,DVD 并不能替代磁性存储介质,因此,这两种技术在用于保存数字文档时,应该认真考虑。还应该认识到,任何一种存储介质在不太长的时间内(一般为5—10年)都会过时, 所以将数字文档迁移到其他新型介质上是不可避免的。
(3)数字文档迁移策略。选择格式和存储介质时,都要考虑数据迁移可行性。迁移的策略有[6]:应该避免从一种无损格式(如TIFF格式)到一种有损格式(如JPEG)的迁移,因为数据一旦丢失,将无法挽回。当一种旧介质过时,选择新型介质时,介质的市场占有率是一个重要指标,一般选用当时市场占有率高的存储介质作为候选介质用于数据迁移。保存数字信息的存储介质要定期刷新,以减少数据丢失。数字化资源的状态,包括刷新日期,都要进行详细记录。数字化资源的备份应保存在不同的地方,以降低灾难性(如:火灾)数据丢失的风险。
5 元数据
元数据方案的选择将直接影响到数字对象描述项的选择。现行元数据方案可以分为三种类型:描述型、结构型和管理型。数字化项目中选用的元数据方案不仅要对数字对象的内容进行描述,而且还要对其加工过程、采用的技术和工艺、产权管理等事项进行描述。
元数据方案的选择应遵循的原则有[7]:应该对已经实施的相似的数字化项目所采用的元数据方案进行全面调研,这有助于选择合适的元数据方案,元数据方案在图书馆数字化项目之间的通用性比较强。在为数字化项目选择元数据方案之前,对要描述的数字对象应该全面审查,这不仅有助于考察现行的元数据模型,而且也有助于发掘这些模型与要描述的数字对象的理想元数据模型之间的差异。业已存在很多元数据模型,应该根据数字化项目的目标从中选择,除非项目的要求与已有的元数据模型差距甚大,强烈建议不要构建一个全新的元数据模型。对被数字化资源的重要特点进行模式化,并识别出它们的关键属性和描述元素,然后将这个模式与现行元数据模型的范畴和特性进行对比分析,这有助于寻求比较合适的元数据描述方案。除非有足够的理由,否则Dublin Core模型中的描述项应该包括在所制订的元数据方案之中,如果图书馆数字化项目基于现有的元数据模型而构建了一个适合自己的元数据模型,那么应该描绘出该元数据模型与Dublin Core之间的关联图。
6 知识产权
数字资源的在线发布必须伴随着这些资源相关的知识产权保护。对于一些属于公共领域的资源(如:一些古旧的图书和报纸等),涉及到的知识产权问题就少得多。但是,图书馆大多数信息资源的数字化发布均涉及到知识产权的保护问题,这些资源的产权一般不归属图书馆,只有经过产权所有者的许可,方可发布。随着技术的进步,信息资源的数字化上网发布的知识产权保护方法也越来越多。
(1)产权识别。 图书馆信息资源数字化的首要工作之一就是识别数字化内容的产权状态。识别资源的产权状态与数字化项目以及发布者所在的国家有关,每个国家都有自己的知识产权保护法律,这种法律一般至少可追溯到19世纪。这种法律常常适应于很多形式的出版,包括在线出版,可能涵盖了数字化行为,也可能没有涵盖数字化行为。数字化行为有的认为是一种存储过程,有的认为是一种复制过程。
图书馆信息资源数字化内容的产权归属有三种情况:其一是不存在产权纠纷的资源(如:过期的报纸等),这类资源可以自由地进行数字化发布;其二是产权归实施数字化的机构所有,这类资源在进行数字化和发布之前需要单位内部许可;其三是产权归他人所有,这类资源在数字化和发布之前必须得到产权所有者的书面许可。
获取版权所有者的许可常常意味着要支付版权费。因此,要权衡这些资源的价值以及数字化上网发布的潜在效益。
(2)产权保护。很多情况下,馆藏文献资源数字化上网发布的行为被界定为一种复制活动。目前保护这种产权的主要技术有:给每个数字图像添加可视水印或版权戳;给每个数字图像添加不可视水印,这种水印标志可以用来证实数字图像的版权身份,也可用来跟踪这个数字图像在因特网上的传播轨迹;对数字图像加密,并仅把密钥发送给注册用户,这种方法会限制公共存取;将公共浏览的图像限制在低分辨率,如75dpi, 这在一定程度上限制了数字图像在其他领域(如:打印等)中的应用;将公共存取限制在截取数字图像的一小部分之中,这种方法在一些项目中应用得非常成功;将图像的浏览权仅限定在一些注册或被授权的用户。无论采取哪种产权保护方法,都要进行测试,以避免在应用过程中导致不期望的效果。另外,保护产权的方式要经产权所有者同意。
对于一个数字化项目来说,保护产权的方法在很大程度上取决于项目的目标和资源本身的性质。通常情况下,采用的最基本方式是低分辨率和浏览数字图像的一小部分。
7 项目管理
数字化项目的成功与否在很大程度上与管理有关。其中,数字化过程管理、人力资源管理和成本管理是数字化项目管理的核心。
(1)数字化过程管理。 一个典型的数字化项目可能要对成百上千件资源对象进行数字化,为了提高效率,很重要的一点是建立工作流程。另外,构建数字化项目管理库对数字化过程中的信息进行管理也是非常重要的。
将每个资源对象在数字化过程中经历的每个步骤记载下来,包括[8]:馆藏位置、去尘处理和扫描准备、扫描或拍照、原始位置返回、文件命名、文件存储、主文件在线传输版本的产生、服务器和存储介质的备份等。构建数字化项目管理库,记载资源对象在整个数字化过程中的轨迹,以使项目状态在任何时候都能访问查阅。需要相似流程或对硬件要求设置相同的资源对象应该一起数字化,这样可以减少硬件配置的时间。应该记载硬件配置的参数,以备数字图像丢失时对原始资源重新数字化使用。
(2)人员培训。 数字化项目常常将图书馆工作人员首次放置在一个全新的技术环境中,这些技术包括数字化硬件、WEB发布、图像处理、元数据置标、 数据库研发等。除非项目组成员有从事过类似项目的丰富经历,否则技术培训是必需的。这种培训的内容主要有两个方面:所使用的技术和原始文献资源对象的处理。培训不到位或缺乏培训可能会在项目实施的初期导致难以预测的甚至无法挽回的事故损失,同样结果可能会出现在项目实施过程中更换人员身上。因此,一个经过培训的核心小组是项目实施的关键。在项目开始花在培训上的投入可以从项目实施过程中额外的工作效率的提高和少出问题中得到回报。
在项目实施之前,评估项目组成人员的知识状态和所需的IT技能,从而识别出所需要的培训,这些培训需求应存入到数字化项目管理库中。一些培训(如:数字化技术的使用)可在项目实施过程中进行,也有一些培训(如:资源对象的处置技能)需要在项目实施之前进行。技术培训有的可以由本单位的其他项目来承担,有的可由其他单位来承担。资源对象的处置技能培训应由这些资源的保管人员来承担。
(3)外援服务支持管理。数字化项目常常需要其他机构提供一些服务, 这类服务最常见的有:数字化生产操作、项目管理、软件开发、作为其他数字化项目的一部分等。这样,图书馆可以集中在自己的优势领域,无须相应的培训和IT新技术的跟踪。一些大的数字化项目,如:法国国家数字化项目,已经挑选出了一些优秀的服务供应商,与他们的合作关系延续到多个项目,甚至几年。如果已经与一些服务供应商建立了良好的合作关系,更换这些服务商的做法应受到质疑。
图书馆要与提供服务的厂商签订严谨的合同,包括提供服务或产品的规格,并在项目实施过程中,定期审查这些服务的质量。另外,在这个过程中,图书馆要清醒地认识到,来自于这些外援服务的技能和经验在项目结束后就要自动消失,同样,在项目实施完成后外雇人员的技能和经验也会随着消失。因此,必须确保服务质量和后期服务的提供。
(4)合作项目管理。一些数字化项目涉及到多个图书馆的合作, 甚至涉及到多个国家的图书馆合作,比如欧盟的一些数字化项目。在这种情况下,合作管理是项目实施的一个重要内容。
合作项目中,要确保每一个合作方都非常清楚并且一直致力于自己的职责。要在合作成员之间构建一个有效的信息交流渠道,确保渠道的畅通。清晰记录所有合作方的待被数字化文献的知识产权解决方案,并经各方签字认定。每一个合作方在数字化项目中都要扮演一个明确的角色,否则,就要审查其在这个项目中的必要性。
(5)成本管理。图书馆信息资源的数字化常常是非常昂贵的。因此, 项目管理中就要考虑各种前期成本、基础建设成本以及运行成本,主要有人力资源成本、所需的各种设施成本、数字化操作成本和存储成本所构成。
人力资源成本包括项目管理者、WEB程序员、 技术支持人员的工资支出和所需的培训费用。
各种设施成本常常与数字化项目所需的设备功能以及性能价格折中方案相联系。比如,数字化项目都要在下述两者之间做出选择:是将成本保持在较低水平以确保项目的成功,还是以最高标准抓取处理数字图像。
数字化项目运行成本的构成主要有:处理原始资源对象(包括将原始文献搬运到数字化场所以及再搬回到书架)成本;原始文献的准备(包括保存和洁净处理等)成本;数字图像的生成(包括图像抓取、图像命名以及保存等)成本;元数据的生成和处理成本;质量保证成本;软硬件维护成本;技术支持成本;项目管理成本;有关图像生成的技术培训成本等。
图像抓取占整个数字化项目成本中最小部分。一般来说,图像生成和处理占整个成本的1/3,元数据析取占整个成本的1/3略小一点,而管理和质量控制占整个成本的1/3略大一点。
标签:元数据论文; 项目管理流程论文; 数字技术论文; 项目成本论文; 项目管理方法论文; 项目风险论文; 项目分析论文; 风险成本论文; 图书馆论文; 对象存储论文; 图像数字化论文; 软件服务论文; 软件过程论文; 风险模型论文;