数字资源元数据质量管理的研究与探索,本文主要内容关键词为:质量管理论文,数字论文,数据论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G250.7 数字资源又称电子资源,是伴随着计算机技术、信息技术及网络技术的发展而产生的一种新型资源[1],它包括电子期刊、电子图书、电子学位论文和电子会议论文等。随着数字图书馆的发展,数字资源已在资源建设中发挥着非常重要的作用。目前,许多图书馆的数字资源数量巨大,以武汉大学图书馆为例,截至2014年12月,共订购各类数据库455个,其中中外文数字化书刊达到871万册[2],随着今后继续订购数字资源,及网络开放存取资源的不断发展,图书馆可提供用户访问的数字资源数量将持续攀升。元数据作为揭示数字资源内容、属性及特征等信息的一种数据形式,在资源整合、资源检索、资源发现、资源评估及资源管理等应用中发挥着非常重要的作用[3-5],数字资源元数据质量也直接影响数字资源的建设水平和服务质量。2004年美国学者Bruce和Hillman将元数据质量定义为“元数据满足需求和目标的程度”[6]。由于数字资源元数据来源多样、数据量大及重复率高等原因,造成数据质量问题频现,从而影响了数字资源的有效利用。如何对获得的数字资源元数据进行质量管理,建设高质量的元数据仓储,以提供更好的信息服务,而不过多地依赖外部公司,是图书馆需要探索与解决的问题。 1 数字资源元数据质量管理的需求分析 数字资源元数据是关于数字资源及其特性的结构化信息[7],是数字图书馆信息组织的基础[8],对数字资源元数据进行质量管理是图书馆业务发展的需要。 揭示数字资源的需要。通过查看元数据可以了解数字资源的信息:①内容信息。包括题名、著者、摘要、主题、关键词及分类等信息。②属性信息。包括数字资源特征、资源类型特征、数据来源特征及服务类型特征等。③定位信息。提供数字资源的网络链接地址,以方便直接查看数字资源的内容。④历史沿革。描述数字资源的发展变化,例如电子期刊改名、频率变化、合刊、分刊、前刊和后续刊等情况。⑤关联关系。揭示数字资源与相关资源、相关系统及数据库的关系,如数字资源与其对应的印刷型资源的关联。 管理数字资源的需要。目前,许多数字资源仍采取以单个数据库为单位的管理模式,这种模式很难准确地掌握电子图书、电子期刊等单个数字资源的实际情况。元数据是“数字资源”的替代品[9-10],通过它可以管理电子图书、电子期刊等单个数字资源,及基于单个资源而衍生出的集合式数字资源的访问控制、各数据库访问点的集成、互操作、数字资源的访问统计、评价及引用等。 利用数字资源的需要。数字资源元数据使得数字资源的许多应用成为可能,如资源发现、资源检索、资源共享、资源链接及数字资源评介等应用均依赖于元数据,且与元数据质量紧密相关。高质量元数据使得用户检索时能准确地定位到数字资源的内容,低劣的元数据则会导致检索时出现过多的、不相关的、或重复记录,从而影响数字资源的利用。 目前,数字资源元数据质量出现各种问题,以正在发展中的资源发现系统为例,它是基于元数据仓储的一种资源整合系统,由于其数据获取渠道多样、著录规范不统一、元数据仓储不在本地,及系统商缺乏元数据技术人员等原因,使得仅依赖资源发现系统商难以解决元数据质量问题[11],图书馆专注元数据发展,有经验丰富的从事元数据工作的队伍,因此,可在数字资源元数据质量管理上做些探索性工作。数字资源元数据质量管理是通过规划及运用相应的技术和方法对获取的各来源的数字资源元数据实施科学的、有效的质量管理,以提供高质量的信息服务,使数字资源能够得到更好地利用。检索中国学术期刊网络出版总库,2005-2014年间数字资源元数据质量方面的论文只有9篇,表明元数据质量管理尚处于摸索阶段,缺乏一套适应国内实际情况的数字资源元数据质量管理方案。武汉大学图书馆多年来一直进行数字资源元数据质量管理的理论研究及实践探索,以下结合实践来探讨元数据质量管理的若干问题。 2 数字资源元数据质量问题及分析 2.1 数字资源元数据的质量问题 (1)数据有误。数字资源元数据没有严格遵循国际、国内及行业内的著录标准和规范。一方面表现在著录有误,如字段名称错误,指示符设置错误,字母拼写错误,外国人名顺序错误、定长字段字符位设置错误等;另一方面是数据格式有误。不标准或错误的数据格式会造成元数据无法被转换,或转换后出现记录错位、截断或漏掉记录等情况。 (2)数据遗漏。指元数据不完整,如缺少一些字段、子字段和字段指示符,字段内容不完整,缺少主题和分类信息,多著者著录不全等。 (3)数据失效。数据失效会造成元数据无法被利用,数据失效的原因有多种,如元数据所对应的数字资源实际并未被图书馆订购,元数据中的网络链接地址有误,或者因电子期刊停刊而造成其网址无效等。 (4)数据重复。由于数据库间重复收录数字资源的情况普遍存在,例如中国知网有89%的期刊被万方和维普收录[12]。因此,不同来源元数据集间存在大量重复数据;同一来源元数据集内部也会出现数据重复的情况;此外,元数据记录内部的一些字段也会重复,如出现多个相同主题词的字段。 2.2 数字资源元数据质量问题的原因分析 (1)数据来源。元数据不仅可从数据库商、代理商处购买或免费获得,还可通过网络下载,从数据库管理后台提取,从而造成元数据来源的多样化。由于各来源数据依据的著录标准和规范不统一,造成数据著录不一致、数据格式各异等问题。 (2)数据处理。目前,图书馆界和提供元数据服务的系统商并没有充分地认识到元数据质量的重要性,没有建立一套科学的数据处理方案,使得多来源数据在进入数据仓储之前未根据各来源数据的实际情况和特点进行相应的处理,如设定合适的参数进行数据过滤、去重和归并,或只进行简单处理就导入元数据仓储中,从而造成大量数据重复、各来源数据著录不一致等问题。 (3)不稳定性。数字资源并不是一成不变的,有时会出现更新、变更、被替换或停止使用等情况。一旦数字资源发生变化,不及时更新则会造成元数据与对应的数字资源实际情况不符,产生新的质量问题。此外,元数据相关标准、规范及图书馆业务均处于不断变化中,也会带来新的质量问题。 3 数字资源元数据质量管理模型 3.1 概述 武汉大学图书馆在总结多年数字资源元数据质量管理经验的基础上构建了质量管理模型,为数字资源元数据质量管理提供了一个逻辑结构。该模型由三大构件组成,从上至下依次为数字资源元数据的生命周期、影响质量的基本要素及数据质量维度。其中,数字资源元数据的生命周期是从图书馆的角度来描述元数据被操作的过程,影响质量的四个基本要素是数据质量管理的基础条件,数据质量维度则提供了评估和控制元数据质量的依据,三大构件紧密联系,相辅相成。数字资源元数据质量管理实质是基于数字资源元数据整个生命周期的质量管理活动,在生命周期的各阶段均需综合考虑元数据、人员、流程和技术四个基本要素,并依据数据质量维度实施质量控制(如图1)。 图1 数字资源元数据质量管理模型 3.2 数字资源元数据的生命周期 数字资源元数据是一种信息资源,也具有生命周期,其生命周期与数字资源的变化息息相关,综合考虑数字资源的特性、发展变化及数据处理方式,将数字资源元数据的生命周期依次划分为八个阶段: (1)规划。从总体层面考虑,分析数据质量需求,制定目标,并明确标准和规范,合理的规划有利于元数据在整个生命周期中的科学管理。 (2)创建。由人工著录、改编印刷型资源元数据、或软件自动抽取等方法生成数字资源元数据。 (3)收集。通过多种方式、多种渠道收集现成的数字资源元数据。 (4)处理。元数据进入数据仓储前必须对数据进行处理,以满足质量要求。数据处理是生命周期中的关键阶段,它包括将源数据格式转换成数据仓储接受的数据格式,制定质量改进规则并修改数据,使数据更标准化、规范化,并符合本地化的业务要求,制定查重规则,以定位、清查合并重复数据等。 (5)装载。将经过处理的元数据导入数据仓储中。 (6)维护。对数据仓储中的元数据进行质量管理活动,包括根据数字资源的变化更新元数据,制定规则过滤出问题数据集,修改数据等。 (7)使用。通过资源检索、资源整合及资源评估等应用发挥元数据的效用。 (8)删除。当数字资源出现停订、停刊、被替换、或不再提供网络访问等情况时,则该数字资源失效,需删除其元数据,删除数据需审慎,并做好记录。 3.3 影响数字资源元数据质量的基本要素 (1)元数据。元数据是数字资源元数据质量管理的研究对象,所有的质量管理活动均围绕元数据展开,元数据质量也决定了质量管理的难度。 (2)人员。指参与数字资源元数据质量管理的人员、职责、分工及团队组织。数字资源元数据质量管理需要多种不同专业背景和专业技能的人团结协作、共同承担质量管理的重任,如元数据编目员、数据分析员、数据管理员及数据处理人员等。 (3)流程。数字资源元数据质量管理包括数据格式转换、数据修改、查重和更新等若干管理活动,且各活动有操作次序,因此,需确定元数据质量管理的流程,以利于各项质量管理活动有序地开展。 (4)技术。指助力于元数据质量管理的方法、技术、选用的系统、软件及工具等,如网址有效性检测软件,数据格式转换工具,问题数据过滤系统及数据判重系统等。 3.4 数字资源元数据的质量维度 数据质量维度是一组表达数据质量构成的属性,在特定应用中,需制定适用于业务需求的数据质量维度[13]。数字资源元数据质量包含多个方面,综合考虑元数据规范、数字资源的特性及图书馆实际业务需求等因素,制定了十个方面的数字资源元数据质量维度。 (1)完整性。指元数据需全面地揭示目标数字资源,用于分析和评判元数据是否缺失必备字段、子字段,字段内容是否详尽等,包括结构完整性、内容完整性及参照完整性等。若元数据不完整,则会影响其他质量维度的评价,因此,完整性是基础维度。 (2)准确性。指元数据准确且客观地反映目标数字资源,包括语义准确性、语法准确性及结构准确性等。可将元数据与目标数字资源进行对比来分析数据准确性,不准确的数据会导致无效的数据应用。 (3)规范性。指元数据遵循各类相关标准、规范、应用指南及受控词表的程度,涉及数据格式、数据结构和数据内容等多个方面。规范性检查包括字段名称、字段指示符设置是否规范,分类及主题是否取自规范的分类主题词表等。 (4)唯一性。既指元数据在数据仓储中只出现一次,即数据不重复,也指某些字段和属性的唯一性。对于重复数据,需根据数据的实际情况,设定多个字段及子字段的组合作为判重条件来清理数据。 (5)一致性。指元数据在概念、结构、逻辑及语法等方面需保持一致,包括各来源数据的一致性,中西文数据的一致性,外部源数据与本地数据的一致性,元数据与目标数字资源的一致性等。一致性可以更好地实现同一平台下所有资源的统一检索和统一利用。 (6)及时性。指元数据是否及时地揭示目标数字资源的最新情况,当数字资源发生变化时,需及时地更新元数据。 (7)有效性。指元数据是否为有效信息,包括元数据记录的有效性和数据内容的有效性。若获得的元数据记录对应的数字资源未被图书馆订购或停订,则该记录失效;若元数据中的网络链接地址不可访问,则元数据内容失效,由于网络链接地址的不稳定性,因此,应尽量选择DOI、OpenURL等稳定形式的网址。 (8)适用性。指元数据可被用户使用、易于使用及满足用户需求的程度,它是数据质量管理的最终目标,涉及数据著录形式、显示方式、数据开放程度及网络运行状况等方面。有些元数据著录得非常专业、规范和详细,但因不易理解及数据开放等原因,并未被很好地利用。 (9)可维护性。指维护元数据的难易程度。一般同一来源的元数据具有一些共同特征,因此,可根据共同特征提取出数据集而批量维护。 (10)关联性。元数据并不是一个独立的个体,它来源于不同的元数据提供商,揭示不同数据库中的数字资源,且很大一部分数字资源是纸本资源的数字版或扫描版,因此,元数据需揭示与其密切相关的资源的联系,如与其对应的纸本资源、数据来源及所属数据库的联系。 我们将数字资源元数据质量维度作为分析和处理元数据质量问题的“尺度”,在质量管理实践中协同使用各个维度,并对各维度的粒度再进行具体的细化。 4 数字资源元数据质量管理流程 基于数字资源元数据质量管理模型并结合武汉大学图书馆的质量管理实践,确定了数字资源元数据质量管理的十步流程(见图2)。 图2 数字资源元数据质量管理流程 (1)发现问题。工作人员审核数据以发现数据问题,用户使用数据报告数据问题,还可通过软件、工具监测数据质量。 (2)分析数据质量。依据数字资源元数据质量维度分析数据质量及与业务需求的差距,评估劣质数据对元数据相关应用所造成的影响。 (3)确定问题原因。确定数据问题是源于数据源机构,还是图书馆自身业务要求,确定原因后才可明确由谁来处理问题。 (4)源端修正问题。由数据源机构造成的数据问题,将数据修改要求反馈给源机构修正。 (5)修正当前问题。进一步修正剩下的数据问题,先制定若干数据质量改进规则,再依据规则编写代码来执行数据修改操作。 (6)预防今后问题。预测数字资源今后可能会发生的变化而提前采取的措施,以减少将来花费更多的精力去维护数据。 (7)测试。所有质量管理活动均应先在测试服务器中测试通过后再在正式服务器中实施操作,并分析质量管理活动对服务器所造成的影响。 (8)实施。在正式服务器中实施质量管理活动,包括批量操作和人工操作。 (9)审核。根据已制定的数据质量改进规则核查各数据问题是否已得到了解决。 (10)改进。总结质量管理流程,思考其中还存在的问题及改进方案,并将各操作结果归档。 数字资源元数据质量管理的十步流程通过以数字资源元数据的质量问题为中心,不断发现数据质量问题,并解决问题的循环过程,不断地提高元数据质量。 5 数字资源元数据质量管理的建议 5.1 管理模式 数字资源元数据在数据来源、获取方式、数据著录及资源变化等方面与印刷型资源有较大差异,从而决定了数字资源元数据的质量管理模式不同于传统的印刷型资源。大数据时代,数据从简单的处理对象转变为一种重要的基础性资源[14],数字资源元数据数量巨大,且易发生变化,也应被视为大数据资源来进行质量管理。数字资源元数据质量管理宜采取集中与分散相结合的管理模式:构建单一的元数据仓储将各来源的元数据进行集中管理;根据数据来源、资源类型及数据变化等情况对各类数据实施有差异的管理。 5.2 管理策略 数字资源元数据质量管理活动需要对大量数据做批处理操作,元数据进入数据仓储后再进行批处理则存在着操作风险,也给系统带来压力,因此,元数据入库前进行质量管理比入库后再进行管理要好得多。为了提高质量管理效率,应尽可能地采取批处理方式,批处理之前需制定明确的、可供实施的多种类型的数据处理规则,如问题数据过滤规则、数据合并规则、重复数据判定规则及数据修改规则等,再依据各条规则实施批处理操作。 5.3 多来源的数据 多来源重复的元数据必须进行数据的过滤和去重,再从各来源数据中选择质量最佳的元数据作为主记录,将其他来源的重复数据中不同于主记录而有用的部分并入主记录中,并标注数据来源、被各数据库收录的情况及在各数据库中的访问网址。各来源的数据问题也应与各元数据提供商沟通,从源头处修改元数据。 6 结语 数字资源元数据是揭示和管理数字资源的重要手段,随着数字资源重要性的日渐突出,及数字资源的不稳定性,对数字资源元数据进行科学的质量管理已非常必要。面对目前元数据相关业务系统商难以很好地解决数字资源元数据质量问题的现状,图书馆应凭借独特的专业优势及人力资源配置适时地承担起数字资源元数据质量管理的责任,探索规范化、系统性的数字资源元数据质量管理方案。 (来稿时间:2015年3月)数字资源元数据质量管理的研究与探索_元数据论文
数字资源元数据质量管理的研究与探索_元数据论文
下载Doc文档