大数据环境下高校中文图书编目数据质量控制探讨论文

大数据环境下高校中文图书编目数据质量控制探讨

司新霞

(三峡大学图书馆,湖北 宜昌 443002)

摘 要: 先探讨编目数据质量的评价标准,再从实际工作中总结出编目数据常见的质量问题,最后探讨大数据环境下如何利用大数据技术来及时发现和纠正这些问题。

关键词: 大数据环境;中文图书;编目数据;质量控制

0 引言

图书馆编目工作的主要任务是按相关标准对文献资源进行分类,并编制目录,建立馆藏目录体系。编目数据是图书馆的基础性数据,高质量的编目数据可以提高读者查找文献的效率,提高他们的查准率和查全率,同时也为图书馆利用数据为读者提供专题服务等奠定数据基础。

1 编目数据质量

1.1 编目数据

编目数据是指编目工作人员先依据《中国图书馆分类法》等,并结合对图书内容的分析,赋予每种图书一个分类号,然后按照CNMARC格式,将图书书名、分类号、作者等信息输入相应的书目数据库中而形成的结构化数据。编目数据主要有编目工作人员自编数据和套录数据,其中套录数据主要来源有:国家图书馆编目数据、CALIS编目数据、图书出版机构提供的编目数据等。

1.2 编目数据质量

编目数据的质量与图书馆读者服务的质量和水平存在着密切的关系。编目数据质量通常可以从准确性、规范性、一致性、有效性、相容性等几个方面衡量,如图1所示。

图1 图书编目数据质量维度

准确性:编目员在著录数据时要准确无误地描述出图书的各项信息,如果录入数据时出现错误,尤其是关键信息出现错误,这样的编目数据迟早会影响读者对图书的检索操作和利用,也会影响图书馆相关的业务工作。

规范性:编目数据的规范性是指编目数据的录入必须符合CNMARC的相关要求,相关的内容要录入到对应的字段中。

No significant differences between serum level of TGF-β1, s-Fr, HA or MCP-1 depending on etiology, age,gender, endocrine insufficiency or Cambridge score in CP patients were found.

(1)可在《中国图书馆分类法》上查分类号的未编目数据的质量控制。

一致性:数据一致性是指在CNMARC格式下同一种中文图书的编目数据必须是一致的,避免不必要的数据重复。

随着网络技术在图书馆的运用与发展,图书馆在不同时期对文献的著录标准要求也逐步提高,不同时期馆藏数据著录的级次存在着明显的差异。回溯建库时的编目数据(如表1所示),会发现二十世纪九十年代初期一般使用简易编目,著录级次要求不高,除了必备的字段,225,330,410,702 等字段都少有著录,在605,606字段,对作为主要检索点的主题词和关键词的标引,有的进行较深的标引,有的完全没有进行标引,编目数据给人粗浅的整体印象。随着文献编目规则的完善以及各馆对编目工作的重视及对编目质量要求的提高,各馆现时期的编目工作,一般著录的级次较高,著录详尽细致,对文献信息作了很好地揭示,方便了读者对文献的检索和利用。

宣纸上用水彩作画,馆藏作品中尚有5幅作品。但明显墨线的运用更为突出,而这5幅作品均已按国画的方式装裱成了挂轴或横披,在账本中归类为“国画”一类(图8)。

2 编目数据常见的质量问题

2.1 著录标准不够统一

编目员完成手头的编目任务后,通常会通过互相审核数据以确保编目的质量,在审核中往往会发现一些具有共性的问题,例如同书异号,录入时存在错字漏字加字,分类和主题标引不对应,字段和子字段使用错误,以及数据不完善,需要补充字段说明等问题。这些问题有的是由于使用的系统软件的局限性造成,有的则有赖于编目员业务水平的提高以及工作专注度的加强。

2.2 著录内容不规范

有效性:这里指编目数据的正确性和合理性。

表1 二十世纪九十年代套录完成的一条编目数据

2.3 著录信息不准确

在编目工作的实践中,因各馆所用软件系统不同,对编目要求不同,以及每位编目员对编目规则理解程度的深浅,业务水平的高低,对工作质量的追求不同等因素,导致普遍存在著录标准不统一的现象,主要表现有:第一,对多卷书的处理不同。多卷书有的是采用集中著录,用丛书题名作为正题名,在327字段,对每个分册作了分卷附注,整套书作了一条记录,有的是采用分散著录,对分卷逐册著录,作了多条记录,而在进行分散著录时对题名的处理也有不同,有的是把分册名作为了正题名,而把丛书的正题名放到了225丛书项字段,作了丛编题名,有的是把丛书题名作为正题名,把分卷的题名作为分册名,二者都做在了200字段;第二,著录的详简程度不一。例如,第一责任者达三个或三个以上时,有的在200字段$f子字段将所有责任者全部著录,在7--字段中也会著录出所有的责任者,有的则在200字段只著录第一个责任者,其余的用“等”表示,然后在 304字段题名与责任说明附注中予以说明,在7--字段中只做第一个责任者。对其他责任者的著录,也存在类似情况;第三,对副题名、并列题名、封面题名,书脊题名等是否作检索点不统一。有的根据情况,在相应的 5--字段作了著录,给了检索点,有的则没著录;第四,属于交叉学科的图书,可以给出两到三个分类号,有的在690字段中只给出一个或者两个分类号,而且将哪一个作为首选,也会因编目员对文献内容的理解不同而产生取号不一致的情况;第五,因为学科发展,学科间的整合与分类发生变化,导致同一种书以前取的分类号和现在给出的分类号不一样,有的编目员选择与馆藏的大多数或者与原来的数据保持一致,有的编目员会按照新的分类标准取号。

3 大数据环境下中文编目数据质量控制的探讨

3.1 大数据技术

Gartner认为 “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据具有4V特征,即数据规模大、数据流转快、数据类型多和价值密度低。在《大数据时代》一书中,维克托认为,大数据的核心就是预测,这个核心代表着分析信息时的三个转变,即全部而非抽样,混杂而非精确,相关而非因果。随着机器学习、数据挖掘、可视化分析等大数据技术的成熟,其逐步应用于其他行业,并推动其他行业的进步。

3.2 改善已有编目数据的质量问题

已有编目数据质量存在着不规范、不准确、重复记录等问题,人工发现并更正这些问题工作量很大,可以利用大数据技术来改善这种情况。在现有编目数据中,利用大数据技术,按书名或分类号聚类,并利用推送技术将同书异号、异书同号的数据推送给相关的图书编目人员,同时在编目大数据中选择一个国家图书馆、中国科学院文献信息中心等权威机构给出的编目数据,或大多数其它编目人员给出的编目数据推荐给图书编目人员供其参考。

相容性:整个图书馆编目系统中的数据应彼此协调,且与其他的数据集没有任何冲突。

3.3 控制未编目数据的质量

(2)9个样品中Cd地累积指数值介于1.90~2.82之间,U地累积指数值介于0.81~1.46之间。其他元素地累积指数均<0。对于Cd元素,9个样品中有1个样品为轻度污染,8个样品为中度污染。对于U元素,9个样品中有4个样品为轻微污染,5个样品为轻度污染。

作品的遴选原则有两个:一是技术的难度,二是思想的深度。所有的努力奔向一个目标:挖掘自我潜能、树立人文精神。因此,本次展览不一定以完善、完美为标准,希望选择具有“自我潜能挑战”的作品;推出近期对“物的深层表达、物的新认知”方面具有探索精神的新作。

在《中国图书馆分类法》上能查分类号的图书,可以利用大数据技术发现图书编目的权威机构赋予这类图书的分类号,并以“信息提示”的方式推送给编目人员,这样可以节省编目人员查找分类号的时间,提高工作效率,比如当编目工作人员在书名框中输入《图书馆阅读推广研究》时,则计算机会利用大数据技术在分类号框中出现“G252”的信息提示,当在著者框输入王余光时,则计算机会利用大数据技术在著者码框中出现“W441”的信息提示。

(2)不能在《中国图书馆分类法》上查分类号的未编目数据的质量控制。

2000年以来,我国氮肥工业进入了结构调整和优化发展时期。一是以示范项目为先导,开展了大规模的原料结构和动力结构调整;二是氮肥行业贯彻“坚持化肥、走出化肥”的发展思路,发展了甲醇醋酸等碳一化工、多元醇、精细化工、化工新材料等多种产品,提高了企业经济效益,培育了新的经济增长点,部分企业发展壮大成为以煤气化为龙头的综合性化工基地。

科学技术的发展促进了一些交叉学科,新兴学科的产生,而《中国图书馆分类法》一般10年左右改版1次,这样可能导致在《中国图书馆分类法》中找不到与这些新学科有关的图书资料的分类号。在这种情况下,可以利用机器学习等大数据技术,让计算机通过已有分类数据的学习,掌握图书分类的规律,从而给不能在《中国图书馆分类法》上查到分类号的图书资料赋予对应的分类号,这样可以避免因不同编目人员对这些图书资料的理解不同出现多种不同分类号的情况。

参考文献

[1] 孙红艳.图书编目数据的来源及应用[J].长春大学学报,2006,(11):141-143.

[2] 赵英智.中文图书编目数据质量分析与控制浅议[J].科技情报开发与经济,2006,(17):70-71.

[3] 罗金姗.图书馆中文图书编目数据质量优化之我见[J].办公室业务,2011,(12):37+43.

中图分类号: F27

文献标识码: A

doi: 10.19311/j.cnki.1672-3198.2019.34.025

作者简介: 司新霞,女,副研究馆员,研究方向:中文图书编目数据质量控制。

标签:;  ;  ;  ;  ;  

大数据环境下高校中文图书编目数据质量控制探讨论文
下载Doc文档

猜你喜欢