转型时期出版科技创新的基础——出版元数据标准化,本文主要内容关键词为:科技创新论文,时期论文,基础论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
信息技术的持续创新,推动了人类生产方式、工作方式和生活方式的转变,促进了工业社会向信息社会的转型。世界各国都在加快信息产业发展,以提高本国的现代化水平和综合国力。信息技术的飞速发展,不但促进了社会转型的进程,也促进了信息产业自身的结构调整。
1997年,美国、加拿大、墨西哥三国联合制定了产业分类标准《北美产业分类体系》(NAICS)。该分类体系将信息业作为一个独立的产业部门,而以往公认的信息产业的重要组成部分——计算机和通讯设备制造,则归入了制造业。2002年,联合国统计委员会参考了《北美产业分类体系》(NAICS)的“信息业”和“经济合作与发展组织”(OECD)的“信息和通讯技术(ICT)”,制定出《全部经济活动的国际标准产业分类》(ISIC/Rev.3.1)中的“信息业”与“信息和通讯技术”两个相关分类。
国际上信息产业的分类,首先影响我国统计领域。2004年,国家统计局发布《统计上划分信息相关产业暂行规定》,与《全部经济活动的国际标准产业分类》(ISIC/Rev.3.1)、《北美产业分类体系》(NAICS)和“经济合作与发展组织”(OECD)的有关分类相对应,实现了我国与地区间、国际间信息产业发展状况的定量分析与比较。此后,“国家信息化发展战略(2006-2020年)”进一步扩展了信息产业的内涵和外延,将过去信息产业中的信息技术(IT)和通讯技术(CT),以及相关设备的生产,归入“信息技术产业”;将新闻出版等行业,列入“信息内容产业”,并与“信息技术产业”共同构成信息产业。(如图)
据悉,有关部门正在研究制定我国信息服务大行业的整体发展战略,进一步完善政策法规,构建由“信息内容→信息处理→信息传输”组成的产业链,以促进产业链各环节的协调与发展。
经济发展促进社会分工,产业分类必然拉动出版业加速向现代服务业和数字出版业的方向发展,使出版业进入一个产业转型期。出版业是内容加工与传播的主体行业,产业分工要求出版业加强和促进与其他信息相关产业的合作与互动,以共同构建我国完整的信息内容产业链。标准是实现产业间合作与互动和技术创新的重要支撑。现代服务业和数字出版业是信息技术与出版业务相结合的新领域,具有广阔的发展空间,要保证出版产业在新领域的健康发展,必须加大出版标准化的力度。其中,出版元数据标准是出版业实现信息无障碍对接的基础性标准,由科技部立项的出版元数据标准研究项目已经启动。作为信息内容产业链起始环节和内容资源源头的出版业,承担着为信息内容产业提供数字化出版内容的重要责任,出版业要切实履行其责任,标准必须先行。
一、出版元数据及其标准化
元数据属于信息组织范畴,在计算机技术的支撑下,获得了空前发展,已经成为对信息内容进行有效组织的一种方法或技术,并充分显现出在提高信息管理、尤其是海量信息管理效率方面的优越性。例如:GB/T 5795-2006《中国标准书号》标准中增加了“题名”、“著作者”、“出版者”、“版本”、“语种”等16个元数据元素,形成一个描述出版物的元素组合,即:“中国标准书号元数据”。其目的,一是使“中国‘ISBN’管理机构既可以利用数据库将中国标准书号与其元数据基本要素联系起来,也可与书目机构合作,以确保公众可以获得这些数据”。二是各个异构系统按“中国标准书号元数据”统一制作出版物目录,可提高跨系统检索的查全率和查准率,同时可根据升位后的“ISBN”查到该出版物升位前的“ISBN”,从而避免了同一出版物升位后被误作两种的情况。又如:在清华同方数据库文本录入过程中,由于中文词汇自动切分技术尚不稳定,主要依靠人工判断辅助计算机进行处理,影响了效率的提高;而通过元数据的统一描述,则可为计算机的自动化处理创造条件,以降低该类企业对中文信息处理技术水平的要求,提高中文信息的处理效率。再如:出版元数据在与XML(可扩展置标语言)技术结合时,由于出版元数据是通过专家或专业人员手工生成方式或者自动生成的方式人为地得到的,是以自然语言形式与出版业务和内容资源联系在一起,成为一种独立的数据体系。所以,能适应由XML“文档类型定义(DTD)”向XML“限定文档结构机制(schema)”的发展而不受其技术更新的影响,从而延长了其生命周期。
目前,元数据尚没有统一的定义,有的元数据被定义为“关于数据的数据”,也有的被定义为“定义和描述其他数据的数据”等等。尽管定义不一致,但都反映了元数据的本质,即:用来描述具体资源的数据,其显著特征在于构成一个统一的编码系统。该系统的分类和层次,与该领域资源对象的分类和层次相对应,其共性程度最高的一组元素组成该元数据的核心集。
正是元数据的本质功能和特征,使元数据成为用户在计算机环境下,查询并获取某一资源的中介。由于信息的迅速膨胀,使得只有被统一描述的资源才能被标识,只有被标识的资源才能被链接,只有被链接的资源才能被找到。由于元数据具备了上述功能与特征,才保证了用户在越来越多的信息中快速准确地找到所需信息。
元数据是被描述事物的客观反映,它既反映事物的特征,也反映事物之间的相互关系。因此,在相关领域的元数据格式和类型之间,必然存在着一定的联系,有着共性基础。正确反映相关领域元数据间的相互关系和共性成为元数据标准化的内在动因。
多种元数据并存是事物多样性和相关性的客观反映,随着人们对元数据认识的不断深入,元数据的两面性也逐渐被认识,要充分发挥元数据的功能,必须扬长避短。于是,人们开始寻找不同元数据之间的共性,并在把握其共性的基础上谋求不同元数据之间的统一和兼容。因此,标准化是其必然趋势。
在出版领域,元数据是描述出版领域的资源、过程、权限和管理数据的数据,同样存在着元数据标准化的问题。
出版元数据标准化是制定并依照出版元数据框架及其应用规则,对出版领域所用元数据实施规范管理的过程。标准化主要解决已进入标准的不同元数据间的兼容,同时将正在使用和新出现的元数据纳入标准。
当前,出版业内各专业领域已在使用元数据,如电子政务、版权保护,以及编辑、发行、数字资源数据库等领域。当前,已经制定和实施的国家、行业、企业等一系列应用元数据的标准有出版业国家标准:GB/T 12451-2001《图书在版编目数据》、GB/T5795-2006《中国标准书号》等;本行业标准:CY/T 3-2005《新闻出版总署办公信息管理系统及网站项目共享数据集》、CY/T 39-2006《图书流通信息交换规则》等;出版企业标准:Q/CNKI 103-2006《中国学术期刊网络出版总库(元数据结构及数据质量)》等。以上标准及正在研制过程中的出版业《图书二维码应用规则》等标准,都不同程度地应用了元数据。
与此同时,一些元数据虽未进入标准,但也在频繁使用,例如在出版管理领域各类“专项调查”、“统计报表”中使用的元数据;又如出版交易过程中各类“订单”、“凭据”所使用的元数据,以及出版物流领域“运输包件标签”所用元数据等等。
数字出版的发展,涌现出一些新的元数据需求。比如我国“数字资源总库”重点项目的建设,需要对各类知识内容的拆分、采集、分类、标识、注册、存放、链接、更新、维护等环节进行统一描述,规范操作,需要制定统一的检索、分发、计费等服务规范,更需要使用标准化的元数据。
随着出版领域元数据多样性局面的出现,其两面性已经为业界所认识,要发挥元数据的正面作用,避免新的“信息孤岛”出现,必须解决出版元数据标准化的问题,才能在数字化环境中保证出版信息顺畅交换。出版元数据标准化已成为转型期出版科技创新的基础。
二、确立出版元数据标准框架是不同元数据协调统一的前提
出版业的信息交换需要使用语义统一的元数据,为兼容和改造已有的和将要建立的元数据应用规范提供标准化支持和手段,这就需要确立一个规范元数据语义的统一框架,并制定相应的元数据应用规则,以适应出版发行各环节用户对信息无障碍对接的需要。
由于已经制定的标准分别来自于不同的标准制定者,在缺少统一框架的前提下,只能立足于满足本领域的具体需求,其大多采用自行定义方式,结果使出版业各领域所用元数据互不兼容,互不协调,影响了出版业的信息共享和信息化进程。目前存在的主要问题如下:
①“名称”冲突。不同领域中的元数据元素“同名异义”或“同义异名”,如“数据元素”,在《图书流通信息交换规则》中与《中文图书标识数据》中的名称相同,而定义不同;又如在《中国机读目录格式》中的“子字段”,与《都柏林核心元数据集》中的“元素”定义相同,但名称不同。
②“分类”不统一。不同领域所采用的分类法不兼容,如出版业同时采用了“线分类”、“面分类”和“混合分类”方法,但这些方法所产生的不同分类体系,有各自的编码体系,它们之间没有建立起对照关系。又如GB/T 2450-2001《图书书名页》规定“版本记录页”使用“图书在版编目(CIP)数据”,其分类号限定以《中国图书馆分类法(第四版)》为标引依据,而“中图法”与出版物陈列所用的“主题分类法”之间没有对照关系。
③描述元数据元素的属性不统一。一是属性选取不一致,对属性的约束不统一,从而限制了检索功能的发挥,降低了查全率和查准率;二是缺少链接属性,使许多资源之间的引用关系无法体现,通过链接浏览引文全文的需求无法满足,阻隔了知识间的网状关联。
由于标准化的元数据数量不足,导致自定义的派生元数据大量产生。这些自定义的元数据在企业间交互时,加剧了数据之间的冲突。
建立元数据的统一框架,是协调出版业不同元数据元素的语义、描述格式和应用的前提,也是提高元数据标准化程度的有效途径。
三、为了保障出版物流发挥整体功能也需要实现出版元数据标准化
出版物流占用了出版业大量的资源,这些资源是在传统图书发运的基础上发展起来的。在过去,出版物流企业依托这些资源,为图书发行提供了有效的服务和支持;在今天,更需要充分利用这些资源,为出版业的技术改造和产业升级提供重要的支撑功能。
目前,全国出版物流资源分布呈离散状,伴随的物流元数据也呈现出各自的独立状况。由于出版物流元数据的不统一,严重影响了出版物流企业间的信息交换,也固化了出版物流的离散状况,使出版物流难以发挥整体功能。离开了物流整体功能的支撑,产业技术改造和升级,传统出版业向现代服务业的转化,将受到严重影响。要使出版物流发挥整体功能,首先要规范出版元数据的应用,以提高出版物流元数据的标准化程度,消除分散物流企业间信息沟通的障碍,形成全国性的出版物流信息网络,使出版物流涌现出整体支撑功能。
出版物流的发展模式,是一种向技术要规模、要效益的模式,充分体现了科学技术作为第一生产力的作用,也显现了出版元数据标准化对物流信息整合所提供的基础性作用。例如:出版物流对农村出版物发行的支撑作用非常关键,尤其是对“农家书屋”长效机制的支持。可以说没有出版物流的支持,就没有我国的农村图书发行。一方面,随着社会经济的发展,农民对出版物的需求不仅是书、报、刊,还有电子、音像出版物等多种媒体类型,这就要求语义统一的出版元数据对所有的出版物类型进行统一描述,只有统一描述,才能实现统一管理,统筹配送。另一方面,由于农民居住分散,物流成本高,更需要优化物流线路,实现规模化经营,不但要实施多种出版物统筹配送,还要建立正向物流与反向物流相结合的物流整体支撑功能。这就需要通过标准化元数据,对物流资源、物流单证、物流标签、物流参与者、交易术语、物流流程等进行统一描述,只有统一描述,才能建立跨区域、跨企业间的统一数据接口,实现物流信息无障碍沟通;才能在统一信息的调度下,实现物流企业分区域计费和协同作业。
以上分析表明,消除出版物流企业间信息沟通障碍,是发挥出版物流的整体功能的前提。在出版业向现代服务业转型过程中,出版元数据标准化已成为出版科技创新的先决条件。
四、出版元数据标准化是数字出版内容资源整合的支撑条件
互联网是一个具有巨大潜力的数字媒体,是一个可容纳多种形式的海量知识资源。相当数量的用户已经习惯于在网上获取知识,对互联网的依赖性日渐增强。互联网聚集了越来越多的数字内容读者,也吸引了越来越多的数字内容作者。因此,作为知识内容的出版者,也应该成为数字内容的加工者。当读者、作者和出版者集聚互联网时,“数字出版”便逐渐形成了,并在经营方式和存在形式方面显示出与传统出版不同的新特征。例如:出版物数字内容的存在形式,是以最小内容单元,汇聚成巨大的总量,以及时更新、便于检索的方式,存在于互联网中。出版物数字内容的经营方式,是新的计费方式与商业模式相结合的经营方式。
推动数字出版产业的发展,不但要适应其文化产业特征,还要适应其存在和经营特征。一方面,要对知识产权进行有效和恰当的保护,对重大选题应采取必要的监管手段;要拆分出数字内容的最小应用单元,并将该内容单元整合形成一个规模巨大的整体性知识资源。另一方面,需要建立统一的出版物版内容提取、拆分、分类、标识、注册、存储、分发、检索、计费、支付等注册、服务环节的描述规范与操作规程。
要满足以上要求,需要建立元数据统一框架,并从元数据定义的统一描述入手,使同一元数据元素在不同出版环节,不同应用中保持语义一致,从而实现不同领域应用的元数据在一个框架下兼容。
数字出版产业的发展,需要规模化的数字出版内容资源,无论是集中式或分布式资源整合,都需要通过标准化的元数据实现。因此,出版元数据标准化是支撑数字出版内容资源整合的必要条件。
以上分析表明,出版业向现代服务业和数字化方向的转化,必须先规范后发展。因此,探讨出版元数据标准化与出版产业发展的关系,有利于出版业基础性标准的建立,有利于引导出版产业沿着科学的道路前进,对促进出版产业的发展具有实际意义。