一种跨领域的信息资源的描述标准——基于都柏林核心元数据的高校管理信息标准的研究与应用,本文主要内容关键词为:都柏林论文,标准论文,信息资源论文,核心论文,领域论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
引言
《高等学校管理信息标准》(以下简称《高校信息标准》)是一套用于高等学校各类管理信息系统,实现数据标准化并有助于信息交换的技术规范,用于解决各类高等学校内部以及与各级教育行政主管部门之间的信息共享等问题[1]。2005~2007年,国内数所高校联合成立研制小组,经全国信息技术标准化技术委员会教育技术分技术委员会立项,以教育部2002年版《教育管理信息化标准》[2]为基础,进一步深化和完善了信息标准编制通用规范、数据标准集和代码标准集。本文第1部分试图阐明高校信息标准制定的理论基础,第2部分从三个方面阐述如何在修订过程中体现标准化、规范化的思想,第3部分分述标准在应用中碰到的实际问题。
1 都柏林核心元数据的指导意义
1.1 都柏林核心元数据简介
都柏林核心元数据元素集(Dublin Core Metadata Element Set,DCMES)是一种跨领域的信息资源的描述标准[3]。它产生于1995年,由美国联机计算机图书馆中心(Online Computer Library Center,OCLC)发起,国际性合作项目都柏林核心元数据首创计划(Dublin Core Metadata Initiative,DCMI)设计,全世界参与合作项目的机构共同维护。目前最新的版本是1.1版,通用的文本之一为ISO Standard 15836-2003。
都柏林核心元数据描述的信息资源被定义为“任何具有标识的东西”(anything that has identity),因此其应用早已超越图书馆管理的范畴,深入到档案管理、地理信息系统、企业管理等诸多领域。特别是在网络信息资源迅速增长的情况下,这种描述和定义信息资源的方式有效地揭示了资源的特征,从而逐步被接受为信息资源管理的标准,在众多领域被深入研究和应用。
1.2 都柏林核心元数据的文本启示
虽然研究者普遍认为都柏林核心元数据在描述信息资源上具有独到的优势[4],但他们往往只注重于阐述元素集(Element Set)的15个元素项本身,或以此为模板,在相关领域制定类似的元素集标准[5],却很少探讨都柏林核心元数据成为业界标准的原因。本文首先尝试分析、阐释都柏林核心元数据元素集1.1版的文本结构,以此得出其中的启示。
1.2.1 文本结构
在这里,我们选用2003年2月出版的《信息与文档:都柏林核心元数据元素集》(ISO TC 46/SC 4 N515)[6],通过文本本身,来详细了解都柏林核心元数据元素集的文本结构。文本主要分为三个部分:标准化的引用(Normative references)、术语和定义(Terms and definitions)和元素集(The Element Set)。
“标准化的引用”部分列举了后面引用的通用标准,如国家名称代码(ISO 3166)、语种名称三字母代码(ISO 639-2)、互联网媒体类型(MIME)、W3C的日期和时间格式(W3CDTF)等。“术语和定义”部分定义了信息资源和信息资源生命周期的概念。“元素集”部分详细描述了15个元素项(The Elements)。
1.2.2 元素项的描述方式
每个元素项都是用元素名称(Element Name)、标签(Label)、定义(Definition)和注释(Comment)4个属性来描述。值得注意的是,尽管都柏林核心元数据15个基本的元素项都是常见特征的表述,如题名(Title)、主题(Subject)、日期(Date)、标识符(Identifier)等,但文本都给予严格定义,并添加注释[7]。在注释中,还给出某一元素项建议引用的标准或格式。如日期(Date)应符合ISO 8601[W3CDTF]规范,并使用YYYY-MM-DD的格式,主题(Subject)建议从受控词表或规范的分类体系中取值(select a value from a controlled vocabulary or formal classification scheme),格式(Format)亦建议采用受控词表中的值。
1.2.3 启示
都柏林核心元数据元素集的文本并不复杂,但通过分析文本的表达方式却能了解到该标准成为业内共识的主要原因,就是明确了元素项的定义和取值引用规范。
任何元素项(数据项)都必须明确定义,并增加注释,让任何人都能清楚地了解元素项(数据项)的含义,产生一致的理解,不造成歧义。
元素项(数据项)的取值范围亦有明确的规定,如引用已有的通用标准(如ISO标准)、某一领域规范的分类体系(formal classification scheme)或事先定义并能维护的受控词表(a controlled vocabulary)。
可以说,元素项的定义和取值引用规范是都柏林核心元数据的元数据,是关于标准的标准,是规范化描述的典范,其应用不限定于某一领域,在各领域的信息资源描述中都具有指导意义。下面,我们通过介绍《高等学校管理信息标准》的研制工作,以及与其他领域数据标准的对比分析,来具体阐述都柏林核心元数据的思想在标准制定过程中的应用。
2 《高等学校管理信息标准》的研制
2.1 数据标准集的数据项属性描述
《高校信息标准》分为数据标准集和代码标准集两部分。数据标准集在层次上分为数据子集、数据类、数据子类。数据子集对应着不同的业务类别,数据子集由数据类组成,部分数据类还细分为数据子类,数据类、数据子类是一组相关数据元(Data Element)的集合[8]。如何描述数据元,是信息标准的核心问题。用来描述数据元属性的数据,就是数据元的元数据,是用来描述信息标准的标准。前文已述,都柏林核心元数据的元素项用元素名称、标签、定义和注释4个属性来描述,这样不仅准确而且精炼。在都柏林核心元数据应用纲要(Dublin Core Application Profile)中,采用更多更精确的属性来描述,以DC图书馆应用纲要(DC-Library Application Profile)为例[9,10],这样的属性有15个。在地学数据共享的顶层核心元数据标准[11]中,采用6个描述属性;对比都柏林核心元数据,最重要的差别是少了数据项取值使用的编码体系。在《高校信息标准》的研制修订过程中,确定了9个用来描述数据元的属性。表1列举了四种标准的描述项,从中可以看出差别。
下面对“取值范围”、“说明/示例”和“可选性”做进一步说明:
“取值范围”是《高校信息标准》描述数据元的属性之一,规定了该数据项取值使用的编码体系,采用代码值的须填写代码表完整的标题号和名称。“说明/示例”是对该数据项的定义、补充描述或解释。
“可选性”也是《高校信息标准》描述数据元的属性之一,对应着DC中的“约束”。在DC图书馆应用纲要中,约束(Obligation)指明了元素是否总是出现或只是有时候出现。“约束”的级别有:必备(Mandatory,M)、有则必备(Mandatory if Applicable,MA)、强烈推荐(Recommended,R)及可选(Optional,O)。M确保该元素总被使用,MA表示若能获得有关信息则该元素一定被使用。一个约束级别为M的元素,肯定有一个值。R和O的元素指如果信息适合该资源则应用值填入,如果信息不合适该资源,它们则可省略。《高校信息标准》中数据元的“可选性”的级别简化为必备(M)和可选(O)。M一是指为满足上级部门统计报表所必要的数据项,二是指在校内各业务系统之间需要共享或交换的数据项。
《高校信息标准》描述数据元的9个属性达到了都柏林核心元数据描述数据项的要求,从方法上保证了数据项描述的规范性。表2是教职工管理数据子集岗位职务数据类专业技术职务子类(JG0304)的1个数据项的具体描述。
2.2 代码标准集的研制
都柏林核心元数据对数据项的取值范围有明确的规定,如引用已有的通用标准、某一领域规范的分类体系或事先定义并能维护的受控词表,简而言之,要引用通用的或受控的代码标准。《高校信息标准》在研制修订过程中,把代码标准和数据标准区分开处理。代码标准集分为4个子集,国家标准代码子集(GB)、教育部标准代码子集(JB)、高教行业标准代码子集(HB)、学校标准代码子集(XB)。国家标准可以看作是已有的通用标准,教育部标准可以看作是某一领域规范的分类体系,行业标准和学校标准可以看作是事先定义并能维护的受控词表。
代码标准的具体内容是以代码表的形式来展现的。《高校信息标准》的数据标准集引用了大量的代码表,在代码标准集中给出了所有引用到的国家标准、教育部标准和行业标准的具体内容。对于学校标准,部分代码表由于各地、各校业务差异较大,建议各校自编,仅给出部分参考代码表的内容(已标注年份);而只列出标题未给出参考内容(未标注年份)的代码表,各校须根据自身情况编写。表3罗列了各类代码表的数量。
2.3 代码标准集的制定原则
许多学者都提出了信息编码的制定原则[12],但往往不够全面。我们总结了其他学者先前的研究结论,提出了代码标准编制和修订的8条原则:唯一性、稳定性、规范性、可扩充性、单一性、兼容性、实用性和时效性。其中“单一性”和“时效性”原则,以往很少被提及,这里做一点说明:
“单一性”指一张代码表描述一个属性、一个问题、一件事情,要避免把不相干或差别较大的内容放到一张代码表中。比如2002年版《教育管理信息化标准》中,DM-JYDWXZ《就业单位性质代码》中,“80录取研究生”和“85出国(境)及退学”等并不是用来描述“就业单位性质”的,而是与“毕业去向”混淆了。这种不同属性的混淆在过去编制的一些代码表中常常见到。往往为了一时方便,在已有的代码表中随便增加不是表征这个属性的值,似乎也能解决问题。但如果违反“单一性”原则,会导致相应的统计图表出来之后统计维度数据谬误、属性分类不伦不类。都柏林核心元数据强调引用“受控词表”,“控制”代码表的“单一性”是其中的一个重要方面。
我们注意到,国家标准(GB)和国际标准(ISO)完整的标题号都有年份标识,这样做便于修订者记录修订情况,也便于引用者在标准发生修订后及时发现并引用最新标准。2002年版《教育管理信息化标准》中的教育部标准和行业标准都没有标注制定或修订年份,根据“时效性”原则,这次对所有代码表都参照国家标准加上制定或修订年份标识。建议各校在编制学校标准代码表时,亦增加修订年份,便于追踪、管理和引用。
另外,代码标准命名力求做到准确、无歧义,通过名称就可以明确含义和适用范围。如DM-DWXZ《单位性质代码》改为HB/SHDWXZ-2006《社会单位性质代码》,以区分校内外单位;DM-FLZT《法律状态代码》改为HB/ZLFLZT-2002《专利法律状态代码》,以明确其含义。
3 《高等学校管理信息标准》的应用
《高校信息标准》在实际应用过程中,还需要结合高校管理的实际状况,恰当地选择自行编制校定标准,或者引用已有标准。下面分述在实际应用过程中可能碰到的情况:
3.1 学校标准的制定
在代码标准集学校代码标准子集中,有相当一部分代码表需要各校自行编写,这项工作非常重要,是学校内部数据共享的基础。
前面已经提到,学校标准代码可以看作是事先定义并能维护的受控词表。在实际操作过程中,需要明确具体的主管部门负责维护,学校信息化领导小组和有关部门有义务负责审核[13]。学校标准代码只有真实地反映学校的实际情况、及时跟踪变化情况,并同步到所有相关的系统中,才能真正体现价值。
3.2 校标编号的特点
在编制数据和代码标准时,有些名称叫“码”,有些名称叫“号”。人们通常把学校内部管理对象的“代码”称为“号”,比如学生、教职工、课程、教室、建筑物等管理对象的编号称为学号、工号、课号、教室号、楼号等;“码”的对象不是管理的主体,而是用来描述这些主体对象的属性,比如民族是人的一个基本属性,我们在描述时引用《中国各民族名称罗马字母拼写法和代码》,数据项名用“民族码”。从一般意义来说,“号”与“码”没有本质差别,都用代码表形式描述,编制原则也是相似的。
“号”有两个特点:一是使用频繁,几乎所有业务都离不开它,二是各校都有自己的编号传统,编制原则不同。在制定编号规则时,有人习惯在各类“号”中加入院系号、专业号等。多年的管理实践证明,这些号包含的可变信息愈少愈好,其属性可用其他数据项来描述。例如学号只包含学生入学年份和类别,不应加入专业号、院系号等,因为转专业、转院系已是一种常规现象,不能因此就改动学生在校的唯一标识——学号。
从管理信息系统实现的角度来讲,在用户界面上,“号”是可以直接显示的,而“码”要转成对应的名称显示。比如,学号、工号、课号、教室号、楼号等可以直接显示,其意义对学校业务管理人员来说一般不言自明;而引用“代码”的地方,严格来讲都应转换成名称显示(或者代码和名称同时显示),比如在省级行政区划代码中,53表示云南省,在民族代码中,10表示朝鲜族,这些一般用户都是不清楚的,不能只显示代码。
3.3 多级代码
有些代码标准为了反映描述对象的隶属关系或者包含关系,采用了层次编码的方式,反映了描述对象的多级关系,如《中华人民共和国行政区划代码》、《中华人民共和国学位代码》、《授予博士、硕士学位和培养研究生的学科、专业代码》等。这些代码表在引用时,应考虑所需数据的层次,恰当地引用相应级别的数据。如需要引用省份的编码,可取《中华人民共和国行政区划代码》的前两位,学科门类可取《授予博士、硕士学位和培养研究生的学科、专业代码》的前两位,一级学科可取《授予博士、硕士学位和培养研究生的学科、专业代码》的前四位。
3.4 简称与全称
一般的代码表仅有代码和名称两列数据,但在《政治面貌代码》、《党、派代码》等少数代码表中,增加了全称和简称。全称是某一个代码值的标准名称,在正式场合需引用全称;但在某些非正式场合,人们更习惯使用简称。在引用代码表时,需要考虑引用全称还是简称的数据。特别地,在设计统计图表时,一般使用简称更好,因为作为统计报表的一个维度,较短的简称可以方便得到更美观的页面布局,在决策支持系统中,产生良好的用户交互效果。在《中华人民共和国行政区划代码》的省份一级代码中,建议也增加简称,便于引用。
3.5 同主题代码的选择
在代码标准集中,如果出现主题或内容相似的代码表,用户在引用时就容易混淆,这不符合标准化的原则。因此在代码标准集整合过程中,需要找出内容相似的代码表并剔除。但是也有特殊情况,代码标准集中有多张描述学科分类的代码表(GB/T 13745-1992《学科分类与代码》、JB/BSSZY-2006《授予博士、硕士学位和培养研究生的学科、专业代码》、HB/XKMLKJ-2002《学科门类(科技)代码》),由于主管部门的统计口径等不一样,使用时需要选择合适的分类标准。高校常用的一、二级学科分类,是引用教育部的标准。
4 结论
本文通过分析都柏林核心元数据的文本结构,得出了元素项的定义和取值引用规范等跨领域的信息资源的描述标准对于制定具体领域数据标准的重要指导意义。结合实际研制过程,说明了《高校信息标准》在数据元的属性描述和代码标准集方面的改进,探讨了该标准在应用过程中碰到的问题,以及学校在制定校级标准需要注意的方面。2006年10月,在中国高等教育学会教育信息化分会第八次学术年会上,《高校信息标准》向全国高校推广试用并征求意见。高校在信息系统规划和实施过程中,引用《高校信息标准》是提高数据规范性的重要措施,但是更重要的是理解跨领域的信息资源标准化的思想和代码标准的编制方法,在信息化项目中灵活应用,制定符合自身情况的各项数据标准。
收稿日期:2007年3月19日
标签:数据项论文; 都柏林论文; 大数据论文; 数据元论文; 元数据标准论文; 文本分类论文; 代码管理论文; 文本分析论文;