图表与情感科学中主词表分类体系的评价_主题词论文

图情学主题词表分类体系评价,本文主要内容关键词为:词表论文,体系论文,评价论文,主题论文,图情学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着人们对本体和语义检索的热烈探讨,主题词表作为一种集“概念—概念间关系”为一体的受控词表,由于本质上具有与本体分类体系(尤其是等级分类体系)相似的结构,从而重新引起了关注,其在信息检索、概念扩展及文本分类等多方面的应用也得到了拓展[1-5]。而这些应用的成效如何,完全取决于主题词表自身的分类体系。

分类体系于主题词表的重要性,国内外学者早有论述[6-7],然而国内外对词表分类体系的研究却很少。虽有学者分别从概念的表现形式和构成评价了主题词表,但都没有分析分类体系[8-10]。究其原因,很重要的一点是因为主题词表,尤其是自动构建为主的电子主题词表,并不提供可见的分类体系——范畴表,分类体系仅隐含在主题概念间的参照关系之中。

本文选取国际上目前实际在应用的四个图情学主题词表作为研究对象,通过编程方法,实现其分类体系的显性化,并在此基础上分析和评价它们的分类体系,以揭示目前图情学词表分类体系间的区别和联系,探讨主题词表分类体系应该具备的要求。

1 词表背景及词表重建

本文选用的四个主题词表都是当前国际上正在实际应用的、公认有影响力的图情学专业主题词表,分别为:

ASIS(American Society for Information Science)主题词表是美国公开出版发行的纸质版图情学主题词表,至今出版了三版,本文选用第三版[11]。

LISA(Library & Information Science Abstract)主题词表为美国图书馆学情报学文摘数据库(LISA)正在应用的网络版主题词表[12]。

LISTA(Library,Information Science & Technology Abstracts)主题词表为美国图书馆学情报学技术文摘数据库正在应用的网络版主题词表[13]。

LIBLIT(Library Lit & Inf Full Text)主题词表为美国图书馆文献数据库正在应用的网络版主题词表[14]。

我们通过扫描或下载的方式,采集了四个词表的概念和概念间关系相关的数据,通过编程的方法,以款目词为识别单元,逐行读入词表数据,并识别用、代、属、分、参等属性,分别恢复词表的主表和词族表。然后通过关联,将主表和词族表同一族首词下的全部相关词和下位词合并,形成范畴表。恢复后的词表在结构和内容上均可用电子表格的格式显示,从而实现词表分类体系的显性化,而且数据的统计可完全由计算机完成,保证获得词表数据的准确性。本文对四个词表分类体系的分析和评价就是建立在表格格式范畴表的基础上。

2 词表分类体系评价的依据和方法

评价词表分类体系主要依据概念间的等级和相关两种语义关系。主题词的等级关系包含属种关系、整体部分关系,在主题词表中表现为上、下位概念之间的语义关系,体现了词表分类体系的垂直纵深。主题词的相关关系是指除了等同关系和等级关系以外的其他语义关系,如交叉、矛盾、对立与统一、形式与内容、本质与现象、原因与结果等。这些关系反映概念之间的横向联系,其中大部分此类词间关系反映的是学科与学科之间的联系[15],体现了词表分类体系的横向跨度。

评价词表的分类体系,就是评价词表在分类内容、分类结构两方面的设置是否合理。本文下面建立一个基于内容、结构(包括纵向深度和横向跨度)的三维模型,采用统计比较的方法分别从三个维度对词表分类体系进行评价。

3 词表分类体系的评价

3.1 基于内容

主题词表的分类内容具体指词表分类体系反映了哪些子学科分类,揭示其词表的学科偏向,而词表族首词的设置正是反映词表分类体系在子学科分类上的设置。对于此维度的评价,我们将四部词表的全部族首词归纳为若干个类别,分别分析各词表共有和特有的族类,以比较四个词表在内容覆盖上的区别。

为了对词表的内容分类进行比较,本文依照国外相关文献对图情学分类的研究成果,结合四部词表族首词设置的实际情况,综合归纳了一个包含21个类的比对大纲。这21个类别分别为:libraries,information,resources,ICT(Information and Communication Technology),personnel,equipment,legal,sciences,book industries,retrieval,education,languages,management,patrons,organizations,researches,knowledge,security,museums,archive,advertising。将四个词表的族首词分别归入相应类别后,统计分析发现:

(1)四部词表共有的族类有libraries、information、resources、ICT、personnel、equipment、legal、sciences和book industries9个类别。另外,除LIBLIT词表外,其他三表共有的族类有retrieval,education,languages,management,patrons,organizations和researches共7个类别。这16个类别专指性强且外延宽,体现了图情学领域典型的子学科设置,其中resources、ICT和libraries三个族类的族首词含量最大,应视为最为核心的三个子学科,这也与图情学领域自身的科学属性相一致。LIBLIT词表在后7个族类设置的缺失,不能不说是其分类体系在子学科设置方面的缺陷。

(2)除共有族类外,LISA词表设置有knowledge和security两类;LISTA词表设置有museums和archivists两类,LIBLIT词表设置有advertising类,这种独有的族类设置体现了各词表独具的学科特色。

(3)观察四部词表级别纵深最大的词族发现,LISA词表的下位词级别纵深最大的前10位词族中,有6个属于resources类,具有明显的类别倾向性。ASIS和LISTA词表的下位词级别纵深最大的前10位词族中,各有3个属于ICT及其相关的类,具有相对的类别倾向性。LIBLIT词表中,级别纵深较大的词族没有明显的类属倾向。另外,四部词表级别纵深最大的词族几乎都不相同,这表明各个词表在揭示学科深度方面具有自己的特点,另一方面也反映了图情学领域还没有形成公认的具有很深内涵的分支学科,是图情学学科体系仍然不够成熟的一种表现。

(4)LISTA词表的分类体系在内容分类界限上比较模糊,例如,LISTA词表的communication词族的内容包含情报学、信息论、信息资源、信息服务、图书馆学、文献学、出版学、大众媒介等图情学及其边缘学科等多个学科的内容,内容界限模糊,很大程度上已经失去了分类的意义。相对而言,其他三部词表communication词族的内容仅限于信息交流或者通信技术方面,内容界限相对明确。

3.2 基于纵向结构

词表的纵向深度指词族区分的层次,揭示词表分类体系的纵深布局。对于此维度,本文通过概念深度,概念分化度和概念聚合度三个量[16]来评价四部词表的纵深布局。表1为计算这三个量所需的四个词表相关的统计数据。

表1 四个主题词表中与概念节点和概念链相关的统计数据

主题词表以族首词为根节点设置有许多长短不一的概念链。除去等同关系的入口词,主题词表以族首词为根节点的等级和相关结构如图1所示,图中字母A,B表示两个族首词,其他皆代表概念节点。

图1 主题词表等级和相关分类体系的树状图

概念深度用来表示纵向概念链的长度,指一个纵向概念链从族首概念(根节点)到末级下位概念(叶节点)所包含的概念数量。本文定义平均概念深度(s)来评价四部词表的纵深。

平均概念深度(S)=所有概念链总深度/概念链数

根据表1中的统计数据,计算得到。单由数据来看,LISTA词表的概念深度远远大于其他三个词表,即其在揭示词表的等级分类体系时最为细致明晰,然而在统计过程中发现,LISTA词表中约2/3的概念链都集中在“communication”族首概念下,且这些链的深度多数大于10,而其他族首概念下的概念链无论是数量还是长度上都要小得多,这表明该词表在概念深度的分布上缺乏均衡性,这种现象应与上面提到的其分类体系在内容分类界限上模糊有关。其他三个词表,在概念链分布和链长上相对均衡,概念深度上又以LIBLIT词表大于ASIS和LISA词表。

概念链分化,指概念链由某一概念节点开始,在纵深方向产生≥2个的分支,即该概念节点下包含≥2个下位概念,如图1中的节点,我们称之为概念分化点,分化点的存在使得主题词表结构树不断分化出枝状结构。定义分化点占概念节点总量的比例为概念分化度(F),来评价词表分类体系的分化性能。概念分化度越高,表示词表分类体系的纵深结构形成的“树”就会有更多的分支。由表1中的数据,计算四个词表的分化度分别为:。可见,LIBLIT词表分类体系的纵深结构最为致密,其他三个词表相差不大,致密程度约为LIBLIT词表的一半。

概念链聚合,指多条概念链在某一概念节点上聚合为一条概念链,该概念节点分屑多条概念链,也就是该概念节点同时包括≥2个上位概念,如图1中的,我们称之为概念聚合点,聚合点的存在使得主题词表结构树上的枝状结构相连成网状。定义聚合点占概念节点总量的比例为概念聚合度(J),用来评价词表中概念之间逻辑上的重合程度。概念聚合度越大,概念间的相互影响就越大,概念间表现出的共性就越多,概念分支间所结的网也越致密。从表1中的统计数据,计算出四个词表的聚合度分别为:。由结果可知,LISTA词表和LIBLIT词表的概念聚合度明显大于其他两个表,尤以ASIS词表的为最小。

3.3 基于横向跨度

词表的横向跨度反映词表的学科外联程度,揭示词表分类体系的横向布局。对于此维度,本文采用横向关联度来评价。

主题词表的相关关系很大程度上建立了不同概念树之间的横向关联,使主题树之间连接成网。以相关关系联结的概念节点,我们称之为横向关联点,见图1中的概念节点,本文把横向关联点占概念节点的比例称之为横向关联度(H),来评价四部词表子学科间的横向跨度。

根据表1中的统计数据,计算四个词表的横向关联度分别为:。由结果可知,LISTA词表的横向关联度最大,ASIS和LISA词表的值相差不大,而LIBLIT词表的值最小。横向关联度越大,词表概念空间的网状结构越致密,表明词表涉及的学科之间的合作度越高。

另外,在统计横向关联点的过程中,发现四部词表中具有横向关联关系的“概念关联对”各不相同,说明各词表对概念间相关关系的确定尚无一致的标准,同时说明图情学领域在学科之间的相互联系方面还没有达成共识。

4 结语

综上所述,本文在实现词表分类体系显性化的基础上,基于词表内容和结构,采用统计比较的方法,评价了四部国际主流的图情学主题词表的分类体系,结论如下。

基于内容方面:(1)当前图情学主题词表分类体系主要包含上文中提到的16个大类的内容,其中resources、ICT和libraries三个类别反映图情学领域中最为核心的子学科。相较三个词表,LIBLIT词表在分类体系在族类设置上存在缺失(缺失16个类别中的7个)。(2)词表专业倾向上,LISA词表明显倾向resources方向,ASIS和LISTA词表相对倾向于ICT方向,而LIBLIT词表无明显专业倾向。另外,四部词表级别纵深最大的词族几乎都不相同,反映了图情学领域还没有形成公认的具有很深内涵的分支学科。(3)LISTA词表分类体系的内容界限较为模糊。

基于纵向结构:LISTA词表的平均概念深度和聚合度为四个词表中最大,但是该词表在概念深度的总体分布上严重失衡。综合比较,LIBLIT词表分类体系在揭示概念深度、概念链分化和聚合方面,皆有不错的表现,ASIS和LISA词表在这三方面的表现中规中矩。

基于横向跨度:LISTA词表的横向关联度最大,ASIS和LISA词表的值相差不大,LIBLIT词表的值最小。同时发现,四部词表中具有横向关联关系的“概念关联对”各不相同,说明图情学领域在学科之间的相互联系方面还没有达成共识。

结合上述结论,笔者认为,无论是人工编制还是自动构建的专业主题词表,其理想的分类体系应该:(1)在内容上应尽可能覆盖本领域所涉及的所有子学科内容,并且内容分类界限要明确。(2)主题词表体系应该有一定的纵深度,并且在概念深度的分布上要有较好的均衡性,同时又能兼顾纵向结构的聚合和分化。(3)主题词表体系还应该根据专业领域的实际情况,合理地建立尽可能多的学科间横向关联。

收稿日期:2011-03-11

标签:;  ;  ;  

图表与情感科学中主词表分类体系的评价_主题词论文
下载Doc文档

猜你喜欢