基于CSSCI的情报学资源本体构建_情报学论文

基于CSSCI的情报学资源本体构建,本文主要内容关键词为:情报学论文,本体论文,资源论文,CSSCI论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

本体最初的概念来自哲学,后被引入人工智能等计算机领域,Gruber认为“本体是概念化的明确的规范说明”,这一概念又被信息系统和知识管理等领域广泛应用[1]。当今学者将本体分成领域本体、顶级本体(通用本体)、应用本体、表示本体等[2]。本文中,我们将以语义的基本理论为基础,同时引入信息计量领域的相关分析方法,对语义体系进行扩展,进一步构建基于资源特征本身的“资源本体”。“资源本体”是馆藏资源共享概念模型及关系明确的形式化规范说明。这个定义体现了资源本体的5层含义:(1)“馆藏资源”是研究对象;(2)“概念模型及关系”是指通过信息计量的分析方法抽象出馆藏资源的相关概念及其关系,构建概念模型;(3)“明确”是指所使用的概念都有明确的定义;(4)“形式化”即指能被计算机处理;(5)“共享”建立的概念模型是馆藏资源中公认的概念集。建立概念的结构及定义概念属性,利用逻辑推理来推导概念间关系是资源本体的核心。资源本体的实质即建立文献之间的结构与相互之间的联系,包括对数字化资源形式的描述本体,内容的描述本体与应用的描述本体。本文利用馆藏电子资源,即中文社会科学引文索引(CSSCI)的期刊数据,构建情报学资源本体,以期探索一种新的构建本体的方法,并为自动构建本体的理论与方法提供参考。

1 本体的构建与方法

Gruber在1995年提出指导本体构建的五个原则是明确清晰、一致、可扩展性、编码偏好程度较小、最小本体承诺[3]。在真正本体构建的过程中很难有人能将这五个原则做到一一到位。可扩展性和编码偏好程度较小是一致的,做到明确清晰与最小本体承诺是一致的,但学者往往为了做到明确清晰的描述本体、最小本体承诺的同时,会着力刻画本体,而使可扩展性较低、编码偏好程度较大。

目前常用的本体构建方法主要有IDER5法、骨架法、TOVE法、METHONTOLOGY法、KACTUS法和SEN-SUS法。这些方法尽管面向对象不同、名称不同,但其核心及主要步骤都离不开以下几个部分:术语选择、抽取本体概念、语义关系抽取、分类体系构建、本体构建、本体修剪及评价[4],其中本体概念的选取和语义关系的抽取是本体构建过程中的重点也是难点。

(1)本体概念的选取。本体概念包括类目概念和实例概念。目前常用的方法主要有两种:一是根据已存在的专家表、词库等选择并扩充概念集,这一方法可以做到Gruber的明确清晰原则。构建中文本体时学者一般选择主题词表、百科全书等作为候选概念集,再对候选集中的概念通过专家调查或文献调研扩充的办法完善概念集[5];二是利用机器学习的办法从结构化的数据、文档内容中抽取概念。目前常用的方法有基于字典的方法、基于规则的方法和基于统计的方法。

(2)语义关系的抽取。语义关系包括类目间的语义关系和实例间的语义关系。类目间的语义关系一般包括Part of、Kind-of、Instance-of、Attribute-of等,但实例间的语义关系往往更加复杂多变,包括同一类目下的实例关系、不同类目下的实例关系等。实例间的关系则更能体现深层次的语义关系。

在我国,本体构建成为近年来热门的研究课题,很多学者在探索构建理论与方法,已经成功构建的大型领域本体有:医学[6-7]、农学[8-9]、地理学[10]、工学[11-12]、军事[13]、经济学[14]、教育学[15-16]等。但是,还未建立人文社会科学的本体,一是因为人文社会科学的概念确定性较弱,违背了明确清晰的原则;二是因为人文社会科学的概念变动性较大,概念的新老交替现象不断涌现,使得一致性、可扩展性等都不能确定。如何构建人文社会科学的知识本体,将是语义网、知识网络大环境中学者们面临的难题。

本文目的在于建立情报学资源本体,它是馆藏资源中有关情报学的文献经过本体构建而形成的,因此,其构建方法应既有资源本体的独特之处,又有本体构建的一般性,本文设计了如图1所示的基于CSS-CI的资源本体构建步骤。可以看出,基于CSSCI的资源本体构建的重点在于确定资源本体类目及等级体系、定义类的属性、添加实例和定义实例属性。确定类目和添加实例均是本体概念提取的步骤,它们均由CSSCI标引字段而定,所以类目的明确性非常高,也不会发生重复现象。定义类的属性和定义实例属性均是语义关系抽取的步骤。类的属性将体现资源本体的一大特征——计量关系的特性,实例属性将体现基于计量关系的深层语义关系的特性。

2 情报学资源本体构建

按照图1设计的基于CSSCI的资源本体构建步骤,我们尝试利用CSSCI中情报学相关文献构建情报学资源本体。

2.1 确定资源本体范畴

选取情报学作为本文的研究对象基于以下两点原因:一是情报学的学科特色。情报学是研究情报客观现象、结构及情报流运动规律的理论、技术与方法的一门综合性学科。它的本质是研究各种各样的信息,具有多学科属性,可以吸收多学科知识,或应用于其他学科,属于相对“进多出少”的学科[17],这种学科属性会导致对其他学科影响较小,从而成为小学科,小学科对于本文的探索性试验较为有利。二是笔者对于情报学学科特色的熟悉性。笔者多年从事情报学理论与方法的探索与研究,了解情报学的基础理论、学科体系、教育发展情况、从业人员特征以及热点与前沿研究等,选择自己熟悉的学科进行探索性研究较为有利。

资源本体的研究对象是馆藏资源,资源本体是具有实例间计量关系的本体,它的这一属性决定了资源选取的特殊性,所以应该将含有作者合作、作者共被引、关键词共现等特殊关系的资源作为构建的范畴,可以分析以上特殊关系的馆藏资源大部分为期刊资源。其中,中国知网和万方的数据较全较新,但两者都不可以供批量下载引文数据,因此不能得到上述的作者共被引或期刊同被引关系数据。情报学属于社会科学的范畴,可以在CSSCI获得期刊数据,虽然CSSCI中数据量较小,但却具有可供下载分析的参考文献数据。另一方面,CSSCI经过南京大学标引人员的专业标引,字段全面、内容规范,适合批量处理和精确分析。

2.2 考虑现有本体的复用

如果一个学科已经存在完整规范的本体,那么就不需要再建立新的本体,所以这一步是确定是否已经存在情报学资源本体或已经存在的是否可以借鉴。首先,在主题词表的利用层面,构建领域本体可以利用国内两种权威主题词表,即《中国图书馆分类法》和《中国分类主题词表》,但这两种词表在语义关系层面上仅存在“用、代、属、分、参”的浅层语义关系,而本文旨在建立的资源本体的语义关系必须含有计量关系,所以不考虑两者的复用。其次,在已有本体的复用层面,经过文献调研发现,文献[18]构建了基于《中国分类主题词表》的情报学领域本体,且再没有其他学者构建情报学领域本体,所以不存在本体复用的可能。

2.3 确定情报学资源本体类目及等级体系

CSSCI具有严格的标引字段,格式整齐,不论字段中的属性是否为空,CSSCI仍会保留此字段。一条完整的CSSCI来源文献记录包含【文件序号】、【来源篇名】、【英文篇名】、【来源作者】、【作者姓名拼音】、【文献类型】、【基金项目】、【来源期刊】、【第一机构】、【作者机构】、【学科分类】、【第一作者】、【中图类号】、【年代卷期】、【标引词】、【基金类别】、【参考文献】17个字段。

虽然这17个字段均可以用做构建本体的类目,也均可以供信息检索用,但我们不能盲目地将所有字段作为类目或等级来构建本体,而应该有选择性地抽取、删改或整合一些字段,形成具有情报学资源本体特色的类目及等级体系。所有字段中,可以作为惯用信息计量学分析对象的字段有【来源作者】、【基金类别】、【来源期刊】、【第一机构】、【标引词】和【参考文献】,所以我们要将这些字段作为本文所讨论的重点字段来分析。因此,建立如图2所示的类目及等级体系来体现情报学资源本体的特点。

图2展示了情报学资源本体的类目及等级体系,Thing是根节点,根节点下设多个父节点,在此显示“作者”、“期刊”、“基金类别”、“第一机构”、“文件序号”、“来源篇名”和“年代卷期”7个父节点。父节点“作者”下设“来源作者”和“被引作者”2个叶子节点,父节点“期刊”下设“来源期刊”和“被引期刊”2个叶子节点,这是考虑到CSSCI的参考文献中,可供用作引文分析的字段有施引作者和施引期刊两种,因此在设立类目时,不能只考虑来源作者和来源期刊,还应当加入被引作者和被引期刊。而来源作者和被引作者均属于作者这一大类,所以从属于“作者”这一父节点,同理于来源期刊和被引期刊。

这里需要说明的是,情报学中大多数作者既是知识的传播者,也是知识的吸纳者;既是引证作者,也是施引作者[19],因此在本文的类目体系中他们同时是“来源作者”和“被引作者”。这样,在下一步添加实例时,必定会产生冲突。例如,是将同是高产作者和高被引作者“王知津”归入来源作者还是归入被引作者的类目?对于这一点,不论是RDF和OWL语言等本体语言还是Protégé等本体构建软件,均可以解决这种冲突。RDF语言可以将“王知津”的〈rdf:type〉同时标注成〈来源作者〉和〈被引作者〉,Protégé可以在Individual界面中将“王知津”的type设置成〈来源作者〉和〈被引作者〉,同理于“期刊”类目。

2.4 定义类的属性

我们知道,除了根节点、父节点到叶子节点有上下从属关系外,特定的类也可以定义特定的关系。比如定义“作者”与“来源篇名”的关系为撰写,意为某作者撰写一篇名为某某的文章,此属性特性为inverse,说明关系为可逆关系,即“来源篇名”与“作者”的关系为写自,意为一篇名为某某的文章写自某作者。按照此逻辑,可以完整定义所有类目的属性,如表1所示。

2.5 添加实例

实例是本体中具有某一类目特征的具体化个例,而类目是实例的抽象化描述[20],所以类目下的每一个实例都具有该类的特征。本文选取的是CSSCI中2001年至2010年的情报学所有来源期刊,检索表达式:LY01,LY02,LY03,LY04,LY05,LY06,LY07,LY08,LY09,LY10,:XW= 120502$,检索结果为8290条文献,经统计后共得到实例个数如表2所示。这里需要说明的是,选取2001— 2010年专业代码为120502的文献是因为这10年中CSSCI的数据较为稳定,收录已经齐全,本文是基于CSSCI的本体构建,所以依赖CSSCI的文献分类体系,并未特意选择关键词或中图类号检索。根据上文所述的类目体系,因为来源作者和被引作者、来源期刊和被引期刊存在重复,经处理后最终得到作者41 634名、期刊6802种,所有实例78 291个。

2.6 定义实例属性

实例的属性包括实例所属的类目、实例间的关系等。由于我们是根据类目体系添加的实例,所以在此只需考虑实例间的关系。实例间的关系应该服从类目间的关系,因此,实例中的所有作者和期刊的关系同样是“发表于”的关系,这样可以对78 291个实例建立与之相对应的关系,这时需要引入信息计量学的方法确定实例间的关系。我们从下载到的所有数据中分别提取作者、期刊、基金和第一机构等信息,利用excel vba、java和access等程序将不同字段间两两出现的频次计算出来,导入UCINET,并用NET-DRAW呈现出来,形成如图3所示的情报学部分实例相关关系网络图。

图3中显示了作者合作网络图、作者共被引网络图、作者期刊共现图、作者机构共现图、作者基金共现图、作者标引词共现图以及共词网络图。这七种图谱是较为常见的分析学科信息计量特性的图谱,从每张图中都可以看出相应字段间的关系,从而可以发现学科结构,了解学科动态等。从图中看出,字段间的关系都是用粗细不同的线条表示的,而在本体中,我们用语义相似度表示实例间的关系,因此,定义实例属性的关键步骤是计算实例间的语义相似度。

目前比较常用的计算语义相似度的算法有四类:

(1)基于特征的计算方法,Tversky[21]提出两个概念若拥有的共性越多,说明两者相似度越大,反之则差异性越大,具体计算公式为:

(公式1)

(2)基于距离的计算方法,其基本思想是计算出的两个概念的距离越远,则相似度越低,反之距离越近则相似度越高,在本体中一般利用概念距离根节点的路径长度计算两者距离,具体公式为:

(公式2)

(3)基于信息论的计算方法,两个概念拥有的共同的信息越多,说明相似度越高[22]。

(4)混合方法,Rodriguez[23]提出可以通过概念的同义词集、语义邻居概念和概念特征多重指标综合计算概念间的相似度,具体公式为:

(公式3)

根据公式4,我们可以计算所有实例的语义相似度,表3给出了标引词“竞争情报”与部分其他标引词的语义相似度。从表3可以看出,与竞争情报最为相似的概念是企业,企业和竞争情报共同出现的次数为38次,与知识管理相同,但由于企业单独出现的次数较低,于是与竞争情报的语义相似度更高,这与实际情况也是相符的。这说明计算公式排除了个体差异性,若仅用(即图2中所示的线条粗细)表示两个概念的语义相似度,则知识管理与竞争情报、企业与竞争情报的语义相似度等同,与实际情况有偏差。

我们知道,语义相似度是用于信息检索的,本体中不能将如此多的数值定义为属性(Object properties)去关联实例,需要将语义相似度这种具体的数值抽象化表示。因此,我们将不同的数值按数量级分为几种类型,划分细则如表4所示。在此,我们不考虑语义相似度计算结果等于0的两个实例,因为这种情况说明两者在网络图谱中既没有相连,在本体中也没有相互影响。

根据表4建立的抽象化表示方法,可以将表3中与竞争情报相关的概念抽象化表示为如表5所示。同理,按照这种办法,可以将所有实例中有相互关联的实例属性都建立成表,共建立语义关系对182 109对。本文构建的实例关系均可以看成共现关系,如作者使用某标引词可以看成作者与该标引词的共现,作者发表文章于某期刊可以看成作者与该期刊的共现,作者与作者共同被某文章引用(共被引)或多位作者合著论文(作者合作)可以看成作者的共现等。

2.7 对资源本体编码、形式化

对资源本体编码、形式化是为了让机器能够识别构建的本体,增强机器的可读性,有利于本体的自动检测与推理[24]。目前有两种办法对本体进行编码:一种是用现有的本体构建工具手工构建,如Protégé、Ontolingua Server、Onto Saurus等;另一种是将建立好的语义关系对存储于数据库中,利用本体语言规模化编码本体,如XML、RDF、OWL。由于本文数据量较大,共有78 291个实例、182 109对语义关系对,采用第二种方法较为省时省力。运用OWL本体描述语言进行描述,截取出形式化的本体如图4、图5所示。

图4显示的是情报学资源本体可视化效果图的部分内容,图中着重突出了六个部分的内容,按顺序分别为作者期刊关系图、作者机构关系图、作者标引词关系图、作者基金关系图、作者合作图和作者共被引图。图5是图4中1号图的放大效果。从图5可以看出,苏新宁既是来源作者,也是被引作者,2001—2010年他在11种期刊上发表过不同数量的论文,与11种期刊有着不同程度的相关性,图中用虚线表示出来,如《中国图书馆学报》与苏新宁中度相关等。

3 结语

通过下载CSSCI中2001年至2010年的情报学文献,利用半自动构建技术构建了情报学资源本体,得到主要结论如下:

第一,实现了半自动构建本体的技术。信息计量学方法已经十分成熟,应用于各学科领域也得心应手,加之引入语义相似度的计算方法,无需手工统计,全程本体构建均使用计算机程序完成,其步骤与方法可以为自动构建本体作参考。

第二,构建了情报学资源本体。资源本体还是较新的概念,具有计量关系的本体,是本体构建技术中一个新的突破点。将信息计量分析和本体结合,可以更加定量地描述本体中概念与概念间的关系。

第三,将语义相似度计算方法与共现分析相结合得到实例间关系。文章分析了目前常用的语义相似度计算方法后,结合各实例两两共现次数,确定了使用Dice系数,可以降低仅凭绝对数判断大小而带来的误差。

另外,构建本体的最终目的是服务于信息检索,查全率和查准率固然重要,检索结果的可视化效果美观、人性化也是目前学者极力追求的,构建本体的最后一步是本体的修剪与评价,本体可视化是一个直观又便捷的办法。从本体可视化的过程中可以发现一些用语言构建本体时不易察觉的失误,最典型的是无图像和显示不全两种现象。无图像是比较严重的错误,说明尽管通过了可视化工具的语法检查,但却没有语义关联,需要从头检查本体;显示不全比较容易改善,增补缺失部分的内容即可,但这种细小的漏洞却难以发现。

无论是国内还是国外,本体构建技术都尚不成熟,本文尝试一种新的构建本体的方法,重点突出了语义关系的度量方法,还有不足和缺陷。其中,CSSCI的数据只能部分代表情报学,用CSSCI的数据构建情报学资源本体有一定局限性。另外,构建的情报学资源本体依然无法满足Gruber所述的五项原则,可扩展性一般,因为是基于信息计量的方法得到的语义关系,若每有一次变动,则需要重新做一次共现分析,会带来大量的数据运算,还需要深入研究。

标签:;  ;  

基于CSSCI的情报学资源本体构建_情报学论文
下载Doc文档

猜你喜欢