基于CSSCI本体的主题关联分析_关联分析论文

基于CSSCI本体的学科关联分析,本文主要内容关键词为:本体论文,学科论文,CSSCI论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G250

1 引言

为了解决当前互联网缺乏语义理解的问题,互联网创始人Berners-Lee提出了语义网(Semantic Web)的概念[1],试图通过改变互联网的信息组织方式来充分揭示网络信息中蕴含的知识。本体(Ontology)作为一种有效的知识组织方式,被纳入语义网体系,为解决语义层次上网络信息共享和交换提供了基础的知识结构。中国社会科学引文索引(Chinese Social Science Citation Index,CSSCI)[2]自20世纪90年代末诞生以来,以其规范、权威的检索和分析服务得到了使用者的一致认同。然而CSSCI现有直线型的信息组织方式严重地限制了学术资源知识间内在关联的语义表达,无法在其上实现隐含知识的挖掘以及立体式学术评价和引文分析服务,难以满足用户个性化、专业化需求。

在CSSCI的各类学术资源中,学科是能够反映研究内容的颗粒度最大的一种概念。由于其包含内容的广泛性,不同学科之间往往具有部分相同的研究主题,各学科的学者通常习惯于从本学科的角度去探讨这些主题,以获得能够促进本学科发展的研究成果。随着学科间交叉研究主题的逐渐增多,交叉学科、边缘学科也逐渐发展起来,跨学科的知识越来越普遍。因此,通过对学科间的关联分析,可以了解学科之间的交叉关系,掌握学科之间的交融程度,促使跨学科合作的增强,为交叉学科、边缘学科的产生和发展提供事实的决策依据[3]。作为知识服务和学术评价的重要组成部分,学科关联分析已经引起了学术界的广泛关注,目前多采用数据挖掘技术从学科引用或同被引等角度实现知识发现[4,5]。

本文试图将本体机制引入CSSCI学术资源的知识组织中,建立基于本体的CSSCI学术资源网络模型(CSSCI_Onto),以面向对象的方式来组织学科及其相关概念,以规范学科与其他学术资源间的关联模式,实现学科与其他学术资源间丰富语义关联的深度揭示。在此基础上通过知识挖掘发现隐含在原有知识下用户感兴趣的学科关联规则和模式,探讨可提供具体决策支持的分析结论,以增强学科间合作,促进学科发展,为解决用户需要更完善的知识服务和现有CSSCI提供学术资源服务相对落后之间的矛盾奠定基础,提供可参考的解决方案。

2 面向CSSCI的学科本体构建

CSSCI精选了400-500种人文社会科学精品期刊作为来源期刊,收录其刊载论文及相关的关键字、作者、机构、期刊、学科、被引文献等学术资源。现有的CSSCI数据结构仅从来源文献和被引文献两个角度展示相关学术知识,这对于其他重要学术资源的揭示力度不够,无法满足用户了解学术资源知识之间共现关联的需要。为此,笔者基于CSSCI(2000-2006)7年的数据建立了CSSCI_Onto[6],借助本体面向对象的知识组织结构来明确规范学术资源之间的语义关联,试图利用CSSCI_Onto中定义的学科概念及其相关属性来揭示学科之间的潜在关系。

2.1 学科概念模型的构建

CSSCI_Onto是由概念库、实例库和规则库所构成的一个完整的CSSCI知识本体,其概念模型包括三层概念层次结构,共39个本体类,336个属性。学科作为独立顶层概念,没有子概念,学科与其他学术资源之间以属性形式建立了关联。学科概念的属性集合如表1所示。

(1)数值属性(Datatype Property)

用于描述概念的自身状态和结构等信息。这类属性的取值仅与实例本质相关,其他对象的变化以及周围环境因素等不会对该类属性产生影响,概念也不能通过此类属性与其他概念建立关系,例如“学科名称”。

(2)对象属性(Object Property)

以某一概念的实例作为属性值,主要用于描述实例之间的关系,其取值随着实例间关系的变化或环境状态的影响而发生改变,例如“关联主题”,以主题实例作为该属性的属性值,揭示了学科与主题之间的相互关系,并且该属性的取值会随着CSSCI收录文章主题的变化而发生相应的改变。

对象属性根据属性值的来源又可以分为:

①同类对象属性,以同类对象作为概念属性值,描述的是同类概念之间的语义关联,通常用于揭示本体中的分类关系,如“关联学科”,这也是全面分析学科间关联的语义基础;

②异类对象属性,以其他类型对象作为概念属性值,例如“来源文献”、“来源作者”等都是学科概念的异类对象属性,揭示的是学科对象和文献、作者等之间的相互关系。该类属性通常用于描述本体的非分类语义关系。

2.2 面向CSSCI的学科语义标注

概念模型定义了本体的“元数据”结构;而CSSCI_Onto的核心却在于以其庞大的实例库提供丰富的信息服务,将CSSCI学术知识以网状形式联系在一起,这就需要根据元模型对具体数据实现语义标注。本文仅探讨学科实例的语义标注方法和过程。

在CSSCI(2000-2006)中,所有来源文献被标注为25个学科(不考虑“980高校社科学报”、“930综合性社会科学”和“000其他学科”,因不是单独的学科门类),可以根据学科概念属性的类型,采用不同的获取方式。

(1)基于关系数据直接抽取

CSSCI来源数据以关系型数据库的形式存在,一些属性直接来自关系的字段名,例如数值属性。针对这类属性,可以直接从关系元组中抽取实例之间的依赖关系(字段值)作为实例的属性值。如“学科代码”和“学科名称”等属性,可以从来源文献关系元组中直接获取对应属性(字段)的属性值(字段值)。

(2)基于直接统计并适当辅以TF-IDF算法

对于部分异类对象属性,需要统计属性实例相对于中心学科实例的关联次数,如“年度发文量”、“年度被引量”等;为了使关联属性值更具意义,有时需要基于统计值计算总值或实例间关联度,如“年度发文量”属性中可以基于统计获得的年度发文次数计算总发文量,又如“关联主题”属性,除了统计学科与关联主题之间的关联次数外,还可以基于TF-IDF算法计算学科与关联主题的关联度,用于描述主题对学科的依赖程度,以便更合理地揭示学科与关联主题的关系。

(3)基于标准加权获得同类概念属性

学科与学科之间由于内容交叉而存在关联。在CSSCI_Onto中,通过学科概念的“关联学科”属性来描述这种交叉关系,获得每个学科实例的相关学科并计算学科间的关联度是学科本体构建所必需的。对于这种交叉关系,可以先基于多种标准分别获得学科实例间关联,再根据不同标准权重各异的方法计算加权平均值,以获得学科实例间的综合关联度。

在CSSCI中,主题是描述学科的最小内容单元,而学科则是能够概括主题的最大内容单元。因此,可以通过描述学科的主题向量间的交叉来探讨学科之间的关联;此外,学科之间的相互引用以及学科同被引情况都能在一定程度上反映出学科之间的相互关联。因此,本文选择学科主题、学科间相互引用和学科同被引情况三个标准来揭示学科间的两两关联,具体的关联情况及其关联度如下:

①基于主题共现的学科关联解析。提取关联度前90%的主题作为学科的描述向量,并设置主题共现阈值为450,即认为相同主题达到450个的学科之间才具有关联,可得23个学科198对关联,部分关联如表2所示。

②基于引用的学科关联解析。设置学科引证阈值为100,即认为引用次数达到100次的学科之间才存在关联,可得24个学科之间共142对关联,其中部分关联如表3所示。

③基于同被引的学科关联解析。在学科引用基础上,以引用学科作为被引学科的描述向量,被引次数作为向量元素值,设定学科同被引阈值为3,可得18个学科之间共202对关联,部分关联如表4所示。

④基于标准加权的学科关联解析。将上述三种关联度归一化,并依据标准的不同权重(分别设置为0.4,0.3,0.3),计算加权平均值作为学科关联综合值。每一学科取综合关联度≥0.08且最高的5个学科作为其关联学科,共获得24个学科(“940军事”没有关联学科)之间共85对关联。图1为CSSCI(2000-2006)中25种学科的关联云图(仅显示双方均存在的关联——强关联)。

3 基于CSSCI学科本体的关联分析

根据CSSCI_Onto中的所有学科实例及其“关联学科”、“关联主题”等属性值,可以进一步获得一些分析结论。

3.1 基于中心学科的关联分析

在CSSCI_Onto本体中揭示的学科间关系是指关联学科对中心学科的重要或交叉程度,据此可获得每一种学科的依赖学科。例如“图书情报档案学”(以下简称图情档学),其最相关的5个学科分别是新闻出版广播学、管理学、教育学、法学和经济学。

(1)信息收集、处理、传播、编辑出版研究等向来都是图书情报档案学的研究重点,而这些也是新闻出版广播学的研究内容之一,这就致使两个学科之间存在众多的内容重叠,有的学校甚至在图情档学科下设置了编辑出版类的博士点、硕士点,如南京大学信息管理系,因此新闻出版广播学作为图情档学最为密切的学科在情理之中。

(2)当前各高校图情档学硕/博士授予的学位为管理学硕/博士学位,而且图情档学研究现在已经成为信息管理研究的一部分,经常以管理学知识作为其研究基础,因此管理学对图情档学具有重要影响。

(3)近年来,教育信息化的提出使得信息技术被广泛地应用于教育学领域,如网络技术、数据库技术等,而这些技术也是图情档学当前的研究热点。

图1 CSSCI中25个学科间的关联云图(仅显示双向关联——强关联)

(4)图情档学研究经常涉及知识产权、版权保护、电子商务、信息经济学等研究主题,需要得到法学、经济学等学科的知识支持。

除图情档学外,通过CSSCI_Onto也可以得到其他各种学科的关联学科,有的依赖性非常明显,如马列毛泽东思想依赖于政治学,中国文学对于外国文学相当重要等;也有的学科之间表面依赖并不明显,实际上却关系密切,例如哲学对于文化学的研究具有重要作用等。了解中心学科的依赖学科,可以在本学科研究中参考或借鉴相关学科的有关知识,多方面知识的有效结合有利于知识的创新,促进新的研究领域甚至新学科的诞生。

3.2 基于学科间平均关联度的多维尺度分析

从“关联学科”属性中获得的均是对中心学科能够产生重要影响的关联学科,根据本文采用的几率模式算法可知,这种关联是单向的,即并不相同。假如以学科之间的平均关联度来描述两者之间的相似度,那么就可以使用多维尺度分析(Multi-dimension Analysis),将学科之间的相似度矩阵转化到二维空间,通过图形可视化方式以平面距离来描述学科之间的关联程度,从而达到学科间关系的“空间”理解。该过程的基本步骤如下:

(1)基于CSSCI_Onto学科实例的“关联学科”属性值获得学科间关联度。

(3)根据学科间平均关联度,建立学科之间25×25的二元相似矩阵(包括军事学),矩阵中数值越大,表明对应学科间相似度越高。

(4)采用SPSS对相似矩阵进行多维尺度分析,利用平面距离来描述学科之间的相似度,做出学科间的状态空间图,如图2所示。

图2中距离越小表明学科之间关系越紧密,该图显示所有学科明显地被分为两个部分,军事学和其他24个人文社会科学之间存在很大的差异。由于多维尺度分析采用了降维操作(本例中25维→2维),失去了部分关联信息,使得图中圆点间的距离只能大致反映它们之间的关系。SPSS提供了两个参数用于考察模型拟合的优化程度,分别是Stress和DAF,一般认为,Stress越小,DAF越大,则模型的拟合效果越好。图2中Stress=0.00214,DAF=0.99785,表明拟合效果甚佳,分析具有很强的可靠性。

图2 学科间关系的多维尺度分析结果(包括军事学)

(5)为了进一步分析其他24个学科之间的多元关系,笔者在上述二元矩阵中去除军事学,建立24×24的学科关联方阵,然后再进行多维尺度分析,结果如图3所示。

图3 学科间关系的多维尺度分析结果

其中:Stress=0.01133,DAF=0.98867。

(6)从图3中不难发现,人文社会各学科之间存在千丝万缕的关联,导致学科之间没有明确或清晰的界限;从总体上看,语言学、艺术学、文学、哲学等人文科学较为分散,而政治学、社会学、法学、管理学等社会科学比较集中;分散在图形边缘的一般为比较“孤立”的学科,如考古学、宗教学、统计学、环境科学等,可以称之为边缘学科。

(7)对相似矩阵进行层次聚类(Hierarchical Cluster)分析,可获得聚类结果的系统树状图,如图4所示。

图4 学科层次聚类分析的系统树状图

根据聚类结果,可将图3中24个学科按虚线分为7个类别,加上军事学,总共包括4个大类和4个小类。4小类中均仅有一个学科,分别为统计学、考古学、宗教学和军事学,这些学科比较孤立,相关学科少,即使有关联学科与其关联度也很低,特别是军事学,在人文社会科学中根本没有关联学科;4个大类则分别为文学艺术类、教育心理类、经济管理类以及政治社会历史文化类,大类中的学科之间关联比较密切,根据大类中的相关学科可以寻找学科之间的契合点,探讨共同主题,发掘新的研究方向。

3.3 基于关联度的学科关联分析

对CSSCI_Onto本体中存在的所有85对学科关联按关联度值降序排列,发现:

(1)关系最为紧密的是“政治学”→“马列毛泽东思想”、“中国文学”→“外国文学”以及“哲学”→“马列毛泽东思想”,其中“马列毛泽东思想”占据了两个席位,印证了该学科起源于“政治学”和“哲学”的结合,也说明该学科是个小学科,能与其保持关系的学科不多,导致其过度依赖于“政治学”和“哲学”;

(2)从关联度值的分布可以看出学科的研究领域范围,例如与“经济学”、“管理学”等的相关学科与其关联度值都较小,而且关联度大于0.08的关联学科均不足5个(“经济学”关联学科只有两个),说明这些学科与大部分学科之间均存在一定联系,其依赖性比较分散,也间接说明这些学科研究范围较广,属于人文社会科学中的大学科范畴,类似的还有图情档学、哲学、法学等。相反的,有的学科如“文化学”、“民族学”等相关学科的关联度均比较大,说明对其关联学科依赖性较大,其研究内容比较集中,属于小学科的范畴;

(3)有的学科比较孤立,其依赖的关联学科极少甚至没有,而且关联度均很低,例如“宗教学”,在本体中其仅与“哲学”保持很小的关联度(0.08855),类似的还有“军事学”这一根本没有相关学科的绝对孤立学科。

3.4 基于跨学科热点的学科关联分析

在CSSCI_Onto中,学科的“关联主题”属性保存了所有学科的关联主题及其关联次数和关联度。对学科中出现的高频主题进行聚类分析可以探讨学科的研究热点,那么将该方法应用于在两个学科中均频繁出现的主题上,就可以得到这两个学科的交叉研究热点,进而从微观上了解学科之间的融合程度。基本思路如下:基于“A学科的高频关联主题nB学科的高频关联主题=跨AB学科热门主题”的推理,可以从学科实例的“关联主题”属性值中获得跨学科高频主题。以“图情档学”(870)和“管理学”(630)为例,选择出现次数最多且具有较高专指性的37个主题作为跨学科高频主题,如表5所示。

对上述主题建立主题×关联主题矩阵,并进行层次聚类,从结果树状图中可以发现图情档学和管理学的交叉热点较为分散,主要包括:

(1)知识管理和知识经济,这是将图情档学的重要研究对象——知识作用于企业管理的必然产物;

(2)信息技术和信息服务,当前管理学期望通过获取信息服务来改善管理的效果和效率,因此,在图情档学中得到广泛应用的诸如数据挖掘、信息系统开发等信息技术尝试通过开发或改善信息服务为企业管理提供有效支持;

(3)人力资源管理,图书馆学研究人员试图深入、透彻地理解人本思想的管理模式,以实现以人为本思想在图书馆建设和管理中的普遍应用;

(4)企业信息化,重点探讨信息化、电子化、数字化等在企业管理中的运作,电子商务正是信息化和企业管理相结合的典型产物;

(5)评价指标和评价体系,在管理学中,需要对企业、人才、环境、可持续发展力、绩效等对象进行评价,这就需要充分利用在图情档学中得到广泛应用的评价方法和过程;

(6)知识产权及其保护,网络版权等问题随着网络的迅速发展逐渐凸显,而在企业管理中同样也存在企业标准、技术、品牌、专利等知识产权问题。

除了上述这些比较明显的跨学科热点之外,在“管理学”和“图书情报档案”领域还存在诸如资源配置和可持续发展、人才培养和教育等共同的热门研究课题。通过对学科间共同研究热点的获取和分析,可以从本质上了解学科间关联,方便学者进一步寻找学科间可以延伸的研究方向,促进学科间的进一步合作并指明合作方向。

4 结语

综上所述,基于对学术资源具有明确组织和描述的CSSCI_Onto进行系统地学科关联分析,改变了原来的采用关联规则挖掘在单一标准基础上判断学科关联的传统分析模式,不仅可以了解学科之间的两两关系,掌握学科两两之间的依赖程度,而且能够在此基础上发现学科之间的多元关联,挖掘出具有研究共性的学科集合及其研究方向,为多学科之间的交叉合作提供可参考的事实依据。

本体将原有面向结构的数据结构转化为面向对象的数据结构,原有的学术资源信息被升华为知识。在更符合人类思维模式的面向对象的知识结构基础上进行学科关联分析能够从更多角度入手,而获得更充分、更全面、更可靠的分析结论。本文所做的分析研究只是对基于本体学科评价的一个探索,相同的分析方法和过程也可以应用于更广泛意义的学术资源,包括作者、期刊、文献以及机构间的关联分析,甚至可以基于学术资源本体发掘学者、机构、学科等的研究热点,并从多角度探讨热点的发展趋势,因此更多有意义、有价值的探索还有待于今后进一步开展和实用。

收稿日期:2010-09-27 收修改稿日期:2010-10-08

标签:;  ;  ;  ;  ;  

基于CSSCI本体的主题关联分析_关联分析论文
下载Doc文档

猜你喜欢