学科领域本体的构建与进化——以经济学领域本体为例,本文主要内容关键词为:本体论文,领域论文,为例论文,经济学论文,学科论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】 G250.76 TP18
1 引言
本体在知识组织与知识管理中的重要性已被众多领域所关注,人们从不同角度对其进行研究。但从整体来看,单纯从技术角度描述本体的较多,理论联系实践,并在实际系统中获得应用的领域本体则非常少。本体的构建与进化是本体研究的核心和关键。本文面向科学文献管理实践,立足学科领域本体,并以“经济学领域本体”试验开发为例,研究探讨学科领域本体的构建与进化。
2 学科领域本体构建与进化研究概述
2.1 学科领域本体构建方法研究现状
利用领域本体组织领域资源的基本思路,即是在资源集合的上层构建一个反映领域资源知识结构的领域本体概念模型,以此为基础对资源进行基于语义的标注,提供基于语义的资源浏览与检索。所以,怎样构建领域本体已经成为一个新的研究热点[1-4],在实践中也产生了一些面向不同应用需求的本体构建方法,如IDEF-5法、骨架法、企业建模法、Methontology法、循环获取法、七步法等。文献[5]在介绍上述本体构建方法的基础上,阐述了一个本体原型构建的基本过程。文献[6]面向学科领域,提出并分析了领域本体构建的基本流程和方法。在学科领域本体的构建过程中,初始核心本体的获得是关键。目前大致有两条获得路径,一是通过知识获取技术从现有的学科数据库小提取专业术语,挖掘、发现学科的基本概念,再由领域专家确认并建立概念关联;二是在传统的知识组织体系如分类法和主题同表中转换改造为初始核心本体。目前国内外关注的焦点是分类/主题词表与本体的改造、融合及转换[7-10]。
2.2 学科领域本体进化研究现状
在领域本体的建设中,本体进化至关重要。本体进化也称本体学习或本体演化,即是在初始核心领域本体基础上,依据一定的理论、技术和标准,对本体概念结构、概念及关系不断进行丰富、完善、改进、更新和评估的过程和方法[11]。新概念的获取及概念关系的关联是本体进化的重点和难点。近些年来,这方面的研究开始引起学界的关注,文献[12]对其进行了较为全面的综述。
对于概念的获取,国外目前提出了三类方法,即基于语言学的方法[13]、基于统计的方法[14-17]、结合语言学和统计学技术的混合方法[18,19]。国内这方面的研究主要有文献[20]提出的利用Bootstrapping的机器学习技术、文献[21]提出的采用非线性函数与“成对比较法”相结合的方法、文献[22]提出的将统计方法与规则方法相结合的专业领域术语抽取算法等。
对于概念间关系的获取,国外研究也很多,常用的方法有:基于模板的方法[18,23]、基于概念聚类的方法[24-27]、基于关联规则的方法[28,29]、基于词典的方法[30]及使用若干种方法的混和方法[16,17]。为进一步给获取的关系赋予相应的语义标签,文献[31]提出使用扩展的关联规则挖掘方法为本体中概念间的非分类关系赋予语义标签。
目前,国内关于领域本体的进化尚无深入的研究成果,一些涉及本体进化的研究多侧重于技术层面,拘泥于具体的算法,与实际应用相脱节。学科领域本体进化不是几个算法就能解决问题的,它是一项复杂的系统工程,需要以一定的理论为指导,需要和学科发展保持同步,同时必须基于科学文献的标注实践[11]。
3 经济学领域本体的构建与进化
3.1 经济学领域初始本体的构建方法
笔者认为,转换改造传统分类法/主题词表中的分类概念和主题概念,是获得学科领域本体初始核心概念的科学方法。因为领域本体的基础是概念系统,而分类法/主题词表也是分类概念和主题概念及关系的集合,其基本功能和本体具有一致性。由于分类法/主题词表广泛使用于各个学科领域,因此从中选择某一领域,将其改造转换为初始核心本体的基础,是一种比较科学、简便且实用的学科领域本体构建方法。基于这一思路和认识,笔者采用了2005年出版的《中国分类主题词表(第2版)》电子版来构建经济学学科领域初始核心本体。
《中国分类主题词表》是在《中国图书馆分类法》第三版和《汉语主题词表》第一版的基础上编制的两者相互对应、兼容一体的文献信息标引工具。收录分类法类目 52992个,正式主题词110837条,主题词串59738条,非正式主题问(入口词)35690条,涵盖哲学、社会科学和自然科学、工程技术等各领域学科和主题概念[32]。
《中国分类主题词表》采用基于类目涵义的一体化对应方式来反映类目和主题的关系[33],通过一一对应、增同对应、上位对应、组配对应、包含对应这5种方法,将符合条件的主题词无遗漏地对应在分类法类目之下,用主题法形式揭示分类法类目的内容,完成类目涵义与主题意义的兼容,因而可以说是构建了一个完整的知识地图,既描述了知识的等级体系,又描述了主题概念的语义关联,还描述了这两者的对应联系[34]。
虽然《中国分类主题词表》中的分类/主题概念不那么规范和严密,语义关系也比较简单,但由于它涵盖了学科领域的核心概念,其中有属分关系或相关关系参照的主题词达77%[32],反映了最基本、重要的概念逻辑关系,因此将其经济领域的概念转化为初始本体,在此基础上再进行试验与探索,是一个非常适用的初始本体构建方法。
笔者以《中国分类主题词表》中经济类分类/主题概念为基础,建立了经济学领域的初始本体概念集,共获取经济本体概念12627个,其中分类概念1523个,主题概念11104个(其中具有属分关系的主题词5366个,具有相关关系的主题词4351个)。类概念是主干,主要反映学科概念间等级关系,主题概念是枝叶,主要反映主题概念间的等级和相关关系及等同关系,以此构成一个经济学领域概念网络(“经济学领域本体”EO V1.0)。
3.2 经济学领域本体的进化思路
领域本体的进化需要考虑以下问题:
(1)如何选择概念进化的基础数据。有两类数据可以作为概念进化的基础数据,一是用户资源查询日志,一是资源标注记录。鉴于目前没有资源查询的日志信息,本次实验主要考虑资源标注记录。由于图书文献资源的标引词已经包括在初始本体概念中,网络文献对其标引得还很少,不足以成为进化的依据,因此,目前只有期刊论文的标注信息可作为本体概念进化的依据。期刊论文的前置信息(摘要、关键问、中图分类号)是作者对文献的概要描述,是原始的标注信息,特别是关键问反映了文献的主要内容,可以作为进化的主要依据。
(2)如何确定哪些词可以进化为本体概念。能否成为本体进化概念,要看其是否具有一定的标注频度,一个词被标注的概率要达到一定的要求,才能作为本体进化概念予以考虑。
(3)如何确定进化概念与本体概念之间的关联。本体进化概念既要看其标引频次,还要看与其他概念的关联度。确定进化概念与本体概念之间的关联是本体进化的难点。目前完全自动发现概念关联的方法尚不可行,因此采用—些启发式的规则来辅助发现概念之间的关系显得尤为重要。
3.3 经济学领域本体具体进化过程及方法
具体进化过程及方法:
(1)获取实验数据。本次实验从《中国期刊全文数据库》中抽取2002-2004年共3年的文献作为本体进化的实验数据。总共获取论文785426篇。到底选择几年的数据最合适,笔者认为应与经济学领域文献的半衰期相吻合。由于目前还不知道我国经济学文献的半衰期的具体值,因此选择3年时限主要是考虑到实验中数据处理的时间。另外,规定一个时间期限将有助于今后进一步的进化实验,包括某些老化本体概念剔除的可能。
(2)抽取候选关键词集合。在获取的785426篇论文中,作者标注关键问的论文232456篇,没有标注关键词的论文 552970篇。本次实验以作者自己标注关键词的论文作为抽取关键词的依据。在232456篇标注关键词的论文中,共获取关键词164553个,其中,经济初始本体中已有概念5172个,通用概念1748个,被《中国分类主题词表》收录的相关领域主题词9478个,剩下150425个关键词。
在抽取关键词时,对以下情况进行了预处理。例如,对括号的处理,有些关键词是一些缩写,作者标引的时候习惯将其含义放在括号中,或者反过来将缩写放在括号中,以下两种标引都是常见的:CRM(客户关系管理)、客户关系管理(CRM)。对于这种情况,需要进行一些标准化处理。具体做法为:将括号内外的词区分开来,作为两个独立的关键词,然后在这两个关键词之间建立起等价关系,并确定中文关键词为标准词,替换论文中的关键词。有些情况下,缩写相同,但是中文却不一样。例如,“ABC”这个词,不同的作者分别应用不问的中文,包括“作业成本法”、“作业成本核算”、“作成本计算”、“作业成本”、“活动成本法”等。对此,除了要在这些单词与ABC之间建立等价关系外,还要确定其中一个为标准关键词。还有一种情况是,中文相同但英文各异,这时只要简单地丢弃英文就可以了。
在150425个词中,到底哪些可以作为本体新概念的候选词集合,还需要作进一步的限定。例如,可以关键词出现的词频因素和位置因素作为筛选依据。词频因素是指关键词出现/标注次数应在某个阈值以上,在出现某个阈值以上的关键词中,还应该考虑其出现的位置,这里的位置主要指题名位置。因为标题是标明文章中心内容的简短语句,一般能够反映文献研究的范围和所达到的深度。关键词是否出现在题名位置是选取本体概念候选集合的一个重要指标。
本次实验规定,在150425个候选关键词中,“出现/标注次数>=10”,并且“题名出现>=5”的关键词可以进入本体进化概念的候选集合。经统计,符合这一规定,即出现/标注次数超过10次并且在题名中出现5次以上的关键词有4328个。由于学科专业领域不同,不同的专业领域其发展速度也不均衡,因此,下一步对低于“出现/标注次数>=10”、“题名出现>=5”的关键词也需要经过其他方法或者领域专家再进行甄别。
对4328个候选关键词又作了进一步处理:
①删除没有实质意义的词。一般来讲,论文关键词应是反映论文主题概念的词或词组,是最能够表达论文主题内容的重要词汇。但有的作者由于没有掌握关键词选取方法,标注了一些没有实质检索意义的词,如“发展”、“提高”、“回顾”、“反思”、“前景”、“初探”、“两难”、“走出去”等,因而需要将这些非关键性问语剔除。
②删除属于其他学科领域的词(术语、人名、地名等)。如“文化建设”、“案例教学”、“长株潭”、“苏北”等。经过专家筛选,共剔除1 351个关键词,能够作为本体新概念候选集合的词共2977个。
(3)建立概念关联。如何发现拟进化的关键词与本体概念间的关系,也就是说,怎样建立进化概念和初始本体概念间的关联,这是本体进化重要而困难的一步。如前所述,需要制定一些启发式规则作为发现关联的辅助方法。经过对关键词的出现位置、出现频率、出现形式等的初步分析,提出以下几个规则作为发现/建立概念关联的基本方法:
①分类概率规则:某一关键词所属文献被类分类目的次数越多,其与本体分类概念的关联程度也越高。
即是说,在标题中出现该关键词的论文,有可能被类分在F1-F8的多个类目中,在这种情况下,可以根据该关键词所属文献被类分的频率进行判断,选取类分频率高的类目与本体分类概念的类号进行对应,即可将这一关键词看作是与本体分类概念对应的相关概念,在该进化关键词与本体分类概念之间建立关联。
经统计,在2977个候选关键词中,有2161个词布其出现的全部次数中(即出现/标注次数>=10并且题名出现>=5),行一半以上山现在(被类分在)同一个二级类目中。因此,从语义上可以判定这些词与其分类类目/概念(或下属分类类目/概念)之间具有关联性,如表1所示。
②词素一致规则:某一关键词的词素与本体概念的词索的相似性越高,两者的关联程度也越高。
由于汉语的同义词、准同义词及近义词往往具有词素相似性(1字、2字以至多字),所以可以通过分析关键词与本体主题概念所含词素的相似程度,选出与本体主题概念相等或相近的主题词,建立与本体概念等同关系和近义关系的关联。本次实验中,由于尚无法从本体词/候选关键词中准确地分离出词素来,所以仅考虑“包含”这种关系,也就是本体词作为某个候选关键词的子串,或者候选关键词是某个本体词的子串这种情况。在此基础上计算指数:2min(|s|,|t|)/ (|s|+|t|),其中|s|,|t|,分别表示两个词的长度。我们仅保留这个值大于一定阈值(本次实验中取0.7)。
例如,候选关键词“可持续经营”和本体概念“持续经营”,前者包含后者。在这个例子中,公共子串的字数即概念的字数是4,关键词的字数是5。因此,其比例值是:2*4/(5+4)=8/9=0.90。按照这种计算方法,如果本体概念和关键词完全相同,那么公共子串即关键词和概念的长度全都相同,这样,所得到的比例值就是1;如果本体概念和关键词没有重叠的部分,其比例值就是0。因此,这个比例值是一个大于0小于1的数。如果公共子串(也即“被包含词”)占“包含词”的比例越大,所得到的比例值就越大;如果“包含词”很长,而“被包含词”很短,那么其比例值就会比较小,多数情况下,它们之间的关系相对就较弱了。
本次试验选择了对应比例值>0.7的“候选关键词—本体概念”对。表2和表3是抽取了若干候选关键词与本体概念包含/被包含关系的示例。
可以看出,在表2、表3包含/被包含的候选关键词和本体概念之间,可以建立等同关系、近义关系和相关关系的关联。
必须说明的是,以关键词和本体概念“包含/被包含”作为词素一致规则的方式,不是发现关联的最佳方式,它会丢失一些有意义的关联关系,例如:(关键词)附加值——(本体概念)高附加值,更为合适的关联对应是:(关键词)附加值——(本体概念)附加价值。同时也存在个别对应误差的现象,例如:(关键词)资金流——(本体概念)资金流失,“资金流”和“资金流失”两个词不同义等。所以这种方式只能作为辅助发现关键词和本体概念关联的手段,其关联的最终确定还需要由专家来完成。
③关联度规则:某一关键词与某一本体概念共现的频率越高,其关联程度也越高。一些关键词看起来是相对独立的词,可以通过数据挖掘中的频繁项集发现算法,找出该关键词与本体概念的共现关系。例如,“减持”是在题名中出现频率较高的词(39次),经统计,该词在题名中和“国有股”共现次数最高(42次),所以可与“F830.91证券市场”对应的主题词“国有股流通”和“国有股”建立关联。
需要指出:
(1)由于类分文献既需要有分类依据(如《中图法》),也需具备一定的文献分类知识,而论文作者受其知识和条件所限,使得一些论文类分存在不同程度的随意性。因此,以上规则不是绝对的,只是作为建立概念关联的参考与辅助。例如,关键词出现频率高的类目与本体概念类目可能存在较低的对应,而关键词出现频率较低的类目与本体概念类目也可能存在较高对应。因此,为了使概念间的关联具有准确性,需采用人机结合的方式,在按上述规则由计算机建立初步关联后,应由领域专家进行最终评价和确认。
表1 候选关键词所属论文类分示例
全局 相对父
候选关键词所分类别 比例 类比例
注册会计师行业 F233会计工作组织与制度
1
1
预算执行审计F239审计 1
1
电信运营企业发F626电信企业组织和经营管理 1
1
生态畜牧业 F326.3畜牧业、饲养业 1
1
农村富余劳动力 F323.6农业劳动力与农业人口
0.97
0.97
商务旅游F592中国旅游事业 0.90.97
任期经济责任F239.47经济责任审计 0.90.9
农村小康社会F32中国农业经济 0.88 1
绿色物流F25物资经济 0.84
0.90
国库集中支付制度F812.2财政制度与管理体制 0.84
0.94
民营银行F832中国金融银行 0.84
0.89
最适度货币区理论F82货币 0.83
0.84
国际资本流动 F83金融、银行
0.81
0.88
公司法人治理结构 F27企业经济 0.81
0.96
寿险业
F842中国保险业 0.81
0.81
独立董事 F27企业经济 O.80
0.95
经济责任 F239.47经济责任审计 0.80
0.83
城市物流 F25物资经济 0.79
0.85
信用风险管理 F83金融、银行
0.781
(注:1)所分类别:即指该关键词出现的总次数中,有40%以上都出现在该类;并且关键词出现在该类的次数占出现该类父类的所有子类的次数总和的70%以上。例如,“中小金融机构”出现在“F832”中 42次,出现在“F83”及所有子类中共44次(包括F831、F832、F833、 F832.1……,即所有F83及F83的子类),出现总次数是64次。在所有符合条件的结果中,同时考虑级别高和全局比例、相对父类的比例,选出最优的结果。2)全局比例:即该关键词出现在所分类目的次数与其所出现的总次数的比值。3)相对父类的比例:即该关键词出现在所分类目的次数,除以出现在该类目的父类所有子类的次数总和。)
表2 候选关键词与本体概念词素匹配示例A(候选关键词包含本体概念)
概念 词素比例
候选关键词
本体概念
分类号 长度 值
农产品加工业 农产品加工 F307.5 5 0.91
社会主义市场经济体制 社会主义市场经济F045.5 8 0.89
农业产业化农业产业F303
4 0.89
城市经济圈城市经济F294 0.89
农村剩余劳动力转移农村剩余劳动力 F304.6 7 0.88
财政转移支付制度 转移支付制度F810.2 6 0.86
个人住房抵押贷款 住房抵押贷款F830.589
6 0.86
零售业态 零售业 F713.323 0.86
农村劳动力转移农村劳动力 F304.6 5 0.83
东北老工业基地老工业基地 F403.3 5 0.83
绿色贸易壁垒 贸易壁垒F742
4 O.8
对外直接投资 直接投资F830.595 0.8
物流业物流F252
2 0.8
经理人经理F282.912 0.8
国有股减持国有股 F830.913 0.75
行为金融学金融学 F830
3 0.75
敏捷供应链供应链 F270
3 0.75
科技型中小企业中小企业F276.3 4 0.73
货币政策有效性货币政策F821.0 4 0.73
高新技术产业开发区产业开发区 F127.9 5 0.71
(注:1)概念分类号:本体概念所对应的中图法分类号。2)词素长度:即子串长度,指被包含词的字数。3)比例值:即按上述方法计算的比例值。)
(2)从进化的角度看,我们在运用上述规则的时候,尽量将阈值定得高一些,排除噪音多一些。这些被排除在外的概念可以在今后不断完善本体进化技术的基础上再发现出来。
(3)从使用目的看,本体的主要目的是资源的组织和检索。一些不恰当的本体概念被发现出来,被用于资源组织,问题也不大。从系统管理的角度看,只不过是增加了一些无用的索引而已,不会对检索的正确性造成影响。
经过上述工作后,初步获得了“经济学领域本体”的新版本(EOV2.0),新版本共增加本体词2161个,新增关系2821个,其中分类概念与主题词之间的关联关系 2161条,等同、近义、相关关系的词660条。
4 结语
领域本体建设是一项复杂的系统工程,不是轻而易举就能够构建的,需要脚踏实地进行理论研究与应用试验。首先,要对领域本体构建的理论、方法与技术进行深入研究,建立公认的核心概念和完整的领域本体构建的理论体系,以及具有适用性、针对性的领域本体构建技术体系。其次,面向某一应用领域进行领域本体系统的构建实验。在此基础上,总结经验,寻找规律,将其提升为理性认识,再进一步指导实践,以促进领域本体的实验研究更快、更有效地走向应用。
本文在对国内外领域本体构建方法及本体进化的研究现状进行概述的基础上,立足经济学领域,介绍“经济学领域本体”构建与进化的基本思路、过程与方法。学科领域本体是某一学科领域知识体系的概念集,所以,以反映学科知识概念的分类法/主题词表为基础构建“经济学领域本体”的核心概念,是行之有效的本体构建方法。以自动或半自动方式获取进化概念及其与本体概念之间的关联,是“经济学领域本体”进化的关键,本文提出分类概率规则、词素一致规则和关联度规则作为发现/建立概念关联的基本方法,并对其正确性进行了验证。上述试验是初步的、不完善的,还存在许多有待解决的问题。如怎样提高进化概念与本体概念关联的正确度;如何发现具有属分关系的概念关联;怎样在等同、等级、相关关系的基础上增加新的概念关系,以增强领域本体的语义表达能力;怎样获取领域本体公理,实现本体推理功能等等,都需要进一步深入研究和试验。
表3 候选关键词与本体概念词素匹示例B(本体概念包含候选关键词)
候选关键词 本体概念 概念 词素
比例
分类号 长度
值
生产要素分配按生产要素分配 F014.46
0.92
消费者行为 消费者行为论 F036.35
0.91
经济责任经济责任制
F243.54
0.89
会计标准会计标准化
F230 4
0.89
生产函数生产函数法
F014.14
0.89
土地承包土地承包制
F301.14
0.89
一般均衡一般均衡论
F019.14
0.89
资金流 资金流向 F830.45
3
0.86
成本价 成本价格 F014.34
0.86
效用价值论 边际效用价值论
F014.31
5
0.83
持续发展经济持续发展 F113.44
0.8
物流配送物流配送中心 F252.44
0.8
责任会计社会责任会计 F234.14
0.8
区位区位论
F061.52
0.8
存量库存量
F253 2
0.8
投融资 投融资体制
F830.59
3
0.75
电算化 会计电算法
F232 3
0.75
创业板 创业板市场
F830.91
3
0.75
商品结构进出口商品结构
F769 4
O.73
社会化服务体系 农业社会化服务体系
F303.35
0.71
(注:各列含义同表2。)
收稿日期:2007-01-10
收修改稿日期:2007-01-20