数字环境下通用概念获取方法,本文主要内容关键词为:概念论文,环境论文,数字论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G254
修回日期:2011-08-09
概念的获取与分类是知识组织体系构建的重要工作。例如,叙词表的选词主要由普通名词与专有名词构成[1],普通名词主要包括具体事物名称和抽象事物名称,具体事物名称例如“海洋”,抽象事物名称例如“铸造”;专有名词通常为人名、地名、产品名等,例如“孙中山”。在本体构建中,概念词汇与实例词汇也是本体构建的主要成分[2-3],例如,可以用“城市”代表一个概念,而“北京市”则是一个实例。在所有这些概念词汇的研究中,通用概念具有一定的特征和应用价值,数量上也占有一定的份额。无论是综合叙词表,还是专业叙词表,通常都有一个单独的通用概念范畴,有的叙词表命名为一般概念,有的叙词表命名为通用词,这些词例如“研究”、“设计”、“应用”等,是在不同专业都有应用的泛指词,在概念组配方面有重要价值[4]。在国内图书馆学、情报学领域相关机构及领域专家的参与下,中国科学技术信息研究所2009年启动了《汉语主题词表》(工程技术版)的编制与修订工作,通用概念的选词与词间关系的建立,是该项目的重要工作之一。
1 从传统知识组织体系中继承获取
1980年,《汉语主题词表》(以下简称《汉表》)编制完成并出版,上世纪80年代至90年代,我国叙词表的编制与应用达到了巅峰时期,编制了上百部的综合及专业性叙词表[5]。人类知识总是在继承中不断发展的,这些叙词表概念可以作为重要的原始语料或参考词汇,经过遴选直接纳入候选词库,根据修订和重新编制的原则,进行选词、分类、建立词间关系等叙词表编制工作。
原《汉表》通用概念分自然科学一般概念与社会科学一般概念[6-7]。自然科学一般概念的一级范畴号为92,下分为9个二级类目,其中92A是一般概念,例如机理、计算、结论、现状等概念。其他二级类目包括92B形状、尺寸,92C时间、方位等,共收集了475个通用概念。作为《汉表》修订项目,这些词在入选方面应该占有较大的权重,甚至根据这些词汇的统计数据属性重新进行分类。例如,“计算”一词,需要统计在各级大类中的词频情况,根据词频大小,确定是继续放到通用概念下,还是放到O类(数理科学与化学)或TP类(自动化技术、计算机技术)。
另外,还有大量的专业叙词表,例如《农业科学叙词表》、《水利水电科技主题词表》(以下简称《水表》)等[8],同样有通用概念。《水表》一级范畴号20“通用词”下设2个二级类目,20A为“复合通用词”,例如“安全管理”、“分布规律”等;20B为“一般通用词”,例如成分、利用、应用等。
2 基于词频分布人工获取通用概念
首先观察一个具体的例子,“设计”是一个公认的通用概念,以“设计”作为关键词检索万方数据[9],在“工业技术”类文献下,检索结果如截图1所示。
图1 关键词“设计”在工业技术类文献中的词频分布
从图1可以看出,“设计”一词作为关键词,出现在所有工业技术下的二级类目中,而且词频数量巨大,对应的文献量巨大,有典型的通用概念特征。使用“水库”一词进行检索,在“工业技术”类下检索结果如截图2所示。
图2 关键词“水库”在工业技术类文献中的词频分布
从图2可以看出,“水库”一词的词频特征也非常明显,在“水利工程”类目中词频上万次,而其他类目中词频都非常低,直观感觉有显著的差异。通过这样的例子可以看出,“设计”是一个通用概念,“水库”是一个属于TV(水利工程)类的专业概念。
虽然以上两个例子简单明了,但存在具体操作问题。在传统的叙词表编制中,概念的获取主要通过领域专家人工提供,耗时长,过度依赖领域专家个人隐性知识。虽然提供的概念本身是符合编制规范的,但不同人员可能会提供不同数量的概念,存在概念覆盖面是否全面的问题。通过统计关键词词频分布获取通用概念,不仅工作量大,而且同样存在阈值把握问题。例如,如果词频为渐变或等差数列式递减,没有显著差异,则如何判断?另外,关键词词频与不同类目下文献数量也有一定关系,假设万方数据中“水利工程”类文献收集的比较少,可以推断“水库”关键词的词频也不会如此高,而万方数据各类目下的文献数肯定是不一样的,所以基于词频会存在误差。
3 基于类目间关键词词频标准差大小机器辅助获取
针对以上问题,本文试验了机器辅助获取、消除词频误差的相对词频与标准差方法,获取通用概念,统计方法与试验结果如下。
3.1 材料与方法
试验材料使用万方数据学术论文库,该库基本采用《中国图书馆分类法》的分类体系,文献共分22个一级大类。一级大类“工业技术”下分16个二级大类[10]。抽取1987-2009年所有学术论文文献数据,提取论文的关键词,经过去重、去掉词频为1的关键词等数据清洗,得到总量约300多万个关键词,从这些词中随机抽取1万个关键词,用于完成本试验。由于课题是《汉语主题词表》(工程技术版)的编制,所以抽取的关键词必须是在一级大类“工业技术”下的文献中出现过的关键词。为了探索一个概念通常情况下出现在几个类目中,统计了这1万个关键词在16个二级类目文献数据库中的词频分布情况。包括:关键词在各二级类目文献中的词频;在工业技术一级类目下的总词频;计算了每个关键词以上两项统计值相除后的相对词频值;使用相对词频值,计算了每个关键词相对词频值在16个二级类目间的标准差。
3.2 基于标准差排序获取通用概念
理论上讲,关键词首先应该在16个二级类目文献中都有词频,这样的关键词通常是通用概念,从试验数据中提取的在所有类目文献中都有关键词分布的词汇见表1。从表1数据可以看出,19个关键词基本上都属于通用概念或是工业技术中的专业通用概念,标准差比较小的“设计”(0.069 7)、“优化”(0.056 6)、“调节”(0.050 9)等,都是典型的通用概念。随着标准差的增大,单个关键词虽然可以应用到所有文献中,但还是相对集中地出现在某一类文献中,例如,标准差为0.212 1的“变压器”,应该属于TM类(电工技术),标准差为0.148 7的“可视化”应该属于TP类(自动化技术、计算机技术)。
对于在15个类目中都有分布的关键词,同样可以使用标准差分布表,从小到大排序,截取标准差比较小的关键词,进行人工判断,选择常见的通用概念。使用试验数据,选出“解决办法”(0.05)、“尺寸”(0.07)、“降温”(0.07)等关键词,也是非常典型的通用概念。同样方法还可以考虑在14个类目、13个类目等文献中分布的关键词,具体考虑到多少个类目为止,需要根据具体数据获取经验值,并在大规模数据中进行验证与评价。
3.3 基于标准差与总词频二维信息获取通用概念
依据标准差判定通用概念时,重点考察了关键词的均匀分布问题,总词频的特征没有很好地体现,以表1中数据为例,关键词“热传导”(0.043 8)、“冲击力”(0.052 9)的标准差非常小,但对应的总词频分别为253、68,远远小于“设计”的总词频21 252。从数据特征上看,在判断优质通用概念时,应该同时考虑标准差与总词频两方面的信息,才能将在多数类目中具有关键词分布的通用概念细分和分块考虑。本文借鉴管理学SWOT分析方法解决这个问题[11],方法是制作关键词二维分布图,横坐标为总词频,纵坐标为标准差,依据关键词总体数据分布相对集中的区域,给定分区模型,如图3所示。
图3 通用概念词频与标准差模型
根据经验判断,图3基本假设为Ⅰ区,Ⅱ区偏向专业分类,Ⅲ区、Ⅳ区偏向通用类。具体细分为:处于Ⅰ区的关键词总词频低,标准差高,属于概念专指度相对高的专业低频概念,例如关键词“分散”(628,0.1233);处于Ⅱ区的关键词总词频高,标准差高,属于使用范围广但更集中、可以归入一个专业类的专业概念,例如关键词“变压器”(4114,0.212 1);处于Ⅲ区的关键词总词频低,标准差低,属于概念专指度相对低、无法具体归类的低频通用概念,例如关键词“热传导”(253,0.043 8);处于Ⅳ区的关键词总词频高,标准差低,属于典型的通用概念,例如关键词“设计”(21 252,0.069 7)等。
对15个类目、14个类目等关键词统计的具体数据进行观察,发现总体特征符合以上规律。如果作为工程项目,在大规模数据计算实践中,还需要进一步确定两个方面的指导值或经验值:①区分4个区交点的坐标点位置,而且不同的类目数,交点位置也是变动的;②关键词类目的适合数,例如关键词在5-8个类目中分布时是否还可以使用这样的方法进行判断。
4 讨论
4.1 通用概念与概念应用广泛的区别
在知识组织体系的概念分类中,通常会涉及学科和主题问题,也涉及学科与应用问题,例如本文统计的关键词“变压器”,普遍应用于所有工业技术中,但从分类角度看,放到TM类(电工技术)更合理。也就是说,如果从应用角度分,可以是通用概念,但从学科角度分应该属于专业概念。最典型的例子是“计算机”。当今信息时代,计算机已经成为各行业普遍使用的工具,统计文献的关键词词频,也会出现在所有分类文献中,但按学科分类,“计算机”这一概念还是应该放到TP(自动化技术、计算技术)类更合适。这样一些概念,例如“设计”,各学科都通用,无法具体归到某一个专业学科分类中,是典型的通用概念;而类似“计算机”这样的概念,只能说应用广泛,而不是通用概念,所以通用概念与概念应用广泛有着不同的含义。
4.2 通用概念、专业通用概念、专业概念之间的关系
在数据处理中,通用概念与专业概念有时也不是泾渭分明的,在通用概念与专业概念间应该有一类词是专业通用概念,对应交点附近的那些语词。在传统的知识组织体系中,这种现象也是普遍存在的。原《汉表》的范畴类目[7],除了一级大类“自然科学一般概念”、“社会科学一般概念”外,43个一级大类下,也同时设置了大类下的一般概念,例如一级大类“67机械工程”下设“67AA机械工程一般概念”,“69水利工程”下设“69A水利工程一般概念”。二级范畴“69B水文学”下有三级范畴“69BA水文学一般概念”,“地表水”是其一般概念。所以,在专业内为通用概念,在专业间又趋向于专业概念,这类专业通用概念还是普遍存在的。知识组织体系应该将这些概念进行明确区分,以有利于其分类与应用。
4.3 通用概念选词范围由知识组织系统的应用目的决定
通常情况下,类似“研究”、“应用”、“实践”、“理论”等词汇属于典型的通用概念,这些词的特征为专指度低、检索意义不大,用户检索文献时不会使用“研究”去检索。但通用概念在概念组配方面具有重要意义,例如组成“问题研究”、“对策研究”、“经济研究”、“科学研究”、“理论研究”等先组概念,这些词多数也是通用概念。由于知识组织体系的应用不同,一些词汇也可以放到专业范畴内,例如“经济问题”,可以放到经济类下作其专业通用概念,而不是与“研究”、“应用”等典型通用概念聚到一起。为了加强分类导航功能,新版《汉表》范畴表主要参考了《中国图书资料分类法》的分类体系,通用概念将时间、地区、民族、科学机构、科学理论等相关术语都认定为通用概念。所以除了典型的通用概念外,还需要考虑获取那些偏向于某一专业的通用概念。
5 结论
在叙词表、本体等知识组织体系构建中,需要获取并区分出通用概念。本文研究了三种方法:第一种是知识继承的方法,即继承与参考已有知识组织体系的通用概念,这是知识积累方法,过度依赖传统数据;第二种是依据关键词在分类文献中的词频统计人工判定,凡是词频分布比较均匀、总词频比较大的基本上是通用概念,这种方法需要对数据分布均匀性进行量化;第三种方法是同时考虑词频与标准差的方法,总词频高、标准差低是比较规范的通用概念。在具体的知识组织体系构建中,根据课题组的人力、时间、数据资源和词表规模等情况,可以考虑分别使用这三种方法或组合发挥作用。