基于知识元素的文本知识索引_文本分类论文

基于知识元的文本知识标引,本文主要内容关键词为:知识论文,文本论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

目前,图书情报界揭示科技文献内容所采用的方法主要是“信息标引”,即标引的是科技文献中所含的信息。其方法主要有主题法、文摘法等。这种揭示信息内容的方法,对于大多数信息活动已能满足其需要。但是,在有些信息活动中,不仅要涉及到文献中所含信息,而且还涉及到文献中的知识和事实。此时,仅对文献进行信息标引就不够,还需标引文献中的知识和事实,即进行知识标引,以满足不同信息活动的需要[1]。文献[2]认为,目前国内外很少有关于进行知识标引的报导,并指出,从文本中进行知识挖掘,是比从结构化的数据记录中进行知识发现和数据挖掘更困难(尽管更有意义)的工作。但是,作为今后智能文本处理发展的一个方向,我们应该重视这方面的研究。文献[3]对科学信息离散分布规律做了研究,首次发现文献单元的离散分布遵循与知识单元一致的规律。这一发现具有十分重要的意义,因为人们至今尚未找到度量语义信息的完美方法,这使得信息计量学不得不一直将文献作为离不开的对象,并使信息计量学研究在实施过程中面临很多实际的困难。这一发现可以使信息计量学家在研究时,能够通过文献单元的离散分布规律来“模拟”知识单元的离散分布规律,为信息计量学开辟一条新的研究路线,使信息计量学的研究可以由文献单元深入到知识单元。文献[4]认为用文献单元来计量知识或信息是很不可靠的,提出用知识单元作为基本标准进行知识信息量的测定,用概念、理论、方法、定律等构成的知识单元来衡量所含知识的多少,定量表示某学科的成熟程度,以及某文献所含知识信息量的多少。本文提出了基于知识元进行知识标引的概念,认为知识元标引是实现跨领域知识集成与知识发现的基础。本文对文本知识元的类型归类、标引规则、人工知识元抽取、软件知识元抽取、人工知识元修改、知识元面向对象表示、知识元对象链接等进行了分析和试验,开发出了“数值知识元”产品模型,进行了理论与方法的验证,并证明了该方法的先进性和实用性。

2 知识元标引

计算技术发生了日新月异的发展,而传统的文献整序与管理方法还基本上停留在文献管理的水平上,这形成了巨大的反差。传统文献管理方法或是对文献的外部特征进行标引,或是按文献的学科性质进行分类(分类法),或是按文献的主要内容选取主题词(主题法),以提供检索点。这些方法,在以手工方式为主来组织文献的年代,起到了较好的作用。在运用计算机进行文献管理的最近几十年中,应该说也还是在继续应用图书情报学的这些传统的成果与方法。但是,国内外的许多有识之士,早就对这种以文献为单元的管理方法提出了质疑[5],而把目标定位在知识管理上。20世纪80年代初,英国著名情报学家布鲁克斯提出了绘制“认知地图”的任务[6]。美国情报科学研究所研究员斯摩尔(H.Small)提出用思想“网络图”揭示重大发现,用学术思想“网络图”来表述重大发现的来龙去脉[7]。传统情报学的发展已经到了一个新的转折点,需要突破传统的专业角色和视野来总结和发展情报学,为此有人提出了建立“知识体系科学”的建议。

脱胎于传统图书馆职能的数字化图书馆,其所拥有的信息资源虽可以通过标题、关键词、作者、内容分类特征等“元数据”进行关联检索,甚至可以进行简单的全文任意词检索,然而对于“求知者”所要解决的问题来说,并不能迅速而准确地提供全面、系统、针对性的知识信息。加之这些数据库在结构、信息加工标准和质量上的差异,使得数据库之间的信息关联、内容关联更加难以实现。在这个意义上,在现有数字化图书馆建设目标下开发的知识信息资源,本质上还只是一本一本堆积起来的数字化图书、期刊。除了信息量大、检索查询速度快和方便等之外,数字化图书馆使人们感受到的获取信息的手段与方式,依然类似于传统图书馆的“计算机书目检索”与“开架借书”,与在现代信息技术水平之下人们追求的信息资源共享所应当达到的境界还相距甚远[8]。

“知识服务”的理念,明确提出了现代信息服务业的任务和目标,成为当今知识信息资源共享模式设计的核心指导思想。在这种共享模式之下,人们从信息资源中获取的不仅仅是一条一条信息,而是一个一个针对特定问题的解决方案,即知识。这样的知识信息资源的共享方式,已经成为现代信息服务业所追求的高级境界。

我们在文献[9]中假定,文本内容的组织排列是由一个个独立知识元素的逻辑排序结构。这种独立的知识元素我们称之为知识元,逻辑依存关系称之为知识链。知识元是构造知识结构的基元。把文本中知识分解成知识元以后,由于知识元的内容比较单一、独立,针对性强,因而便于知识单元存储和查询。用户可直接查询和获取知识元,或组合知识元,改善自己的知识结构,从而加快知识创新速度。

知识标引与检索是知识创新、知识增值管理、知识有效利用的知识链研究。每篇文献由独立的知识元链接组成,构成人类知识结构中的一个知识单元;知识单元与知识结构组成了个性知识与共性知识的知识系统。个性知识体现在知识的创新上,共性知识结构表现在知识的完整性上。因此,用知识元标引知识,既反映了由知识元内部结构组成的个人知识元创新的结构,又反映了由知识元外部关系组成的人类知识框架结构。知识的表达与处理可以有多种方法,且已有许多优秀的研究成果,但最关键的问题是如何实现知识元的软件分离,实现知识元与知识单元和知识结构之间的继承性。研究知识元、知识单元、知识结构之间的信息与知识的变换,已成为知识元标引管理与新知识元发现的关键[10]。

3 知识元归类分析

在知识元标引研究中,首先需要对知识元进行归类分析。这是认识知识元的重要步骤。我们可以把知识元分成两大类型:(1)描述型,包括信息报道型,名词解释型,数值型,问题描述型,文献引证型;(2)过程型,包括步骤型,方法型,定义型,原理型,经验型等。

3.1 信息报道型

特征:数量大,以事件方式发生。真实性,及时性,准确性,时间、地点、人物等特征性很强。

选取规则:选择重大事件、影响事件、典型事件。

抽取规则:一个知识元只选择一个事件的报道。

举例:

知识元名1:美国数字图书馆计划

知识元1:1994年9月,美国国家科学基金会正式公布了一项为期4年、投入2440万美元的“数字图书馆计划”。

来源:Filename:QBXB200102000

TITLE情报学的新发展

3.2 名词解释型

特征:对一个新术语进行全面、完整、准确、概括的描述,以便让人了解一个知识。

选取规则:新颖,概括,准确。

抽取规则:将一个新知识阐述完整。

举例:

知识元名2:黑体

知识元2:黑体(也称绝对黑体)是指能全部吸收外来电磁波而毫无反射和透射的理想物体。黑体不仅能吸收外来电磁波辐射,而且发射电磁波的能力比同温下的任何其他物体都要强。我们称物体在单位波长间隔、单位面积辐射的功率为物体的发射本领。

3.3 数值型

特征:以数值形式存在,表达一个独立的数值事实概念。

选取规则:选取有价值的,意义重大的、潜在的、可供以后分析用的数值。

抽取规则:选择带有具体时间、明确对象、确切数值所表达的一个完整的知识。

举例:

知识元名3:产业产值

知识元3:1998年,我国信息产业产值为1000多亿元。

来源:Filename:QBXB200102001

TITLE我国信息产业结构高度之比较分析

3.4 问题描述型

特征:提出一个新问题,并进行独创性思考或有价值的回答。

选取规则:新颖性,独创性,可解释性。

抽取规则:将问题和答案都选上。

知识元名4:非结构化数据

知识元4:目前,大多数组织中,结构化数据仅占其数据、信息和知识资源的10%,其余90%为非结构化数据。因此,如何管理好非结构化数据信息就成为知识管理的重点。

来源:Filename:QBXB200106015

3.5 引文型

特征:引用他人的研究成果。

选取规则:选取他人的观点。

抽取规则:取第一次引证者,引证的数量占1/10。

举例:

知识元名5:信息粒度的形式化描述

知识元5:文献[2]使用一个三元组(X,F,T)来描述一个问题,其中:X表示问题的论域,也就是我们要考虑的基本元素的集合。并设F是属性函数,定义为F:X→Y,Y表示基本元素的属性集合。T表示论域的结构,定义为论域中各个基本元素之间的关系。从一个较“粗”的角度看问题,实际上是对X进行简化,把性质相近的元素看成是等价的,把它们归入一类,整体作为一个新元素,这样就形成一个粒度较大的聚类/分类中的粒度原理。

来源:JSJX200208003

3.6 步骤(过程)型

特征:以步骤的方式描述知识。

选取规则:精炼的、按步骤说明的、具有完整意义的知识。

抽取规则:仅选取步骤。

举例:

知识元名6:知识发现步骤

知识元6:知识发现一般包括如下几个步骤:(1)理解相应的问题领域;(2)准备相关数据子集;(3)发现模式(数据挖掘);(4)所发现模式的后处理;(5)应用发现结果。

来源:Filename QBXB200103009

TITLE:数字图书馆中的知识发现

3.7 方法型

特征:提出一个新方法,对解决问题具有突破性改进。

选取规则:新颖性,独创性。

抽取规则:选择新方法的本质内容。

举例:

知识元名7:抽取图像的新方法

知识元7:我们的方法与Blobworld存在两点本质的区别:第一,尽管多模特征的组成相同,但是多模特征的抽取方法完全不同;第二,Blobworld采用期望最大化(Expectation Maximization,EM)来估计混合高斯分布的参数,并使用最小描述长度(MDL)来确定合适的高斯分布数目。它事实上是通过参数化的密度估计过程来解决多模特征在特征空间的聚类问题。我们采用的则是基于两阶段自组织图归约算法,并具有独特的聚类有效性分析策略。

来源:Filename:QBXB200104013

3.8 定义型

特征:数量大,新概念,新观点,新定义。有特定的语法结构,如:XXX是XXXX;所谓……;XXX是……。

选取规则:强调新颖,简练,完整。

抽取方式:一个知识元只包含一个新定义内容。

举例:

知识元名8:画元

知识元8:构成物体表面纹理的基本小几何体被称作“画元”。根据所生成纹理的情况,它可以是三维的几何体,比如小球、四面体和六面体等,也可以是空间任意形状的平面片。

3.9 原理(理论)型

特征:纯理论描述,揭示概念的知识。

选取规则:强调科学性,创新性,明确性。

抽取规则:一个知识元只包含一个原理的阐述型内容。

举例:

知识元名9:量子光学辐射理论

知识元9:以普朗克、爱因斯坦为代表人物发展起来的量子光学理论认为,温度大于绝对温度0(-273.16℃)的一切物体都能发射电磁波。电磁波的发射、传播和吸收都是以能量子(光子)为最小单位进行的。能量子(光子)的大小E(v)=hv=hc/λ,h为普朗克常数,v为此光子对应的电磁波频率,c为光速,λ为对应的波长。电磁波所发射、传播和接收的能量只能是光子的整数倍。

来源:Filename JSJX200209000

3.10 经验型

特征:大多是隐性知识,是由人们从经验得来的被证明是有价值的知识。

选取规则:强调经验性,简明性。

抽取规则:对经验的描述。

举例:

知识元名10:标题词比正文词更重要

知识元10:据我们的经验,标题中的关键词比摘要中的大概重要3~5倍,比正文中的大概重要10~15倍。

来源:Filename:QBXB200102013

4 数值型知识元抽取试验

4.1 数值知识元结构

(1)意义

数值知识元软件抽取与建库是实现知识元库的先导和基石。我们选择《年鉴》作为数值知识元抽取试的起点。

(2)知识元对象的选择原则

知识元对象是知识对象的一个具体的基元,因此知识元除了具有知识表示、推理、结论的共同特征外,还具有特殊的特征,即①独立性;②唯一性;③完整性;④单一性。

(3)知识元对象的实体结构

对象实体{编号,时间,地域,领域,对象,对象数值,单位,上属对象,相关对象,数据来源}。

4.2 数值知识元软件抽取

我们将人工抽取知识元的经验编程,开发了数值型知识元数据抽取软件(简称抽取软件),用于从《年鉴》中自动抽取数值型知识元并将抽出的结果自动存入库中,以供后续建立本体知识元、知识元查询、推理和链接等使用。该程序实现了数值型知识元自动分析和抽取功能。从长度为10221字节的数据中,抽出194条知识元,抽取时间0.06秒。抽出的知识元的正确率在99%以上,其中90%可以不用人工修改,10%需要人工进行文字修改。抽取软件还为人工检查和修改提供了方便的语义背景环境,一个人每天可检查和修改500—1200条知识元,极大地提高了工作效率,是进行数值型知识元抽取的有效工具。图1给出数值型知识元软件的抽取界面。

图1 数值型知识元软件的抽取界面

数值型知识元抽取的实例:

编号 1

时间2001年

地域中国

领域电子信息产业

对象工业总产值

对象数值13572亿元(按1990年不变价计算)

数据来源2002年中国信息年鉴

上属对象GDP

相关对象销售收入

提交给用户的知识元形式:

2001年,中国电子信息产业,全年实现工业总产值13572亿元(按1990年不变价计算)。

4.3 修改原则

由于汉语的语句结构及语义的复杂性,同时又因为知识元将来不仅用于查询和激活其他数据库,而且作为独立的对象形式实现知识元的链接和知识发现,因此必须对所抽取出的数据进行必要的修改,以达到语义正确的要求。数值知识元修改软件的修改原则如下:

(1)时间

多数情况下抽取出来的时间数据是正确的。在修改时间时,参考“文段内容”中所描述的时间。对于跨段的时间,参考上一段中所述的时间。不具体的时间不要,直接删除。

(2)地域

地域,描述该数据所属的地域范围,其值一般由文件的标题决定。如果标题没有指明地区,则为“中国”,否则为标题所指出的地区,并在其前面冠以“中国”。地区划分到国家、省、市、县。

(3)领域

领域名称指出该数据所属的领域范围,其值由文件的标题来确定。

(4)对象

对象指出知识元主题的名称。在修改时,参考文句内容和文段内容,删除不必要的修饰词,留下关键词。如“全年实现工业总产值”可修改为“工业总产值”。

(5)对象数值

对象数值指出数值数据的内容,它包括必要的单位。参考知识元内容和文段内容,删除冗余的说明性的词,只留下数值和单位。如:对象数值为“11.4%的份额”,应修改为“11.4%”。

(6)知识元内容和文段内容

知识元内容是将来向用户提交的内容,而文段内容是作为修改的参考性条目,提供了原始数据的对象名称、数值等的修改依据。修改完成后即可删除。

(7)数据来源

数据来源指出该条数据出自哪个年鉴或哪篇文献。这在文件分析时已指出(即已在领域名称对话框中输入),一般不需要修改。

(8)上属对象

上属对象(即对象的父类)指出该知识元对象所属的更上层的知识元对象,用于描述知识元对象间的层次关系。所有对象都应该有上属对象。上属对象条目是实现链接和激活各种数据库中数据的一条途径。上属对象可用人工加入,但工作量太大。考虑将来采用软件工具以聚类的方法实现。

(9)相关对象

相关对象是描述知识元对象之间的横向联系。一般来说,一个数据对象同时和几个对象相关。相关对象可用人工加入,将来采用软件方法实现。

“数值型知识元”修改界面如图2所示。

图2 知识元修改界面

4.4 检索试验

这里只给出GDP这一知识元检索试验的部分结果:

2001年,世界,“9.11”恐怖事件爆发后美国当季GDP单季负增长1.3%。

来源:《2002年中国金融年鉴》

1999年,中国台湾省,“9.21”大地震财物损失占全台GDP比重3.3%。

来源:《2000年中国金融年鉴》

2001年,中国河北省,GDP 5577.7亿元。

来源:《2002年中国金融年鉴》

1999年,中国,GDP 82054亿元。

来源:《2000年中国金融年鉴》

2000年,中国,GDP 89404亿元。

来源:《2002年中国汽车市场年鉴》

2001年,中国,宁夏回族自治区,GDP 6.2亿元。

来源:《2002年中国信息年鉴》

2001年,中国,陕、甘、宁、青、新五省区,GDP 4998.37亿元。

来源:《2002年中国金融年鉴》

数值知识元可通过链接实现与详细资料的关联。举例如下:

2001年,世界,“9.11”恐怖事件爆发后美国当季GDP单季负增长1.3%。

来源:《2002年中国金融年鉴》

详细资料:2001年,特别是“9.11”恐怖事件爆发后,美国当季GDP出现自1993年以来首次单季负增长1.3%。

5 学术论文知识元抽取试验

1.1 由论文标题定位知识元的领域

知识元实例:

知识元名1:词揭示主题的差异性

知识元1:据我们的经验,标题中的关键词比摘要中的大概重要3—5倍,比正文中的大概重要10—15倍。

来源:QBXB200102013

知识元名2:标题能反映文章主题

知识元2:由于95%以上的科技文献和大多数的其他文献的标题能很好地反映文章的主题。因此,一个词如果出现在标题中,则它的重要性比出现在摘要和正文中的词重要得多。

来源:QBXB200102013

知识元名3:段首句、段尾句比中间句重要

知识元3:由于中国人写文章一般讲究“起,承,转,合”,正文的首段一般简要介绍全文的内容,末尾段再总结一下主题。而在一个段落中,段首段尾句的情况也类似,所以,出现在首段、末段,段首句、段尾句的关键词也比中间段、中间句的重要一些。

来源:QBXB200102013

5.2 由文摘确定知识元的名称

知识元实例:

知识元名4:文摘中的句子79%由原文照抄

知识元4:Baxendale指出,手编文摘中的句子79%由原文照抄,12%由原文句子拼接、改造而成,只有9%是由文摘员自己写的。

来源:QBXB200104010

5.3 从正文中找知识元的具体内容

知识元实例:

TITLE:中文全文标引的主题词标引和主题概念标引方法

知识元名5:主题概念标引

知识元5:对生物学文献进行统计后,发现人工进行标引时,有42.7%的主题词是直接从原文中得出,有47%是从原文进行同义词转化而来,剩下的10.3%是通过“拍脑袋”(BrainStorm)得到的。这里的第一、二部分词基本可以用上面的方法得到,但第三部分只有通过概念标引才能得到。

来源:QBXB200102013

5.4 关键词与知识元名称比较

(1)对部分学术论文分析表明,所标引的5个关键词中,2个有具体的内容,其余3个无具体内容。

(2)知识元标引是有关键词和具体内容的,它反映出论文的主要创新点。

(3)有具体内容的关键词的语句,概率分布大约为0.5。作者自认为创新点的语句概率分布大约为0.12。

5.5 知识元谱的试验结果

我们在文献[11]中提出了知识元在文献中的分布具有知识谱的理论,试验的结果如图3所示。

图3 知识元谱

5.6 知识元的本体结构举例

知识元名称:概念检索

知识元:概念检索,突破了机械式匹配局限于表面形式的缺陷,从词所表达的概念意义层次上来认识和处理用户的检索请求。概念检索包括两个方面:同义扩展检索和相关概念联想。前者能够提高检索的查全率,而后者会大大加强搜索引擎与人的交互,使其具有一定程度的智能。

来源:情报学报,Vol.19,№5,Octber,2000.李蕾,王楠,钟义信,基于语义网络的概念检索研究与实现。

对抽出的知识元,我们可以用本体结构来组织,如图4所示。图4表示了“概念检索”这一知识元的本体结构。

图4 “概念检索”知识元的本体结构

6 小结

信息计量学的研究由文献单元深入到知识单元,揭示科技文献内容所采用的“信息标引”正在向“知识标引”深入。本文提出了知识元标引的概念,用知识元实现知识标引是一种新的尝试。知识元标引与信息标引的本质区别在于知识元标引的单位是独立的知识单元,而不是文献线索。知识元标引更符合概念的本体描述,因而更便于计算机智能处理,便于创新知识的表现,也便于新知识的发现。采用知识元便于知识信息量的测定,便于定量表示某学科的成熟程度,便于测定某文献所含新知识信息量的多少。知识元标引是实现跨领域知识集成与知识发现的基础。文中叙述了文本知识元类型归类,标引规则,人工知识元抽取试验,软件知识元抽取,人工知识元修改。“数值知识元”产品模型的应用证明了本文研究成果的先进性和实用性。下一步工作将进行领域知识元的本体表示、语义网链接和跨领域知识发现试验。

标签:;  ;  ;  ;  

基于知识元素的文本知识索引_文本分类论文
下载Doc文档

猜你喜欢