知识元素链接理论_文本分类论文

知识元链接理论,本文主要内容关键词为:理论论文,链接论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 网格对知识元链接理论提出挑战

长期以来,知识的控制单位原则上还停留在文献这一级上,而人们对知识的需求一般不是以文献为单位的。早在20世纪70年代后期,有专家指出,知识的控制单位将从文献深化到文献中的数据、公式、事实、结论等最小的独立的“知识元”。知识的控制单位一旦实现由文献深化到“知识元”,大量文献中所包含的“知识元”及相关信息间的链接,将产生极大的知识增值。从而大大推进人类对知识的利用,促进对新知识的创造,从而也将推动知识资源业的重大发展,这正是我们现在应该做也可能做的工作[1]。

网格将带来知识管理的革命[2]。人们虽已实现了全文检索,但提供给用户的仍是文献而不是特定的知识。网格时代,人们能否实现知识元检索、知识元提供?什么是知识元?知识能否由用户自由集成?这是一项挑战。“十五”期间,2002年国家社科基金立项了《知识标引与检索中的知识链方法研究》课题,我们的工作就是要探讨知识元链接理论与方法,知识元链接的实现将远远超过引文索引的伟大贡献。

网格的核心是网格管理软件,它实际上是更高层次的网格操作系统,其核心技术主要是一体化的信息平台、语义网站(Semantic Web)、智能代理(Agent)和知识本体(Ontology)技术等。网格可分为下面三种形式[2]:

(1)计算网格(computational grid)。提供原始计算能力、高速宽带和数据处理。完成上述功能,必须与网络连接和具有浮点计算和逻辑数据处理能力。

(2)信息网格(information grid)。采用接口连接主要的信息资源,允许同质对非同质分布信息进行访问。信息网格也需要高级分析,以减少得到各种形式的信息所带来的技术的复杂性。

(3)知识网格(knowledge grid)。使用基于知识的方法学和技术学,包括知识工程工具、智能软件代理、数学建模、模拟、计划等。知识网格也应对决策制定和假设产生提供智能指南。存储在知识网格中的信息资源应允许支持低层信息和数据的挖掘。

吴建平教授说,去年美国一个有名的教授在电话里跟他说到:中国到了应该把网格从概念的研究变成为用户提供服务的时候了。他建议在中国,要像当初发展互联网一样,先拿出来一个简单的网格让大家先用,使得这个网格让大家看得见、摸得着[3]。

李国杰院士更精辟地说:以后的集成就是把网上观成的东西集成,你要干什么,要干的时候临时集成,不用不集成[3]。

网格对探讨知识元链接理论与方法提出挑战,为知识元服务带来了机遇。

2 文本处理技术的发展趋势

据统计,20世纪90年代初全世界数据库总量约为500万个,而且数量以每20个月翻一番的速度增长。庞大的文本数据库潜在地包含有巨大价值的知识,然而却以复杂的、丰富的、不直观的组织方式表示着潜在的知识。

文本数据与数值数据和固定文档数据不同,不能用标准的统计数据挖掘方法来分析。文本挖掘技术从非常大的文本数据库中抽取知识,它与信息检索技术、文献组织技术也有不同[4,5]。信息检索技术、文献组织技术允许用户选择满足用户需求和感兴趣的文献或聚类组织文献;文本挖掘技术的目标在于发现文本中关于特定主题的趋势和明显特征的有价值的模式和规则,分析每一篇文献中的更精细的信息,并抽取出由多篇文献作为一个整体所提供的有兴趣的信息。因而被认为是解决现代社会“数据爆炸”和“信息丰富”、“知识贫乏”的一种有效方法。文献[4]报道了文献处理技术的进展(见表1)。

表1

由上面文献处理技术进展表,我们归纳出文献技术进展有三个特点:(1)三个发展阶段:文献检索→信息检索→知识发现;(2)二个趋势:①数据抽取更精细:关键词→一组关键词→语义概念;②输出质量更深层:文献→一簇文献→提炼过的信息;(3)一个目标:知识元链接。

3 知识元标引是知识管理的起点

文献知识的标引与检索或只停留在以整篇文献为单元,选取若干主题词,没有分离出构成知识的最小单位——知识元;或采用引文索引,但没有建立知识元之间的直接联系;或只是采用文本知识发现提供文献中精细的信息和多篇关连的信息,但输出的仍是文献,难于提供脱离原始文献的独立知识元。

从“知识元”层面研究标引,揭示单篇文献个体中的“知识元”信息与某领域共性中的“知识结构”的链接关系,从而找出信息与知识的导航链接的普遍规律,为用户提供直接获取有效知识元而不是大量文献的有效方法。因此,知识元标引是知识管理的起点。

(1)文献存在质量差异,要采用知识元标引。根据美国科学史学和情报学专家雷舍(Rescher)提出文献的λ质量等级增长模型(文献的质量分成五个等级:“至少是常规”,“至少是有意义”,“至少是有重要意义”,“非常重要”,“头等重要”),所揭示的五个等级的文献在数量上存在着巨大的差别的结论。由此认为文献中所提供的知识元的数量和质量的差别是惊人的。采用知识元标引是一种有效的知识管理方法。

(2)知识存在生产、管理、利用过程,要采用知识键标引与检索。更为重要的是,知识也存在相应的知识链,这种知识链是知识元、知识单元、知识结构组成的知识链系统。知识生产者(科学工作者)把科学研究中的知识创新点——知识元,组织成知识单元——文献;知识管理者(标引与检索系统工作者)通过知识标引把文献中的知识元重新抽取出来,组织成知识元链接的检索系统;用户(科学工作者)更希望直接使用知识元,而不是文献,以生产出新的知识单元。知识标引起到知识元过滤和知识元链接的作用。

(3)由于转型服务,要解决信息与知识变换[6]。信息服务过程中采集、提炼的信息,并不要求对其所含知识内容给予抽取、提炼,只是作为素材化的信息材料提供给用户。知识经济社会的到来,人们希望获取的不只是文献数据信息本身,更希望得到直接的知识。信息服务业开始向知识服务业转型。研究在电子文本中,如何抽取出知识,有效进行“信息与知识的链接”问题,成为知识服务技术突破的关键。

4 知识元是构造知识结构的基元

我们假定文本内容的组织排列,是由一个个独立知识元素的逻辑排序结构。这种独立的知识元素我们称它为知识元,逻辑依存关系称它为知识链。知识元是构造知识结构的基元。把文本中知识分解成知识元以后,由于知识元的内容比较单一,独立,因而,比较容易选择与之相适应的最佳存储和查询,便于用户直接查询知识元,组合知识元,改善自己的知识结构,从而加快知识创新速度。

(1)几个重要观点

①每篇文献的知识是人类知识结构中的一个知识单元,知识单元与知识结构组成了个性知识与共性知识的知识系统;个性知识体现在知识的创新上,共性知识结构表现在知识的完整性上。专利文献比较明显地体现了个性知识单元与人类知识结构的对比创新点。

②个性知识单元由最小的知识元素“知识元”组成,知识元的不同排列构成了不同知识单元之间的差异。由知识元组成新的知识单元,这就是知识学习与知识创新的过程。

③知识元、知识单元、知识结构都以知识信息的方式表现,信息转换为知识是实现知识标引与检索的关键。

④从人工智能观点看,知识是对事实的合理推理的结果。知识的表达与处理可以有多种方法,且已有许多优秀成果,但最关键的是如何实现知识元与知识单元和知识结构之间的继承性,如何实现它们之间的消息通信。

⑤文本的知识标引过程既体现了应用知识结构的背景,同时又体现了识别作者的知识创新点,是一个知识增值的过程。

⑥知识检索是在知识结构中获取知识的过程,用户可以通过知识单元间接地获取知识,更可以通过知识元直接获取知识;信息检索只能通过间接地获取文献再获取知识。

(2)我们的路线

首先,利用人工智能技术和软件工程方法建立获取单个文本中的知识元的规则。

其次,在检索系统中,利用对象理论建立知识元的对象关联关系,建立领域知识结构框架。

第三,以知识元对象的继承性、封装性、动态联编性、消息通信性等关系,建立知识元对象链接模型[7],解决知识元利用的自然性和有效性。

5 知识元链接理论

我们认为知识元研究应解决以下问题:(1)知识的模块化;(2)构造知识元结构;(3)知识元链接框架;(4)信息与知识的导航。

(1)知识元模块化

知识的模块化,是人工智能中知识表示的一种有效方法。产生式系统、框架系统、语义网络、面向对象系统的设计都是最典型的积木式设计,各组成部分具有相对的独立性,因而便于相对独立地进行扩展和修改。

在每个具体的产生式系统所适用的专门领域中,知识被分成了很多知识元存于综合数据库中,而每个产生式规则指明了有关知识元之间的关系及其使用方法[8]。

规则本身也可以看成是知识元,这种知识元不同于通常数据基(亦即综合数据库)中存放的知识元,因为它是指示如何使用知识元的,因此又叫元知识,即关于知识的知识。由此可见,元知识也是模块化的。

知识的模块化与语义网络密切相关。中文理解的研究成果为知识元理论的建立提供了帮助。中文理解的单位是什么?字、词、句、文都可以构成理解的单位,但其所包含的理解的范围和程度都很不相同。字、词、句、文都可以构成概念,但同样,它们中的每一个单位所构成的概念也是从简单到复杂。概念由简单到复杂,完全是由字、词、句、文逐步形成的。理解的关键在于:语义块分解——能粗则粗[9]。我们选择知识元作为知识理解单位具有模块化特点。

(2)知识元结构定义

我们把知识分解成可独立使用的最小的单位——知识元。知识元是构造知识结构的核心,但遗憾的是到目前为止,人们对知识元的基本定义还没有搞清[10]。

因此,我们从对象模型建立知识元的基本定义开始:

定义:知识元{名称,属性,操作,导航}4要素组成。

名称:为知识元研究的对象

属性:为知识元的特征

操作:为知识元解决问题的方法(能力)

导航:为知识元的逻辑联系

举例:“微积分知识结构中的函数知识元结构的应用”。

知识元名称:函数

知识元属性:函数定义

函数定义{定义域,对应关系}

定义域{自变量x的变化范围}

对应关系{给定x值,求y值的方法}

知识元操作:函数定义域的求法

函数定义域的求法{表示,法则,类型,例题}

表示{不等式,区间,集合}

法则{分式的分母不为零,偶次根下非负,对数的真数大于零}

类型{实际问题,单值函数,多值函数,分段函数}

例题{典型示范,解题技巧}

函数对应关系求法

函数的基本性质{奇偶性,周期性,有界性,单调性}

函数的类型{初等函数,分段函数}

知识元导航:函数的逻辑关系

函数的逻辑关系表示{函数极限,函数连续性}

图1是定义域的图形表示。

图1 知识元(定义域)

(3)知识元链接框架

知识元通过知识链接组成知识链,是形成人类知识结构的纽带。知识元链接是通过知识元的对象性质实现。

举例:我们把微积分知识元归纳为五条横向链,四条纵向链(如图2所示)。

图2 知识链

(4)信息与知识的导航

信息与知识这两个词可交替使用,不澄清它就无法研究它们的意义。我们常说的知识大致可以分为四大类:即Know-what(知道是什么的知识),Know-why(知道为什么的知识),;Know-how(知道怎样做的知识),Know-who(知道是谁的知识)。

1986年Anthony Debons提出了把{When/where/who/what}作为人类知识的认知元素中心,并以他所称的Informs为单位测度信息。也提出了把{how/why}作为知识的解释和理解,用konws为单位测度知识。信息支持知识,使知识得以操作。要是没有信息的支持,对知识的作用将是困难的。

文献[11]主张,信息是回答{when/where/who/what}问题,而知识是回答(how/why}问题。

英国信息科学家伯特伦·布鲁克斯主张信息科学(IS)的实际工作应该组织世界-3的内容,IS的理论任务应该是对世界-2和世界-3相互作用的研究,以组织知识而不是文献。

Brooks描述信息和知识的第一个公式是:

把Debons概念应用到Brookes基础方程中取代信息和知识的质疑定义,文献[9]提出一种新综合:

这就是说,一个给定的知识结构K(S)加上另外的信息(根据观察的现象)产生了一个新的由以前知识结构和附加了对过程和情况的解释的新结构。

对(1)式的改造,我们把知识结构定义为知识元,信息导航的转换:

式中K(S)表示知识结构,K(E)表示知识元,N表示信息导航链接。

我们提出的公式(2)的特点是:突出了知识元的独立性、信息导航的链接性和知识结构的完善性。强调知识结构是一个比较完整的认知结构,知识结构的构成主要是由信息对独立的知识元的导航而形成。这个概念可用图3表示。

图3 知识元链接示意图

知识元的独立性、信息导航的连接性为文本知识挖掘提供了一种理论探索。对知识资源业开展知识服务的跨越式发展提供了方向。

6 建立知识网格平台

人脑是一个隐性系统,人所获取的知识、信息都储存于人脑的细胞中,细胞的结构不能改变,但储存的是什么样的信息以及以什么样的方式储存对信息的提取、使用有很大的影响。因此,知识的获取、重组、应用需要建立类似人脑的显性系统——知识网格平台。

知识元的独立性、拓扑性与知识元的链接性是实现知识网格平台的基础。知识网格平台将构建起整个科学分类体系,包括对诸多的综合科学和交叉学科框架的构建,使人类的知识成果系统化、有序化。

知识元教学已成为知识应用的一个热门话题,已取得了可喜的成果,尤其是在线个性化电子学习(e-Learning)的电子教材生成系统中,采用IEEELTSC(Learning Technology Standards Committee,学习技术标准委员会)的LOM(Learning Object Metadata,学习对象元数据模型),以学习对象LO(Learning Object)作为知识元,动态地在线生成满足学习者需要的个性化电子教材。结合虚拟技术,构造分布式虚拟环境,为学习者提供以三维动态形式出现的信息,改善协同环境的用户界面,提高学习环境的可感知性和协同交互性的实际研究开发,给知识元链接的文本知识处理有很大鼓舞。

这一目标的实现将会把单个人直接与整个人类知识成果连接起来,它与引文索引的本质区别在于它不是文献链而是知识网络链。它会使知识的创新以无法预料的速度迅猛地增长。它的实现将需要人类社会共同努力,但知识元链接的革命是人类无法回避的课题。

最后,感谢中国科技信息研究所所长梁战平博士生导师对本文的关心和指导。

标签:;  ;  ;  

知识元素链接理论_文本分类论文
下载Doc文档

猜你喜欢