知识链构建研究_语义分析论文

知识链构建研究_语义分析论文

知识链接的构建方式研究,本文主要内容关键词为:方式论文,链接论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔分类号〕G250

知识链接是指从一个信息物体链接到另一个信息体,一般特指学术论文之间、概念单元之间和科学对象之间的链接关系。其发展与互联网的出现息息相关,很大程度上归功于互联网所提供的相互链接功能[1]。

通过知识链接,利用引文关系、上下位关系,可以不断扩大检索范围,掌握越来越多的相关文献。通过知识链接,可以处理异质信息资源,建立一个包括期刊杂志、科学数据、作者网页、专利信息和产品信息等互相链接的图书馆信息环境[2]。随着技术的进步、资源的丰富和标准化工作的进展,知识链接还可以构成一个统一的知识体系结构,形成序列化或结构化的知识集合,构建知识网络门户体系,揭示知识的本质联系,继而对可链接的知识进行智能检索、知识导航、交叉揭示、统计分析,达到评价知识及其相关科学对象的目的。

因此,研究知识关联关系、知识链接原理,探讨知识链接的构建方式,对于实施知识链接的具体实践具有重要的现实意义。

1 知识的关联关系

1.1 知识的同一关系

指由知识节点间具有某种相同属性,各个知识单元间在中心主题、主题、主题因素、概念中所蕴含的形象、属性、关系所具有的某种程度的相同或相通(相似)之处。表明具有同一性的知识单元间的等同性、等价性、相似性、延展性,可以消解知识内容的离散性、重复性,即将大量离散的具有同一性的知识单元联系在一起[3]。

1.2 知识的隶属关系

指构成某知识节点的某一知识单元或知识单元集合隶属于某一概念、范畴和类别的逻辑关系。即将具有隶属关系的知识单元,按照一定的属种、总分、包含的抽象思维或形象思维的逻辑关系进行关联,使各个知识单元在属种、总分、包含关系中扩大或缩小适用功能和范围。即可以通过一般和个别、总体和部分的内在关联性来建立知识链接。

1.3 知识的相关关系

指在同一、隶属关系之外知识单元间所具有的相互依存、相互渗透、相互制约、相互作用的关系,一般是指相反、相对、因果、引用、应用、影响等各种关系,但其关系是不严格固定的或数量关系是不完全确定的。

除此之外,科学对象之间还有继承关系、沿革关系、合作关系,科学文献之间存在着引证关系(如互引、引文树)、同现关系(如同被引、共引、共词)、上下游间出版传播关系等,都可以构建知识的关联关系。

2 知识链接的类分

2.1 基于科学文献的知识链接

通过科学文献(学术论文、引文、专利、标准等)之间的引证关系,利用开放链接标准,确定引文链接网络地址(URL),建立引文链接索引库,链接源与相应的目标可以是期刊论文、学位论文、标准、专利、图书篇目、会议录、文摘索引款目或甚至是Web站点、E-mail中的链接等。通过科学文献中的各类型引文,在文摘索引与其所标引文献、文后参考资料与被引用资料之间建立关联和链接[4]。根据引文的引用、被引用和共同引用三种类型,可进行引文正向链接、引文反向链接和共引文献聚类链接等。用户通过互联网查询这些建立了论文引文链接的数据库和知识库,借助各种引用途径在整个知识体系中情景敏感地获得相关知识信息。

许多情况下使用知识链接的用户都处于一种包括OPAC系统、文摘索引数据库、电子期刊及Web信息资源服务等多种类型信息资源在内的复合图书馆环境之中[5]。不仅实现同一个文献数据库中的文献链接,还能实现多个文献数据库的内容深度整合,在跨库多维链接的基础上,实现跨库引文分析与文献相似性分析,继而建立跨库的知识链接。

2.2 基于知识元的知识链接

知识元是知识的最小单位,是知识结构的基本组成部分,它普遍存在于丰富多彩的文献世界中[6]。不同的研究视角对知识元的称谓不同,定量化的研究角度称其为知识元或知识元素、知识因子,定性化的研究视角就是概念或事物。那么,在知识体系中知识元则作为结构最小的知识节点,用语词来表示就是关键词或关键词组。实现知识元链接,首先必须将这些最小的知识单元提炼出来。即把一个概念、一个事实或一个数据等实际能说明某个知识的各元素包括知识概念、关键词或关键词串等提炼出来,按照基本知识结构存储在知识元库中。

知识元库是知识元链接的中枢,由具有独立意义的知识元素构成,包括理论与方法、事实、数值型三类基本知识元[7]。通过对知识信息点的元素化加工与概括提炼,可以了解各学科知识基本内容,并发现知识之间的内容关联。知识元库不仅可以直接表述知识的内容,也可以通过全文数据库的索引技术,将使用这一知识元的所有文献自动链接为知识体系[8]。

2.3 基于科学对象的知识链接

知识领域内存在着作者与作者、作者与机构、机构与机构、作者与主题间的学术关系,重要机构、团队、科研人员学术关系及其相关关系成为知识链接的基础。

通过对科学共同体、作者、出版社、基金组织等科学对象间学术资助、科学引证、科研合作、科学出版等关系的分析,对科学文献中学术参与者(机构和人)之间合著关系、引用关系、人员机构延续关系、人员和刊物关系等进行挖掘,可以实现对知识领域内科学对象(包括人和组织)的结构、活动模式和演化过程的揭示,实现对领域内典型学术关系网络的结构和演化过程的可视化表现,发现机构、科研团队和个人间学术网络关系的特点与趋势。

建立基于本体的科学对象网络体系,将这些科学对象进行揭示、集成和存储,有机组织到相应的知识组织体系之中,建立起科学对象和原始文献之间的关联关系,形成可供计算的科学对象与科技文献间关联数据。并在此基础之上,通过聚类、文献计量、引文追踪、链接分析、相关性规则计算等数据挖掘方法,识别出存在于科技文献之中的各种学术关系网络,对领域内存在的结构关系和知识领域演化发展过程进行描绘,以反映出当前相关领域的研究中所存在的主要研究团队和个人的特点、研究进展、研究主题分布情况、研究关键点等知识领域信息,从而为知识管理提供基础数据支持。

2.4 基于知识要素的知识链接

科技文献中包含大量的技术、项目、产品及其参数、指标、相关的图形表格等知识要素,这些知识要素往往分散于各种类型、各种载体和各种内容的文献之中,各知识要素间也存在着相互关联,如项目创新技术、技术创造产品,产品又有各种相关的技术参数和指标,它们之间还存在着同一关系、上下位关系和相关关系等,存在着技术交替与延续、技术仿制及融合的发展过程,而其表述除文本外,多数是图形和表格等。对知识要素进行识别和抽取,对图形表格语义特征与语义模型、语义属性进行标注及标引,可以建立知识要素的概念化描述以及知识要素间的链接关系。能够展现技术自身的实况,表现技术演化发展的过程,成为技术图谱[9]。

在泛在知识环境下,随着互联网和数据库产业的发展,许多信息服务机构不仅在自己的数据库内提供链接,而且开始建立跨机构的知识链接,实现开放链接系统。其链接的方式也呈综合性,丰富多样,通过对链接解析工具的直接控制和使用,基于以DOI为唯一标识基础的链接推进了开放链接系统的产生[10],使文献间的链接在图书馆环境下普遍存在。同时也开始进行从文献到科学数据库的链接,将文章中的基因系列与基因数据库中的记录链接,实现文章内或文章间的化学结构、知识单元、科学对象以及相关的技术参数指标等知识要素的链接,将文章中对实验结果的描述与科学数据、科学参数结合等。

3 知识链接的构建方式

3.1 参考链接机制构建

超文本是一种按知识之间的关系非线性地存储、组织、管理和浏览知识的技术与方法。超文本链接是表现知识之间关系的一种手段,指使用超文本标记语言(HTML)的标记指令,通过统一资源定位符(URL),指向链接对象的具体位置,在链接源(链源)与链接目标(链宿)间建立联系。其包括两个核心要素:节点和链。节点是展现知识的基本单元,可以是题录、不同载体形式的文献全文,也可以是文献的责任者、文献主题、文献出版机构等。链用来组织节点,表达节点间的关系[11],它是由一个节点指向其他节点,或从其他节点指向该节点,以表示不同节点间知识的关系,链需要采用相同的表述工具予以标识。所以,知识链接可作为一个过程,也可看作一个系统。

链接是超文本的核心,其基本特征是在嵌入URL标识的节点之间建立关系。适应数字环境下异构资源系统的发展,参考链接分为封闭式静态链接、开放式静态链接以及开放式动态链接[12]。封闭式静态链接是指所有嵌入URL的信息链接点均在本地存储和控制,如ISI的Web of Science;开放式静态链接主要是链源和链宿互相提供链接对象的标识符或URL,如CrossRaf;开放式动态链接主要是基于OpenURL协议的开放、扩展和多向性链接,OpenURL标准的出现为建立无缝的、上下文敏感链接提供基础,如SFX。它们都是采用超文本链接技术,通过唯一标识符的指向,将文献实体间的引证关系进行定位,从而构建参考链接机制。

许多新的技术标准陆续出现,推进了基于多样性信息环境的知识链接。RDF建立了表达语意和知识关系的模型,DOI和CrossRef可以用所建立的数字对象唯一标识体系固化相互之间的引用关系[13];OpenURL可以用来表达动态的、基于用户环境和身份的链接关系;而XLink支持多方向的扩展链接,可以在文档之间建立多向的复杂链接关系,实现链源到链宿之间的相互链接。

3.2 科学对象词典编制

作者及其单位、基金、文献来源等是知识链接的科学对象,基于引文的知识链接,需要对其相关文献外部特征和内部特征进行规范合一,除对文献题目进行归一外,还需要对文献来源(期刊名称和出版社名称)、作者及其单位、基金等科学对象进行规范,是实现知识服务和统计评价功能的关键因素。

对科学对象的链接,需要在论文引文数据库建设过程中进行相关科学对象文本的抽取,制定相关规范及标准,建立面向科学对象词典的结构体系和标准,将文本内容中的科学对象提炼出来,编制成科学对象词典。例如,机构包括正式名称和别称,同一机构可以有许多不同的名称,实名和指称、译名、指代、缩写、简称等;机构间有代用、相关、从属等关系;需要辨析之间的同义、近义、反义、从属、隐含、关联等关系。

通过构建信息抽取原型系统,对知识内容点的要素化提炼和规范,采用KDD和数据挖掘(Data Mining)等技术方法,从海量的、结构化的数据集中识别出新颖、有效的要素,包括机构、人员等实体的抽取。同时,按照一定的分类体系,采用分类标引法和词语标引法揭示科学对象的主题内容和属性,标识出科学对象之间的相关关系,并进行族性组织和语义、特性组织,使科学对象之间具有等级关系和学科关系。编制出规模适当、具有语义关系、分级合理并可灵活配置的科学对象词典(对象本体)。这样,可以基于科学对象词典相关语义场运算技术,把知识特征(形式特征与内容特征)与词典中的标引词汇进行相符性比较,通过引文与论文之间的作者、机构、出版社、基金等的规范,通过科学对象关联特征实现实体之间的关联,进行多实体关联分析及多视角的实体分析,实现科学对象的相互链接和揭示,以及科学对象的导航和统计评价,继而达到发现知识之间内容关联的需要。

3.3 主题图与知识元库建设

创建知识元库、构建主题图是实现知识链接的基础。作为一种知识组织体系,主题图/概念关系图是一个由众多的主题、主题间的关联关系组成的集合体。主题图由主题、关联来形成知识的结构与关联。主题可以表示任何概念化的知识。可根据应用领域和用户需求建立相应的主题概念集。关联表示相关主题之间互相的关系。将主题关联起来,就形成了主题间的语义联系[14]。

文本中的知识元不是孤立的,知识元之间也存在着一定的逻辑关联。知识元有其相对应的主题/概念,一个知识元可以对应一个或多个主题/概念;反之,一个主题/概念也可以由多个知识元来表达。知识元最合适的表达方式是主题图,反映知识元之间的各种隐含的有效关联(如等级种属关系、矛盾关系、并列同一关系、簇类关系等),通过主题、主题间的关系以及知识元与资源关系的表现来组织知识,并将其与相关信息资源进行链接。通过对文本中知识元的抽取,建立知识元与主题/概念间的有机联系,形成知识元库[15],可以通过知识元本身显现主题与资源实体之间的一种指向,实现对与知识元库中相关联的知识间的知识链接,形成一对一或一对多的指向[16],从而揭示单篇文献的个体“知识元”与某领域共性“知识结构”的链接关系。

分类法、主题词表是信息组织的有效工具,在数字环境下,分类主题一体化系统作为一种重要的主题图,可以在知识链接中发挥作用。其主要功能在于表示知识概念间的相互联系,利用主题概念间的等同关系、等级关系和相关关系等丰富的联系,结合知识元库,定位某一知识概念所在的资源位置,将主题、主题间的相互关联以及主题与信息资源的联系以特定的方式直观地展现出来,使抽象的知识内容组织成一个有坐标概念的知识地图,并形成结构化的语义网络,借助链接技术,将用户指引到相关的资源,获得所需要的知识[17]。

3.4 知识要素的抽取标引

对科技文献中参数指标和图形表格等知识要素的识别与抽取,进行图形表格语义特征及语义模型、语义属性的标注和标引,可以建立参数指标的概念化描述以及与其他知识要素的链接关系,实现数据聚合。

知识要素的抽取标引需要建立图形、表格的识别模型和匹配模型,利用上下文分析方法自动分析和判读存储在计算机中的图形、表格所处的环境信息[18],找出其语义特征;利用参数指标语义模型,通过语义特征分析判断图形、表格所具备的参数指标属性,并将相关属性进行标注;利用数据清洗方法对图形、表格进行清洗,从而实现参数指标的识别与分离。并对科技文献信息中包含的大量图形、表格及其与上下文的关系进行分析,通过递归算法等推导出参数指标语义模型,利用机器学习理论和上下文分析理论,识别参数指标;利用数据挖掘理论,清洗、析出科学数据。

利用知识组织中的概念体系,对抽取的参数指标和图形表格等知识要素进行概念判断、识别、归类、描述和链接,利用自动切词技术,对这些知识要素进行元数据描述和知识加工标引,建立知识要素的概念化表达和关联。按照参数指标等知识要素的元数据规范,进行自动标注从而获取相关属性,建设知识要素数据库,实现知识要素间的有效链接与揭示。

知识链接原理是依据知识间特有属性和关联关系,知识链接方法得益于技术和标准的发展。开放链接标准的应用,主题图、知识元库、科学对象词典、知识本体等方面的研究为建立学习环境和信息环境之间的链接关系打下了良好的基础。知识链接更加重视面向用户需求的范畴分类和主题表达,使之更加个性化和可视化,根据用户行为特征组织知识和导航知识、挖掘知识和评价知识;重视知识的多样化、专业化、层次化、内容过滤、知识抽取、显性知识和隐性知识的转换;更加重视人与人之间的联系、机构、社团联系等。这种分布异构的各数据库,通过知识元数据库、引文索引库和其他知识要素词典和科学对象索引耦合起来的整体化数据库集群形成一个集成的知识链接体系。任何一个用户都可以通过文献之间交错复杂的知识链接,最大限度地获得相关知识信息,从而实现知识管理和知识服务的目标。

收稿日期:2009-03-08

标签:;  ;  ;  ;  ;  ;  

知识链构建研究_语义分析论文
下载Doc文档

猜你喜欢