当前知识抽取的主要技术方法解析,本文主要内容关键词为:方法论文,知识论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】G250.73
通常而言,知识抽取是指从数字资源中识别、发现和提取出概念、类型、事实及其相关关系、约束规则,以及进行问题求解的步骤、规则的过程。
依据数字资源类型的不同,知识抽取的概念有广义和狭义之分。广义的知识抽取泛指从各种类型的数据和信息资源中获取各种知识的过程,例如从数字信号中[1]、从多种媒体资源(如图像、数据、视频、音频)中抽取出知识[2,3],从数据集中发现重要模式的过程[4]等。狭义的知识抽取则是指从非结构化的自由文本中获取相关知识内容的过程。与广义知识抽取针对各种类型数据的情况不同,狭义的知识抽取基本上属于文本挖掘的范畴,其处理的对象是自由文本,目标是分析文本内容,通过识别出文本中的知识片段(Knowledge Fragments),促进对文本内容的理解[5,6]。除纯文本文件外,狭义的知识抽取还包括对邮件、科技文献、新闻、HTML页面、Weblogs、Wikis等类型的数据中知识的抽取。
目前,图书馆用户所使用的数字信息资源更多是以非结构化自由文本形式存在的。狭义的知识抽取就是将这些非结构化的自由文本转换为结构化知识,以便于进一步分析和应用这些文本中的知识。狭义知识抽取是广义知识抽取的基础,也是本文关注的重点,下文中的知识抽取特指狭义的知识抽取。
知识抽取是当前自然语言处理、语义Web、机器学习、知识工程、知识发现、文本挖掘等相关领域共同关注的重点研究之一。国内外有很多研究活动都与知识抽取相关,如英国AKT[7]、CLEF[8]项目,欧洲SEKT[9]、Dot.Kom[10]、DELOS[11]、X-Media[2]、OpenKnowledge[12]、K-Space[9]等项目,美国的KnowItAll[13]、Halo[14]、RKF[15]、KXDC[16]等项目,纷纷开展从数字资源中实现知识抽取的技术研究和方法实践,研发出诸如MnM[17]、KIM[18]、ArtequAKT[19]、Text20nto[20]、Magpie[21]、Amilcare[22]等具有知识抽取功能的系统。
通过对当前主要知识抽取系统的分析,笔者发现当前的知识抽取系统中机器学习和自然语言分析两大技术思路正在相互融合、相互借鉴,各自都得到了较大的发展。基于机器学习的知识抽取系统,提出了自适应的信息抽取(Adaptive IE)、开放信息抽取(Open IE)等新的技术思路,并向着自动本体学习(Ontology Learning)的方向发展;而基于自然语言分析的知识抽取系统,则提出了基于模式标注(Pattern-Based Annotation)、语义标注(Semantic Annotation)等新的技术思路,并且都在向着基于Ontology的信息抽取(OBIE)的方向发展。另外,为了减少Ontology的建设成本,让人们可以利用简单的受控自然语言来构建Ontology,基于受控语言进行信息抽取(CLIE)的技术方法也得到了一定的关注。以下将对知识抽取技术方法进行解析。
1 自适应的信息抽取(Adaptive IE)方法
Fabio Ciravegn认为信息抽取之所以不能广泛、商业化地应用的重要因素之一是传统的信息抽取系统缺乏广泛适用性,不能实现在不同领域应用之间的快速转换[23]。为此,他提出构建自适应的信息抽取系统的设想,并开发出自适应的信息抽取系统Amilcare[22]。Amilcare利用(LP)[2]规则归纳算法,借助一定数量的手工标注语料,能迅速学习标注的相关规则,以适应新的应用领域。
(LP)[2]规则归纳算法根据用户对训练语料中不同信息内容加标记的过程总结归纳标引规则。它包括两种类型规则的归纳:
(1)标记规则(Tagging Rules)。(LP)[2]借助训练语料中的标记实例进行语法分析和计算,生成标记规则。在这一过程中,算法根据人工标记实例和文中这一标记所在的语句,构造条件和标记关系。对于文中被用户加标记的每一句话,它以语句中的每一个词以及这个词的语言分析结果(例如:该词的词性、大小写、是否为某个辞典中的条目、是否已经明确具有某一语义类别的词等)为条件,以标记内容为结果,自动构造出多条标记规则,并在所有语料生成的规则中,对这些规则的正确率进行计算,选择其中效果最好的K条规则加入到最佳规则池中,形成标记规则。为提高查全率,(LP)[2]标记规则吸收了一些没有被纳入到最佳规则中、被称为上下文规则的规则,但上下文规则的应用有一定条件约束。
(2)修正规则(Correction Rules)。在系统利用自动学习的标记规则自动标记文本后,用户会实施人工干预,修改不正确的标记。修正规则是系统学习人们如何修改错误标记和不精确标记后形成的规则,它可以进一步提高自动标记的正确率和精确性。
Fabio Ciravegna等在Amilcare基础上,开发出半自动化的标注工具Melita[24]。利用Melita标注文本时,需要首先定义一个标记集(如以Ontology来组织),并提供需要标记的语料。用户对语料中相关文本内容加标记的同时,Amilcare在后台运行,学习用户如何对文本进行标记,学习到的经过归纳的规则将自动应用于新文本标记过程中,利用这些规则标记出的结果可以与用户手工标记的结果对比。当这些规则的准确率达到一定阈值后(用户可以自行定义该阈值),Melita会自动利用规则对新文本进行预标记。此时,用户只需修改错误标记和追加遗漏标记。当然,用户修改和追加的同时,Amilcare将继续学习修正规则。当信息抽取系统的标记输出比较可信时,用户就可以利用这一系统自动对内容进行标记了[25]。
除Melita外,英国Open University的MnM[17]和德国University of Karlsruhe的Ontomat annotizer[26]等很多系统也利用Amilcare实现了自适应的信息抽取。
2 开放信息抽取(Open IE)方法
Open IE(OIE)是美国华盛顿大学(University of Washington)图灵中心(Turing Center)提出的被称为“新型抽取范式”(A Novel Extraction Paradigm)的一种知识抽取方法[27]。Open IE的目标在于促进领域无关的知识抽取应用,它能从文本中抽取出大量关系对,并可被应用到各种类型和规模的Web信息抽取任务中。除需要标注的文档集外,OIE不需要任何其它人工输入,同时为保障在处理大规模文档集时的效率,OIE只需要对文档集进行一次处理。
图灵中心基于OIE的思路,构建了名为TEXTRUNNER[28]的开放式信息抽取系统。TEXTRUNNER包括三个关键模块:自监督学习器(Self-supervised Learner)、一次性通过抽取器(Single-pass Extractor)和基于冗余的评价器(Redundancy-based Assessor)[29]。
自监督学习器通过对小规模样本文献的语言分析,构造供抽取器应用的分类器。该学习器按以下两个步骤工作:
(2)在所有三元组都被标记后,学习器将这些三元组转换为特征向量表示,作为Naive Bayes分类器的输入,对Naive Bayes分类器进行训练。通过计算每一个特征向量正确或错误的频次,最终生成可以被抽取器应用的分类器。
一次性通过抽取器以三个步骤实现对需要标注的文档集的处理:
(1)利用轻量级的OpenNLP Toolkit[31]对待标注文档中每条语句进行简单的语法分析,标记出每个词的词性,并识别出名词短语;
(2)对每对名词短语,如果它们相距不远并且满足其它一些条件,则被标记为候选抽取的三元组;
(3)利用上述自监督学习器构造的分类器,对候选抽取的三元组进行分类,如果分类器认为抽取的三元组是可信的,则三元组被抽取出来,存储并归并抽取出来的三元组。最终的抽取结果中只存储各个不同的三元组和这些三元组出现的频次。为提高抽取效率,TEXTRUNNER还及时对抽取出的结果建立索引。
基于冗余的评价器利用概率模型计算抽取出的三元组出现的频次。每一个三元组的概率可以继续被应用以提高三元组抽取的精确性。
TEXTRUNNER目前已经对9000000个Web页面进行了抽取试验,得到了11000000个高概率的三元组。经过分析,这些三元组中包括1000000多个具体事实和6500000多个断言。
3 本体学习(Ontology Learning,OL)方法
基于本体进行推理获取新知识已被众多研究者证实是一种有效的知识获取方法[32],但早期本体构建工具基本上都需要人工输入大量知识,这种费时费力的任务引发了利用知识抽取技术降低本体构建开销的相关研究,即OL。研究者们认为OL就是自动或半自动地从各类数据资源中获取期望本体的方法和技术集合[33],类似概念还有本体生成、本体挖掘、本体抽取等[32]。
近年来,OL方法研究取得很大进展,但由于缺乏对OL具体任务的一致认定,各类方法的优劣难以比较。因此,在早期研究基础上,Philipp等人提出将OL划分为专有名词、同义词、概念、概念层级、关系、关系层级、公理模式、通用公理一系列自下而上的学习子任务(见图1)[33]
图1 本体学习子任务层次[32]
专有名词作为领域特定概念的语言实现,识别中常采用语言学中的模式抽取、浅语义分析等方法,统计方法中的共现、频率等方法,或两者的混合方法。不同语境或语种中,专有名词往往存在同义词,通过分类、聚类等方法识别出这些同义词,可为扩展辞典提供支持。每个概念作为〈定义,实例,同义词〉三元组,常借助WordNet等辞典和形式概念分析方法实现抽取。针对多个概念间的上下位类、同位类等类目关系,研究者们较多地讨论使用辞典—语法模式、层级概念聚类、文档包含等方法。为构建推理规则,还需进一步识别概念间其它相关关系及各关系之间的层级,如属性关系(X of Y)、限定关系(X is used for Y)、因果关系(X leads to Y)等[34,35],较常见的方法有层级概念聚类、语义解释和关联规则等。而针对公理,目前提出的方法主要为基于模板的抽取方法。
在理论研究基础上,研究者们纷纷开发出相应工具,较为典型的有TextToOnto和Text2Onto。
TextToOnto以KAONL[36]作为底层仓储,采用加权词频统计、概念层级聚类、关联规则和模板等方法,从非结构化数据(纯文本)和半结构化数据(HTML,词典)中获取概念及其关系,基于初始核心本体构建领域本体。
Text2Onto[37]改进了前者依赖本体模型、缺少用户交互、缺乏动态学习等缺陷,从元数据层出发,在基于概率的本体模型中用实例模型原语的形式表达学习到的知识,整合数据驱动的变更发现策略,提高本体构建工具与本体模型的相互独立性,增强用户交互功能,实现当数据发生变化时,只选择性地更新有变化的本体部分。
此外如OntoLT[38]和OntoBuilder[39]等工具也在不断改进中,它们共同推动着OL技术的发展。
4 基于模式标注(Pattern-based Annotation)的方法
与前3种方法相比,基于模式标注的知识抽取更加注重利用自然语言分析技术。基于模式标注的知识抽取可分为两种类型[40]:一种通过模式的自动发现,进而实现对相关内容的标注;另一种通过人工定义的模式实现内容标注。
基于模式自动发现的模式标注通常遵从Sergey Brin提出的反复迭代的模式关系扩展(DIPRE-Dual Iterative Pattern Relation Expansion)方法[41]。
Sergey Brin以从Web上抽取图书作者、题名(Author,Title)对的例子说明这一方法。首先,Brin利用小规模的(Author,Title)对作为种子集(在实际例子中,仅用了5本书的作者和题名对),然后从Web上查找这5本书所出现的所有实例,从这些实例中,系统识别出描述这5本书的各种模式,根据这些模式到Web上查找更多新的图书,其后进一步利用这些新图书,查找这些新图书出现的实例,生成更多新的模式,基于此又可利用这些新模式查找新的图书,如此反复迭代,直到从Web上识别出大量图书和这些图书的模式。Brin利用Python实现了这一方法,从5本图书实例开始,在几乎不需要人工干预的情况下,从Web网页中获得了346种图书模式,高质量地识别出15 257本图书实例。
Armadillo[42]是基于模式自动发现的另一个系统。它可以从不同数据来源抽取特定领域的标注内容,并将其集成到一个仓储中,形成知识库。它的一个实际应用是挖掘计算机科学系的网站,从中抽取出谁为哪个系工作,其人名、职位、主页、E-mail地址、电话、一些个人数据,以及这个人发表的论文列表[43]。
除自动发现模式外,基于人工定义的模式标注也是当前知识抽取的重要方法之一。这种方法的代表性系统有C-PANKOW(及它的前身PANKOW)[44,45]。
C-PANKOW被认为是上下文驱动、利用Web知识进行基于模式的标注的系统。该系统具有两个特点:
(1)利用无监督的、基于语言分析的模式来识别实例及实例间关系,并将抽取的实例及关系归入到指定的本体中;
(2)将Web作为最大的语料库,通过Google API计算具有歧义的实例类型。例如出现在文档中的词“Niger”,它可能被标注为一个国家、一个州、一条河或一个地区。C-PANKOW通过Google API计算Google检索结果中出现“Niger”的上述4种类型的文档和需要标注的目标文档的相似性,最终给出Niger的所属类别。
C-PANKOW主要利用以下3种模式来实现语义标注。
(1)Hearst Patterns模式。利用Hearst定义的4种模式识别和标注is_a关系[46],这4种模式分别是:
H1:
例如,hotels such as Ritz
H2: such
例如,such hotels as Hilton
H3:
例如,presidents,especially George Washington
H4:
例如,the Eiffel Tower and other sights in Paris
(2)定义模式。通过定冠词the识别专有名词。C-PANKOW主要利用以下两种模式:
DEFINITE1:the
例如,the Hilton hotel
DEFINITE2:the
例如,the hotel Hilton
(3)同格和连系模式。同格和连系模式分别如下:
APPOSITION:
例如,Excelsior,a hotel in the center of Nancy
COPULA:
例如,The Excelsior is a hotel in the center of Nancy
C-PANKOW(PANKOW)目前已被集成到OntoMat[47]和Magpie[48]中。除PANKOW外,Ontea[49,50]也是一个基于人工模式实现内容标注的知识抽取系统。
5 语义标注(Semantic Annotation)方法
语义标注除利用自然语言的语法模式和规则外,更重要的是对语义内容的挖掘。在各种文献中,语义标注有多种不同表达方式,如Semantic Annotation,Semantic Tag,Semantic Markup,Semantically Interlink等。按照Atanas Kiryakov等人的定义,语义标注是为文档中实体提供与它们相关语义描述的过程[51]。Steffen Staab[52]则更具体地认为,与“不受约束的元数据生成”不一样,语义标注需要实现以下4种语义关系的建立:
(1)要唯一标识标注对象,相同的对象用同一标识;
(2)要构建对象和类型的关系,说明标注对象的类别;
(3)要构建对象和属性的关系,说明对象有哪些属性,各自属性值是什么;
(4)要构建对象和对象间的关系。因此他认为,语义标注需要构建语义标注的知识库。
Ontotext Lab的KIM系统是大规模自动语义标注方法应用的代表。KIM的开发者认为语义标注是命名实体识别和标注两个过程的总和[53]。为了实现语义标注,必须满足以下几个基本条件:
(1)一个定义实体类型的Ontology(至少需要一个分类表),通过它可以将某些实体和相应类别进行关联;
(2)为每个实体指定一个唯一标识,通过它可以区分不同的实体,同时可以实现实体和语义描述的关联;
(3)需要一个知识库存储实体描述。
基于上述考虑,KIM认为正式的知识资源建设是语义标注的一个重要环节。
KIM的知识资源包括KIM Ontology和KIM世界知识库[54]。目前KIM Ontology以SEKT的PROTON为基础,大约包含250个类和100个属性,此外,KIM Ontology还包括KIM System Ontology和KIM Lexical Ontology,这两个Ontology都是KIM在语义标注过程中,对系统功能和语词识别描述的Ontology。为语义标注过程提供背景知识环境。KIM世界知识库中预装了大约900000条实例描述,主要是人名、地名和组织等一些基本实例,其中包括有602585条人名实例,239046条组织实例和50163条地名实例。为了让KIM发现和标识出不在知识库中的新实体和关系,KIM知识库还提供了一系列词汇资源,如组织的前后缀、人的尊称、时间格式等,这些都可用于语义标注过程中。KIM利用基于Sesame的OWLIM仓储存储这些知识资源,以支持快速大规模的语义标注。
KIM语义标注本质上是根据PROTON Ontology识别和组织存储命名实体的过程。自动标注过程中,发现文献中已标识过的命名实体时,系统将给出这一实体的类型,并将它和知识库中已存在的实例相关联;而对于新的、从未被标识过的实体,系统将在知识库中为其分配一个新的唯一标识并将其存入知识库。
从过程上看,KIM的语义标注与传统的信息抽取相比有以下特点:
(1)应用基于知识库的语义辞典;
(2)模式匹配语法应用Ontology和上下文语义环境;
(3)利用语义概念实现共指消解,如能够通过对北京的语义描述(如别名),判定Beijng和Peking为同一个城市;
(4)利用知识库实现语义消歧;
(5)所有标注实体都通过它们的类型与Ontology关联,通过唯一标识存储在知识库中,并通过它们之间的关系识别建立实体间的关系。
除KIM外,类似的语义标注系统还有如MnM[17]、Artequakt[55]等。
6 基于Ontology的信息抽取(OBIE)方法
OBIE可以认为是当前语义标注研究的一种主流方法。除被称为OBIE之外,也有人称其为基于本体的标注(Ontology-based Annotation)和基于本体的语义标注(Ontology-based Semantic Annotation)。
传统信息抽取系统多采用扁平结构组织知识,基于词表、规则或机器学习的方法来抽取文本中的实体。实践证明传统信息抽取系统在关系抽取、歧义消解、可移植性等方面能力十分有限。Embley提出基于Ontology的信息抽取(OBIE)方法[56],希望以这种新的知识描述方式解决传统信息抽取中的难点问题。
OBIE是上一节中语义标注的进一步发展,它不但要将抽取出的内容纳入到知识库中,还要求在抽取过程中一直得到Ontology的支持。OBIE通过Ontology定义的类、属性、层次结构抽取非结构化或半结构化文本中对应的实例,进行歧义消解,进而识别文本中的实体及关系,将结果存储于对应的Ontology中。
欧盟Musing(Multi-industry,Semantic-based Next Generation Business Intelligence)[57]是OBIE系统的典型代表。Musing设计了适用于商业领域的Ontology,并采用GATE(General Architecture for Text Engineering)[58]作为抽取平台,抽取的准确率较高。
Musing知识抽取系统的基本思路是:
(1)由领域专家扩充PROTON上层本体,定义商业领域的Ontology,该Ontology包含商业领域的类层次结构、关系和属性;
(2)确定好大量用于OBIE的信息源(除一些固定合作方提供的数据外,还监测大量商业网站,如Yahoo!Finance等);
(3)定期将这些信息源的数据抓取到本地并存储在Musing的文档数据库中;
(4)利用GATE,基于词表和规则从文档中抽取出实体和关系,并通过聚类算法对跨文档的实体和关系进行歧义消解;
(5)用Musing特有的Ontology Mapping组件把这些实例映射到Ontology类和属性中;
(6)采用RDF statement生成组件,将实例自动写入Ontology;
(7)采用有效的数据结构将已获得的实例存储为结构化形式,构建知识库以便于在以后的应用中查询和推理。
面向不同的应用领域和设计目标,OBIE系统有不同的设计角度,系统实现的技术方法也各不相同,如IBM的Semtag[59]属于基于实例的OBIE系统,主要利用Ontology的实例实现实体和关系的抽取。该系统并不试图运用规则发现新实例,也不对知识库进行扩充,其目标是抽取的准确率和效率。系统的实现关键是逻辑正确的Ontology以及精确实例的支持。该系统适用于大规模、粗粒度的信息抽取。McDowell和Cafarella等人开发的自动信息抽取系统OntoSyphon[60],及由B.Yildiz和S.Miksch等人开发的OntoX系统[61]属于Ontology驱动的信息抽取,是从系统可移植性的角度设计的。系统以Ontology为起点和核心,在没有人工干预和机器训练的情况下,从Web或大量文档集中进行关键词检索,抽取实例自动生成知识库。系统能随着Ontology的改变而自动适用于不同领域。
7 基于受控语言的信息抽取(CLIE)方法
与前面6种知识抽取技术方法相比,Adam Funk等提出的基于受控语言的信息抽取(Controlled Language Information Extraction,CLIE)[62]是一种很特殊的技术方法。它以某些受控语言撰写的文本为处理对象,从这些受控语言的文本中构建Ontology。它可以降低Ontology构建的门槛,提高Ontology构建效率。
已有的本体构建工具如Protégé等,需要用户掌握复杂的知识组织标准,熟悉本体编辑工具的专业知识。这些要求增加了人们管理知识的难度。CLIE可以简化知识管理中创建结构化数据的过程,增强用户创建、修改和利用存储已有仓储库中知识的能力。CLIE主要思想是将CL与自然语言处理相结合,利用语法规则从符合受控规则的文本中自动抽取类、实例、属性等元数据,进而构建本体的一种新方法。其中,CL是经过人工定义,在词汇、句法和文体等方面受到控制,仅包含一定量与特定任务相关的词汇条目和语法规则的自然语言子集[62]。
由于CLIE最终目的是构建本体,而本体包括类、关系、实例、属性等要素,因此CLIE过程需要实现的方法包括:定义新类、创建类之间的层级关系、定义对象和数据类型的属性、创建实例、创建实例的属性值。为实现这些目标,CLIE构建了管道式流程,如图2所示。
图2 CLIE管道流程图[62]
在实现中,CLIE被划分为两个独立的部分:语言接口CLOnE(Controlled Language for Ontology Editing)和应用接口CLIE组件。
CLOnE建立在已有的机器翻译和应用CL表达知识基础上,借助定义的语法规则、词汇等,规范用户的输入文本。CL中包含的关键词和类名是CLIE词表中对短语进行标注的重要依据,是用来推理词汇间关系的重要保证。
CLIE组件是基于GATE级联有限状态转换器构建的自然语言处理器。处理过程中,CLIE组件将根据受控语言的语法规则等判断输入文本的有效性,若有效则接收并进入解析过程;若无效则拒绝接收,并提示该文本需要修改的语法。在解析过程中,CLIE首先选用自然语言处理提供的分句、分词、词性标注和取词根等操作实现文本预处理,其后根据词性、分词等标注,确定命名短语块、分隔符、前置介词和结束标记等。获得确定的句群后,通过Keyphrase辞典标注出能反应类关系的短语部分。Chunker转换器规则中,规则一侧的类正则表达式表示句子模式,当待标注句子与此模式匹配时,通过规则另一侧实现句子语义向本体的转换,从而实现本体构建。
目前,CLIE得到较多应用,如英国EPSRC资助的Poleazy项目利用CLIE[62]为编辑IT版权政策本体提供受控自然语言接口。该项目涉及CL扩展、本体与CLOnE互生成的循环信息流。CLIE与Lion[63]项目合作,进一步评测了CLOnE对各案例的适应性。
8 结语
通过对上述典型知识抽取系统的分析,可以发现,知识抽取是在信息抽取的基础之上更加深入地发现文献中隐含知识的过程。总体而言,知识抽取表现出以下5个特点:
(1)知识抽取强调语义的抽取。抽取出的内容是有一定意义的、能被其它上下文所解释的语义知识片段(如概念及概念间的关系等)。
(2)知识抽取普遍将机器学习技术和自然语言分析技术相结合。与传统的基于学习或规则的信息抽取不同,由于面对更为复杂的任务,很多知识抽取的系统都采用机器学习技术和自然语言分析技术相结合的方法。
(3)知识抽取需要Ontology的支持。Ontology是知识抽取不可或缺的组件。在知识抽取前,Ontology定义需要抽取的知识类型;命名实体识别过程中,Ontology除了能够起到词表和辞典的辅助标识作用外,还可为知识抽取提供推理机制;在语义标注中,Ontology可以对抽取结果进行语义识别和消除歧义;处理抽取结果,抽取结果被关联到Ontology中,形成知识库。
(4)知识抽取关注实体间关系的识别和抽取。知识抽取除了要识别出命名实体的类型外,还需要识别出这一命名实体与其它命名实体之间的各种关系,通过关系将识别出来的新实体纳入到相应的知识库之中。
(5)知识抽取的结果为知识库建设提供了内容。根据预先定义的Ontology框架,知识抽取系统从一系列文献中抽取出相应实体和关系,并将这些文献和抽取出的实体和关系组织到知识库中,实现本体填充(Ontology Population)。所建设的知识库是进一步实现数据挖掘、知识发现的基础。
知识抽取的技术方法还在不断地完善和丰富中,自适应的信息抽取、开放信息抽取、OBIE、CLIE等方法的提出对知识抽取技术的发展做出了有益尝试,而机器学习和自然语言分析两大技术思路的相互融合已经成为知识抽取技术发展的主流趋势。随着知识抽取技术方法的不断完善,知识抽取必将更加深远地影响到语义Web、知识工程、领域描绘、趋势分析、主题发现、舆情监测、自动问答等诸多与图书情报服务密切相关的领域。
收稿日期:2008-06-16
标签:自然语言处理论文; 三元组论文; 语义分析论文; 文本分类论文; 实体关系图论文; 用户研究论文; 相关性分析论文; 数据抽取论文; 文本分析论文; 信息存储论文; 系统学习论文; 用户分析论文; 学习类型论文;