关于数据库汉语查询语句中查询信息的研究

关于数据库汉语查询语句中查询信息的研究

张占英[1]2004年在《关于数据库汉语查询语句中查询信息的研究》文中研究说明数据库自然语言界面(NLIDB)是自然语言处理(NLP)最早和最广泛的研究领域之一,它主要涉及到自然语言处理和数据库系统的研究,是一个具有重大理论价值和巨大实用价值的研究领域。 在数据库自然语言查询界面的研究中,对用户输入的查询语句的理解是其关键部分,而其中的查询条件与查询目标的理解又是其主要内容。本文的研究工作即是对查询语句中查询目标与查询条件的识别的研究。主要工作有: 1.系统地研究了数据库隐含知识,并给出了相应的知识表示。数据库隐含知识是指那些由于数据之间的相关性引起的并可通过自然语言表现出来,而在数据库中虽然存在这一部分数据,但必须通过某几种操作或逻辑运算才能得到的知识。数据库隐含知识反映了用户对现实世界的理解,从而用户在进行查询时会使用大量的数据库隐含知识。一个系统处理数据库隐含知识的能力反映了它的易用性问题。本文增强了对查询语句中的数据库隐含知识的处理能力。 2.在查询目标的识别中,增强了对数据库隐含知识的处理能力,对查询目标进行了不同的分类,并给出了相关的变换算法。给出了基于数据库语义的查询语句中的查询目标识别的模板,这种模板可识别出不同句型中不同的查询目标。 3.在查询条件的识别中,提出了基于数据库语义的以域值为中心的查询条件识别方法,增强了对含数据库隐含知识的查询条件的处理,并对含领域动词的查询条件项的识别和含否定词的查询条件项的识别等查询条件识别的难点进行了详细的研究,给出了解决方法与算法。最后,给出了查询条件识别的一般算法。

胡晓军[2]2006年在《基于自然汉语的数据库查询研究》文中提出自然语言处理是人工智能的一个重要研究领域,它主要研究如何利用计算机来理解、处理和生成自然语言。在数据库查询系统中应用自然语言理解技术,设计数据库自然语言查询接口,已成为自然语言研究中最具有广泛应用前景的方向之一。本文主要对数据库自然汉语查询接口进行研究。由于自然汉语本身的复杂性,在开放领域内很难实现对查询语句的完全理解。但数据库查询语句是面向特定领域——数据库查询,所以数据库查询语句是一个受限汉语,而且数据库ER模型是一种很好的信息模型。在自然汉语理解中结合受限汉语和数据库ER模型,可大大增强查询接口的可实现性。本文首先介绍了数据库自然语言查询接口,提出了本课题的研究背景和现状。在对已有技术的总结上,设计了一个通用的数据库自然汉语查询接口模型,该接口主要包括自然汉语理解部分和知识库部分。在自然汉语理解部分中,有自动分词、中间语言生成和SQL语句生成叁个模块。先对查询语句自动分词和词性标注,本文采用最大正向匹配算法,对每个分词结果进行尾部歧义检查,对最主要的交集型歧义采用归右原则处理。然后对标注好的词串切分并提取目标短语、条件短语。再将每一种类型的目标短语和条件短语转化为相应的查询目标和查询条件,填充相关的实体数组、查询目标数组、查询条件数组等,生成完备的中间语言。最后再通过数据库关联知识库确定目标实体和条件实体的关联路径,这样就可以方便地生成SQL查询语句。自然语言理解部分的基础是一个良好的知识库,为了便于向其他数据库移植,本接口系统中的知识库分为通用知识库和专用知识库,通用知识库中包括分词和语法两个知识库,专用知识库中包括分词、数据库表和数据库关联叁个知识库,专业知识库随面向的应用数据库不同而改变。最后本文讨论系统的实验结果。实验结果表明示例数据库的自然汉语查询达到较好效果,验证了本文提出自然汉语数据库查询接口的可行性。同时在数据库查询接口的用户界面中可以方便地管理各个知识库,已便于系统功能的不断完善。

蔡凤真[3]2007年在《汉语通用数据库接口的研究与实现》文中研究指明数据库自然语言接口是人工智能研究的重要分支,它的目标是使计算机能够“理解”自然语言,让用户直接使用自然语言访问数据库。经过四十多年的发展,数据库自然语言接口已经取得了长足的进步,一些成形的系统表现出不俗的性能,但是系统对含有隐含知识的查询句的适应性上还有待进一步提高。本文是在深入的研究了描述逻辑知识表示方法的基础上,采用基于语义模型的技术实现了用户汉语查询句到数据库模式的映射,重点分析了基于描述逻辑的隐含知识理解方法,从而使系统的语言覆盖范围扩展到支持对隐含知识的查询处理上。另外,本文还从体系结构入手,设计了基于描述逻辑推理机的领域知识抽取方法,使系统具有获取新领域知识的能力,以实现应用领域的可移植性。本文的研究重点放在了知识表示和理解方法上,主要完成从已经分好词的汉语查询句输入到SQL语句的生成部分,包含了基于描述逻辑的语义模型的构建、隐含知识的理解和领域知识的抽取叁大模块。本文利用中国石油大学的人事数据库展开了实验,结果表明该方法是有效的,能实现含有隐含知识查询句的处理。同时,本文还通过具体的实例演示了领域知识的半自动抽取过程。

潘奇峰[4]2008年在《数据库自然语言接口研究及其在审计中的应用》文中指出计算机辅助审计改变了原有手工审计的对象和内容,提出了新的审计方法和审计模式,提高了审计效率。但是在许多的审计项目中都是审计专家与计算机专家的紧密结合才能够完成任务。而这就需要使得计算机专家详细的了解消化审计专家提出的审计需求之后,才能在审计专用数据库上写出正确的查询语句。基于专用领域的数据库汉语查询接口能很好的解决这个问题,使得审计专家能够独立的完成基于数据库的审计工作。本文首先介绍了论文的背景和研究现状,通过在已有技术的基础之上,提出了数据库汉语查询语言接口的模型。实现了由汉语查询语言到生成在审计数据库中可执行的SQL语句的各个模块的设计。因为汉语语言具有语义结构复杂多变,充满歧义等特点,而查询语言的内容都是围绕着数据库概念,所以通过设计合理的数据库汉语查询语言的受限文法在满足用户使用的前提下降低了系统实现的复杂性。在自动分词阶段采用了改进的分词算法,提出了基于数据库语义的歧义消解和生词确定策略。在语义理解阶段通过对数据库汉语的查询目标和查询条件进行充分分析之后,提出了相应的生成中间语言的查询目标分析算法和查询条件分析算法。最后再生成完整的SQL语句阶段,采用在查询条件与查询目标之间的关联路径分析的方式生成FROM子句再由中间语言完成SELECT子句和WHERE子句的生成组合成完整的查询SQL。最后本文介绍了一个案例的详细实现流程,以及系统在实际应用所取的不错的效果。

王慧媛[5]2012年在《规划识别在数据库隐含知识查询中的研究》文中研究表明数据库自然语言查询界面(NLIDBs)是指允许用户用自然语言访问数据库的一种方式,它的出现大大简化了人机交互的过程。它是多学科交叉的产物,涉及自然语言理解、数据库技术、人工智能、人机界面等多方面的研究。并且随着物联网时代的到来和语音识别技术的发展,数据库自然语言界面的研究是一个具有重大理论价值和巨大实用价值的研究领域。在数据库自然语言查询界面的研究中,关键是对用户输入的以自然语言描述的查询语句的理解,而其中查询条件、查询目标及查询实体的识别又称为重中之重。本文将规划识别分层规划的思想运用在自然语言查询语句的理解上,利用规划识别在自然语言理解领域的成熟的理论基础和技术手段,达到对自然语言查询语句的理解,提高了数据库查询接口的智能性和推理能力。本文的研究工作主要有:(1)讨论了目前数据库汉语查询系统中存在的问题,根据关系数据库中数据表示与自然语言查询句的语义模型不同,提出了数据库汉语查询时隐含知识的查询,并给出了相应的知识表示,本文重点是提高了对数据库隐含知识的处理能力。(2)构造了基于规划识别器的数据库自然语言查询系统。规划识别器由两个核心模块组成:智能分词和推理机,由于中英文语素的差别,对汉语查询语句进行理解,必须添加一个分词模块。本文中采用了一种新的分词算法---迭代式最大匹配算法,克服了机械分词算法的缺点,保证在切分的过程中最大限度地保留词与词之间的完整语义关系,实现智能分词。(3)结合规划识别分层规划的思想和SQL语句结构特性,本文新定义了一种结构---规划知识树,各子树分别代表查询动作、查询目标、查询实体及查询条件。规划知识树这样一种结构既保留了规划识别分层规划的思想,又结合了数据库隐含知识的表示方法,达到了内在的统一。对查询语句中查询动作、目标、实体以及条件的识别就转化为对应子树的构建,理解的过程实质是对规划知识树不断扩展和修剪的过程。

郑逢斌[6]2004年在《关于计算机理解自然查询语言的研究》文中研究表明自然语言理解现在已成为人工智能研究中最活跃的领域之一。在自然语言处理的研究中,最有希望的应用领域之一是自然语言接口。计算机对自然语言中的查询语言理解的正确程度是自然语言接口质量好坏的关键。本文基于建立通用模型的概念,设计了一个通用的数据库自然语言接口系统模型,深入地研究了实现该模型的原理,同时建立了一个具体的实现系统,并希望该系统很容易地移植到其他应用领域。本文研究的内容是设计和实现一个实用的数据库自然语言接口系统的全过程的理论和策略,主要有如下几个方面的研究成果: 1、构造了一个程序设计与知识库相分离的通用的数据库自然语言接口系统模型。该模型是把汉语自然查询语言的计算机理解与知识库分开各自独立进行设计。理解部分分为词法分析、句法分析与语义分析、自然语言转中间语言、中间语言转计算机语言、应答生成等几个相对独立的模块。这种模型设计使系统抛开具体应用领域而独立设计,便于系统的移植和扩充。 2、提出了把知识库从一般到特殊划分为自然语言理解通用知识库、汉语查询句理解知识库和应用领域专用知识库叁个层面,并给出了每一个层面里面应具备哪些知识库和这些知识库的结构。 3、设计并编程实现了一个通用的汉语自然语言词语切分和词性标注软件系统,该子系统混合使用统计信息和语法规则。重点研究了切分歧义的发现和消除、人名的识别等几个部分,提出了首先用基于词典的最大匹配法匹配出最长词和次长词,然后检测是否存在切分歧义,其次判断出切分歧义类型,最后根据切分歧义类型的不同分别进行切分歧义的消除等一套有效方法。本子系统可以加载用户分词词典,并且用户词典的级别高于通用词典,不作任何修改可以用于各个专业领域的句子词语切分。 4、构造了一套即适合查询语言语义表示又利于转换计算机执行语句的中间语言,并给出了自然语言转中间语言的具体转换算法。该中间语言由查询成分链表querylink、复合概念等价变换链表conceptlink、实体队列entityqueue、查询目标链表queryaimlink、查询条件树queryconditiontree等构成。第n页西南交通大学博士研究生学位论文 5、对汉语查询句的外部特征和内部语义进行了详细地研究,给出了汉语查询句语义模板的分类,并研究出在计算机上能实现的汉语查询句从形式到语义的分类算法。同时识别和理解的查询语言覆盖面从过去人们只研究祈使句和特殊疑问句扩展到是非问句、选择问句和正反问句等句型。在句法分析中研究了查询句的指代消解和省略补充规律并设计了软件实现算法。 6、通过对汉语查询句查询目标的研究,将查询目标概念分解为直接查询目标、逻辑推理目标和比较判断目标叁个阶段,研究了这叁个阶段的关系,并构造了一套它们递进转换的算法。通过对汉语查询句各种各样查询条件的研究得出查询条件表达式可以形式化表示为二叉树的结论,并构造了查询条件字符块转换为二叉树的一套算法,进而转换为SQL语句的wHERE子句。 7、建立并研究了复合概念、逻辑概念与标准概念的内在联系,构造了复合概念分解算法和合成算法、逻辑概念的推理算法。 本文研究工作正在进行软件实现。

张占英, 沈夏炯, 陈志国, 葛强[7]2005年在《数据库汉语查询语句中否定词的研究》文中研究表明在数据库自然语言查询界面的研究中,对查询语句中的查询条件的理解与识别是其关键部分,而其中的含否定词的查询条件的理解又是其难点之一,本文给出了对含否定词的查询条件的理解与识别的一种方法.

敖廷华[8]2009年在《基于RCNLP人事管理信息系统的研究》文中提出随着我国高校人事制度改革的不断深入和信息现代化管理程度的日渐提高,高校人事信息由原来的相对单一的本体形态形成了具有立体空间的信息集合,如何对人事管理信息系统中的数据进行友好、快速、准确查询,并对人事查询报表进行有效管理,已是人事信息化建设面临的一个重要问题。在我国,己经有许多公司开发了人事管理信息系统(RH—MIS),这些信息系统在人事管理工作中发挥了积极的作用,但大多仅限于查询的模块化管理,没有考虑拓展和中文自然语言在信息查询中的应用,无形中提高了人事管理信息系统的专业化程度,往往需要专业人士才能胜任人事信息的管理工作,降低了系统的使用效率,影响了信息化建设的进程。自然语言处理(NLP)拉近了人与计算机间的距离,利用NLP可以较为轻松地访问计算机数据,将这种技术应用到人事管理信息系统开发中,必将对系统的拓展性和可操作带来变革,系统界面的友好性将会大幅提升,可以解决对工作人员计算机专业知识的要求过高的问题。本文叙述了自然语言处理(NLP)起源和概念,并对NLP主要技术——查询技术进行了研究。作者以湖北工业大学人事管理信息系统为例,从人事管理信息系统的查询需求出发,运用NLP的相关技术或规范,构建了受限汉语自然语言处理(RCNLP)技术的信息系统模型,对管理信息系统的查询功能进行了拓展和改良,形成了基本符合中文习惯,操作简单,人机交互界面友好的人事管理信息系统。

孙博雅[9]2011年在《中文分词算法在GIS中的应用研究》文中进行了进一步梳理随着科技的进步,网络技术的不断发展,地理信息系统也逐渐应用到各个方面并渗入到人们的日常生活当中。针对各阶层用户提供一种基于自然语言的地理信息系统查询接口具有广阔的开发前景。接口的核心工作就是将自然语言转化成计算机可以识别的机器语言,其首要任务就是将自然语言查询语句进行切分和词性筛选,这也是本文的工作重点。首先,将数据逻辑划分为通用词典、空间对象词典和空间关系词典,对字典中的各种词性进行总结并用字符表示。在基于Trie索引树的分词词典的数据结构中加入“判断标示”,用以给后续分词算法进行判定使用。高频前缀降低了Trie索引树的空间浪费并降低了树的深度。其次,基于逆向最大匹配算法的“长词优先”原则,提出了根据“最长词可能性”原则选择匹配首字的分词方法,算法过程中同样处理长词覆盖短词的情况。该算法的时间复杂度为O(S)是线性的。最后,通过浅层词性筛选算法,解决数据多词性和多词性描述问题。通过该算法,获得查询语句中各词的唯一词性描述信息。链式栈结构降低了空间复杂度,该算法的正确性约为90%。根据上述算法实现了用于地理信息系统的自然语言查询语句切分、词性筛选系统。实验结果表明,该系统在速度上和正确性上做到了均衡,正确性有效地提高。

孟凡辉[10]2005年在《数据库基于值的查询优化的研究与实践》文中研究说明查询优化是数据库系统设计和实现所采用的一项重要技术,也是影响数据库系统性能的一个重要因素。关系数据库系统和非过程化的SQL语言能够取得巨大成功,主要是得益于查询优化技术的发展。对于一个复杂的查询,寻找一个优化的执行策略是数据库系统开发成功的关键所在,此项研究目前在数据库领域仍属于N-P问题。在查询执行的过程中,低效的SQL查询语句、概貌信息的匮乏、连接顺序的错误选择都是直接导致查询效率低下的原因。数据库基于值的查询优化是在数据字典的基础上,提取有益的概貌信息,建立数据库概貌模型,对低效的查询语句进行基于值的查询重写,为多表连接查询选择最优的连接操作顺序。 本文针对具体项目“汉语认知数据库”和“黑龙江防洪决策支持系统”在查询效率上遇到的问题,结合数据查询的特点,对SQL查询语句具体的执行过程进行了深入的探讨,在大量数据查询和数据仓库建立过程中寻找可以改进之处,给出具体的解决方案,其中包括数据库概貌模型的建立与管理;SQL查询语句基于值的重写等。同时,不局限于一个具体项目的研究,将优化方案应用到其它的同类数据库模型中,并且在此基础上,把一种新的演化计算模型“粒子群算法”引入查询优化模型中来,在查询策略的状态空间上构造了粒子群算法的一个原型,利用粒子群算法对连接操作进行优化。实验证明,该算法得到的执行策略优于传统算法得到的执行策略。最后理论研究与实践相结合,将上述优化策略应用到具体的项目“汉语认知数据库管理系统”和“黑龙江防洪决策支持系统”中,切实地提高了数据的查询效率。

参考文献:

[1]. 关于数据库汉语查询语句中查询信息的研究[D]. 张占英. 河南大学. 2004

[2]. 基于自然汉语的数据库查询研究[D]. 胡晓军. 电子科技大学. 2006

[3]. 汉语通用数据库接口的研究与实现[D]. 蔡凤真. 中国石油大学. 2007

[4]. 数据库自然语言接口研究及其在审计中的应用[D]. 潘奇峰. 哈尔滨工程大学. 2008

[5]. 规划识别在数据库隐含知识查询中的研究[D]. 王慧媛. 江苏科技大学. 2012

[6]. 关于计算机理解自然查询语言的研究[D]. 郑逢斌. 西南交通大学. 2004

[7]. 数据库汉语查询语句中否定词的研究[J]. 张占英, 沈夏炯, 陈志国, 葛强. 河南大学学报(自然科学版). 2005

[8]. 基于RCNLP人事管理信息系统的研究[D]. 敖廷华. 湖北工业大学. 2009

[9]. 中文分词算法在GIS中的应用研究[D]. 孙博雅. 中南大学. 2011

[10]. 数据库基于值的查询优化的研究与实践[D]. 孟凡辉. 大连理工大学. 2005

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

关于数据库汉语查询语句中查询信息的研究
下载Doc文档

猜你喜欢