面向项目申请书的命名实体抽取模型构建研究,本文主要内容关键词为:申请书论文,实体论文,模型论文,项目论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 企业项目申请书是企业为了申请项目向项目主管部门所提交的企业申请意向和资质的说明。它是企业申报项目必填的材料,项目申请书填写的正确性和规范性往往对企业能否成功申报项目有很大的影响。而项目申请书填写的正确性往往取决于企业对项目申报通知的解读和理解程度。项目申报通知是企业进行项目申报的依据,它包含了非常重要的项目知识,如项目的名称、级别、对申报主体的要求等。但是由于项目申报通知往往是半结构化甚至非结构化的文本,从申报通知中发现并抽取这些项目知识往往需要人工手动进行,无法通过机器进行自动的解读。因此,对项目申报通知中的关键项目知识进行界定并抽取,有利于更好地利用机器对申报通知进行自动化解读,从而提高项目解读效率并更有针对性的帮助企业进行项目的申报,从而达到服务部门对企业进行知识服务的目的。本文将试图对项目申报通知(以下简称项目书)中的关键项目知识进行界定,并构建针对关键项目知识的命名实体抽取模型。 2 命名实体识别和抽取进展研究 命名实体的识别和抽取作为自然语言处理的基础性工作,受到了国内外学术界的广泛重视。MUC和ACE等自然语言处理领域的测评会议吸引了研究者们开发信息抽取(IE)系统,并根据这些系统在举办方提供的测评文档库上的表现进行打分。在其中,命名实体的抽取都被作为一项独立的任务参与测评。国内“863计划”命名实体评测小组在2004年度将命名实体识别作为一项独立的任务提出[1]。目前,对命名实体的抽取方法主要可以分为基于规则的方法和机器学习(基于统计)的方法。 基于规则的方法,主要是将词法、语法和领域背景下的语义等方面的规则进行总结,并在识别和抽取过程中加入这些规则,以期提高命名实体抽取的准确率。基于规则的方法优点是针对某个领域准确率高,代表性的有参与MUC-6测评的Proteus系统[2]、参与MUC-7测评的Lasie-II[3]、NetOwl[4]系统等。国内也有学者针对中文命名实体的特点,提出了一些基于规则的方法,这些方法在人名识别、地名识别等方面都取得了一定的进展。例如,孙茂松等[5]利用字等分布信息和人名称谓信息等制定规则集对人名进行识别,取得了较高的精确率和召回率;吕雅娟[6]建立规则采用分解处理、规则综合比较等步骤,对人名、地名和国外译名进行识别。但是,由于基于规则的方法的抽取准确率在很大程度上取决于所指定规则的质量,所以,规则的编写往往需要具有领域知识和一定语言学背景的学者。基于规则的方法缺点是可移植性比较差,因为规则的制定往往要依赖具体的领域知识,所以当需要向不同的领域移植时,需要对规则做比较大的改动。 机器学习的方法,又叫做基于统计的方法,就是根据统计学的原理利用机器学习的方法对语料中的命名实体进行识别并抽取的方法,其中比较经典的方法有隐马尔科夫模型(Hidden Markov Model,HMM)、支持向量机(Support Vector Machine,SVM),最大熵(Maximum Entropy,ME)、条件随机场(Conditional Random Field,CRF)等。Bikel等[7]提出基于HMM的英文命名实体识别方法,对MUC-6的测评数据进行识别,取得了较高的准确率和召回率。张华平等[8]将HMM模型应用到中文人名的识别当中,在《人民日报》语料库中进行应用,也有较高的准确率和召回率。文献[9-10]中将SVM方法用于命名实体识别,也都取得了不错的效果。McCallum等[11]在Conll-2003会议上将CRF模型应用到命名实体识别的任务中,测评结果准确率和召回率比较高。 3 项目书中的命名实体分布情况 3.1 项目书中的关键项目知识集的确定 项目书中的关键项目知识是指项目申请书中对项目申请具有指导性或者约束性的项目知识,如项目的级别、申报要求等,能否满足这些条件往往决定了企业是否可以申报某个项目,能否成功申报项目。关键项目知识集是指项目申请书中所有关键项目知识的集合。一个完整的关键项目知识集必须包含企业申报项目所需要的全部信息,同时又要排除冗余信息,利用关键项目知识集能够更加准确的确定项目申报的所需条件,从而可以提高项目解读效率。 关键项目知识集的确定需要具有丰富项目申请经验的专家来确定。本文在研究项目申请书和咨询相关专家的基础上,确定了项目书中的关键项目知识集。它一共包含了17项关键项目知识,如表1所示。其中非粗体部分是项目书的基本信息,需要在项目书采集过程进行确定,而粗体部分为项目的必要知识,需要从项目书文件中进行抽取。由于从自然语言处理的角度,这些项目关键知识实际就是文本中的命名实体,所以,接下来本文将以命名实体的方法,把这些关键项目知识等价于命名实体,并构建模型重点进行抽取。 3.2 项目书中的命名实体分布情况 项目书中命名实体的分布情况是指关键命名实体集中的命名实体在项目书中的位置分布情况。厘清命名实体的分布情况,可以帮助我们更有针对性地进行实体抽取。对命名实体的分布情况进行分析,是构建抽取模型的基础性工作。下页图1是本文将要进行命名实体抽取的某篇文献对象的部分,本文将以该文献为例,对待抽取项目书的文档结构和项目书中的命名实体的分布情况进行说明,以便后续的命名实体的抽取工作的进行。为了方便呈现,笔者在不影响命名实体抽取的前提下对它的篇幅进行了压缩。 从下页图1中可以看出命名实体在项目书中的分布与项目书的文档结构有着非常密切的联系。该篇公告的文档结构分为四大部分:招标项目、投标人条件、招标说明、联系人及咨询电话。针对该篇文档的命名实体的抽取方法为:在第一部分招标项目中,可以对项目名称、项目要求和组织方式等命名实体进行抽取;在第二部分投标人条件中,可以对项目的申报申报主体、申报主体要求、优先条件、限报条件等命名实体进行抽取;在第三部分招标说明中,可以对项目的申报方法、申报截止时间等命名实体进行抽取;在第四部分联系人及咨询电话中没有包含关键项目知识。所以,对项目的文档结构进行总结,可以方便更有针对性地对命名实体进行定位,对提高命名实体抽取效率有帮助。笔者通过对江苏省科技厅的近5年的项目书进行分析,发现项目书的文档结构与项目书的类型有很大的相关性,因此,首先要对项目书的文档类型进行总结,如表2所示。在此基础上,笔者针对每种文档类型总结了项目书中的命名实体分布情况,并对提取入口进行了初步归纳,以期对命名实体抽取模型的建立提供参考,如表3所示。其中,笔者对命名实体抽取入口相近的文档,采用了相同的命名实体抽取入口。 4 项目申请书中命名实体的抽取 从本文第二部分可以看出,机器学习的方法由于其较好的可移植性目前在命名实体的识别和抽取中被普遍采用。而在连续文本的识别和抽取中比较常用的学习方法有最大熵模型(ME)、隐马尔科夫模型(HMM)和条件随机场模型(CRF)。其中,条件随机场模型不用像HMM模型那样需要非常严格的独立性假设,而且,条件随机场是从整体的角度进行决策,能够在前后序列元素之间做出平衡,而不像最大熵马尔科夫模型那样出现标记偏置,因此,条件随机场被很多学者认为是目前处理序列化数据标注的最好模型。故本文中将基于条件随机场(CRFs)构建抽取模型对申请书中的命名实体的识别。 4.1 条件随机场模型介绍 则如图2所示的条件随机场满足: 4.2 命名实体抽取中特征选择 CRFs模型中,选择合适的特征对于取得良好的抽取效果非常关键。王春雨等[13]将命名实体的识别中使用的特征归纳为词汇特征,词法、句法特征和语义特征三类。其中,词汇特征为词语的外形的构成特点,如词中是否含有数字、字母等;词法、句法特征为词在句子结构中的成分和上下文信息,如词的词性等。对于比较复杂的命名实体,一般都会有特征词对某一类实体进行标识,例如公司、厅等词;还会有指示实体的左右边界词。本文在分析项目申请书中命名实体的外部特征和内部特征的基础上,最终选定的特征包括词本身、词性、边界词、命名实体特征词作为特征,如表4所示。 同时本文在进行语料标注时采用了如下对命名实体的标注规则:B-PER、I-PER、E-PER、B-LOC、I-LOC、E-LOC、B-ORG、I-ORG、E-ORG、O等。前面几个标注由横线相连的前后两部分组成,前一部分表示词语在命名实体中的位置:B表示开始,I表示内部,E表示结束;后一部分表示命名实体的类别,PER表示人名,LOC表示地名,ORG表示机构名。据此,B-PER表示当前词是人名的首个词,I-PER表示当前词是人名的中间词,EPER表示当前词是人名的结束词,其他类别表示规则相似。O代表其他。部分标注语料格式如表5所示。 4.3 命名实体抽取模型构建 (1)模型构建 命名实体抽取的流程主要是由训练和测试两部分组成。训练模块主要是在条件随机场的基础上,使用所确定的自身特征和添加特征模板,在训练语料上得到知识抽取模型的参数,主要是特征的权重。测试模块是基于训练部分的特征权重值在测试语料上抽取命名实体的过程。基于测试部分所抽取的命名实体,结合相应的评价指标,从而确定精确的命名实体抽取模型。具体的模型构建流程见图3。 (2)评价指标 命名实体知识抽取的评价指标用精确率P(Precis-ion)、召回率R(Recall)和调和平均值(F-Score)。具体的命名实体知识抽取的精确率和召回率计算公式如下: 在用精确率和召回率来评价命名实体抽取的性能的过程中,提高召回率时,精确率会下降,反之亦然。在这种情况,采用P和R的调和平均值F作为综合的评价指标。具体的计算公式如下: 4.4 命名实体的抽取 基于条件随机场,通过自身模板和添加特征模板,选取经过标注的语料进行训练和测试,从而确定命名实体知识抽取的模型。在具体的测试过程中,为了使所得结果更加合理和科学,采取了交叉验证,把训练和测试的语料按9:1的比例共分成了10份,分别进行训练和测试,以期从中得到最优的知识抽取模型。具体见表6。 在基于词汇、词位和词性组合的特征基础上,针对命名实体知识抽取的任务,从基于条件随机场的抽取模型的调和平均值上可以看出,本模型的精确率和召回率能都达到80%以上,基本能够满足对项目申请书中命名实体的抽取要求。基于条件随机场构建的抽取模型最好的F值为86.22%,这说明本模型在对项目书中的命名实体的抽取中的性能是比较突出的。 5 结语 项目申请书中信息自动化抽取,对于企业项目申报具有重要意义,可以帮助服务提供单位更加有效地给企业提供知识服务。本文根据项目申请书中命名实体的分布特点,构建了基于条件随机场的(CRFs)的命名实体抽取模型,并通过实验对该模型的抽取性能进行了检查。实验结果表明,模型能够较好地对项目书中的命名实体进行抽取,基本能够满足自动抽取的要求。面向工程应用的命名实体抽取模型构建研究_自然语言处理论文
面向工程应用的命名实体抽取模型构建研究_自然语言处理论文
下载Doc文档