金融领域中汉语时间信息抽取的研究

金融领域中汉语时间信息抽取的研究

王昀[1]2004年在《金融领域中汉语时间信息抽取的研究》文中研究说明时间信息是一个事件的重要组成部分。有研究表明,时间信息在文本信息中所占的比重平均约为27%,仅次于专有名词(占31%),因此,时间相关信息的处理是自然语言理解过程中一个非常重要的部分,它对于信息抽取,信息检索,问答系统,文本摘要和数据挖掘等领域都具有重大的意义。金融领域是信息抽取比较活跃的领域之一,因此,研究建立一个面向金融领域的汉语时间信息抽取系统具有十分重要的意义。本文着重研究在金融领域中面向信息抽取的汉语时间系统理论框架。搭建一个实用的汉语时间系统处理平台,包括汉语时间表达识别和时间关系获取两部分。在汉语时间表达识别中,主要内容分为两部分:明显时间表达的识别和隐含时间表达的抽取。对明显时间表达的识别,采用“两步走”的策略,即首先识别单独简单的时间表达,然后利用上下文有关的模板匹配规则把单独的时间表达结合成复杂的时间表达。在开放测试中,复杂时间表达识别的F-Measure为95.0%,基本达到了后续任务的需要。对隐含时间表达的识别,即汉语情态的分析,采用贝叶斯分类法进行动词分类和情态分类。在开放测试中,取得了86.66%的F-Measure 值。基本达到了国内外在汉语动词分类的同等水平,并且还克服了传统方法依赖词典资源和语义资源的缺点,具有更强的实用性。论文的另一部分工作涉及了时间关系研究中的一个重要内容:确定时间—事件之间的映射关系。区别于传统的基于规则的方法,本文采用了一种机器学习的方法(基于转换的错误驱动学习(来确定事件相应的时间表达,这种学习算法可以自动的获取和改进规则。在封闭测试和开放测试中,使用训练得到的转换规则集,系统的时间—事件映射错误率分别为17.25%和27.27%,对比传统方法的相关结果,有显着降低。

冯迎辉[2]2016年在《藏族文化领城信息抽取技术研究》文中研究说明信息抽取是指从自然语言文本中抽取特定的事件、事实等信息,并以结构化的数据存入一个数据库,供用户查询和进一步使用的过程。信息抽取的主要任务包括实体识别、关系抽取、事件抽取。人们对与领域无关的通用信息抽取理论与技术进行研究的同时,也对一些特定领域的信息抽取理论与技术进行研究。本文研究藏族文化领域的信息抽取技术,主要包括藏族文化领域实体抽取、关系抽取及事件抽取叁部分内容。藏族文化领域实体抽取主要包括两部分。首先基于无监督学习算法TextRank提出了一种基于节点权重和边权重的混合TextRank方法,在780KB的藏族文化领域文本上抽取前100个藏族文化领域实体的准确率为81%。由于人名对于关系和事件抽取非常重要,而现有的中文人名识别系统无法满足藏族人名汉译名识别的要求,本文提出了基于藏族文化领域知识的藏族人名汉译名识别方法,在青海湖网1.9M语料上进行测试,该方法能够将现有中文人名识别系统(ICTCLAS)的藏族人名汉译名识别的F1值从40.08%提高到87.92%。根据藏族文化领域关系的特点,本文采用基于模式匹配的方法,对人物职位变动关系、出生地关系、毕业关系叁种关系进行抽取,提出了基于半监督学习Bootstrapping算法以及同义词扩展的方法获取关系动词及模式,在青海湖网1.9M语料上抽取3类关系的Fl值分别为81.37%、80.56%和81.32%。另外,本文还基于维基百科,采用Gephi工具绘制了藏族宗教领域的组织隶属关系、圆寂关系、教派关系等。根据藏族文化领域事件的特点,本文采用模式匹配的方法对访问事件和藏族节日事件进行抽取,实验对647KB的访问事件文本和320KB的藏族节日事件文本进行测试,访问事件和藏族节日事件抽取的F1值分别为85.11%和84.03%。

刘立博[3]2010年在《基于异构信息的金融事件发现》文中研究表明随着计算机技术的不断发展,互联网已经成为人们日常工作、生活中不可缺少的信息来源。而由于网络信息本身的特点,这些信息给用户的主要是定性的参考。特别在金融领域,一直以来计算机处理的主要对象的都是结构化的数据。这些定量化的数据非常适于计算机进行分析。但是由于金融领域的特性,非结构化信息的准确分析、尤其是对信息中所蕴含的重要金融事件的及时发现也将对结构化数据的预测产生至关重要的影响。为此,本文将在金融信息的本体构建基础上,研究面向异构信息的金融事件发现方法。本文主要研究内容包括以下几个方面:1)异构信息预处理,包括金融本体构建、股票数据和金融网页信息预处理的方法和过程;2)异构信息关联分析,对异构信息进行时间处理,根据时间对齐的方法,将异构信息联系起来,利用股票数据指导金融网页信息的处理;3)金融事件发现,主要根据关联的异构信息,利用文本挖掘技术中的文本分类与文本聚类方法,分析并获取对股票走势产生影响的金融事件。在本文中,结构化数据采用了2005年至2008年的股票收盘价格数据,非结构化数据采用了2005年至2008年的新浪金融网页信息,通过对金融新闻的分析,应用Protégé工具和OWL语言构建金融领域本体。最后本文对金融新闻网页的分类、聚类以及事件发现的评测方法做了详细说明,并通过大量实验对比,验证了本文所采用方法具有较好的可行性,能够用于协助分析金融事件对金融产品价格走势的影响等应用中。

谢学敏[4]2006年在《基于动态流通语料库(DCC)的流行语释义信息自动提取研究》文中提出流行语是“在某一时期,某一地域或者某一人群中迅速传播、盛行的词汇”,而流行语释义就是对流行语的含义进行注释或解释。本文主要研究在大规模真实文本中提取流行语的释义信息的方法,并尝试对提取出来的相关释义信息按一定的重要度进行排序。 我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择了2004年全年和2005年全年的15种主流报纸的网络版文本,共841,547,069字(即约8亿4千万字),其中2004年语料总量为415,756,703字,2005年语料总量为425,790,366字。在此基础上,我们经人工标注,建立了流行语释义信息提取的训练语料库,并分别对2004年及2005年的流行语释义信息进行自动提取的封闭测试和开放测试。 本文的研究特色主要体现在以下几个方面: 一、首次对流行语释义信息进行了考察 1、界定了“流行语释义信息”的概念。流行语释义信息指的是一些与流行语释义相关的但没有经过提炼与整合的信息。 2、厘清了“流行语释义信息”的类别。从形式的角度考虑,主要把流行语释义信息分为两类: 一类为带标记的流行语释义信息。 这里所谓的标记,专指“是”、“即”、“就是”、“称为”、“叫做”、“包括/包含”、“所谓……是指……”、“由……构成/组成”等常用于一般词语释义中的特定的词或固定结构,带有这些标记的流行语释义信息就称之为带标记的流行语释义信息。 另一类为不带标记的流行语释义信息。 这类释义信息不带有上述的标志词,但是可以发现另外一些专门的词语,例如:时间、地点、事件等命名实体,这些词语在提取时可以作为特征项,但其提取效果是无法跟上述标记相比的。这类释义信息主要可以分为人物简历类释义信息和事件类释义信息。 二、实现了对流行语释义信息的自动提取 我们选择2004年15种主流报纸全年的语料(共415,756,703字)作为我们的训练语料,含流行语的句子数为62,335条,经过人工标记、校对,共得到流行语释义信息1750条。

金砚硕[5]2008年在《中文问答系统中答案提取的研究》文中研究说明随着互联网的普及,互联网上的信息越来越多,为人们提供了丰富的信息资源。而另一方面,虽然现在互联网上有很多搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确的获取信息的需要。自动问答系统技术正是为了满足人们的这种愿望而发展起来的。问答系统允许用户输入一个问句,而返回给用户的是一个简短而准确的答案。这样用户就可以通过问答系统方便、快速、准确地获得自己想要的信息。自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。目前,国内外有很多的科研机构参与了英文自动问答技术的研究,但基本没有成型的中文自动问答系统。本文正是对中文自动问答技术研究的一个探索。本文搭建的中文自动问答系统包括叁个主要组成部分:问题理解、信息检索和答案提取。详细介绍问答系统的问题理解、信息检索和答案提取,以及分别对每个部分的详细介绍。并应用隐马尔可夫模型构造了问答系统中的分词程序。研究了问答系统中第叁部分答案信息提取的几种方法如基于隐马尔可夫模型,基于最大熵,基于最大熵隐马尔可夫模型等及其各种方法的比较,通过实验说明了,这几种方法在答案提取中的适用性的比较,及对于精确度和召回率的比较。并在最后提出了聚类的HMM抽取方法的聚类算法,应用这种方法与原问答系统中的答案提取的隐马尔可夫模型实验表明做比较。通过实验证明了,这种方法在人名等一些方面比用隐马尔可夫模型的准确率和召回率更高。

赵丽芳[6]2009年在《基于最大熵方法的评论信息抽取研究》文中研究表明互联网技术的不断更新带动了电子商务业务的高速发展。信息技术已经渗透到人们生活的各个角落。随着网络购物理念逐渐普及,消费者不仅可以足不出户地在网上挑选、购买商品,而且可以随时发表评论与他人分享购物经验,因此用户评论信息成倍地增长。然而大量的用户评论信息让产品制造商和潜在购物者都很难跟踪用户对产品的意见和建议。研究如何快速、准确地从海量的信息中获取有用的资源并进行处理的工作日益受到人们的重视,用户评论信息抽取的研究已成为目前研究的热点。本文在研究了国内外相关的理论及应用现状的基础上,针对目前互联网的信息与日俱增,而用户评论信息利用率很低的现状,提出了一种基于最大熵分类器进行评论信息抽取的方法,并结合自然语言处理技术,利用同义词林以及反义词林定位产品评论属性值的语义极性,从而判断用户评论信息的褒贬性。随后,通过实验验证了评论信息抽取方法的可行性和有效性。在以往的评论信息抽取研究中的研究对象大多从主题,文本甚至是词汇、短语的角度来对用户评论信息作抽取判断。本文尝试着从产品属性角度着手,来研究被评论的产品的特征属性及属性值之间的关系,并结合中文语义进行情感倾向性分析。本文的研究意义在于运用自然语言处理技术以及信息抽取技术提高了用户评论信息的利用率以及应用范围,利用该方法结合电子商务服务功能给予购买者以直接的信息导购,进而提高了网络搜索引擎的性能,对于网络个性化服务系统的改进与更新具有一定的商业实用价值。

吴平博[7]2004年在《基于事件框架的主题相关文档智能检索的初步研究》文中进行了进一步梳理互联网技术的发展给人们提供了广阔的获取信息的空间,怎样快速、准确、全面地从这个海量信息空间中获取用户感兴趣的主题信息成为现代信息检索技术研究的热点。而要提高检索系统的性能,除了改进和提高检索方法的性能,还必须加强对主题相关信息的收集和加工,以获得有效的检索资源。本文针对网络新闻,对面向用户兴趣文档的主题相关信息的智能检索进行了初步研究,其宗旨是进一步提高Web 信息检索的服务质量,主要内容包括冗余网页的判断与过滤、事件相关文档的收集和事件重要信息的抽取与集成。取得了以下一些研究成果:第一、在有效提取网页文本的基础上,构造文本的特征串信息,用于冗余页面的判断。由此,提出了基于特征串的大规模中文网页去重算法。该方法引入了模糊匹配的思想,充分利用了网页文本的内容、结构信息。通过对算法的合理优化,使算法能够进行大规模的中文网页去重。在大规模开放测试中重复网页召回率达97.3%,去重正确率达99.5%。第二、以用户阅读的少量文档为查询依据进行事件相关文档的收集,提出了一种基于事件框架知识的事件相关文档的检索方法。该方法利用事件的框架知识对事件相关文档进行预测,利用事件主体信息来降低其他事件的干扰,并对事件与文档的相关评价函数进行了改进。与没有引入事件框架知识和事件主体信息相比较,新方法明显提高了检索系统的性能,F-measure提高了31.5%。第叁、实现了一个事件关键信息的抽取与集成系统,本系统具有如下特色:(1)在进行事件抽取时,首先利用句型模板构造抽取规则,然后直接从经过基本短语识别、时间短语和空间短语识别和规范化处理的文本中抽取事件信息,从而跳过了深层句法分析,降低了实现系统的难度;(2)利用事件的规范化的时空信息关联不同文档中的同一事件,实现了事件合并;(3)利用事件文档的篇章结构较为松散的特征,当综合的事件文档发生事件转移时对其进行事件切分,从而解决了同一文档内不同事件信息的归并问题。实验结果表明:本文采用的方法和策略是有效的,抽取结果基本达到了国内外事件抽取的先进水平。

王岩[8]2010年在《面向金融领域BBS的话题发现和热度评价》文中研究说明互联网的出现与发展,使信息资源从贫乏时代进入到极度丰富的时代。伴随着互联网的迅速发展,BBS早已成为人们发表言论,交流信息的重要场所。当今世界经济的飞速发展,人们开始热衷于股票、债券、基金等金融领域的投资,如何能及时准确地获得当前人们最关心,最热门的金融话题是每一个网民都十分关注的。通过设计并实现面向金融领域BBS的热点发现和热度评价系统可以有效解决上述问题。本文在充分考虑了金融BBS的文本组织结构和文本的预处理方法的基础上,主要研究了面向金融BBS热点话题发现方法和热度评价方法。本文的主要内容有:(1)对BBS数据进行抽取以及进行相关预处理:通过研究传统的信息抽取方法,结合金融BBS帖子页面的结构特性,提出了基于最大重复DOM树的BBS数据抽取方法。实验结果表明,该算法能够有效地提取金融BBS帖子的有效信息。(2)提出一种针对金融BBS文本特性的特征选择方法。考虑到金融BBS既有BBS文本的特征又有金融词汇主题相关性的特征,提出了BTF*IDF算法以满足对金融BBS的特征选择。实验结果表明,相对于传统的特征提取方法,本文的方法能够更好的完成特征选择的任务。(3)提出一种基于时间演化理论的增量聚类算法。与传统的聚类算法相比,该算法在文本聚类的过程中结合了话题演化的生命周期。实验结果表明,该算法能够有效地优化话题发现的结果集,提高话题发现的质量。(4)采用基于用户关注度和话题时效性的热度评价算法。通过在热度评分算法中融入了用户关注度、话题时效性的计算,有效地与文本聚类算法进行结合。实验结果表明,该算法能够综合评估话题热度,形成热点话题排序。基于以上研究成果,本文设计了金融BBS话题发现和热度评价系统,能够有效地为广大网民提供最新、最热的金融BBS热点话题,使网民可以在浩瀚的网络信息中快速掌握民众所关心的金融类BBS热点话题。

廖梦[9]2013年在《面向问答系统的金融本体构建技术研究》文中进行了进一步梳理随着互联网技术的快速发展和海量信息的涌现,人们对快速、准确获取信息的需求越来越迫切,但传统信息检索技术仍存在很多不足之处。自动问答系统能以更加准确、简单、智能的形式为用户提供需要的信息,这使得自动问答方面的研究和应用越来越受到重视。传统问答系统以问答对为知识库、使用关键字索引方式,这种问答系统答案准确率低,而且无法满足专业领域的应用。从根本上来说,这是因为此类问答系统的知识库没有涉及到语义。针对这一问题,本文拟提供一种面向特定领域问答系统的知识库构建方法,该方法以语义网中的本体技术为基础,结合特定领域的实际情况,构建领域本体知识库,并基于此知识库完成一个领域问答系统。本文的研究内容主要包括叁个部分:面向金融领域的本体构建、抽取维基百科知识并扩充本体知识库,以及基于领域本体的问答系统构建。首先针对金融领域的实际情况,建立初始的本体结构,并爬取沪深两市各上市公司的公司介绍信息,填充本体得到初始的知识库;由于初始的本体知识库只包含公司的共性信息,并且知识库的构建是一个不断扩充和迭加的过程,课题利用并抽取维基百科无结构文本中的有用信息,完善本体结构并扩充本体知识覆盖范围;最后,以本体知识库作为知识来源,构建一个金融领域的自动问答系统。本文介绍了一种设计初始本体模板、再利用领域知识不断补充本体结构的半自动本体知识库构建方法;并提出了一种以维基百科为知识来源的无结构文本信息抽取方法,该方法利用维基百科网页中Infobox信息栏知识,采用机器学习算法抽取维基百科网页正文中的相关信息。课题根据实际应用的需求,详细设计并实现了一个面向问答系统的金融领域本体知识库构建方案。实验表明,本文的维基百科信息抽取模型能满足本体扩充的要求,整体的本体构建方法能在领域问答系统有效使用。

谭红叶[10]2008年在《中文事件抽取关键技术研究》文中研究说明信息抽取是从文本中自动获取信息的一种主要手段。针对自由文本的信息抽取一般包括实体及其关系的抽取。但真实世界不断发生变化,实体的关系和状态也随之发生变化。而事件反映了实体参与者之间的关系和状态的变化。因此要想捕捉到实体之间状态的变化,必须针对事件进行相关信息的抽取。目前事件的检测与识别(Event detection and recognition,VDR,又称事件抽取)已被ACE(Automatic content extraction)评测会议定义为一项基本任务。ACE2005将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件论元角色等。根据这个定义,可将事件抽取的任务分成两大核心子任务:(1)事件的检测和类型识别;(2)事件论元角色的抽取。除此以外,由于绝大部分的论元角色都是实体,因此实体的识别也是事件抽取的一项基本任务。本文从事件的检测和类型识别,事件论元角色的识别,事件触发词的识别以及实体的识别几个方面对信息抽取进行了研究,最后还针对事件抽取探讨了可信度估计的方法。具体来讲,本文主要从以下几方面作了研究:(1)研究了扩展名实体的识别。尝试利用半监督学习方法获取模式来缓解缺少大规模的扩展名实体的标注语料的局限性。具体采用了Bootstrapping这种自训练方法来自动获取模式;在迭代过程中利用准确率较高的词典资源评价模式的可信度,进而通过模式的可信度来评价实例的可信度,从而避免了迭代过程中的错误放大问题。在此基础上,研究了模式的泛化方法,提出了软模式和特征向量两种模式泛化的形式,并通过联合概率、二元同现概率和相似度的计算实现了模糊匹配,有效地提升了模式的覆盖能力和系统的性能。(2)对事件的检测和分类,以及事件触发词的识别进行了相关研究。针对ACE语料中存在着规模小,类别不平衡等问题,尝试利用好的特征选择策略来克服一般分类器在小类别和难识别类别上性能不佳的弊端。提出了一种基于局部特征选择和正负特征相结合的特征选择策略,充分保证了分类器在每个类别(尤其是小类别和难识别类别)上的识别效果。除此以外,研究了在事件类别已知的情况下事件触发词的识别,提出充分利用正反例特征,和《同义词词林》、Hownet等语义词典扩展特征的基础上进行触发词的识别策略。(3)研究了事件论元角色的识别。为了充分利用词法、句法等不同层级的语言信息,提出利用多层级模式的方法来进行事件论元角色的识别。每一级模式都包含不同层级的语言信息,既充分利用了准确率高的浅层词法信息,也考虑到了更能反应语言意义的依存句法信息;同时在更深层次的模式中引入软匹配部分,使模式更灵活,实现了模式的模糊匹配。接着,又探讨了基于CRF模型的事件角色识别方法,同时在特征选择中,将模式及其相似度作为特征,不仅扩大了分类器中使用的特征范围,而且使用的特征更加细致和全面,获得了较好的事件角色识别效果。(4)探讨了事件抽取可信度估计的方法。针对事件抽取存在精确率不完美的问题,探讨了两种可信度估计方法,一种是利用源系统输出概率进行直接的可信度估计;另一种是独立的基于ME的可信度估计方法。并利用ROC方法对可信度估计进行了评价。结果表明,独立的可信度估计策略比直接利用源系统的输出进行可信度估计显示出了更好的估计能力,为系统的实际使用奠定了基础。

参考文献:

[1]. 金融领域中汉语时间信息抽取的研究[D]. 王昀. 清华大学. 2004

[2]. 藏族文化领城信息抽取技术研究[D]. 冯迎辉. 中央民族大学. 2016

[3]. 基于异构信息的金融事件发现[D]. 刘立博. 哈尔滨工业大学. 2010

[4]. 基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D]. 谢学敏. 北京语言大学. 2006

[5]. 中文问答系统中答案提取的研究[D]. 金砚硕. 辽宁科技大学. 2008

[6]. 基于最大熵方法的评论信息抽取研究[D]. 赵丽芳. 上海交通大学. 2009

[7]. 基于事件框架的主题相关文档智能检索的初步研究[D]. 吴平博. 清华大学. 2004

[8]. 面向金融领域BBS的话题发现和热度评价[D]. 王岩. 哈尔滨工业大学. 2010

[9]. 面向问答系统的金融本体构建技术研究[D]. 廖梦. 哈尔滨工业大学. 2013

[10]. 中文事件抽取关键技术研究[D]. 谭红叶. 哈尔滨工业大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  

金融领域中汉语时间信息抽取的研究
下载Doc文档

猜你喜欢