航空信息资源挖掘与应用技术研究论文_任海洲,范淑芳

航空信息资源挖掘与应用技术研究论文_任海洲,范淑芳

西安航空制动科技有限公司 陕西西安 713100

摘要:本文简要分析了文本挖掘技术和航空信息资源的特点,提出信息选择和预处理、信息分析和挖掘是航空信息资源文本挖掘过程中的两大主要步骤,详细分析了文本挖掘技术中的关键技术包括:特征抽取、主题索引、聚类、摘要,指出提供高质量的信息服务应该从信息资源建设、信息分析工具、模型研究等方面做好基础性工作。

关键词:信息处理;文本挖掘;数据挖掘;

1 前言

数据挖掘通常指在大规模数据中挖掘隐含的模式和趋势,这些模式和趋势可以应用于特定的业务方案,对大规模数据进行强大、灵活的数据分析处理形成的信息,将在决策支持系统中得到很好的应用。数据挖掘的重点和难点在于生成挖掘模型,该过程包括从定义模型到将模型部署到工作环境的所有工作,模型定义的好坏最终决定了生成数据的质量高低。研究数据挖掘技术很大程度上在于研究如何建立高效实用的挖掘模型,数据挖掘的基础是拥有一定规模有序化的数据,数据质量的高低、数据量的多少也对挖掘结果产生很大影响。

本文所述的航空信息资源挖掘指文本挖掘或称文献挖掘。文本挖掘与单纯的数据挖掘的不同之处在于文本挖掘以文本分析、提取为主,挖掘对象主要为非结构化的文本,而数据挖掘主要以针对成熟关系型数据库的建模为主。随着信息资源的数字化、网络化,以及计算机技术的发展,大量半结构化的资源为文本挖掘提供了丰富的对象,使得人们使用计算机软件系统就可以方便地通过信息分析与关联获得更多有用信息,这同时也促进了文本挖掘技术的不断发展。

2 文本挖掘技术介绍

大多数信息的传播主要依靠文字,最近的研究发现企业信息的一半以上都来自文件中,这些文件包括:Email、备忘录、客户信件、报告等。随着信息社会电子文件、电子媒体、互联网资源的不断丰富,从大量的数据集合中发现知识,预测技术发展趋势变得越来越困难。文本挖掘能够使人们免于陷入信息的汪洋之中,通过文本挖掘还能够在一定程度上揭示信息与信息之间的关联,产生出用户以前未曾意识到的有用信息。

文本挖掘是利用数据挖掘技术在大量的文本集合中发现隐含知识的过程。文本挖掘也被称为文本知识发现,是人工智能、机器学习、自然语言处理、数据挖掘及相关自动文本处理,如信息抽取、信息检索、文本分类等理论和技术相结合的产物。文本挖掘通过使用计算机发现新信息,自动从不同种类的资源中提取可用信息并进行自动分析,从而形成新的知识。

文本挖掘的关键技术包括:特征抽取、主题索引、聚类、摘要。这四个过程的好坏决定了整个数据挖掘过程的好坏,也决定着整个文本挖掘结果的好坏,这四个技术之所以重要,是因为它们解决了文本挖掘的两个关键的问题,即:如何使文本信息方便地被使用?如何减少了终端用户需要阅读的文本信息量?

(1)特征抽取

从自然语言文本中定位目标数据单元,把非结构化的自由文本转化成符合应用要求的结构化数据,即抽取自由文本的数据填充预先定义结构化模板。特征抽取是一种浅层文本理解技术,它涉及计算语言学和自然语言处理,具有广泛的应用,特征信息的抽取可以采用机器学习来实现其自适应性和一定程度的领域无关性,特征抽取系统对自然语言的理解程度,与领域知识结合紧密程度决定了其信息抽取的能力。

(2)主题索引

利用文本中单词的词义,识别文本所属于的更宽泛的主题。例如:关于起落架和关于机翼的文献都可以归为飞机这一类主题文献。主题索引的过程实际上就是一个分类的过程,主题索引通常依靠多维分类方法来实现,从文本挖掘的角度来看,分类法就是一张多级表示的知识图谱。

(3)聚类

指将文本根据其特征归类。也就是说,将给定的文本集合分为若干子集,称之为类,使得各个类的内部文本相似,而类与类之间的文本不相似,文本的特征往往根据应用之不同而各异,文本之间的相似性也往往根据应用而定。

期刊文章分类查询,尽在期刊图书馆

(4)摘要

目的是形成描述文章内容的文字以减少用户的阅读量。大多数文章的主旨可以描述在原文内容的五分之一以内。摘要的方法并不唯一,可以采用词频分析、语义分析、系统建模、神经网络等方式实现,摘要的形成不仅仅便于对文本进行计算机处理,更重要的是可以帮助读者判定文本的内容,预测文本的主题。

3 航空信息资源挖掘

航空信息涉及到多个学科,大量的航空信息资源散落在通用科技资料中。航空信息涉及到的最主要学科包括:航空学、航天学、力学、机械学、电子学、工程学、材料学、流体动力学、空气动力学、生命科学等。航空科技信息资源的来源非常广泛,一些通用技术的期刊、会议等都是航空信息资源的重要来源。譬如:ASME出版的期刊、AIAA杂志出版的期刊、IEEE召开的会议等。随着网络技术的发展,部分航空信息可以通过访问国外的网站获得,这些网站主要是国外信息资源提供商、研究机构、大学、实验室等。

从大量的航空信息资源中获取有用的信息,这一过程可以概括为两个阶段:信息选择与预处理、信息分析与挖掘。

3.1 信息选择与预处理

首先需要收集可用的信息资源,并对这些信息资源进行检索,以获取研究主题相关的信息。对于非结构化的文本信息,还需要进行半结构化加工,也就是特征抽取。譬如:从文章中抽取:题名、作者、作者单位、出版单位、出版时间、关键词等。这个过程可以通过预先定义一个表格,设计好表格的字段,然后从目标资源中提取相应的信息以填充表格。通过这个过程形成待挖掘预分析的文献集合。

在信息选择与预处理过程中,特征抽取起着关键的作用。特征抽取可以使用主题词表。特征抽取形成的待挖掘文献集是一系列的多维相依表,分析多维相依表可以判定文献的相关性,通过表中的字段信息,可以方便地进行计算机统计、数据分析,从而获取更多的未知信息。

目前航空工业已经形成相对完善的航空主题词表和型号词表。主题词表中详细定义了词间的关系,而且国内航空相关的科技文献大多已经做过了预处理,形成相对规范的科技文献数据库。

3.2 信息分析与挖掘

信息分析与挖掘就是在已经整理好的文献集合中发现文献之间存在的关系。分析与挖掘是不同的,通常使用的分析方法为多维分析,这种方法是交互式的,可以通过升级,增加集合的等级以寻找更多的通用信息,通过降级以看到更详细的信息,信息挖掘则更多的用来指发现的可用于自动处理的规则。

通过挖掘形成的模型可以方便地用于信息的二次挖掘中。特别是当前计算机技术和网络技术的发展,数字图书馆的建立,使得研究获得的挖掘模型应用变得越来越方便,对于建立好的大型数据库来说,应用挖掘模型可以直接提供挖掘结果,大大提高航空信息服务的响应速度。

4 结束语

随着信息技术的不断进步,信息资源的电子化、网络化趋势日益明显,而读者的需求和信息的服务模式也在不断的转变。航空信息服务和决策支持机构要大范围开展文本数据挖掘,提供高质量的信息服务,首先应该加强信息资源建设形成相对完整的航空科技信息资源体系,其次应该加强挖掘技术研究和挖掘工具应用,引进国外先进的挖掘软件,研究挖掘软件模型,形成航空科技工业适用的挖掘模型。未来的发展,信息服务和决策支持机构越来越多将扮演“信息导航员”或“咨询专家”的角色。

参考文献:

[1]杨来青.大数据背景下档案信息资源挖掘策略与方法研究[J].中国档案,2018.

[2]李娜.油气资源信息数据挖掘的研究与实践[D].长江大学,2018.

[3]熊金凤,单菁.地方档案馆信息挖掘的优化研究[J].山西档案,2018.

论文作者:任海洲,范淑芳

论文发表刊物:《基层建设》2019年第7期

论文发表时间:2019/6/25

标签:;  ;  ;  ;  ;  ;  ;  ;  

航空信息资源挖掘与应用技术研究论文_任海洲,范淑芳
下载Doc文档

猜你喜欢