机器学习在模式识别中的算法研究论文_陈幸如 李喜梅 贺军 李奇

机器学习在模式识别中的算法研究论文_陈幸如 李喜梅 贺军 李奇

(怀化职业技术学院,湖南省 怀化市 418000)

摘要:机器学习是计算机开展智能操作的基础,人工智能的发展依靠机器学习技术,而机器学习、模式识别与当前人工智能的发展密切相关。本文通过概述机器学习机制,围绕神经网络、遗传算法、支持向量机、K-近邻法等算法研究当前机器学习在模拟识别中的应用,为今后模拟识别与人工智能开发与研究提供借鉴。

关键词:机器学习;模式识别;人工神经网络

前言:

机器学习技术覆盖了人工智能的各个部分,如自动推理、专家系统、模式识别、智能机器人等。模式识别是将计算机的不同事物划分成不同的类别。人工智能的模式识别可以利用机器学习算法完善分类能效。因此,机器学习与模式识别密不可分,本文就机器学习在模式识别领域的学习算法中的应用展开研究。

1、机器学习机制与系统设计

在机器学习模型中,环境可以向系统的学习部件中提供信息,学习部件根据这些信息调整和修改知识库,提升系统内部执行文件的性能。执行文件再将获得的信息向学习部件反馈,此过程就是机器学习系统结合外部与内部的环境信息自动获取知识的过程。机器学习系统设计的构建过程应包含两部分:其一,模型的选择和构建。其二,学习算法的选择与设计。不同种类的模型具有不同的目标函数,涉及到不同的学习机制,算法的复杂性与能力决定着学习系统的效率与学习能力。此外,训练样本集的特征与大小的问题也与机器学习系统的性能相关。

2、机器学习在模式识别中的应用

2.1 遗传算法

在机器学习中,特征维数是一大难题,每一种模式中的特征反映出的事物本质权重均不一致。部分对于分类结果并无积极作用,甚至属于冗余,因此选择特征尤为关键。遗传算法实际上是寻优算法,可以有效的解决特征选择问题。遗传算法可以筛选出准确反映出原模式相关信息、影响分类的结果、相互关联性较小的特征。遗传算法实际是利用达尔文的生物进化思想,在运算领域中巧妙生成一种寻优算法。该算法是1975年由美国Michigan大学的Holland教授提出的,遗传算法的主要方法如下:首先,将种群中的个体作为对象,进行一系列的变异、交叉、选择等操作。其次,利用遗传操作促进群体不断的进化,最终产生最优的个体,最后,结合个体对于环境的适应程度选择最优良的个体,为其创造机会繁衍后代。遗传算法程序如下:选择合适的编码策略,确定遗传策略和适应度函数。遗传策略包含种群的选择、大小、交叉概率、变异方法、变异概率等遗传参数;利用编码策略,将特征集变为位串结构;构建初始化群体;计算整个群体的个体适应度;结合遗传策略,将交叉、选择等作用在群体中,产生下一代群体;判别群体性能是否到达某一标准,假若不满足将回到遗传策略阶段。

2.2 k-近邻法

k-nearest neighbor(k-近邻法)被广泛运用在无指导、基于实例的学习方法中,可以实现线性不可分的样本识别,在之前并不了解待分样本的分布函数。当前被广泛应用的k-近邻法主要是将待分类样本为重点形成超球体,同时扩展超球的半径一直到球内包含着K个已知模式的样本,判别k个邻近样本属于哪一种。其主要分类算法如下:设有c个类别,分别是w1,w2,w3,...,wc,i=1,2,3,...,c.测试样本x和最近的样本的距离是gi(x)=min||x-xik||.k=1,2,3,...,ni.xik的下标i表示wi类别,上标k表示wi类别中的ni个样本中的第k个样本。当超球半径r大于等于mingi(x)时,求解L=argmaxki。ki(0<i<c+1)是k个邻近中属于Wi的样本数。

期刊文章分类查询,尽在期刊图书馆不过上述算法的不足之处在于半径的选择十分复杂。假若太大,超球体的覆盖面积太大使得其他样本被覆盖,增加样本的误识率;假若r太小,也许无法覆盖该类别的样本点,极易受到噪声的影响。因此可以在选定k值之后需要科学定位,确定邻近点的搜索区域确保分类结果的精准性。

2.3 支持向量机

机器学习系统中训练样本集的大小与系统内泛化能力相关。假若样本集过小,会导致训练结果过于盲目。1992-1995年Vapnik提出的SVN支持向量机概念克服了这一问题。相较于特征空间的降维策略,支持向量机可以利用引用函数将特征空间中的非线性问题映射在高维度的特征空间中,在该空间中通过构造线性函数进行判定[1]。此方法是以统计学为基础的机器学习方法。利用学习算法,SVN可以自主寻找具有良好分类能力的支持向量,实现类别之间的间隔最大化,具有较高的识别率与适应能力。SVN是在线性可分的基础上进行的最优分类,其本质是找寻最优超平面。该平面在将样本准确分开的同时保证分类间隔的最大化。当前SVN的算法主要有两种构造方式:其一是将多值分类当做二值分类,将多分类的问题变为二值分类问题[2]。其二是利用调整目标函数从根源上解决的二值分类问题,不过此方法仅适应于小范围的问题。例如,为了提升训练速度,部分训练方法结合分解算法与块算法的思想,限制训练样本集的整体规模,假若超过限制,将会在集中删除边界支持向量。训练结束的标准既需要观察测试结果,也应观察SVN的间隔值,也就是 的值是否为最小,以确保分类面可以实现最优效果。

2.4 人工神经网络

ANN(人工神经网络)实际是人脑与相关活动的理论数学模型,主要是将大量的处理单元利用某种方式进行连接,属于非线性大规模自适应系统。当前已经有50多种神经网络模型,它们之间的区别在于拓扑结构的差异性以及训练规则、学习规则的不同。例如,BP神经网络是当前应用最为广泛的模型,该技术基于BP算法实现,BP神经网络学习属于有导师学习,学习算法利用Delta的规则,满足多层网络学习的想象,学习过程主要包含正向与反向两种。在正向传播中,输入给定网络,输入信息会在输入层经过隐含层的处理,传到输出层。每一种神经元只能影响下一层的状态,属于逐层更新的过程,此为正向传播。假如实际输出的与预期相差较大,就会变为反向误差传播,将误差按照连接通路按照层级逐渐进行反向传送并修正权值。其中,神经元一般是单输出、多输入的非线性单元,在结构模型中,xi是输入信号,wi是神经元相连接的权值,权值为负表示抑制,为正表示激活。表示求和单元,用于加权和。

结论:

机器学习的核心技术是利用学习算法在它所对应的假设空间内进行探索,此过程也是学习的过程。在模式识别的实际应用中,由支持向量机、神经网络、K-近邻法构建的分类机实际就是在特定假设空间的相同样本集和假设条件下将样本集映射到决策面上,使各种样本分布在不相交的区域。

参考文献

[1]周萍.机器学习下的网络应用识别技术[J].信息与电脑(理论版),2018,(19):181-182+185.

[2]郑广强.机器学习算法中变量选择方法及其在模式识别中的应用[D].天津大学,2016.

作者简介:陈幸如(1994.06-),女,安徽人,单位:怀化职业技术学院,职位:教学干事,职称:助教,学历:硕士,研究方向:机器学习;

李喜梅(1973.01-),女,湖南人,单位:怀化职业技术学院,职位:教师,职称:讲师,学历:本科,研究方向:计算机应用技术;

贺军(1971.01-),男,湖南人,单位:怀化职业技术学院,职位:系主任,职称:教授,学历:本科,研究方向:计算机应用技术;

李奇(1976.05-),男,湖南人,单位:怀化职业技术学院,职位:教研室主任,职称:副教授,学历:本科,研究方向:计算机应用技术。

论文作者:陈幸如 李喜梅 贺军 李奇

论文发表刊物:《知识-力量》2019年11月53期

论文发表时间:2019/12/6

标签:;  ;  ;  ;  ;  ;  ;  ;  

机器学习在模式识别中的算法研究论文_陈幸如 李喜梅 贺军 李奇
下载Doc文档

猜你喜欢