摘要:贝叶斯分类便是统计分类学习中的一种,而朴素贝叶斯分类是贝叶斯分类学习中的一种。朴素贝叶斯分类的应用有很多,其在文本分来方面有这重要的地位。本文着重分析的应用便是朴素贝叶斯分类在垃圾邮件方面的步骤过程。在垃圾邮件分类的实例中,先对待分类邮件内容进行拆解,拆成一个一个词,再设定两个类,分别为正常邮件和垃圾邮件,通过贝叶斯公式得出每一个词即每个属性在两个类条件下的概率,由于属性的独立性,求出待分类邮件在两个类条件下概率,比较概率的大小即可确定该邮件的类别。
关键词:贝叶斯分类器;Python;垃圾邮件分类
一、前言
朴素贝叶斯分类是基于贝叶斯定理与条件概率共同作用的分类方法[2],是实用性很高的一种分类方式[2]。朴素贝叶斯分类法在某些领域,其性能与神经网络和决策树相当,例如在文本分类方面,当属性相关性较小时,朴素贝叶斯分类比决策树分类更好。当属性相关较大时,决策树会呈现更好的效果,因为,决策树即是将无序的数据变得更加有序,来构建一个决策树。
既然朴素贝叶斯在文本分析方面具有非常好的效果,接下来我们着重探讨的就是朴素贝叶斯在文本分类方面的两个应用的例子,分别是垃圾邮件分类的应用以及,《红楼梦》著作归属问题。
二、朴素贝叶斯分类原理
贝叶斯概率分类法的思想可以概括为:先验概率+已有数据集(or过去经验)=后验概率。即就是在实际问题中得到后面事情的概率就是要计算先验概率,再综合实际问题中的数据一起。在解释贝叶斯分类的前提即是要先理解一下条件概率、全概率公式和贝叶斯公式[3]。
2.1 条件概率
设A、B为两个事件,条件概率就是在A发生的基础上,B发生的概率即表示为P(B|A)。[3]进入A发生的条件后,B发生的概率。[3]因此P(A|B)的分母为A发生的概率P(A),P(A|B)的分子为AB均发生的概率P(AB)或P(A∩B)。条件概率公式如下:
将条件概率变形转换一下即为条件概率乘法公式,可以看出P(AB)可以表示为两种条件概率的变换。结合上面的韦恩图即可理解。乘法公式如下:
2.2 全概率公式
假设事件A1、A2、A3相互独立,且三个事件是一个完整的空间,即概率P(A1)+P(A2)+P(A3)=1(全概率公式的前提),那么任意事件B发生的概率为:
按照条件概率的乘法公式展开得到:
从三个事件上升到n个事件也是一样推理即可。
2.3 贝叶斯公式
贝叶斯公式换而言之便是全概率公式的一种转换,如上Ai仍然是一个完整且互斥的空间,贝叶斯公式的分子为P(AiB)的条件概率乘法公式展开式,分母为P(B)的全概率公式展开式。P(Ai|B)相当于在B发生的条件下,Ai发生的概率,但是由于P(B)和P(AiB)的概率是未知的,因此用对应公式做相应的变换,即得到贝叶斯公式。
三、垃圾邮件分类应用
垃圾邮件困扰着许许多多的互联网用户,但现在的网络邮箱基本上都具备分类垃圾邮件的功能,这种功能帮我们阻挡了很多没有必要的广告销售等垃圾邮件。邮箱系统是怎样辨别垃圾邮件的呢?古往今来人们提出了很多方法,也投入实施应用了很多方法,贝叶斯分类法就是其中行之有效的一种。
把邮箱文件的内容进行拆解,拆成逐个的单词组(英文拆成单词,中文拆成词组),同时设定两个类,分别第垃圾邮件和正常邮件。如果,正文中包含的“销售”“降价”“订购”等词汇,则判定为一份垃圾邮件的可能性非常高。
按照贝叶斯分类的概率,比较待分类的邮件属于垃圾邮件的P1和属于正常邮件的P2,若P1>P2,则属于垃圾邮件类,反之则分类到正常邮件类。
四、《红楼梦》著作章节的归属问题
《红楼梦》著作的章节的归类一直是红学研究者研究探讨的一个话题。通常认为,红楼梦前80章节为曹雪芹老先生所著,后40章节则为高鹗先生所写。其中研究的核心就是前后遣词造句有什么不同,然后进行分类。分类方式和邮件分来近似。
首先对文章内容进行拆解,拆成逐个单词,设定两种遣词造句方式,曹雪芹式和高鹗式。再通过贝叶斯条件概率分别计算待分类章节属于曹雪芹式和高鹗式的概率,进行比较。
但是对于几千上万字的文章采用贝叶斯分类是一件非常困难和复杂的事,结果也容易出错,在这里只是提出一种只是理论上可行,实际上实施有困难的方法。现阶段研究者基本上避开这种分类方法。多采用(名词、形容词、虚词等)不同词性呈现的频次,以及不同词性之间的相关系数来判定。在此不做赘述。
五、总结
缺点:贝叶斯分类对于属性完全独立的数据处理效果更好,在垃圾邮件文本分来中,我们是假设每一个单词独立,但实际情况中,上下文的单词都存在练习,因此存在不容忽视的误差。
参考文献
[1]《统计学习方法》李航 著
[2]《数据挖掘原理与算法》(第3版)毛国君 段丽娟 著
[3]https://blog.csdn.net/sinat_21455985/article/details/54847154 网站
[4]http://www.cnblogs.com/pinard/p/6069267.html 网站
[5]Python代码来自于网址https://blog.csdn.net/taoyanqi8932/article/details/53083983.
论文作者:刘思敏
论文发表刊物:《知识-力量》2019年11月47期
论文发表时间:2019/10/29
标签:概率论文; 公式论文; 垃圾邮件论文; 朴素论文; 条件论文; 邮件论文; 发生论文; 《知识-力量》2019年11月47期论文;