完全贝叶斯分类器在经济数据分类中的应用
王 辉,李玉亮,王 莉
(中央民族大学信息工程学院,北京 100081)
[摘 要] 针对贝叶斯分类器分类强关联属性导致分类准确率下降的问题,提一种完全贝叶斯分类器合理利用属性间的依赖关系优化贝叶斯分类器,对参数进行动态调整组合,同时合理剔除无关属性.采用国内外知名数据库提供的数据,通过与其他分类器的对比实验,证明了完全贝叶斯分类器在宏观与微观经济数据分类中都获得了较好的分类效果.
[关键词] 数据挖掘;完全贝叶斯分类器;半朴素贝叶斯分类器;分类
0 引言
贝叶斯分类器是目前较为流行的分类模型[1],有着坚实的概率论基础与稳定的分类性能,在数据集不完整的情况下,优势依然明显.随着数据时代的发展,数据的重要性突显,如何从大量数据中快速挖掘出有益于人类的信息成为人们研究的热点.完全贝叶斯分类器是在朴素贝叶斯分类器 (Naive Bayes Classifiers,NBC)基础上合理利用属性间相互独立性方面所做的改进[2],在分类准确率上有了较大地提高.
宏观经济数据是发现和预测经济活动运行规律的重要参考,决策者可以通过对数据的研究得出经济规律对经济进行调控;同时,研究宏观经济数据,可以为国家决策者提供政策倾向性参考,对经济秩序的正常运行起到保障作用.微观经济数据直接反应某个企业或者某个经济机构的经济活动,通过对数据的学习可以有效地对企业风险及趋势的走向做出正确的预判,为企业掌舵者提供决策依据,例如企业经营风险预测可以直接根据以往数据给出企业最可能面临的风险.
接下来便是确定关键绩效指标。基于医院的发展要求,结合科室实际情况,依据医院年度工作计划,对关键绩效要素进一步细化,便形成了医院层面的关键绩效指标体系。以医疗指标制定为例,标准化的指标有出院人次、平均住院日、门诊量、药占比、手术例次、非计划重返手术发生率。2017年,医院倡导开展日间手术,加入了日间手术例数这一指标。医院倡导新医疗新技术,2018年加入了关键技术创新项目数,随着微创技术的普遍开展,微创手术次数已不再作为考核指标。
本文将完全贝叶斯分类器应用于宏观与微观经济数据的分类中[3],通过完全贝叶斯方法进行属性分组结合阈值的合理利用,获得了不错的分类效果,为贝叶斯分类器在经济学数据领域的应用提供依据.
1 贝叶斯分类器
贝叶斯分类器(Bayesian classifier,BC)是最早被广泛使用的一类概率分类器,以贝叶斯定理理论为基础,通过分析属性间关系预测事件的可能发生概率,获得相应分类[4-5].创立之初,主要用于复杂分类算法的参照,并没有得到广泛发展.80年代后期,随着研究人员的深入使用,BC的优势得以显现,计算方法相对简单,分类效果与决策树、C4.5等主流算法不相上下.
值得一提的是,如今的西王村拥有4家上市公司,除去西王集团的3家,另外一家是西王村三星集团旗下的中国玉米油。两家企业,同村发展,彼此争斗20多年,共同塑造了中国上市第一村的传奇。邹平是山东县域经济的代表,西王、三星、魏桥、齐星,这些行业巨头企业根植当地,彼此千丝万缕,朝野政经通达,创造了诸多民间奇迹,也延伸出了诸多系统性风险。某种意义上说,邹平是解读山东的最佳样本。
贝叶斯网络(Bayesian Networks,BN)作为条件概率模型,假设待分类数据变量之间相互条件独立,满足条件
![](/uploads/article/2020/11/17/16afb5050ba17bcc121a45c8.jpg)
(1)
用x 表示特征变量集,c 表示类别,p (c |x 1,x 2,…,x n )表示条件概率模型.c 取多个不同值并条件依赖于特征变量x ,根据贝叶斯定理,BC的模型表示为
However, Dean Acheson, the U.S. Deputy Secretary of State, poured cold water on this in his reply to Merrell in mid April 1947, mainly due to the changes in the political situation of China which now indicated that the Nanking regime would eventually lose its rule over the whole country.
![](/uploads/article/2020/11/17/1d9c172be18d34112d60f410.jpg)
(2)
上述对贝叶斯分类器的描述,完全忽略属性间的依赖问题,对于属性间依赖关系较强的情况下,分类效果并不理想,本文提出一种贝叶斯分类器的改进方法,并应用于经济数据分类实践中.
2 算法思想与评价体系
本文采用国际通用的十折交叉验证[6](10-fold cross-validation)方法(在实验过程中,将每一个数据集D 均分为10份(D 1,D 2,…,D 10),对每一份实验数据单独训练分类模型,对训练好的模型应用于其他兄弟集进行分类准确性验证),保证了在小数据集情况下也可以得到很好的分类效果.十折交叉法表达式为
2.1 T -NB 分类器
完全贝叶斯方法以参数的先验概率为基础,对每一个参数的推断依赖于其他参数的可变性,这种推断依托于给定数据集下所有未知参数的联合分布.根据贝叶斯公式,完全贝叶斯斯方法可以表示为
![](/uploads/article/2020/11/17/e5725fd48976700233f22d27.jpg)
(3)
式中:α 与c 之间变量不相关;p (c )是类c 的先验概率;p (c ,x 1,…,x n )是c 的联合概率;p (x 1,…,x n |c )是属性条件联合概率.
运输结构不断优化,珠江水运综合优势进一步突显。珠航局坚决落实国家关于推进运输结构调整的决策部署,充分发挥珠江水运成本低、运量大、低碳环保的优势,在打好污染防治攻坚战的同时,也能更好地服务沿江地区的经济发展。
定义 使用或
进行分类的算法为T-NB分类器.
该分类器设计过程中对属性进行分组,为了保证分类的效果设定阀值,保证属性组的大小在一个合理的区间.该过程中根据实验效果合理获得阀值是分类器的关键,直接影响分类器的分类效果,如果阀值过大,容易造成过拟合.
政府在进行个税递延保险发展的过程中,应该及时的对比例与额度进行限制,这样个税递延保险的发展就能够在有效的指标约束下进行,而在西方发达国家的个税递延保险发展过程中,美国就要求客户所缴纳的个税递延保险不能够超过工资的25%(2018年调整为30%),这就使个税递延保险的保险额度控制在合理的范围内,这样既能够保证越来越多的居民通过商业保险来享受到国家的税收优惠政策,使自己的晚年生活更加幸福,同时也不会进一步拉开社会的贫富差距。
所有未知参数设置先验分布,每一个参数的推断完全顾及其他参数的不确定性.计算中不考虑属性之间的条件独立性,不会丢失信息,这样分类器鲁棒性强,但当属性较多时需要大量用于学习的例子,而且联合概率的计算复杂性随属性的增加而指数增长.
2.2 数据来源
本文分类宏观经济数据包含中国工业增加值、世界工业增加值、中国消费价格、世界消费价格、中国生产价格、人民币汇率、出口数量指数、进口数量指数、外汇总储备、当月储备、中国贷款利率、美国货款利率、名义有效汇率、利用外资、美国工业增加值和1年期NDF贴水指标以及相应的影响因素的16个数据集,分类前依指标是否为转折点进行离散化,该部分数据来自于IFS(Internationl Financial Statistics)数据库和国家统计局数据库.
(4) 利用(1)得到的结果,设定不同的权值和参数,重复(2)和(3),直至得到最佳分类结果.
准确率是最为常用的分类器判断标准,特点是计算简单,能体现出分类器的实际分类效果.本文以分类准确率作为性能评价指标,衡量分类器的性能.计算公式为
2.3 评价体系
微观经济数据选取上市公司2008—2016年间的部分财务和经营风险数据,其中连续属性采用等频离散化的方法进行离散化,该部分数据来自于Wind数据库.
分类准确率
本文采用完全贝叶斯分类方法实现的完全贝叶斯(T-NB)分类器[3],合理考量属性间相互依赖关系,优化贝叶斯分类算法.
![](/uploads/article/2020/11/17/0e9ccb104220749e6cc747be.jpg)
(4)
利用完全贝叶斯方法构造T-NB分类器时,需要考虑分类器的边缘概率、条件概率与各属性的联合概率.同时,在设计过程中要对分类属性进行分组处理,但是每组要有一个阈值用来约束组内元素数量.阈值过大将会造成过拟合,阈值过小将会造成欠拟合,因而阈值的选定将直接影响分类器的分类效果.
表1 构造的列联
注:表中n =n 00+n 01+n 10+n 11,也即待分类数据总和.
构造统计量,可知该统计量具有近似1个自由度的χ 2分布,如果零假设正确,应有
式中的0.05为置信水平,
如果一次实验就得到
这种小概率事件发生,就可以认为2个分类器的分类准确性有明显差别.
3 结果与分析
为了获得更好的测试效果,D 1,D 2,…,D 10利用随机算法随机产生,保证分类器选用训练集的普适性.当k =|D |时,使用leave-one-out法,即每次测试仅用一个测试数据,其他数据用于训练.本文采用Everitt提出的McNemar测试比较方法,该方法要求把数据集D 分成训练集D h 和测试集D t 2个部分,在训练集上利用不同的学习算法A和B,得到对应的分类器F A和F B,之后通过测试集对训练出的分类器进行测试,并构造出列联(见表1).
实验过程分为如下几步:
(1) 获取各变量组概率分布,并对其排序;
维生素B1又称硫胺素,植物性饲料中,谷物、米糠、麦麸、青绿饲料及酵母中含量丰富。本病的发生主要是由于长期饲喂缺乏维生素B1的饲料,体内硫胺素合成障碍或某些因素影响其吸收和利用。日粮中含有抗维生素B1物质或用过量生鱼饲喂猫、犬等动物,因为其中含有大量硫胺酶,可以使硫胺素受到破坏。长期大量应用抗生素等,可抑制体内细菌合成维生素B1。饲喂低纤维高糖饲料或蛋白质饲料严重缺乏,可使大肠微生物区系紊乱,硫胺素合成障碍,容易发病。幼龄动物尤其是犊牛于16周龄前,瘤胃还不具备合成能力,需从母乳或饲料中摄取。
(2) 根据判别标准(如概率最大、属性出现次数最少等)选取最优解,得到最佳属性分组;
(3) 基于(2)中得到的最佳属性组进行NB分类实验,得到分类结果;
每次与他或她分开,她都觉得身体极为疲倦,只想找到一个地方获得休憩。回到家一旦躺下就是极为困长的睡眠。这能量交换如此激越,耗尽力气,被联结过的身体极为空洞,如同走入深邃幽暗的森林,告别人世,同时也无比纯净。经过与他人强烈的做爱,仿佛是一种深入内部的更新和净化,倾倒出所有黑暗淤积,包括创痛、匮乏和历史。它带来生命本源的证明和存在感,让她知道自己活着并且存在。
其中,西王集团两代当家人老王总和小王总,均公开表态说,集团每年仅广告费支出就高达5个亿之多,而山东男篮成为西王男篮以后,会比任何形式的广告效果都好。言外之意:既然媒体上5个亿的广告投入也达不到山东男篮的宣传效应,那么,省下的广告费完全可以养活好这支球队。
(5) 利用实验选取的数据集与主流分类器做对比实验.
经过反复分类实验与参数调整,得到最佳分类效果.与主流分类器朴素贝叶斯分类器(NB)、朴素贝叶斯的链扩展分类器(CENB)、朴素贝叶斯的树扩展分类器(TENB)、朴素贝叶斯的图扩展分类器(GENB)[7]、C4.5分类器(C4.5)[8]、分类与回归树分类器(CART)和BP神经网络分类器(BPNN)分类的结果进行对比(见表2).
表2 实验结果与其他分类器分类结果对比
续表2
在对27个宏观与微观经济数据的分类预测中,T-NB分类器有16个数据集的分类效果好于其他对比分类器.在分类准确率方面显示出本文改进算法的优势.
为了便于直观展示分类效果,根据表2制作散点图(见图1),图1中散点来源于表2中所列27个数据集的各分类器分类结果数据,在制作过程中去除平均值行,按分类器逐个对比差异性.
(a)NB与T-NB
(b)CENB与T-NB
(c)TENB与T-NB
(d)GENB与T-NB
(e)C4.5与T-NB
(f)CART与T-NB
(g)BPNN与T-NB
图1 T-NB与其他分类器在宏观与微观经济数据上的应用散点图
图1中对角线上方的点表示分类准确率高于对比分类器.从表2中各分类器对各数据集分类的性能表现可以看出,T-NB在宏观与微观经济数据分类中,分类效果明显优于对比分类器,在27个数据集中,以T-NB与对比分类器分类准确率做差异统计,以区段([0.5%,∞)、(-0.5%,0.5%)、(-∞,-0.5%])作为对比分类器计数,依据获得百分比统计结果如表3所示.
表3 T-NB与其他分类器分类结果对比 %
在所选取的27个宏观与微观经济数据集下各分类器分类准确率的统计中,T-NB明显优于对比分类器,从而可以得出结论:改进的分类器T-NB在宏观与微观经济分类中表现出了优异的成绩,再一次证明了改进方法的合理性和有效性.
如今,以张良一、曲子营、曲汉峰为代表的第三代传承人,担负起了“盐垛斗虎”的传承任务,每年冬闲的时候都组织村内的斗虎表演队进行训练,春节期间到各村进行串演,活跃在乡村的舞台上,并积极参加市区组织的文艺汇演。
4 小结
本文在贝叶斯分类器基础上,首先建立了一种T-NB分类器,然后利用T-NB方法合理分组,结合参数调整,充分利用了属性间的条件独立性,最后,将改进算法应用于国内外宏观与微观数据集进行分类对比实验,分别从理论和实验验证了T-NB的合理有效性.在以后的工作中,将采用更有效的理论验证对T-NB进行学习、优化和改进.
[参 考 文 献]
[1] 杜超,王志海,江晶晶,等.基于显露模式的数据流贝叶斯分类算法[J].软件学报,2017,28(11):2891-2904.
[2] 冷翠平,王双成,杜瑞杰.基于三对角矩阵的完全贝叶斯分类器研究[J].计算机应用研究,2015(3):740-743.
[3] CIUIU D.Bayes signification tests in linear regression and economic applications[J].Mathematical Modelling in Civil Engineering,2013,9(1):13-26.
[4] RAMONI M,SEBASTIANI P.Robust bayes classifiers [J].Artificial Intelligence,2001,125(1/2):209-226.
[5] WANG S C,GAO R,WANG L M.Bayesian network classifiers based on Gaussian kernel density[J].Expert Systems with Applications,2016,51: 207-217.
[6] KIM J H.Estimating classification error rate: repeated cross-validation,repeated hold-out and bootstrap [J].Computational Statistics & Data Analysis,2009,53(11)3735-3745.
[7] 王双成,杜瑞杰,刘颖.连续属性完全贝叶斯分类器的学习与优化[J].2012,35(10),2129-2138.
[8] LEE S J,XU Z,LI T.A novel bagging C4.5 algorithm based on wrapper feature selection for supporting wise clinical decision making[J].Journal of Biomedical Informatics,2017,78:144-155.
Application of complete bias classifier in economic data classification
WANG Hui,LI Yu-liang,WANG Li
(School of Information Engineering,Minzu University of China,Beijing 100081,China)
Abstract :Bayesian classifier has the advantages of high classification stability and simple algorithm implementation,so it is widely used at present.However,Bayesian classifier can’t solve the problem that the classification accuracy is reduced due to the strong correlation between multiple attributes.In this paper,a complete Bayesian classifier is explored to optimize the Bayesian classifier by making use of the dependency among attributes reasonably.In the process of implementation,parameters are dynamically adjusted and combined,and irrelevant attributes are reasonably removed.In the experiment,we use the data provided by the well-known databases at home and abroad,and through the contrast experiment with other classifiers,it is proved that the complete Bayesian classifier has better classification results in the macro and micro economic data classification.
Keywords :data mining;complete bias classifier;semi-naive bayesian classifier;classification
[中图分类号] TP 312
[学科代码] 520· 20
[文献标志码] A
[文章编号] 1000- 1832( 2019) 04- 0065- 05
[ DOI] 10.16163/ j.cnki.22- 1123/ n.2019.04.012
[收稿日期] 2018- 06- 12
[基金项目] 国家自然科学基金资助项目(61672553);教育部社科基金资助项目(18YJAZH087).
[作者简介] 王辉(1961—),男,教授,主要从事机器学习、数据挖掘研究;通信作者:王莉(1963—),女,副教授,主要从事藏文信息数据库构建、藏英汉语言智能翻译、民族语言文字信息化等研究.
(责任编辑:石绍庆)
标签:数据挖掘论文; 完全贝叶斯分类器论文; 半朴素贝叶斯分类器论文; 分类论文; 中央民族大学信息工程学院论文;