完全决策表中的Bayes公式_大数据论文

完备决策表中的Bayes公式,本文主要内容关键词为:完备论文,公式论文,Bayes论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:TP311.13 文献标识码:A

粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。与其他处理不确定性问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息,它在数据的决策与分析、知识发现等众多方面都取得了成功应用。从概率论的观点出发建立了概率粗糙集模型,它是对Pawlak粗糙集模型在应用上的一种推广[1]。本文基于此得到一个完备的决策表实际上就是一个二维的概率空间,它满足全概率公式和Bayes公式。由此导出的Bayes公式与概率论中的Bayes公式在决策分析上是有区别的。

一、粗糙集的基本理论[1,2]

附图

附图

附图

性质2、性质3就是相当概率论中的全概率公式,性质4、性质5就是Bayes公式。其中性质4是基于粗糙集的数据分析的决策规则的确定性的大小,性质5是古典Bayes数据分析中由结果导出某个原因的概率大小。因此一个完备的决策表实际上就相当于一个以条件属性和决策属性构成的分类为变量的二维概率空间。其显著特点在于对应的“概率”是从数据本身中获得的,也就是说它是一种客观估计。这也正是粗糙集在处理不确定性独特的地方。这样基于粗糙集的Bayes公式在实际应用中会因此而减少因主观的先验概率而造成的不足,同时在实际决策分析中与“古典”的Bayes公式有所不同。

三、举例说明

附图

表1 数据表

附图

表2 决策表

标识

C

D

支持度

强度

1

  +

+   95

 0.00095

2

  -

+

1998

0.01998

3

  +

-   5

  0.00005

4

  -

-

97902

0.97902

可得到如下决策规则:

1.if(C:+)then(D:+)

(确定性因子为:0.95)

2.if(C:-)then(D:+)

(确定性因子为:0.02)

3.if(C:+)then(T:-)

(确定性因子为:0.05)

4.if(C:-)then(D:-)

(确定性因子为:0.98)

即犯病的人中95%的人检查结果为阳性;健康的人中2%检查结果为阳性;犯病的人中5%的人检查为阴性;健康的人中98%的人检查结果为阴性。由此结果可以看出,这些决策规则能很好地反应疾病和检查结果之间的关系。

采用Bayes的策略在假设结果的前提下寻求原因可得表3。

表3 Bayes决策数据表

规则

强度

 确定性得大小

逆规则得确定性

1

 0.000950.95

0.04500

2

 0.019980.02

0.95500

3

 0.000050.05

0.00005

4

 0.979020.98

0.99995

得到如下规则为:

1.if(D:+)then(C:+)

(确定性为0.045)

2.if(D:+)then(C:-)

(确定性为0.955)

3.if(D:-)then(C:+)

(确定性为0.00005)

4.if(D:-)then(C:-)

(确定性为0.99995)

即检查结果为阳性的人中4.5%是犯病的;检查结果为阳性的人中95.5%没有犯此病;检查结果为阴性的人中0.005%犯病;检查结果为阴性的人中99.995%没有犯病。那意味着检查结果为阳性的人几乎可以肯定没有犯此病,检查结果为阴性的人中也几乎没有犯有此病。因此由“古典”Bayes公式从检验的结果很难判定是否犯有病。难以将条件和结果的蕴涵关系给体现出来。

四、结论

在确定性的知识库中,基于粗糙集建立起来的Bayes公式与概率论中的Bayes理论的数据分析完全不同,一方面它是决策规则的强度,而且这强度只是从数据本身产生,是一种客观估计;另一方面它体现了蕴涵和概率之间逻辑关系。此外,也应看到任何完备的决策表都满足全概率理论和Bayes理论。

标签:;  

完全决策表中的Bayes公式_大数据论文
下载Doc文档

猜你喜欢