基于案例学习的多层次聚类指标客观 权重极大熵挖掘模型
曹颖赛1,刘思峰1,方志耕1,曾友春2,王 欢1
(1.南京航空航天大学经济与管理学院,江苏 南京 210016;2.陆军军事交通学院汽车士官学校运输指挥系,安徽 蚌埠 233011)
摘 要 :本文针对待聚类对象的多层次聚类指标权重配置问题进行了研究。首先运用向量空间模型将聚类对象表征为包含多个层次聚类属性指标的特征空间向量并基于余弦距离测算底层属性指标的相似程度,然后根据聚类指标的层次结构以及相应各层指标的权重系数综合测算对象之间的相似程度,最后根据历史聚类案例中相同类别对象之间相似度较大,不同类别对象之间相似度较小等特点,构建了基于案例学习的多层次聚类指标客观权重极大熵挖掘模型。通过案例分析以及与其他方法的比较研究,证明了本模型的可行性与有效性,为多层次聚类指标客观赋权问题提供了一种新的研究思路。
关键词 :案例学习;特征空间向量;极大熵;权重挖掘
1 引言
在实际多属性聚类决策问题中,特征指标的聚类权重是影响聚类结果准确性的重要因素之一,聚类指标的合理配置问题一直是国内外学者的研究热点,并且已取得了丰富的研究成果。
概括起来,传统的指标权重确定方法大致可以分为两大类:主观赋权法和客观赋权法。其中,主观赋权法,是指基于决策者的知识经验或偏好,按照重要性程度对各指标进行比较、赋值和计算而得出权重的方法。典型主观赋权方法包括:专家调查法(Delphi法)[1]、层次分析法(AHP法)[2]、偏好比率法[3]、环比评分法[4]、二项系数法[5]、比较矩阵法[6]和重要性排序法[7]等。这些方法仅仅体现了决策者的工作经验以及自身对指标的偏好程度,所给出的权重系数比较粗略。对此国内外学者们不断在原有思路与方法的基础上进行探索和创新,并基于指标客观数据的差异程度提出了一系列客观权重确定方法,包括:主成分分析法[8]、熵技术法[9]、离差最大化法[10]、均方差法[11]和多目标规划法[12]等,这些方法旨在突出对象在评价指标之间的客观差异性。此外,还有大量研究致力于综合指标权重主、可观信息以提升决策的准确性。丁涛等[13]提出了一种权重自调整方法,旨在平衡主观赋权和客观赋权所带来的误差,从而提高评价的合理性。程砚秋[14]基于区间相似度、序列比对等原理,对特定专家给出的指标主观权重进行了修正,以增加群决策的有效性。金佳佳等[15]还从关联的角度融合了主观先验信息与客观信息,并将其转化为求解综合权重的约束条件,旨在提高权重配置的可信度。
然而上述方法大多仅聚焦于单层聚类指标的客观权重配置问题,但在实际多属性聚类决策领域中,观测对象往往包含多个特征指标,并且特征指标之间还具有一定的层次结构。目前,针对多层次聚类指标赋权问题普遍采用的还是主观性较强的层次分析(AHP)方法[16-17]。在运用层次分析方法对多层次聚类指标进行赋权时,需要专家对于指标的重要性信息进行主观判断比较,在一定程度上影响了指标权重的客观性。Zhang等[18]运用优化模型求得了多层次指标之间的相互影响系数并在此基础上求解了相应指标的权重,最后将指标赋权结果应用至城市可持续发展评价研究中。Boroushaki[19]通过测算各层次指标所包含的信息熵大小求解出了指标权重大小,并运用修正TOPSIS算法给出了空间多属性决策问题的解决步骤。
以上研究虽然能够有效解决部分多层次属性指标的赋权问题,但仍不能完全满足实际多维聚类决策的需要,具体问题体现在对于对象历史聚类信息的利用程度还有所欠缺。历史聚类信息综合反映了各层次指标对于对象所属类别的影响程度,通过对历史聚类案例的有效学习不仅有助于发掘对象聚类的本质客观规律,还能进一步挖掘出对象各个属性指标的权重信息。对于多属性聚类决策而言,案例学习是指通过决策者学习推理特定典型案例集的决策结果,计算出部分或全部决策参数,从而构建出对应的决策模型,再应用于对所有对象进行评价的方法[20]。目前代表性的模型包括UTADIS[21]以及基于案例距离的决策模型[22],这两种方法虽然为多属性决策问题提供了具有借鉴意义的参考,但并未直接涉及对象属性指标的客观赋权问题。
为充分挖掘已有的历史聚类案例信息,本文基于向量空间模型将聚类对象转化为多维属性特征空间向量,运用余弦距离测算对象底层指标属性之间的相似程度,然后根据对象属性指标的层次性结构以及相应各层指标的权重系数综合测算出对象之间的相似程度,最后根据历史聚类案例中的同类对象具有较高的相似度特点,建立了基于案例学习的多层次聚类指标客观权重极大熵挖掘模型,从而测算各个层次指标对整个对象所属类别的影响程度。
2 基于对象特征属性空间向量的聚类分析
在多属性决策过程中,决策者往往通过评价对象特征属性之间的相似程度,将评价对象划分到不同的类别中去。某些对象之所以能够归属到同一类中,是因为其自然本质属性具有较高的相似性。在进行相似性评价过程中,观测对象往往具有多个属性指标,并且指标之间还存在一定的层次结构关系,为对象的相似性测度带来了很大的不便。对此,本部分将根据对象相似性的各种影响因素的属性范围,将其分成不同的评价方面、要素和因素,其中每个待评价对象会包含若干个评价方面,每个评价方面又含有多个评价要素,每个评价要素又含有不同的评价因素(如图1所示)。由于每个评价层次的各个指标对对象间相似性的影响程度不尽相同,因此需要对各层次的指标赋以相应的权重以合理地区分其重要程度。
图1 对象聚类指标层次结构示意图
2 .1 对象特征属性空间向量表征
向量空间模型(Vector Space Model)是由Salton[23]于20世纪70年代提出的决策对象表征模型,该模型能够将对象属性指标的相似度计算转化成向量空间中的向量距离运算。根据向量空间模型的构建思想,对于一个由多层次属性指标构成的聚类对象而言,每个属性指标都将看作是一个多维向量,其中底层指标向量表示某一类要素的集合,其向量元素为某一要素的观测值;上层指标向量为其下属次级指标的集合,其向量元素是一个包含其下属次级指标属性值及其相应的权重的二维向量。
定义1 聚类对象的底层指标向量为
V Bottom =[x 1,x 2,…,x i ,…x n ]
(1)
式中向量元素x i 表示观测到的第i 个影响要素的观测值,n 表示该指标影响要素的数量。
定义2 聚类对象的上层指标向量为
V Upper =[(y 1,w 1),(y 2,w 2),…,(y i ,w i ),…,(y m ,w m )]
收集河北省沿海试点区域的控制数据、影像数据、大比例尺水深数据及岸线数据,作为试点研究的参考资料及试验依据。
(2)
式中的向量元素y i 表示该指标的第i 个下属次级指标的观测值;w i 表示该指标的第i 个下属次级指标的权重值;m 表示该指标下属的次级指标数量。
国内外学者围绕活性炭、多孔硅胶、煤粉、干水、介孔硅等介质的粒径、孔径等因素进行了大量的甲烷水合物生成实验。然而,冻土区和海底沉积层赋存的水合物常在含砂类介质下稳定存在,受地压的影响,水合物相邻赋存区域的温度梯度差异较小。且关于小梯度温度下甲烷水合物在砂类介质中的生成实验研究较少。石英砂作为一种常见的多孔介质,价格低廉,可重复率高,比表面积大,界面性好。故本研究选取石英砂开展273.75 K、273.85 K、273.95 K 3种温度下甲烷水合物生成实验,分析水合物生成过程中的热力学特性和动力学行为。
综上,聚类对象的向量空间模型可表示如下:
C ={t 1,w 1[t 1.1,w 1.1(t 1.1.1,w 1.1.1;…;t 1.1.k ,w 1.1.k );…;t 1.j ,w 1.j ();…];…;t i ,w i [()];…}
(3)
式中,各个指标下各自又包含其下属次级指标,t i ,w i 为聚类对象的一级指标观测值及其权重,t i.j ,w i.j 为待评价对象的二级指标观测值及其权重,依次类推直至底层的评价因素集合。
2 .2 基于对象相似度的聚类分析
对于具有多层次聚类属性指标的待聚类对象而言,对象之间的相似度测算需要逐层求解各评价方面、评价要素和因素的相似程度,即首先求解最底层要素的相似程度,然后依次逐层向上求解各个评价因素的相似程度,直至求解整个对象的相似程度。考虑到余弦距离能够通过求解两个向量夹角余弦值的方式度量两个对象之间的一致性,本部分将采用向量的余弦距离测度要素之间的相似程度。
定义3 若底层要素A的n维向量表示为A =[A 1,A 2,…,A n ],底层要素B的n维向量表示为B =[B 1,B 2,…,B n ],则底层要素A与B之间的相似度为
(4)
(2)当0≤λ i ≤1时,若设F (w 1)<F (w 2),即f i (w 1)<f i (w 2),i =1,2,…,n ,则有U [F (w 1)]=λ T F (w 1)<λ T F (w 2)=U [F (w 2)]。
定义4 若某待聚类对象有n 层评价指标,底层因素个数为m 1,其各个因素的相似度为sim l ,权重为k l (l =1,2,…,m 1);第i 层中的第j 个指标的权重为k j (j =1,2,…,m i ),则任意两个对象之间的相似度可表示为
k h…j …l
(5)
(2)在历史聚类案例中相同类别对象之间具有较高的相似度,即sim (i ,j )>sim (i ,k ),其中对象i 和j 同属一类S α ,而对象k 属于类S β 。
游离型α1-微球蛋白(α1-MG)是肾脏近曲小管损伤的标志蛋白,绝大部分在肾脏近曲小管重吸收,在肾小管损伤时尿中α1-MG排出量会有明显增加,因其测定很少受到尿液 pH 值变化的影响,因而尿液α1-MG的测定对糖尿病肾病肾小管损伤具有诊断意义[4]。
图5给出了传感信号探测端探测到的信号功率和拉曼泵浦激光器的泵浦功率之间的关系。随着拉曼放大器泵浦功率增加,剩余泵浦功率增加,剩余泵浦功率同时又用做掺铒光纤激光器的泵浦源。当此功率值超过谐振腔内损耗阈值的时候,就有信号激发出来。激射信号的功率随着泵浦功率的增加而增加。
表1 对象相似度表
根据相应的相似度临界值sim *,即可判定出对象的所属类别,即当sim (i ,j )≥sim *时,对象i 和j 便属于同一类。
定理1 针对某一对象而言,同一类内对象之间的相似度最小值大于不同类对象间相似度的最大值,即若对象i 和j 同属于类S α ,对象k 属于类S β ,则min{sim (i ,j )}>max{sim (i ,k )}。
证明:采用反正法。假设min{sim (i ,j )}≤max{sim (i ,k )},由于对象i 和j 同属于一类,若相似度的分类临界值为sim *,则sim (i ,j )≥sim *,所以由sim *≤min{sim (i ,j )},min{sim (i ,j )}≤max{sim (i ,k )}推得max{sim (i ,k )}≥sim *,因此对象i 和k 同属于一类,这与对象i 和k 不属于同一类相矛盾。所以假设不成立,原命题成立。
博湖县是一个少数民族聚集地,所以其非物质文化遗产项目很多源于少数民族,将非物质文化遗产和和扶贫连接起来也会带来极大的经济效应。国家级非物质文化遗产蓝印花布代表性传承人吴元新认为,建立“以手艺带农户、以农户带农村、以农村带基地、以基地带销售”的经营模式,可让非物质文化遗产传承获取脱贫动力。
3 基于案例学习的多层次聚类指标客观权重极大熵权重挖掘模型
在确定对象聚类指标权重过程中,针对历史聚类案例中相似对象的类别从属关系,可以通过各聚类指标所传达的类别信息量确定其权重系数。根据极大熵准则[24],在已知部分信息的基础上,认为权重熵值达到最大且满足约束条件时所得到的权重值出现的可能性最大,因此可构建基于案例学习的多层次聚类指标客观权重极大熵挖掘模型。具体建模步骤如下:
步骤1: 确定目标函数
对于一个包含由多个评价方面、要素和因素组成的多层次指标属性的聚类对象而言,其任一指标权重w i 是该指标在其所在的评价层指标集合中所占的比重,是一个随机变量并具有一定的不确定性。按照极大熵准则,在已知部分信息的基础上当各个评价层次的权重熵值达到最大且满足约束条件时所得到的权重值出现的可能性最大。因此可构建多层次聚类指标客观权重极大熵挖掘模型的目标函数如下式所示:
maxF (w )=[f 1(w ),…,f i (w ),…,f n (w )]T ,其中
1) 知识型员工的整体人格特征偏向成就需要和控制源。通常成就需要表现在追求成就、自律性强、做事情有条理、尽责等;控制源体现在乐群性、积极情绪、独断性等方面。
(6)
式(6)中,w 表示各个评价层次中的指标权重,n i 表示第i 评价层的指标数量,f i (w )表示第i 评价层的指标权重熵函数,
步骤2:约束条件确定
(1)各评价层次中指标的权重之和为1,即
方干一生经历了科场失意、社会动荡、贫病交迫等诸种苦难,虽然外在形式上是一名隐居镜湖的隐士,然而隐逸的生活并不能让方干摆脱生存的困境,只有寻求心灵的解脱和安宁,才能使方干得到片刻的慰藉。在内外因的共同作用下使得方干在诗歌创作中将佛道出尘的心态和江南古刹清幽秀丽的风景相结合,从而形成“清丽”的诗风。佛道思想中超脱世俗的心境和镜湖秀美山水得以在方干的诗歌中相遇,原本枯燥的教义变得生动,而镜湖上的风景更变得旷达空灵。在方干多数诗歌中,并非直接进行禅理的阐发,而是将情怀融入于山水林泉之中。同时也使笔下的山水显得清丽生动,就如齐已诗中说方干“云门几回去,偏题好林泉”。
(7)
由式(5)可知,基于对象底层指标要素之间的相似度以及指标的层次结构关系,可以自下而上逐层求解对象之间的相似程度。若存在n 个待聚类对象,通过求解两两对象之间的相似度,可以得到对象之间的相似度如表1所示。
根据目标函数和约束条件,可建立如下多目标规划来求解各层次指标权重,如下式所示:
课堂教学中,由学生占主体地位变为教师占主体地位就是“收”。教师要善于在课堂失控之前强行介入,积极引导,在知识的河流上制造“弯道”“漩涡”和“水坝”,减缓流速,让课堂可能出现的肆意奔流转为舒缓和谐,让课堂由激烈转入“宁静”的状态,使学生由知到识,由浅入深,从而满足课堂深刻性的需求。
(8)
定理2 存在一组权重系数[λ 1,λ 2,…,λ n ]∈(0,1),使得多目标极大熵聚类指标客观权重挖掘问题能够通过线性加权的方式转化为单目标极大熵客观权重配置问题。
证明:针对原规划问题,构造一个评价函数并以此作为新目标函数,构建一个新的单目标规划问题。如果U (F (w ))是F (w )的单调递增函数,则新的单目标规划的最优解必是原规划的有效解[25]。
(1)当0<λ i <1时,若设F (w 1)≤F (w 2),即f i (w 1)≤f i (w 2),i =1,2,…,n ,且至少存在一个j (1≤j ≤n ),使得f j (w 1)<f j (w 2),即存在λ T F (w 1)<λ T F (w 2),即U [F (w 1)]<U [F (w 2)]。因此U (F (w ))是F (w )的严格单调递增函数。
由式(4)可知,在将对象转化为空间向量之后,两向量之间夹角越小,其余弦值越大,两个要素越相似。
综上,U (F (w ))是F (w )的单调递增函数。因此新的单目标规划的最优解是原规划的有效解。证毕
例2 (2016.烟台中考)美国心理学家桑代克通过对动物行为的大量观察和实验提出了“尝试与错误”学习理论。下列观点是在对动物行为研究基础上形成的,其中应用归纳法获得的结论是( )
证明:由极大熵模型:
竹子具有生长迅速、适应性强、生物质产量高、应用领域广等特点,可以用于建筑、地板、屋顶、编织、窗帘、纸浆、纸张、木炭、食品、装饰等领域,而且竹子作为碳汇封存器的作用已引起国际社会的关注。在一些没有竹子自然分布的国家如德国和荷兰对竹子技术的发展也产生了浓厚的兴趣[2]。但总体而言,世界竹产业仍处于起步阶段,需要进一步创新。
首先判断目标函数的凹凸性,目标函数F (w )的海塞矩阵为
若极大熵模型是一个凸集上的凸规划问题,则必存在唯一的最优解
由定理1和规划模型的标准表达式
信息化的到来打破了时间、空间的限制,让信息传播更加畅通。社会中的每个人都可以成为信息的阅读者、发布者和评论者。思想政治教育的网络化使得教育客体主体化。思政教育的参与者相互扶持、相互依托呈现出双主体或者多主体性。这种教育主体的多变性需要参与思政工作的每个教育者扮演不同的角色,承担不同的任务,因此需要每个参与主体相互协作,共同管理。
由于0<w i ,λ i <1,且f i (λ )>0所以|H |>0恒成立,因此该目标函数F (w )为凸函数,而约束条件为线性约束条件,所以为凸集。
综上,该极大熵模型为凸集上的凸规划问题,必存在唯一的最优解。证毕
当着我的面,我妈总爱说我哪儿哪儿都不好,怎么怎么不争气;一转身,她就跟别人夸我好,夸我是她兜里的宝。初中毕业的时候,我被保送到我们那儿最好的高中。那个暑假,我妈脸上总挂着我从未见过的神色,活灵活现、得意扬扬,像个了不起的老小孩。
4 案例分析
刑事犯罪案件虽然种类繁多,但是几乎所有案件都包含有类似作案时间,作案地点,作案手段,嫌疑人特征,损失物品等特征属性。合理地对案件进行串并处理,不仅能提高案件的侦破效率,还能促进案例库的规范化管理以便于未来的案例推理学习。在案件串并过程中,案件属性特征的权重配置决定了串并结果的合理性。本案例在运用向量空间模型表征各类案件特征属性指标的基础上,对案件之间的相似程度进行测算,最后运用已有的历史案件串并信息,构建聚类指标极大熵客观权重挖掘模型以确定案件各个属性特征的权重。
某公安部门历史案例库中已有分好类的5个案例集C ={C 1,C 2,C 3,C 4,C 5},案例属性特征如图2所示,并且已知其分类信息为C 1,C 2,C 3同属一类,C 4和C 5各成一类。
定理3 基于案例学习的多层次聚类指标客观权重的极大熵挖掘模型存在唯一的最优解
大量的刑事案件表明,有很多指标的属性内容无法直接客观、准确的描述,如受害人在对嫌疑人的
图2 刑事案件属性特征示意图
身高及年龄身份进行描述时,只能给出大致模糊性的表述,呈现出“亦此亦彼”的特点。考虑到模糊子
2) 评价指标为j={安全性(j=1),减量化(j=2),作业环境与二次污染 (j=3),资源化(j=4),投资和运行费用(j=5),配套设施设备复杂程度(j=6),综合分类正确率(j=7)};
集常用于处理不精确数据,因此采用模糊子集表示某指标下的属性值属于该指标某一要素的概率。以刑事案例中的嫌疑人身份向量表述为例,假设其设定的身份序列为(青年,中年,老年),若某案件的嫌疑人身份向量为[0.2,0.7,0.1],则表示该案件的嫌疑人身份属于青年的概率为0.2,属于中年的概率为0.7,属于老年的概率为0.1。该案例库中的5个案例集的底层指标属性信息如表2所示。
将各层指标的权重值作为待定系数,求解5个案件的两两相似度如表3所示。
表2 底层特征指标的属性信息
表3 案件相似度信息
由案例的分类信息可得
sim (1,2)>sim (1,4),sim (1,5),sim (2,4),sim (2,5);
sim (1,3)>sim (1,4),sim (1,5),sim (3,4),sim (3,5);
sim (2,3)>sim (2,4),sim (2,5),sim (3,4),sim (3,5)
令w 1为身份特征的权重,w 2为体型特征的权重,w 3为口音特征权重,w 4为作案时间权重,w 5为作案工具特征,w 6为嫌疑人特征,w 7为作案特征权重。对于整个案例而言,各层指标的重要性程度并无实质性差异,因此在极大熵客观权重配置模型中将各个目标函数的权重配置为1/3,最终基于历史分类信息的极大熵客观权重配置模型如下式所示。
最后解得w 1=0.471,w 2=0.487,w 3=0.042,w 4=0.515,w 5=0.485,w 6=0.974,w 7=0.026
由此可以得出,对整个刑事案件而言,嫌疑人特征较为重要,其权重高达0.974,这符合人们对刑事案件侦破的直观认识和了解;在嫌疑人特征方面,嫌疑人体型特征权重和口音特征几乎相同但都远高于身份特征,说明在定位搜寻犯罪嫌疑人时其身份特征信息容易被忽略。在作案特征属性中,作案时间特征重要性稍高于作案工具特征。运用其他客观权重配置方法求解得到案件各个属性特征指标的权重值如表4所示。
表4 与其他方法的比较
从变异系数法和熵值法求得的权重结果来看,两种方法仅能从底层指标属性的观测值信息中挖掘出单层聚类指标的权重信息,无法为更高层次的指标进行赋权。除此之外,从其单层指标的赋权结果不难发现,运用变异系数法求得的底层指标权重分布较为均匀(只有在嫌疑人特征属性中能够看出口音特征远远高于其他两项特征;而从熵值法的权重配置的结果来看作案工具特征和嫌疑人口音特征相对重要),无法明显区分出其他各个指标的对于案件所属类别的重要性影响程度。
5 结语
本文从评价聚类对象的相似度信息出发,构建了聚类对象特征属性指标空间向量表征模型,并在此基础上,采用余弦距离方法测度对象底层指标属性之间的相似度,最后根据对象的指标层次结构及各层次属性指标的权重系数综合测算对象之间的相似程度。基于历史聚类案例中属于相同类别对象之间相似度较大,不同类别对象间的相似度较小特点,运用极大熵准则,构建了基于对象历史聚类案例信息的多层次聚类指标客观权重挖掘模型。最后以刑事案件的属性指标权重配置问题进行案例研究并与其他权重配置方法进行对比分析,计算结果表明本文提出的方法在多层次聚类指标客观赋权的合理性方面优于其他方法,为多层次指标对象聚类过程中的指标权重系数确定问题提供了一种新的解决方法和思路。
参考文献 :
[1] 衣博. 历史建筑价值评价中专家调查法的信度效度检验研究[D]. 哈尔滨:东北林业大学, 2015.
[2] Xu Z. On consistency of the weighted geometric mean complex judgement matrix in AHP[J]. European Journal of Operational Research, 2000, 126(3):683-687.
[3] 陈伟, 夏建华. 综合主、客观权重信息的最优组合赋权方法[J]. 数学的实践与认识, 2007, 37(1):17-22.
[4] 陆明生. 多目标决策中的权系数[J]. 系统工程理论与实践, 1986,6(4):77-78.
[5] 程明熙. 处理多目标决策问题的二项系数加权和法[J]. 系统工程理论与实践, 1983, 3(4):23-26.
[6] 王宗军. 多目标权系数赋值方法及其选择策略[J]. 系统工程与电子技术, 1993,(6):35-41.
[7] 魏明, 堵俊, 季巍,等. 多层次模糊综合评价方法在生态补水方案选择中的应用[J]. 环境保护前沿, 2014, 4(6):220-224.
[8] 韩小孩, 张耀辉, 孙福军,等. 基于主成分分析的指标权重确定方法[J]. 四川兵工学报, 2012, 33(10):124-126.
[9] 程启月. 评测指标权重确定的结构熵权法[J]. 系统工程理论与实践, 2010, 30(7):1225-1228.
[10] 熊文涛, 齐欢, 雍龙泉. 一种新的基于离差最大化的客观权重确定模型[J]. 系统工程, 2010,28(5):95-98.
[11] 上官廷华, 冯荣耀, 柳宏川. 一种基于熵和均方差法综合赋权的K-means算法[J]. 计算机与现代化, 2010,(4):34-36.
[12] 李方方, 李秀芳. 基于多目标规划理论的财险公司定价决策模型[J]. 中南财经政法大学学报, 2015,(1):48-54.
[13] 丁涛, 吴华清, 梁樑. 360度评估体系中权重调整方法研究[J]. 中国管理科学, 2016, 24(7):149-154.
[14] 程砚秋. 基于区间相似度和序列比对的群组G1评价方法[J]. 中国管理科学, 2015,(s1):204-210.
[15] 金佳佳, 徐伟宣, 汪群峰,等. 考虑专家判断信息的灰色关联极大熵权重模型[J]. 中国管理科学, 2012, 20(2):135-143.
[16] 王跃进, 孟宪颐. 绿色产品多级模糊评价方法的研究[J]. 中国机械工程, 2000, 11(9):1016-1019.
[17] 谢延红, 宁玉富, 刘建军,等. 多层不确定综合评价方法及应用[C]// 中国青年信息与管理学者大会, 2011.
[18] Zhang L, Xu Y, Yeh C H, et al. City sustainability evaluation using multi-criteria decision making with objective weights of interdependent criteria [J]. Journal of Cleaner Production, 2016, 131:491-499.
[19] Boroushaki S. Entropy-based weights for multi-criteria spatial decision-making [J]. Yearbook of the Association of Pacific Coast Geographers, 2017, 79: 168-187.
[20] Chen Y, Kilgour D M, Hipel K W. A case-based distance method for screening in multiple-criteria decision aid [J]. Omega, 2008, 36(3):373-383.
[21] Greco S, Mousseau V. Robust ordinal regression for multiple criteria group decision: UTAGMS-GROUP and UTADISGMS-GROUP [J]. Decision Support Systems, 2012, 52(3):549-561.
[22] Ma L C. Screening alternatives graphically by an extended case-based distance approach [J]. Omega, 2012, 40(1):96-103.
[23] Salton G. A vector space model for automatic indexing [J]. Communications of the Acm, 1974, 18(11):613-620.
[24] 邱菀华. 管理决策与应用熵学[M]. 北京:机械工业出版社, 2002.
[25] 胡毓达. 实用多目标最优化[M]. 上海:上海科学技术出版社, 1990.
An Objective Weight Maximum Entropy Mining Model for Multi -level Clustering Indexes Based on Case Learning
CAO Ying -sai 1,LIU Si -feng 1,FANG Zhi -geng 1,ZENG You -chun 2,WANG Huan 1
(1.College of Economics and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 210016,China;2.Institute of Transportation Command, Army Military Transportation University, Bengbu 233011, China)
Abstract : The weight of characteristic attribute index is a significant influence factor during the process of multiple criteria clustering decision aids. Hence,many researches have focused on this important research area. Historical clustering information can effectively provide importance measures for each index with regard to clustering the objects which are to be evaluated. Learning of previous cases can not only contributes to the reveal of the objective law of clustering but also dig out the weight of each attribute index. However, this significant information has been overlooked by many previous researches which can definitely lead to the inaccurate weight calculation. Case learning, in this paper, is defined as the method proposed by the self-reasoning of the results of typical case sets and calculating some of the key parameters, so as to construct the proper decision-making models which can be applied to the evaluation of new objects in the future. To make the most of the existing clustering cases, the objects which are to be clustered as multidimensional attributes are defined by using space vector model. Based on the fact that objects in the same category are more similar than those in different categories, cosine distance is introduced to measure the similarity among different objects. Maximum entropy model is also employed to estimate the expected contribution of different indexes located in diverse levels to the category of the whole object. An illustrative example about weight allocation of attribute indexes in criminal cases is presented in this paper to show how the new approach is applied in the practical clustering decision problem. The feasibility and validity of the newly-proposed method is demonstrated through the comparison analysis with other similar methods. As a decision support, the proposed model can also provide a novel standpoint for weight calculation of objects with multi-level attribute indexes.
Key words : case study; feature space vector; maximum entropy; weight mining
中图分类号 :C934
文献标识码: A
文章编号 :1003-207(2019)02-0197-08
DOI: 10.16381/j.cnki.issn1003-207x.2019.02.020
收稿日期 :2017-04-19;
修订日期 :2017-12-28
基金项目 :国家自然科学基金资助项目(71671091, 71701098,71801127);国家社科基金项目军事类项目(16GJ003-018);江苏省自然科学基金资助项目(BK20160940)
通讯作者简介 :方志耕(1962-),男(汉族),安徽池州人,南京航空航天大学经济与管理学院,教授, 博士生导师,研究方向:复杂装备研制管理、灰色系统,E-mail:zhigengfang@163.com.
标签:案例学习论文; 特征空间向量论文; 极大熵论文; 权重挖掘论文; 南京航空航天大学经济与管理学院论文; 陆军军事交通学院汽车士官学校运输指挥系论文;