基于决策树的劳动关系和谐度评判,本文主要内容关键词为:劳动关系论文,和谐论文,决策树论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]F249.26 [文献标识码]A [文章编号]1673-2375(2010)01-0029-05
在已有的劳动关系和谐度的评判中,主要采用综合灰色关联度、构建指标体再进行实证分析、数理模型等方法,由于这些方法所采用的数据不包含劳资双方对劳动关系的评价,所以这些方法能不能更客观地反映劳动关系构成的主体——劳资双方?特别是劳动者一方对劳动关系的和谐度的认知,这是值得探讨的。
本文所讨论的评判劳动关系和谐度(只确认和谐与否,不设等级)的决策树方法是建立在劳动者与雇佣者双方各自判断的基础之上的,这个评判结果直接来源于劳动关系主体的自身感受。
这种评判方法的优点在于可以针对不同的时间段,不同地区,不同行业从业人员和雇用者双方对劳动关系和谐性的认可作出快速判定。
一、决策树法(decision tree-based method)
决策树(decision tree)一般都是自上而下生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果。
决策树由决策结点、机会结点与结点间的分枝连线组成。决策树是确定方案的一条简捷的途径。决策树不仅可以帮助人们理解问题,还可以帮助人们解决问题。决策树是一种通过图示罗列解题的有关步骤以及各步骤发生的条件与结果的一种方法。近年来出现的许多专门软件包可以用来建立和分析决策树,这样,利用这些专门软件包,解决问题就变得更为简便了。
二、案例数据来源说明
表一的数据来自渥太华大学斯坦恩.马特温产业信息中心提供的劳动关系和谐度调查表,它概括了加拿大在1987-1988年劳资协商得到的集体协议结果①,本数据集为加拿大当地居民在1987年到1988年第一个季度的商业和服务业领域的全部集体劳动协议,涉及的员工类型包括中小学教师、护士、大学全体教职工、警察等,从业行业、雇用双方种类等,达500之多。这个数据集有40个样本作训练集,还有17个变量作测试集,这57个集体协议数据,就形成了本Weka研究的57个案例(instances)。在每个案例中,又有合同期、第一年工资增长等17个属性,其中一些未知或残缺的值用问号来标记。
数据的准备工作:通过数据清理(data cleaning)、数据变换(data transformation)、数据归约(data reduction)后,类别分为:百分率、小时数、天数等数值型属性,{无,高,低}、{无,全额,半额}、{有,无}、{低,平均,高}、{无,半额,全额}、{不和谐,和谐}等名词性属性。
三、C4.5决策分类原理
设S是训练样本的集合,其中每个样本的类标号都是已知的,假设存在两个类P和N,并且训练集S中包括x个属于类P的记录和y个属于类N的记录。那么,用于确定记录集S中某个记录属于哪个类的所有信息量为:
假设选择变量D作为分类节点,那么它的信息增量值一定大于其他变量的信息增量值,变量D的信息增量为:Gain(D)=Info(S)-Info(A,S)。
由此可以给出信息增益函数的通用定义:
在本案例中,Info(S)=Info(37,20)=0.862“第一年工资”的所需的期望信息为Info(第一年工资)=(18,7)=0.356,因此,“第一年工资”的信息增益为:
Gain(第一年工资)=Info(S)-Info(第一年工资)=0.862-0.356=0.506
类似可得:Gain(合同期),Gain(住房补贴),Gain(养老金)等16个字段的信息增益值。
由于“第一年工资”的信息增益值最大,因此,构造分类树时,第一次分割选择了第一年工资字段作为根结点分裂成两个分支,然后把每个分支当作数据集S,重复上述过程,进一步对每个分支进行分割,最终得决策树如下:
图一 劳动关系和谐度决策树一
四、基于Weka软件的决策树分析
1.Weka格式数据准备
Weka存储数据的格式是ARFF(Attribute Relation File Format)文件,这是一种ASCII文本文件。表一中所示的二维表格转换成ARFF文件如下:
伪代码:
@relation劳动关系和谐度调查表
@attribute合同期numeric
@attribute第一年工资增长numeric
@attribute第二年工资增长numeric
@attribute第三年工资增长numeric
@attribute住房补贴{无,高,低}
@attribute每周工作时数numeric
@attribute养老金{无,全额,半额}
@attribute加班费numeric
@attribute晋升级差收入numeric
@attribute培训津贴{有,无}
@attribute法定假日天数numeric
@attribute休假水平{低,平均,高}
@attribute残疾抚恤{有,无}
@attribute牙疗补助金{无,半额,全额}
@attribute丧亡抚恤金{有,无}
@attribute保健{无,半额,全额}
@attribute和谐与否{不和谐,和谐}
@data
1,5,?,?,?,40,?,?,2,?,11,平均,?,?,yes,?,和谐
2,4.5,5.8,?,?,35,全额,?,?,有,11,平均,?,全额,,全额,和谐
?,?,?,?,?,38,半额,?,5,?,11,高,有,半额,有,半额,和谐
3,3.7,4,5,低,?,?,?,?,有,?,?,?,?,有,?,和谐
3,4.5,4.5,5,?,40,?,?,?,?,12,平均,?,半额,有,半额,和谐
………………………………………………
……………………
2.决策树的修剪
我们为了得到和谐与不和谐这两种类型,对各属性进行局部贪婪算法,出现了法定假期和每周工作时间两个子节点,在子节点健康计划出现有全额与没有健康计划都为不和谐的分类,从图一中我们发现,决策树模型有“过度拟合(overfitted)”现象,特别是“全额”健康计划反而成为不和谐因素。
定型数据中的细微差异过于敏感,冗余的工作时间和健康计划造成的分叉较多,不利于分类器的模式识别,增加了分类器的结构复杂度以及分类的计算时间,将会降低和谐性识别的准确率,将会产生把其它与样本数据稍有不同的案例,决策树就会全都认为不属于这个类别,于是不能进行正确分类。
图一中的决策树“过度拟合”现象的原因是由于我们使用C4.5决策树算法对劳动关系和谐度调查数据建立起分类模型,运用产生规则的时候采用了局部的贪婪方法,每次只选取一个属性进行分析构造决策树,所以它们在产生的分类规则时候就相当复杂,由于分类器过于复杂,则它可能会过于适应噪声,从而导致过度拟合的问题。解决过度拟合的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。图一中的决策树降低了作为一个独立的测试数据集时的性能,经过C4.5算法修剪后的决策树如图二:
图二 劳动关系和谐度决策树二
3.决策树的测试及评估
由于本调查数据集既不是通过专家打分得到,也不是通过测量估算而来,因此适合于机器学习型软件进行分析,特别适合于对二元选择类型进行实验设计。针对本数据集,利用不同的分析方法,从不同角度来进行研究的学者主要是英国学者伯格达罗(Bergadano),马特温(Matwin),密切尔斯基(Michalski),他们在格拉斯哥的欧洲工作会议上提出了概念定性研究,在北荷兰ISMIS88会议上作了“基于学习法的拟合和结果不精确性分析”学术阐述。他们利用本案例采取机器学习法进行研究,在机器学习模拟上进行了探索性研究。鲁迪(Rudy Setiono)建立了前馈性神经网络进行了归类研究,安德鲁等(Endre Boros)进行了Logical回归分析,奥亚(OyaEkin)等建立的空间状态模型也引用了此数据集。他们引用这个数据集,主要是为了说明计算方法和数学原理,但对劳动关系的内容探讨较少。
本案例运用Weka软件,采取C4.5算法对57个案例进行决策树分析,其中有42个案例得到了正确的分类,准确率达到73.6842%,评估是通过分层10折交叉验证得到的,在训练集中有14+28=42个协议合同被正确分类,在测试集中有19+31=50个协议合同被正确分类,正确率达87.7193%,混淆矩阵见表二:
表二 决策树的混淆矩阵
训练集 测试集
不和谐 和谐不和谐
和谐
不和谐 146不和谐19 1
和谐9 28和谐 6
31
因为57个案例中的协议是由加拿大产业劳工谈判代表最终认同结果,所涉及的各变量的具体数值,包括和谐与不和谐的各种变量,虽然每一个案例不能作为和谐不和谐的代表,但把整个数据集通过C4.5的分类算法来计算信息熵(information gain)后,就能归纳基本规律,找到决定因素,得出和谐与否的主要变量。使用信息增益进行属性选择,把具有高信息熵的变量作为节点,选择具有最高信息增益的属性作为给定集合就能形成决策树。在训练集中28个案例在决策树中属于和谐变量,14个属于不和谐变量,在分类正确率达70%以上是可以被接受的。因此利用此决策树来作为测量预处理协议和谐与否的模型具有可行性,本测试集中31个和谐协议,19个不和谐协议被正确分类,实现了判定劳动关系协议和谐与否的正确分类。
协议是劳资双方对劳动和谐与否的共同认可,协议的分类计算结果具有加拿大产业劳工谈判代表意见的最高信息熵,因此决策树是判定和谐劳动关系的重要工具之一,并能为决策者找到主要决定因素,在本例中,通过决策树找出了在第一年工资增长大于2.5%,且法定假期多于10天为核心因素时能促成劳动关系和谐的逻辑结果。这样,决策树就直观、清晰地表达了寻求决策方案的逻辑要求。
五、结束语
在判断劳动关系和谐与否或选择促进劳动关系和谐的方案时,可以利用图二中劳动关系和谐度决策树来进行决策,为了改善劳动关系,首先要保证第一年工资增长要高于2.5%,否则劳动关系就不和谐,其次要保证多于10天的法定假期,如果实在不能保证10天的法定假期休息,那么就要保证第一年工资增长要高于4%,这样也能建立在劳资双方共同满意的劳动关系。
为了提取规则更浅显明了,用简明的伪代码可写作:
1.If第一年工资增长>2.5% and法定假期>10 then劳动关系和谐
2.If法定假期<10 and第一年工资增长>4% then劳动关系和谐
利用决策树的方法来解决劳动关系中的不和谐因素,可以独立来考虑跨行业、跨地区、跨时期等因素的影响,在经济危机中,不同性质的企业,不同规模的公司,怎样和职工一道克服困难?共度困难时期?与职工达成一条线,齐心合力险中取胜?这是作为决策者必须要考虑的课题。如果能借用决策树这种数据挖掘的形式来研究劳动关系,就能在保持企业与职工心理契约曲线一致性的状态下,帮助我们发现问题,解决问题,最终促进和谐劳动关系的发展。
[收稿日期]2009-11-20
注释:
①Collective Bargaining Review,monthly publication,Labour Canada,Industrial Relations Information Service,Ottawa,Ontario,K1AOJ2,Canada,(819)997-3117