基于分类回归树算法的上市公司会计信息失真识别研究_会计论文

基于分类回归树算法的上市公司会计信息失真识别研究,本文主要内容关键词为:算法论文,上市公司论文,会计信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

会计信息是人们在经济活动过程中运用会计理论和方法,通过会计实践获得的反映会计主体价值运动状况的数据、资料,这些数据资料集中反映了企业的盈利能力、偿债能力和资金流动状况。会计信息失真是指由于公司的主观或客观原因致使会计信息丧失相关性、可靠性、及时性、重要性等质量特征,以至不能真实反映会计主体价值运动状况,给决策者带来不利影响的一种现象。会计信息一旦失去了其真实性,影响甚广。因此,会计信息失真识别一直以来都是一项重要的研究课题,国内外许多学者对会计信息失真进行了深入研究。

最初学者尝试用质量指标建立模型进行会计信息失真识别与预测:Loebbecke(1989)利用L/W模型研究表明88%的企业在条件、动机和态度三个方面中至少有一个方面存在显著表现[1]。Bell(2000)根据美国审计标准委员会第53号审计标准(SAS No.53)涉及的21个质量变量,用Logistic回归建立了判别模型[2]。会计信息识别方面最新的研究趋势是通过选取特定的可能反映会计信息失真的指标变量建立模型预测企业会计信息失真的可能性,运用较多的方法为Logit、Probit模型以及具有独特预测能力的人工神经网络(ANN):Beasley(1996)利用Logit回归模型进行会计信息欺诈可能性的测算[3]。Hansen(1996)建立了一个综合了Logit与Probit技术的模型(generalized qualitative-response model)[4]。Summers and Sweeney(1998)用层叠Logit方法建立模型,预测准确度达到67%[5]。Bell(2000)也利用Logit做了会计信息失真识别的研究[2]。Green(1997)构建的神经网络最高可以识别85%的会计信息欺诈企业和79%的会计信息真实企业[6]。Fanning(1998)在实证中分别用逐步Logit、直线判别、二次判别和神经网络四种方法,对比结果表明神经网络模型较其他三种方法具有更高的准确性[7]。

国内学者也利用各种模型对会计信息失真进行了定量研究。陈亮(2003)构建了针对营业利润操纵的单因素方差分析模型[8]。方军雄(2003)分别运用线性概率模型和Logistic模型对会计信息欺诈进行识别[9]。张玲(2006)运用Fisher二类多元判别方法和5指标BP神经网络建立评估上市公司会计信息失真模型[10]。陈国欣等(2007)通过Logistic回归技术得到的模型预测效果显著[11]。

本文以沪、深两地上市公司的年度报告审计意见为研究对象,采用分类回归树建立上市公司会计信息失真识别模型,旨在检验分类回归树方法对会计信息失真的识别能力。

二、实证研究

1.研究假设

本文借鉴张玲(2006)[10]研究中的假设,将被出具非标准审计意见②的公司划分为会计信息失真公司(样本1),被出具标准无保留审计意见的上市公司界定为会计信息真实企业样本(样本0)。

2.分类回归树

分类回归树(CART)是一种有监督学习算法,用户首先提供一个学习样本集(Learning samples)对分类回归树进行构建和评估,然后才能使用。学习样本集如下:

分类回归树模型的建立由以下三个部分组成:

(1)Step1构建分类回归树。本文在计算过程中采用最大杂度削减算法—基尼系数(Gini Index)寻找最佳分支规则。如果集合T包含N个类别的记录,那么系数就是式(1):

从根结点开始分割,递归地对每个结点重复进行:首先对每一个结点选择每个属性最优的分割点,若,则就是当前属性的最优分割点;然后在这些最优的分割点中选择使得(2)式最小的作为这个结点的最优分割规则;最后继续对此结点分割出来的两个结点进行分割。分割的过程一直持续到具备以下任一条件时停止:每一个叶节点很小;纯节点(节点内部样本的Y属于同一个类别);仅有唯一属性向量作为分支选择。

(2)Step2分类回归树的修剪。分类树完全生长过程中会出现过度拟合现象。需要通过剪掉树叶结点,使模型能够对新数据进行更准确有效的分类。本文采用CART系统的成本-复杂度最小原则(Minimal cost-complexity pruning)对分类回归树进行后剪枝,最后将会构建一个节点数目递减的有限有序子树序列。其测度表示为:

其中:|T|为该树的叶结点的个数,α为复杂度参数,Ra(T)理解为该树加权错分率与对复杂度处罚值之和的复合成本。

(3)Step3分类回归树评估。使用评估算法从第(2)步产生的子树序列中选出一棵最优树作为最终的决策树。

3.样本选择

本文会计信息失真公司样本选取根据以下标准:2006年度被出具保留意见带解释性说明、否定意见、拒绝/无法表示意见三种意见其中之一;若2006年度被出具无保留带解释性说明,则2002~2006年间出现至少2次非标准审计意见。最终选取2006年会计信息失真企业样本98家。配对样本根据以下标准选择:2002~2006年间均被出具标准无保留意见的上市公司;2002~2006年间没有被ST/PT历史;A股或B股属性相同。据以上标准选取配对样本98家。

为了检验比较分类回归树模型与多元判别分析模型对上市公司会计信息失真的识别能力和预测精度,笔者以2007年上海证券交易所和深圳证券交易所的A股、B股年度审计报告意见作为标准,对2007年的样本进行分类回归和预测。选取有效样本共计1624家,如表1。

4.建模财务指标选择

反映会计信息失真的指标变量主要包括两大类:一类是反映企业内部控制方面的质量指标;一类是表明企业经营状况、一般通过企业的会计报表就可以获得的数量指标。本文在借鉴国内学者研究成果的基础上,重点运用企业经营状况方面的数量指标建立分类回归树模型进行研究。据此总结了26个对会计信息失真有较高识别能力的财务指标,如表2。

5.会计信息失真识别实证研究

分类回归树模型不需要对变量进行预先选择,能够对异常值进行识别处理,对于变量属性没有严格要求,并且对于训练样本分布也没有要求,所以本文将26个财务指标全部作为分类回归树的属性变量直接进行建模分析,研究数据主要来自天软金融统计数据库(Tinysoft金融分析.NET)、新浪网等。

Step1:分类回归树的生长。以基尼系数作为拆分准则,让分类回归树充分生长,

分类回归树对训练样本和检验样本的分类准确度如表3所示。对于训练样本,最大分类回归树对会计信息真实和会计信息失真样本的识别率分别达到98.98%和96.94%;对于检验样本,正确识别率则分别为76.82%和79.21%。由于分类回归树充分生长后把训练样本数据里面的一些噪声也拟合到了模型里面,出现了对样本数据的过度拟合现象,所以模型对训练样本具有较高识别率,对检验样本总体识别率相对较低,所以模型需要被改进。

ROC曲线可以对上述过度拟合现象作出解释。ROC曲线又称受试者操作特性曲线,它可以作为一个反映模型的识别能力的指标。图2中横轴为(1-特异度),又称假阳性(FPF),纵轴为灵敏度,又称真阳性(TPF),实线代表的是训练样本,虚线代表的是检验样本。本文用会计信息失真相关概念做出定义如下:

理论上完善的识别是灵敏度=1,特异度=0。在图中表现为ROC曲线从原点垂直上升到图的左上角然后水平到达右上角,完全无价值的识别是灵敏度等于特异度,是一条从原点到右上角的对角线。所以在开始越陡峭的ROC曲线便是分辨效果越好的模型。从图2可以看到训练样本的ROC达到了99.83%,几乎完善;但是对测试样本分辨效果较差,仅为80.46%。这从另外一个方面也说明出现了过度拟合现象,这样的模型对样本的识别能力较低,所以要对模型进行修正,从而提高模型的识别能力。

Step2:分类回归树的修剪。最终本文根据成本-复杂度最小原则选取一个以(留存收益/资产总额)为拆分变量有2个节点的最优分类回归树,如图3。可以看出,分类回归树以作为唯一拆分变量,拆分点为=0.02:若≥0.02则将其归类为会计信息真实企业,若≤0.02,则将其归类为会计信息失真企业。

从表4可以看出:1236个公司被识别出来,占检测样本中会计信息真实总体数量的81.16%。其中正确识别出会计信息失真样本81个,占检测样本中会计信息失真总体的80.19%,识别能力有了显著提高。从表4可以看出:最优树的过度拟合现象有了明显的改善,模型对于检测样本的ROC值已经升到了80.68%。

Step3:分类回归树评估。通过模型改进,可以看到模型过度拟合现象得到了有效控制;模型识别能力有了显著提高,对会计信息失真公司的识别准确度达到80.2%,对会计信息真实公司的识别准确度达到81.16%。模型分类准确度如表3。

6.结果验证

Reuslt 1:实证过程中笔者发现留存收益在总资产中的比重为2%可以作为企业发生会计信息失真与否的分界点,即:将(留存收益/总资产)≤0.02的企业判为会计信息失真,将(留存收益/总资产)≥0.02的企业判为会计信息真实。为了验证该结果是否具有普遍性和可推广性,作者提取了2000~2007年8年可以获得的全部有效的上市公司数据,对此结论做一个稳健性分析,验证结果如表5所示。

可以看到该结果对于这8年数据的总体准确识别率比较稳定,基本能达到80%;对于8年(2000~2007)的会计信息失真企业的准确识别率能稳定在64%以上,近5年(2003~2007)则基本稳定在75%以上;近5年(2003~2007)模型的第二类错误率基本控制在20%左右,这在以往的研究中是很难达到的。总之,分类回归树能够在数据学习过程中发现具有如此高的识别能力的指标,充分说明了分类回归树模型的学习能力之强。

三、结论及建议

本文分别利用分类回归树模型(CART)对中国上市公司会计信息失真进行了实证研究,并利用2000~2007年的财务数据对模型的分类能力进行了检验。作者发现:(1)模型对我国上市公司会计信息失真具有很高的识别能力;(2)模型的第二类错误率比较低,基本能控制在20%以下;(3)分类回归树模型是非参数非线性方法,对于目标变量没有概率分布上的要求,使用简单方便,结果明了易懂;(4)研究发现留存收益在总资产中的比重在会计信息失真企业与真实企业之间具有较大的差异性,经过2000~2008年数据实证检验发现此结论非常稳健,当指标值不超过0.02时,监管部门就要重点关注企业是否会有会计信息失真的出现。本研究的结论值得推广,它能够为审计监管机构、广大投资者提供一个非常方便实用的方法,提高审计效率,降低审计成本。

注释:

①指注册会计师出具除标准无保留审计意见以外的各种情形,包括带说明段的无保留意见、保留意见、保留意见加说明段、拒绝/无法表示意见、否定意见。

②应用张玲(2000)Z值模型:Z=0.517-0.46资产负债率-0.388营运资本/总资产+9.32总资产净利率+1.158留成收益/总资产。

标签:;  ;  ;  ;  

基于分类回归树算法的上市公司会计信息失真识别研究_会计论文
下载Doc文档

猜你喜欢