半参数空间 ZISF的估计 、分类与蒙特卡罗模拟
蒋青嬗1,黄 灿2,李毅君3
(1. 广东外语外贸大学数学与统计学院,广东 广州 510006; 2. 广东工业大学管理学院,广东 广州 510520;3. 中山大学岭南学院,广东 广州 510275)
摘 要 :零无效率随机前沿模型(ZISF)包含随机前沿模型和回归模型,两模型各有一定的发生概率,适用于技术无效生产单元和技术有效生产单元同时存在的情形。本文在ZISF的生产函数中引入空间效应和非参函数,并假设回归模型的发生概率为非参函数,构建了半参数空间ZISF。该模型可有效避免忽略空间效应导致的有偏且不一致估计量,也避免了线性模型的拟合不足。本文对非参函数采用B样条逼近,使用极大似然方法和JLMS法分别估计参数和技术效率。蒙特卡罗结果表明:①本文方法的估计精度和分类精度均较高。随着样本容量的增大,精度增加。②忽略空间效应或者非参数效应,估计精度和分类精度降低,文中模型有存在必要性。③忽略发生概率的非参数效应会严重降低估计和分类精度,远大于忽略生产函数的非参数效应的影响。
关键词 :随机前沿模型;零技术无效率项;空间效应;非参函数;蒙特卡罗模拟
1 引言
效率衡量现有水平下生产单元获得最大产出的能力。随机前沿模型是效率测算的常用方法,得到较多理论和实证研究[1-3]。经典的随机前沿模型假定技术无效率项的分布是连续的,从而所有生产单元的技术无效率项均大于零,生产单元技术无效(技术无效率项大于零对应技术效率小于1,此时生产单元技术无效。技术无效率项等于零对应技术效率等于1,此时生产单元技术有效)。经典的随机前沿模型以及后续的拓展隐含着生产单元技术无效的前提。
Kumbhakar等[4]首次构建了零无效率随机前沿模型(Zero inefficiency stochastic frontier model,简称ZISF)。该模型属于潜在类别模型(Latent class model),包含回归模型和随机前沿模型两个分类,两类模型各有一定的发生概率且概率之和为1。其中回归模型可刻画技术有效生产单元,随机前沿模型可刻画技术无效生产单元,因此ZISF能够适用于技术有效和技术无效生产单元同时存在的情形。Kumbhakar等[4]和Abdulai和Abdulai[5]的实证分析表明,在技术无效和技术有效生产单元同时存在的情形,使用经典的随机前沿模型导致技术效率的测算不准确,ZISF有存在必要性。
目前关于ZISF的理论拓展相对较少,主要集中在模型构建和估计方面。具体可归纳为:①非参数或半参数拓展。经典的ZISF假设自变量与因变量参数线性并假设回归模型的发生概率与相应解释变量参数线性,但上述两组变量在许多情况下呈现非非线性关系。同时,经典的ZISF需事先设定生产函数(即前沿面)的形式,当函数关系不明确时容易出现函数形式误设进而影响估计结果。Yao Feng等[6]在生产函数中引入非参函数,Tran和Tsionas[7]假设回归模型的发生概率为非参函数,分别研究了目标模型的估计。②空间模型拓展。由于位置相邻、模仿、溢出和测量误差等原因,相邻生产单元极可能存在空间相关性。忽略空间效应将导致估计量有偏且不一致,技术效率的估计也将不可靠。蒋青嬗和韩兆洲[8-9]首次在ZISF中引入空间效应并研究模型估计。随机前沿模型也有相应空间拓展可以借鉴,如Kutlu[10]和Glass等[11]。③内生性拓展。经典的ZISF假设自变量与误差项不相关,该假定相对严苛。违反该假定将引发内生性,相应估计量将有偏且不一致。Tran和Tsionas[12]首次研究了ZISF的内生性,使用有限信息极大似然方法得到无偏一致估计量。④其他拓展。如Rho和Schmidt[13]完善了ZISF的检验以及估计量的渐进性质。Orea和Jamasb[14]将ZISF中的随机前沿模型的技术无效率项的分布放松为有限混合分布。目前暂无发现其他ZISF相关研究。
红土镍矿原矿含物理水约33%左右,红土镍矿首先进入以粉煤为燃料的干燥窑进行初步脱水,将物理含水降为15%。然后经过破碎筛分,将干燥后的红土镍矿加入到回转焙烧窑中进行深度干燥焙烧。
鉴于ZISF的理论研究相对不足且已有ZISF适用性相对较低,本文拓展ZISF模型。在ZISF中引入空间效应和非参数效应,构建了半参数空间ZISF。特别地,本文首次在生产函数和回归模型的发生概率中同时引入非参数效应,适用性更广且着重考察了不同引入方式对效率测算的影响。使用极大似然方法和JLMS法分别估计参数和技术效率,进行蒙特卡罗模拟考察方法的精度和模型的存在必要性。本文的创新之处在于:①本文模型同时引入空间效应和非参数效应。相比于经典的ZISF,本文模型能有效避免模型误设(源于引入非参数效应)和忽略空间效应导致的有偏且不一致估计量(源于引入空间效应),因此适用性更佳。②更具体地研究了非参数效应的不同引入方式对效率测算的影响。归纳现有的非参数和半参数ZISF的文献可知,已有研究分别在生产函数和回归模型的发生概率中引入非参数效应,仅简单研究了上述两类非参数效应对估计精度的影响,得出忽略非参数效应导致精度降低的结论。暂无文献研究了两种不同引入方式对精度(估计精度和分类精度)的影响程度。本文模型在生产函数和发生概率同时引入非参数效应(即引入了两类非参数效应),通过蒙特卡罗模拟考察两类效应对效率测算的影响。蒙特卡罗结果表明,忽略生产函数的非参数效应仅稍微降低参数和技术无效率项的估计精度,但忽略发生概率的非参数效应会严重降低估计精度。因此发生概率的非参数效应更不容忽视。③本文研究了目标模型的估计,为实证研究提供了严谨的分析工具。④本文模型基于面板数据且引入随时间变化的技术效率,相比于经典的ZISF适用性更佳。
2 研究设计
2 .1 模型引入
Kumbhakar等[4]构建的ZISF包含两个模型:经典的回归模型和经典的随机前沿模型。回归模型发生时,技术无效率项等于零,此时生产单元技术有效。随机前沿模型发生时,技术无效率项大于零,此时生产单元技术无效。两类模型各有一定的发生概率,因此ZISF能同时度量技术有效和技术无效生产单元。在ZISF的基础上,本文构建如下半参数空间ZISF:
(1)
其中t =1,…,T ,i =1,…,N ,y ti 为t 时刻第i 个生产单元的产出,ρ 为空间自回归系数,W 为N ×N 阶已标准化的外生空间权重矩阵,该矩阵第i 行第j 列的元素为W ij 。X ti 和z 1ti 分别为t 时刻第i 个生产单元的1×m 阶和1×1阶投入向量,其中X ti 与因变量是参数线性,z ti 与因变量是参数非线性。β 为m ×1阶系数矩阵,函数f 1(·)的形式未知。v ti 为双边误差项,度量随机扰动,服从为单边误差项,度量技术无效率程度(也称技术无效率项),服从半正态分布,即式(1)中回归模型的发生概率为f 2(z 2ti ),随机前沿模型的发生概率为1-f 2(z 2ti ),其中z 2ti 为影响发生概率的1×1阶外生向量,f 2(·)的形式未知。模型的待估参数(含函数)集为
=
(2)
通过步骤①~④可得到参数的估计最优化元素个数由3+m +2m n 减少为m n +3,最优化过程更简单。
花五奇朝乔十二郎看了一眼,低头皱眉想着什么,再看一眼,忽然用兵器指着他,尖声叫道:“花灯节!孙悟空!李六爷!”话音未落,几个纵跃抢到乔十二郎面前,手中利刃兜头砍下。事出突然,除了乔十二郎和老太医,其他人根本没听懂花五奇说的是什么,更不明白他为何向一个观战的孩子痛下杀手。
从而技术无效率项基于复合误差项的条件期望可表示为:
2 .2 模型转化
式(1)含非参数效应,此处首先进行模型转化。由于B样条在估计过程中充分利用了样本的信息,估计的精度较高,此处使用B样条估计非参函数。对于函数f 1(·),参考Huang等[15]和蒋青嬗和韩兆洲[16]的设定,令z 1ti 有界,t =1,…,T ,i =1,…,N 。不失一般性,设z ti ∈[a ,b ],其中a <b ,a 和b 均有界。为确保惟一可识别性,假定E (f 1(z 1))=0,其中z 1=(z 111,…,z 11N ,…,z 1T1 ,…,z 1TN )′为堆向量。令a =ξ 0<ξ 1<…<ξ K <ξ K+1 =b 为[a ,b ]的一个分割,I Kt =[ξ t ,ξ t+1 ),t =0,…,K -1,I KK =[ξ K ,ξ K+1 ],其中K ≡K n =n v 为正整数,0<v <0.5。从而max1≤k≤K +1|ξ k -ξ k-1 |=O (n -v )。令S n 为l 阶样条函数s 生成的空间,s 满足:①I Kt (1≤t ≤K )上的样条函数s 为l 阶多项式,l ≥1;②当l ≥2且0≤l ′≤l -2时,s 在[a ,b ]上l ′阶连续可导。基于上述假设,f 1能被S n 中的函数较好地逼近。设在S n 中存在标准正态B样条基{φ 1k ,1≤k ≤m n },m n ≡K n +l ,由该样条基张成的函数f 1n ∈S n 逼近f 1(·),即:
(3)
Stone[17]和Huang等[15]得出,f 1(·)在较宽松的假定下便有其中为二阶范数。该结论表明随着样本容量的增加逼近误差能较快收敛到0。
令O 1ti =(φ 11(z 1ti ),…,φ 1mn (z 1ti )),τ 1=(τ 11,…,τ 1mn )′。从而式(2)可转化为式(4),此时式(4)的生产函数已不包含非参数效应。即:
(4)
令式(4)可继续简化为:
(5)
2 .3 参数估计
令ε ti =v ti +u ti (1-1{u ti =0})为复合误差项。易知当u ti =0时,有1{u ti =0}=1且ε ti =v ti 。当u ti ≠0时,有1{u ti =0}=0且ε ti =v ti -u ti 。
当u ti ≠0时,推导可得此条件下ε ti 的密度函数为:
(6)
其中和φ (·)分别为标准正态分布的分布函数和密度函数。
当u ti =0时,推导可得此条件下ε ti 的密度函数为:
(7)
综合u ti ≠0和u ti =0的发生概率,可得ε ti 的密度函数为:
f ε (ε ti )=p (u ti ≠0)f ε (ε ti |u ti ≠0)+p (u ti =0)f ε (ε ti |u ti =0)=(1-f 2(z 2ti ))
(8)
去除常数项后,模型的对数似然函数可表示为:
(9)
式(9)中,ln|I N -ρW |为雅克比项,能把参数ρ 限定在取值区间(-1,1)内。式(9)包含未知函数f 2(·),此处同样采用B样条估计。基于一系列相关假设(基于篇幅限制,此处不再重复假设),存在标准正态B样条基{φ 2k ,1≤k ≤m n },由该B样条基张成的函数为f 2(·)的良好逼近。令O 2ti =(φ 21(z 2ti ),…,φ 2mn (z 2ti )),τ 2=(τ 21,…,τ 2mn )′。从而
因此式(9)可继续转化为
循环水补充水阀7开启后,分流一部分循环水,去水冷塔循环水流量减少,水冷塔液位下降,促使水冷塔液位调节阀开大,增加补充水量,保证水冷塔液位正常。由于水冷塔液位调节阀6前后管道管径为DN80,相对较小,另外自动调节阀反馈调节过程中有一定的延迟性,从而造成水冷塔液位波动大的现象。水冷塔补充水量波动造成水冷塔内水气比波动大,不利于充分发挥氮水预冷系统的作用。
(10)
①估计模型y =Hη 0+e 0。分别得到η 0的估计以及残差e 0的估计
2 .4 简化最优化步骤
式(10)包含参数实际包含3+m +2m n 个元素。当m 或m n 偏大时,元素数量过多,最优化过程难以收敛或者极容易陷入局部收敛。此小节着重介绍最优化的简化步骤。令y 和H 分别为y ti 和H ti ,t =1,…,T ,i =1,…,N ,构建的堆积矩阵,如y =(y 11,…,y 1N ,…,y T1 ,…,y TN )′。最优化的具体简化步骤如下:
最大化上式,即可得到的估计量由于相应可得到β 和τ 1的估计量和函数f 1(·)和f 2(·)的估计为和
②估计模型(I N ⊗W )Y =Hη L +e L ,分别得到η L 的估计⊗W )Y 以及残差e L 的估计
③令式(10)即可转化为:
(11)
最大化式(11)可得到参数的估计量此处最优化仅包含m n +3个元素。
④参数η 的估计为
到了深夜,可能早一点,也可能晚一点,我照例脱下白大褂、衬衫、条纹领带,把身体蜷缩成子宫中的胎儿似的,在停尸房的一隅等候,不知道过了多久,仿佛一双修长透明的指骨在我的皮肤上反复弹奏,滴哒滴,耳边忽然响起一声呜咽,低低的,柔柔的,我陷入迷幻中,眼前一片无穷无尽的红色,我任思想驰骋,许多影像从被遗忘的角落浮现,是幽暗的书房里一具白骨与母亲深情相拥;是曾经有一名叫四手联弹的钢琴师躺在我的脚边,凉薄的目光穿透城市钢筋铁骨上空的灰色天空,他的血溅在我颤抖的唇上,我愿意和他一起粉身碎骨,为什么我却在这里睁着无望的眼?
其中1{·}为示性函数,满足括号内条件即为1,否则为0。u ti =0的发生概率(即回归模型的发生概率)为p (1{u ti =0}=1)=f 2(z 2ti )。当f 2(z 2ti )≡0时,模型退化为经典的随机前沿模型。当f 2(z 2ti )≡1时,模型退化为经典的回归模型。当0<f 2(z 2ti )<1时,模型即为ZISF。
在最优化过程中,由于为避免估计量落入取值区间外,可令通过估计b 1,b 2和b 3得到和ρ 的估计量。对于发生概率f 2(·),由于f 2(·)∈(0,1),而不一定落入取值区间内。此处继续对采取压缩变化该变化是单调且一一对应的,能够把概率限定在区间(0,1)内且不会影响最终的估计量。最终f 2(·)的估计为
供水水质对水表计量准确度的影响,体现在两个方面:①水体化学指标含量高,例如pH值在8.0以上,硫酸盐和氯化物的含量在180mg/L以上,会导致管道内部结垢,改变正常的过水流态,继而造成计量偏差[2]。②水体中含有杂质,例如泥沙、丝麻等,随着时间延长,杂质积累数量增多,如果堆积在水孔附近,会减小水孔截面积,因水流速度加快影响计量准确度。
2 .5 技术效率的估计
参考Kumbhakar等[4],使用JLMS法(Jondrow等[18],取自四位作者的首字母)测算技术效率。推导可得技术无效率项基于复合误差项的条件期望为:
E (u ti |ε ti )=E uti =0|ε ti E (u ti |ε ti ,u ti =0)=p (u ti =0|ε ti )E (u ti |ε ti ,u ti =0)+p (u ti ≠0|ε ti )E (u ti |ε ti ,u ti ≠0)=p (u ti ≠0|ε ti )E (u ti |ε ti ,u ti ≠0)
(12)
式(12)中,第三个等式的右边的第一项p (u ti ≠0|ε ti )表示已知复合误差项的情况下技术无效率项不等于零的概率,第二项E (u ti |ε ti ,u ti ≠0)表示已知技术无效率项不等于零的情况下复合误差项基于技术无效率项的条件期望,即为技术无效率项不等于零时技术无效率项的点估计,该点估计与JLMS点估计[18]一致。
肝癌是临床中较常见的恶性肿瘤类型,全球发病率约为58%[1]。有研究发现,乙型肝炎、肝硬化若未得到及时有效的治疗,极可能发展为肝癌,严重影响了患者的生活质量[2]。目前临床中对肝癌主要以早期诊断与治疗为主,因此,及时、有效的诊断方法,是保证患者生存的关键。本次选取我院2017年8月—2018年8月共86例乙肝肝硬化患者作为研究对象,对比了多排螺旋CT与MRI对乙肝肝硬化背景小肝癌的检测效果,具体报告如下。
推导可得:
称取10 g经预处理的丝瓜络纤维,在室温下平衡24 h后称重,然后置于50℃的烘箱中,纤维开始放湿,每5 min称量一次,当前后两次重量之差小于5%时,则已达到平衡。此时的重量为干燥重量,计算回潮率,结果见表1。
上述模型等价于:
(13)
式(1)的生产函数同时包含线性关系和非线性关系,因此属于半参数模型。相比于已有的ZISF拓展模型,本文构建的模型适用性更广,具体体现在:①本文模型引入了空间效应,更符合实际情况且可有效避免忽略空间相关性导致的有偏且不一致估计量。目前ZISF的空间拓展非常少,仅蒋青嬗和韩兆洲[8-9]。②本文模型在生产函数和回归模型的发生概率中同时引入了非参数函数,共计引入两类非参数效应,适用性更佳。同类研究如Yao Feng等[6]、蒋青嬗和韩兆洲[9]仅在生产函数中引入非参数效应,Tran和Tsionas[7]仅在发生概率中引入非参数效应。而且蒋青嬗和韩兆洲[9]假设回归模型的发生概率为固定常数,极大限制了模型的适用性。本文同时研究了两类非参数效应,并在后续的蒙特卡罗模拟中研究两种引入方式对效率测算的影响。③本文模型基于面板数据,具有面板数据的优势。同类研究如Kumbhakar等[4]、Tran和Tsionas[7]均基于截面数据。
其中t =1,…,T ,i =1,…,N 。元素x ,z 1ti 和z 2ti 服从区间(1,3)内的均匀分布,当随机前沿模型发生时,此处设W 为基于邻近概念的空间权重矩阵,其内元素(非对角线上元素)服从分布,取1的概率为0.3。为减少和消除外生影响,W 要标准化。取T =20。由于空间模型常应用于省域经济问题,此处模拟特意取N ={30,60},其中取N =60有助于分析大样本性质。模拟时取B样条基的维度m n =6。
(14)
其中复合误差项将相关估计量代入上式,可得u ti 的点估计从而技术效率的点估计为
2 .6 技术效率项的分类
在原模型中,技术无效率项等于零的发生概率(即回归模型的发生概率)为f 2(z 2ti )。在得到参数的估计量后,通过贝叶斯后验概率,利用后验信息可把技术无效率项等于零的发生概率更新为p (u ti =0|ε ti )。与式(12)的推导一致,推导可得
p (u ti =0|ε ti )=
此报道中,作者使用了缓和型变动语中的间接缓和语the committeesaid,还有直接缓和语may,描述了飞机失事的原因。
2016年,山东省有6个果蔬区域公用品牌成功入选为第一批著名农产品区域公用品牌名单,胶州大白菜作为其中一个。2017年,11个区域公用品牌,如胶州大白菜被选为最受欢迎的农产品区域公用品牌。胶州大白菜协会继续研发白菜品种、栽培技术和白菜深加工产品的创新和开发形成较强的市场竞争力。
(15)
将相关估计量代入上式,可得更新后的概率
本文假设技术无效率项相互独立,其发生概率不为固定常数且受相关外生变量影响。对于技术无效率项u ti ,其要么等于零要么不等于零,只有两种可能。其中等于零的发生概率为p (u ti =0|ε ti ),不等于零的发生概率为1-p (u ti =0|ε ti )。若p (u ti =0|ε ti )≥1-p (u ti =0|ε ti ),即p (u ti =0|ε ti )≥0.5,有理由认为u ti 以更大的概率等于零,从而可把u ti 判定为零。否则可认为u ti 不等于零并把u ti 判定为非零。因此基于该法则可确定反向确定技术无效率项的类别(即零或非零)。
3 蒙特卡罗模拟
为考察方法的有效性和模型的必要性,此处进行蒙特卡罗模拟。具体数据生成过程如下:
医疗行为[8]是公立医院最核心的社会功能,医疗过程的具体目标是患者实体,抽象目标是病种。无论是单病种的临床路径管理,还是组合病种的DRGs付费管理,都是对疾病演变和医疗过程的内在科学规律进行的规范化管理探索与实践。
(16)
(17)
其中
(18)
E (u ti |ε ti )=
此处将本文方法简称为MLE,采用三种情况进行对比分析:忽略空间效应的极大似然估计(简称为MLE-nSpa),忽略非参数效应f 1(·)的极大似然估计(简称为MLE-nSemi1)和忽略非参数效应f 2(·)的极大似然估计(简称为MLE-nSemi2)。上述三种方法有且仅忽略一种效应。MLE-nSp忽略了空间效应,对应模型为半参数ZISF。其对数似然函数为式(10)中去除雅克比项。MLE-nSemi1忽略了非参数效应f 1(·),即对非参变量z 1ti 不采用B样条展开。由于直接将z 1ti 以线性方式引入到模型会导致拟合不足,此处对z 1ti 采用三阶多项式样条展开。即用三阶多项式函数c 1z +c 2z 2+c 3z 3逼近f 1(z ),其中z 为非参变量的任意取值,c 0,c 1和c 2为回归系数。该类处理在实证分析中较为常见。MLE-nSemi2忽略了非参数效应f 2(·),对非参变量z 2ti 不采用B样条展开而直接采用三阶多项式展开,具体操作与MLE-nSemi1类似。值得强调的是,模型中含两类非参数效应,MLE-nSemi1忽略了非参数效应f 1(·),但并没有忽略f 2(·),对于变量z 2ti 仍然采用B样条展开。同理,MLE-nSemi2忽略了非参数效应f 2(·),但并没有忽略f 1(·),对于变量z 1ti 仍然采用B样条展开。本文没有研究同时忽略两类非参数效应的情形,原因在于,模拟预期MLE-nSemi1和MLE-nSemi2的估计精度较低。若模拟结果验证了该预期,忽略两类非参数效应的情形估计精度只会更差。将上述三种方法与MLE进行对比,如果估计效果远不及MLE,则文中文中模型和方法有存在必要性。为保证模拟的可靠性,模拟重复1000次。
模拟着重考察参数和非参函数的估计精度,以及技术无效率项的估计精度和分类精度。对于参数的估计精度,考察估计量的偏差、标准差和均方误差,其中均方误差体现估计量的总体效果。上述指标越小,估计精度越高。对于非参函数f 1(·)和f 2(·)的估计精度,考察拟合函数的曲线形态。拟合函数与真实函数的曲线形态越贴合,精度越高。
对于技术无效率项的估计精度,一方面考察技术无效率项估计量的核密度曲线。如果对比方法的技术无效率项的估计精度较高,则估计量的核密度曲线(特别是在0附近,可体现分类的准确度)应该与MLE较贴合。另一方面考察技术无效率项真值与估计值的偏离程度,对应指标为其中和分别为真值和估计值。偏离程度越小,估计精度越高。现考察技术无效率项的分类精度,易知向量和分别为真实和估计得出的分类向量,元素为1或0分别代表技术无效项为零或非零。从而S 0和的总体匹配度为反映真值为零且被估计为零或者真值为非零且被估计为非零的比例。对于零技术无效率,考察准确率、召回率和F值,这三个指标是考察分类精度的常用指标。准确率考察估计值为零的技术无效率中真值也为零的比例,对应指标为其中|·|代表绝对值。召回率考察真值为零的技术无效率项中估计值也为零的比例,对应指标为F值为两者的加权和平均,即上述三个指标越大,分类精度越高。
3.2.2 数据获取测试 该部分是测试昆虫生境移动监测软件的数据获取功能模块在连接Bmob后端云服务器后能否正常监听到数据库的更新,并将更新的数据获取下来,步骤如下:
表1 参数估计的精度
注:结果展示时将偏差、标准差和均方误差三个指标上下排列。
表1展示了估计量的精度。对比可知,当N =30和N =60时,MLE-nSpa,MLE-nSemi1和MLE-nSemi2的三个指标(偏差、标准差和均方误差)均大于MLE,说明三种对比方法的参数估计精度均低于MLE。对于β ,四种方法的三个指标的差别相对较小。随着样本容量的增加,四种方法的三个指标均减少。对于随着样本容量的增加,MLE-nSpa的三个指标均减少,MLE-nSemi1的三个指标在样本增加前后差别不大,而MLE-nSemi2的三个指标反而增大。对于随着样本容量的增加,MLE-nSpa和MLE-nSemi1的三个指标均减少,MLE-nSemi2的三个指标均增大且远高于其他对比方法。对于ρ ,随着样本容量的增加,MLE-nSemi1的三个指标均减少,而MLE-nSemi2的三个指标均增大且高于MLE-nSemi1。上述分析表明,相比于MLE-nSpa和MLE-nSemi1,MLE-nSemi2的参数估计精度更低。对比方法精度较低的原因在于,MLE-nSpa忽略了空间相关性,相应估计量有偏且不一致。MLE-nSemi1和MLE-nSemi2分别忽略了生产函数和回归模型发生概率的非参数效应,极容易出现欠拟合或者无法拟合,其中MLE-nSemi1的前沿面发生偏移,MLE-nSemi2中回归模型的发生概率严重偏离。对比MLE在N =30和N =60的表现可知,N =60时估计量的偏差、标准差和均方误差均降低,从而增加样本容量有助于提高MLE在估计量的精度。
图1和图2分别展示了f 1(·)和f 2(·)的拟合曲线和真实曲线。图1中,True线呈中间高两头低的形态,左右两端各含一个波谷。MLE,MLE-nSpa和MLE-nSemi2三线与True线非常贴合,而MLE-nSemi1与True线相差甚远。图2中,True线呈中间高两头低的形态,左右两端各含一个波谷。MLE和MLE-nSemi1两线与True线非常贴合,MLE-nSpa的形态与True线相似,但在波峰和波谷附近与True线有一定差距。MLE-nSemi2与True线相差甚远。图1和图2表明,现有情况下三阶多项式样条函数无法拟合真实曲线。对于图1,N =60时MLE与True线更贴合,特别是在波峰附近。对于图2,N =60时MLE与True线更贴合,特别是在左右两个波谷附近。从而增加样本容量有助于提高MLE在非参函数的估计精度。
根据金芪降糖片样品的质谱总离子流色谱图给出的碎片信息及相关文献,对色谱图中6、9号色谱峰进行了初步归属。
前言:当前临床治疗中较常见的病症就是肺心病与冠心病,这两种病症互相影响,很可能引起二者的合并症状--肺心病合并冠心病、心力衰竭,发病后临床特征不是非常明显,在诊断过程中容易出现漏诊,为了能够提高肺心病合并冠心病、心力衰竭的诊断率,本文对我院收治的肺心病患者于肺心病合并冠心病、心力衰竭患者进行对比治疗与分析,为临床诊断与治疗提供有效依据。
图1 函数f1的拟合曲线
注:True线为函数f 1(·)的真实曲线。
图2 函数f2的偏离程度
注:True线为函数f 2(·)的真实曲线。
图3展示了技术无效率项估计量与真值的偏离程度。由图3可知,MLE的箱线图位置最低且箱宽最窄,说明MLE的技术无效率项的估计精度较高。MLE-nSemi1和MLE-nSpa的箱线图位置偏高且箱宽偏宽,说明MLE-nSemi1和MLE-nSpa的技术无效率项的估计精度偏低。MLE-nSemi2的箱线图比较特殊,其1/4和1/2分位数较低,接近MLE的1/4和1/2分位数且低于MLE-nSemi1和MLE-nSpa的1/4和1/2分位数。但MLE-nSemi2的3/4和4/4分位数明显偏大(N =30时3/4和4/4分位数分别为1.2041和2.0592,N =60时3/4和4/4分位数分别为1.3872和1.8915),最终MLE-nSemi2的1/2分位数和3/4分位数之间的箱宽以及3/4分位数和4/4分位数之间的距离非常宽(N =30时MLE-nSemi2的两宽度分别为1.0388和0.8551,N =60时MLE-nSemi2的两宽度分别为1.2228和0.5043。而N =30时MLE-nSemi1的两宽度仅为0.0257和0.2295,N =60时MLE-nSemi1的两宽度仅为0.0174和0.0975)。上述分析表明MLE-nSemi2的估计精度较低,稳定性较差。对比MLE在N =30和N =60的表现可知,N =60时的箱线图位置更低且箱宽更窄,说明增加样本容量有助于提高MLE的技术无效率项的估计精度。
图3 技术无效率项的偏离程度
图4展示了技术无效率项估计量的核密度曲线,由图可知MLE-nSemi1和MLE-nSpa的核密度曲线比较接近,两者与MLE的核密度曲线形态相似但有一定的差距。MLE-nSemi2的核密度曲线与MLE差距更大,其在零附近更高耸,即在零附近取更大的概率。当样本容量增加时(N =60时),MLE,MLE-nSemi1和MLE-nSpa的核密度曲线变化不大,但MLE-nSemi2的核密度曲线在零附近的概率增加且更加偏离MLE的核密度曲线。上述结果表明,MLE-nSemi1,MLE-nSpa和MLE-nSemi2的技术无效率项的估计精度偏低,其中MLE-nSemi2的估计精度最低且稳定性最差。
表2 技术无效率项的分类准确度
表2展示了技术无效率项的分类准确度。由表2可知,当N =30和N =60时,MLE的m_all ,m 0和F 远高于MLE-nSpa,MLE的m 1略低于MLE-nSpa。MLE-nSpa的m 1高于MLE的原因在于,MLE-nSpa以较大的概率把技术无效率项判定为零(图3表明,MLE-nSpa在零附近的概率高于MLE),自然而然召回率偏高。综合来说,MLE的分类精度高于MLE-nSpa。又由于当N =30和N =60时,MLE的m_all ,m 0,m 1和F 均高于MLE-nSemi1和MLE-nSemi2,从而MLE的分类准确度高于三种对比方法。对比MLE-nSemi1和MLE-nSemi2的分类精度,当N =30和N =60时,MLE-nSemi1的m_all ,m 1和F 高于MLE-nSemi2,MLE-nSemi1的m 0略低于MLE-nSemi2。综合来说,MLE-nSemi1的分类精度高于MLE-nSpa。
4 结语
本文在ZISF中引入空间效应和非参数效应,构建了半参数空间ZISF,使用极大似然方法估计模型并使用蒙特卡罗模拟考察参数和非参函数的估计精度以及技术无效率项的估计精度和分类精度。蒙特卡罗模拟的结果表明:
①MLE在参数和非参函数的估计精度以及技术无效率项的估计精度和分类精度均较高。增加样本容量有助于提高MLE的估计精度。
②对比方法(MLE-nSpa,MLE-nSemi1和MLE-nSemi2)的估计精度和分类精度均偏低,说明忽略空间效应或者非参数效应会降低估计精度和分类精度,文中模型有存在必要性。
③MLE-nSemi1和MLE-nSemi2有且仅忽略一种非参数效应,但两种方法的估计和分类精度存在差异性。相对来说,MLE-nSemi1的估计精度和分类精度高于MLE-nSemi2,MLE-nSemi1对应估计量的稳定性也优于MLE-nSemi2。忽略生产函数的非参数效应(对应MLE-nSemi1)仅稍微降低估计和分类精度,但忽略发生概率的非参数效应(对应MLE-nSemi2)会严重降低估计和分类精度。因此发生概率的非参数效应更不容忽视。
参考文献 :
[1] 赵金楼, 李根, 苏屹, 等. 我国能源效率地区差异及收敛性分析——基于随机前沿分析和面板单位根的实证研究[J]. 中国管理科学, 2013, 21(2): 175-184.
[2] 王谨乐, 史永东. 机构投资者、代理成本与公司价值——基于随机前沿模型及门槛回归的实证分析[J]. 中国管理科学, 2016, 24(7): 155-162.
[3] 蒋青嬗, 韩兆洲, 吴栩. 真实固定效应空间随机前沿模型的贝叶斯估计[J]. 统计研究, 2018, 35(11): 105-115.
[4] Kumbhakar S, Parmeter C, Tsionas E. A zero inefficiency stochastic frontier model [J]. Journal of Econometrics, 2013,172(1): 66-76.
[5] Abdulai A, Abdulai A. Allocative and scale efficiency among maize farmers in Zambia: A zero efficiency stochastic frontier approach [J]. Applied Economics, 2016: 1-15.
[6] Yao Feng, Wang Taining, Tian Jinjing, et al. Estimation of a smooth coefficient zero-inefficiency panel stochastic frontier model: A semiparametric approach [J]. Economics letters, 2018, 166: 25-30.
[7] Tran K, Tsionas M. Zero-inefficiency stochastic frontier models with varying mixing proportion: A semiparametric approach [J]. European Journal of Operational Research, 2016, 249(3): 1113-1123.
[8] 蒋青嬗, 韩兆洲. 空间ZISF的估计及蒙特卡罗模拟[J]. 统计与信息论坛, 2017, 32(5): 3-9.
[9] 蒋青嬗, 韩兆洲. 半参数空间ZISF的估计及反馈分类[J]. 统计研究, 2017, 34(10): 98-109.
[10] Kutlu L. Estimating efficiency in a spatial autoregressive stochastic frontier model [J]. Economics Letters, 2018,163: 155-157.
[11] Glass A, Kenjegalieva K, Sickles R. A spatial autoregressive stochastic frontier model for panel data with asymmetric efficiency spillovers [J]. Journal of Econometrics, 2016, 190(2): 289-300.
[12] Tran K, Tsionas M. On the estimation of zero-inefficiency stochastic frontier models with endogenous regressors [J]. Economics letters, 2016, 147: 19-22.
[13] Rho S, Schmidt P. Are all firms inefficient [J]. Journal of Productivity Analysis, 2015, 43(3):1-23.
[14] Orea L, Jamasb T. Identifying efficient regulated firms with unobserved technological heterogeneity: A nested latent class approach to Norwegian electricity distribution networks [J]. Efficiency, 2014: 1-18.
[15] Huang J, Horowitz J, Wei A. Variable selection in nonparametric additive models [J]. The Annals of Statistics, 2010, 38(4): 2282-2313.
[16] 蒋青嬗, 韩兆洲. 半参数线性混合效应模型的联合变量选择[J]. 数理统计与管理, 2017, 36(3): 458-468.
[17] Stone C. Additive regression and other nonparametric models [J]. The Annals of Statistics, 1985, 13(2): 689-705.
[18] Jondrow J, Lovell K, Materov I, et al. On the estimation of technical inefficiency in the stochastic frontier production function model [J]. Journal of Econometrics, 1982, 19(2-3): 233-238.
The Estimation ,Classification and Monte Carlo Simulation for Semiparametric Spatial ZISF
JIANG Qing -shan 1,HUANG Can 2,LI Yi -jun 3
(1. School of Mathematics and Statistics, Guangdong University of Foreign Studies, Guangzhou 510006, China;2. School of Management, Guangdong University of Technology, Guangzhou 510520, China;3. Lingnan College, Sun Yat-sen University, Guangzhou 510275, China)
Abstract : Zero inefficiency stochastic frontier model (ZISF) contains regression model and stochastic frontier model, which are with certain probability respectively. Thus ZISF can accommodate the presence of both efficient and inefficient firms. Now the theoretical researches about ZISF are rare. Especially for spatial ZISF, the existing ZISFs are with poor applicability. By incorporating spatial effects and nonparametric functions into ZISF, semiparametric spatial ZISF is constructed in this paper. The semiparametric spatial ZISF can avoid under-fitting derived from linear model and the biased and inconsistent estimators derived from neglecting spatial effects. B-splines are used to approximate nonparametric function and the model has been changed into linear spatial ZISF. The two order norm of approximate error can converge to zero quickly, so the approximate error can be neglected. Maximum likelihood method and JLMS method are used to estimate parameters and technical efficiencies respectively. The Monte Carlo simulation shows that: (i) The method in this paper is with high estimation accuracies for parameters, nonparametric functions and technical efficiencies and with high classification for technical efficiencies. With sample size increasing, the accuracies become higher. (ii) Neglecting any one of effect such as spatial effect or nonparametric effect will get lower estimation accuracies and classification accuracies. So the model in paper is necessary. (iii) The nonparametric effect in production function or in probability of occurrence has different impact on the estimation and classification accuracies. When the nonparametric effect in production function is neglected, there is only a small reduction for the estimation and classification accuracies. While the nonparametric effect in probability of occurrence is neglected, the estimation and classification accuracies have been substantially decreased.
Key words : stochastic frontier model; zero technical inefficiencies; spatial effect; nonparametric function; Monte Carlo simulation
文章编号 :1003-207(2019)03-0020-10
DOI: 10.16381/j.cnki.issn1003-207x.2019.03.003
中图分类号 :O212
文献标识码: A
收稿日期 :2016-09-27;
修订日期: 2017-03-13
基金项目 :国家统计局全国统计科学研究一般项目(2018LY81);广东省哲学社会科学规划项目(GD17XYJ07);教育部人文社会科学规划基金资助项目(16YJA910001)
通讯作者简介 :黄灿(1985-),男(汉族),广东饶平人,广东工业大学管理学院讲师,博士,研究方向:社会网络与公司金融,E-mail: van017@163.com..
标签:随机前沿模型论文; 零技术无效率项论文; 空间效应论文; 非参函数论文; 蒙特卡罗模拟论文; 广东外语外贸大学数学与统计学院论文; 广东工业大学管理学院论文; 中山大学岭南学院论文;