无金标准部分核实数据下基于 风险差的等价性检验
邱世芳,何 杰
(重庆理工大学 理学院, 重庆 400054)
摘 要: 基于2个有误判分类器下的部分核实数据对2组疾病流行率进行比较研究,在2种模型下考虑了基于风险差的wald型检验、似然比检验、Score检验、基于反双曲正切变换的检验等6个统计量,通过随机模拟考察了各种检验犯第一类错误的概率和经验功效,用实际数据分析进一步验证了所提方法的有效性。
关 键 词: 风险差;有误判分类器;部分核实数据;Score检验
在流行病学研究中,为了估计某种疾病的流行率,常使用价格便宜的筛检方法对个体进行第一次诊断。由于筛检方法常存在误判,从而导致基于有误判数据的估计常常是有偏的[1]。在实际中,完全的金标准是不存在的,同时其花费很高且非常耗时。为此,Tenenbein[2]提出了二重抽样方法,即从感兴趣的总体中随机抽取N 个个体接受易犯错的分类器分类,再从中随机抽取n 个个体接受金标准检验。这种方法叫作二重抽样方法,得到的数据称为部分核实数据[3]。
基于Tenenbein[2]提出的二重抽样方法得到的部分核实数据,Tang等[3]研究了单个总体下的疾病流行率的假设问题,考虑了基于Score检验、似然比检验以及2种Wald型检验的大样本渐近的检验过程以及小样本近似非条件检验过程;Tang等[4]基于上述检验统计量提出了关于疾病流行率的12种区间估计方法;并从显著性检验的角度和区间估计的角度考虑了样本量的确定方法[5];对于2组样本情形,Tang等[6]基于比例差考虑了2组疾病流行率的显著性差异的假设检验过程,以及从检验功效的角度研究了样本量的确定问题;同时,Qiu等[7]考虑了2组样本下关于疾病流行率差的区间估计方法,从置信区间的角度研究了2组样本的疾病流行率的显著性差异问题。
以上研究中有一个重要的假定是存在一种完全无误判的金标准。但在实际应用中,完全准确的金标准检验也许根本不存在。为此,安金兵等[8]考虑了在无金标准条件下的诊断试验;Qiu等[9]在2种分类器都有误判的情况下,基于单组样本下的部分核实数据考虑了基于疾病流行率的假设检验过程以及样本量的确定,以及邱世芳等[10]从区间估计的角度研究了在给定置信水平下区间宽度控制下的样本量的估计问题。但Qiu等[9-10]只考虑单组样本下的部分核实数据对疾病流行率的显著性检验过程。而实际生活中,疾病流行率可能会受到年龄、生活习惯等的影响。为此,本文在此基础上进一步考虑2组独立的无金标准部分核实数据下基于风险差的显著性检验问题。
1 数据结构
在2种分类器都有误判的情况下,假设从第j 组感兴趣总体中随机抽取了N j 个个体进行初级分类器(J )分类,再从N j 个个体中随机抽取n j 个个体进行高级分类器(S )分类,得到频数为n ikj (i ,k =0,1,j =1,2)。其中,N j -n j 个个体只接受了初级分类器的分类;x j 表示检验为阳性的个体数;y j 表示检验为阴性的个体数,数据结构由表1所示。
表1 第j 组的数据结构
令D j =1表示患病,D j =0表示不患病,J j =1表示初级分类器诊断个体呈阳性,反之J j =0;S j =1表示高级分类器诊断个体呈阳性,反之S j =0。令π j =P (D j =1)为第j 组感兴趣总体真实的患病率,η j =P (J j =1|D j =1)和θ j =P (S j =1|D j =1)分别表示第j 组样本下初级分类器和高级分类器的敏感度。本文假定两种分类器都不存在假阳性。
2)污水流速为0.2 m/s对水侧换热系数的影响很大,换热系数由4 368增大到5 545 W/m2·K,增大约27%,而后当污水流速再增大到0.25 m/s,水侧换热系数约6 048 W/m2·K,增大为仅9%.说明从0.2 m/s后,污水速度提高对水侧换热系数影响趋势不太明显.
粗铅电解前要进行火法精炼,而火法精炼的目的是除去粗铅中的Cu、Sn并调整Sb的含量。粗铅火法初步精炼除铜有熔析和加硫两种方法,初步脱铜用熔析法,深度脱铜用加硫法。
2 假设检验
其中是第j 组的Score函数,是第j 组中关于(π j ,η j ,θ j )的3×3 Fishier信息阵的逆矩阵中第1行第1列的元素(j =1,2),具体推导见附录1。在原假设H0:δ =0下,当N 1和N 2趋近无穷大时,T sc 的渐近分布为自由度为1的卡方分布。
H0:π 1=π 2↔H1:π 1≠π 2
令δ =π 2-π 1,上述的假设检验就可变为:
H0:δ =0↔H1:δ ≠0
2.1 模型1 和检验统计量
假定初级分类器和高级分类器的分类结果是条件独立的,即满足P (J j ,S j |D j )=P (J j |D j )P (S j |D j ),j =1,2。在此假定下,可得如下的概率模型(Nedelman[11]),其概率分布如表2所示。
表2 第j 组的概率分布
令m ={(n 11j ,n 10j ,n 01j ,n 00j ,x j ,y j ):j =1,2}为观测数据,则观测数据m 的对数似然函数为:
l 1(m ;π 1,δ ,η 1,θ 1,η 2,θ 2)=
n 01j +x j )logη j +n 10j log(1-η j )+
(n 11j +n 10j )logθ j +n 01j log(1-θ j )+
n 00j log[1-π j (η j +θ j -η j θ j )]+
y j log(1-π j η j )}
(1)
其中,π 2=π 1+δ ;C 1是一个与参数无关的常数。
简单计算可得π 1、δ 、η j 、θ j (j =1,2)的非限制性极大似然估计,分别为:
(2)
一矿共有三对副井,即院内副井、北一副井、北二副井,分别服务于一、二、三水平,均为立井提升,负责各水平的升降人员和提升物料等辅助提升任务。院内副井提升系统核定能力为173.83万t/a,北一副井提升系统核定能力为292.82万t/a,北二副井提升系统核定能力为92.41万t/a,提升系统总核定结果为559万t/a。
(3)
假定初级分类器和高级分类器存在假阳性且条件不独立时,根据Lie[13]提出的模型,其概率分布如表3所示。
其中从而得到和的方差分别为:
(4)
其中的限制性极大似然估计可通过求解方程组(5)得到:
(5)
此方程组的解没有显表达式,可用迭代方法如牛顿迭代法求解。
2.1.1 Wald型检验统计量
EPSB工程菌生物生态水污染综合治理技术是四川清和科技有限公司研发的一种从底层微生物开始修复水生态、重建生物链、倡导生物多样性、还本自然、消除水污染的专利技术。该技术的主要产品由EPSB工程菌菌液、菌粉、固化颗粒及微胶囊等系列产品组成,产品丰富,可根据不同目标水域的水质情况针对性选择使用,具有生物安全性高、无二次污染等特点。其核心是引入竞争性的EPSB工程菌治理水污染,控制蓝藻水华,平衡菌藻共生体系,在营养竞争性、生存适应性、生长高效性、菌种稳定性以及生物安全性等多方面具有显著优势,是发展潜力巨大的技术手段之一。
和
在原假设H0:δ =0下,当N 1和N 2趋近无穷大时,T w1 和T w2 的渐近分布为标准正态分布。
2.1.2 似然比检验统计量
根据式(1)给出的对数似然函数,对于假设检验H0:δ =0↔H1:δ ≠0有如下的似然比检验统计量:
双辊筒开放式炼胶机电力拖动系统改造前后能耗对比如下表1、表2所示:其中有效工作日指除节假休息日、机床维修等停机时间后的有效工作天数。
在原假设H0:δ =0下,当N 1和N 2趋近无穷大时,T l 的渐近分布为自由度为1的卡方分布。
前面从绵阳某区域电网的电压暂降实际问题出发,以绵阳地区某220 kV变电站为例,首先建立了该变电站的电路模型,对电压暂降事件进行了深入研究,并结合现场数据实测分析得出电压暂降事件的发生原因。进而对于电压暂降问题提出了缓解方案,对该变电站改善后的电压暂降事件进行了预估计。最后,讨论了敏感设备曲线上电压暂降事件的分布情况,为用户选择敏感设备提出了建议。
2.1.3 Score检验统计量
式中:qi为单位流量向量;Kij为渗透系数张量;kr(S)为相对渗透系数,饱和区kr(S)=1,非饱和区0
对于陷入财务困境的上市公司,往往出现越补越亏和政府补助 “依赖症”的情况,政府补助能否同样吸引社会投资者跟进存在争议。潘越等(2009)[8]论证了财务困境企业收到政府补助对促进国有企业和强政治关联的民营企业的长期业绩作用并不明显。杜勇等 (2016)[9]发现获得政府补助的上市公司在亏损当年会减少亏损,但是长期来看,由于寻租等成本加大了企业负担,政府补助对于亏损企业的业绩扭亏存在抑制作用。社会投资者跟进目标在于私人回报最大化,那么对于亏损企业收到的政府补助,其是否会因为顾虑业绩扭转受限等因素而放弃跟进是一个值得思考的问题。
根据Rao[12]提出的score理论,对于假设检验H0:δ =0↔H1:δ ≠0,经过推导得到如下的score检验统计量:
本文感兴趣的问题是如下的假设检验:
新课程下,开展小学语文教学时,通过运用合作学习法,能够较好地促进学生的成长与发展,也有助于教育事业的开展。就合作教学存在的问题而言,需要教师科学合理地运用该方式,同时要求教师正确认识该方法存在的优缺点。只有不断提升教学与组织能力,才能更好地进行合作学习,为其今后的学习与成长做好准备。
2.1.4 基于反双曲正切变换的检验统计量
对进行反双曲正切逆变换可得:通过delta方法可得的渐近方差为:基于2.1.1中得到的的方差估计,可得如下的反双曲正切变换的检验统计量:
和
在原假设H0:δ =0下,当N 1和N 2趋近无穷大时,T tan1和T tan2的渐近分布为标准正态分布。
2.2 模型2 和检验统计量
在H0:δ =0下,π 1的限制性极大似然估计为:
大数据跟我们每个人相关,但我们绝大多数人其实并不掌握大数据,当然也不能从中直接获益。大数据掌握在极少数的机构手里,掌握在腾讯、阿里、百度等大公司手里。我们每个身处互联网的人其实不过扮演了大数据采集节点供应器的角色,让自己的数据汇入大数据的洪流之中,但我们闹得再欢腾,却也不过仅仅如此而已。我们绝大多数的个体并不是大数据宴会的真正拥有者,我们只是大数据的贡献者甚至是牺牲者。
表3 第j 组的概率分布
注:j =1,2
观测样本m 的对数似然函数为:
l 2(m ;π 1,δ ,η 1,θ 1,η 2,θ 2)=
C 2+(n j -n 00j +x j )log(π j )+
n 00j log(1-π j )+x j logη j +
n 10j log(1-η j )+n 01j log(1-θ j )+
y j log(1-π j η j )+n 11j log(η j +θ j -1)
(6)
其中:π 2=π 1+δ ;C 2是一个与参数无关的常数。
经过简单计算,可得π 1,δ ,η j ,θ j (j =1,2)的非限制性极大似然估计,分别为:
经综合考虑,初步拟定采用包裹式接头型式。考虑旁多工程覆盖层深,地震设计烈度高,地处高海拔地区,一期与二期心墙之间、心墙与过渡料之间、分期施工及蓄水后心墙变形及应力条件复杂。为验证包裹式接头型式的合理性,选择合理沥青砂浆配合比和砂浆厚度等参数,保证接头具有良好的适应变形能力、抗渗性能、抗震性能等,需开展包裹式接头型式专项研究。
(7)
同模型1,可以得到2种反双曲正切逆变换的检验统计量:
(8)
其中,
在H0:δ =0下,π 1的限制性极大似然估计为:
(9)
η j ,θ j (j =1,2)的限制性极大似然估计可通过求解以下方程组得到:
由此,得到如下的估计:
(10)
其中,
2.2.1 Wald型检验统计量
同理,用2种不同的方法得到的方差,从而可得到2种Wald检验统计量:
和
其中,和是式(8)给出的方差中参数分别用式(7)给出的非限制性极大似然估计和式(9)(10)给出的限制性极大似然估计代替得到。在原假设H0:δ =0下,当N 1和N 2趋近无穷大时,T w1 和T w2 的渐近分布为标准正态分布。
为避免变量的非平稳性引起伪回归,需要对各个变量进行平稳性检验。面板数据平稳性检验一般通过单位根检验来实现,常常采用两种方法,相同根情形下的LLC(Levin-Lin-Chu)检验和不同根情形下的Fisher-ADF检验。如果只通过了其中一个检验,则面板数据是不平稳的,两种检验结果都表示变量平稳时,面板数据才是平稳的。本文以LLC检验和Fisher-ADF检验对所设定面板模型的各个变量进行检验,结果见表1。由表1可以看出,各变量均表现为一阶单整,即一阶差分数据都是平稳的。
2.2.2 似然比检验统计量
由式(6)可得到如下的似然比检验统计量:
在原假设H0:δ =0下,当N 1和N 2趋近无穷大时,T l 的渐近分布为自由度为1的卡方分布。
2.2.3 Score检验统计量
在原假设H0:δ =0成立下,可以得到Score检验统计量:
其中是第j 组的score函数,是模型2下的第j 组中关于(π j ,η j ,θ j )的3×3 Fishier信息阵的逆矩阵中第1行第1列的元素(j =1,2),具体推导见附录2。在原假设H0:δ =0下,当N 1和N 2趋近无穷大时,T sc 的渐近分布为自由度为1的卡方分布。
2.2.4 基于反双曲正切变换的检验统计量
的方差估计为:
和
在原假设H0:δ =0下,当N 1和N 2趋近无穷大时,T tan1和T tan2的渐近分布为标准正态分布。
3 模拟研究
为评估T w1 、T w2 、T sc 、T l 、T tan1和T tan2检验方法的有效性,考虑了如下样本量的模拟研究:① 小样本:(n 1,n 2,N 1,N 2)=(20,20,30,30),(30,30,50,50);② 中等样本(n 1,n 2,N 1,N 2)=(50,50,100,100);③ 大样本:(n 1,n 2,N 1,N 2)=(200,200,500,500)。
在不同的样本量设置下,考察犯第一类错误的概率时考虑了如下参数设置:π 1=0.1(0.2)0.5,η 1=0.5(0.1)0.7,θ 1=0.7(0.1)0.9,η 2=η 1+0.05,θ 2=θ 1+0.05,即考虑了3(π 1的值)×3(η 1(η 2)的值)×3(θ 1(θ 2)的值)=27种参数组合。对于检验功效考虑了:δ =0.1(0.01)0.3,π 1=0.1(0.2)0.5,(η 1,θ 1)=(0.5,0.7),(0.6,0.8),(0.7,0.9),η 2,θ 2同以上设置,即考虑了3(δ 的值)×3(π 1的值)×3((η 1,θ 1)的值)=27种参数组合。这里的a (b )c 表示取值是从a 以步长b 变化到c 。在每个样本量设置和每种参数设置下,随机产生5 000组数据m ={(n 11j ,n 10j ,n 01j ,n 00j ,x j ,y j ):j =1,2},在显著性水平α =0.05下,对于每个检验统计量T i (i =w 1,w 2,sc ,l ,tan1,tan2),其犯第一类错误的概率可通过以下公式计算:基于统计量T i 拒绝原假设的次数/5 000(δ =0),经验功效通过以下公式计算基于统计量T i 拒绝原假设的次数/5 000(δ ≠0)。犯第一类错误概率的模拟结果见表4~7。由于篇幅的限制,只列出了小样本和中等样本下的部分功效的模拟结果,见表8~9。
式(3)得到的的方差可通过2种方式获得其估计,一是不考虑原假设下的估计;二是考虑原假设下的估计,即将参数π 1、δ 、η j 、θ j 用相应的非限制性极大似然估计代替,得到不考虑原假设下的方差估计三是用相应的限制性极大似然估计代替,得到原假设下的方差估计从而得到Wald型检验统计量,分别为:
表4 小样本(n 1,n 2,N 1,N 2)=(20,20,30,30)下犯第一类错误的概率(显著性水平α =0.05)
表5 小样本(n 1,n 2,N 1,N 2)=(30,30,50,50)下犯第一类错误的概率(显著性水平α =0.05)
续表(表5)
表6 中等样本(n 1,n 2,N 1,N 2)=(50,50,100,100)下犯第一类错误的概率(显著性水平α =0.05)
续表(表6)
表7 大样本(n 1,n 2,N 1,N 2)=(200,200,500,500)下犯第一类错误的概率(α =0.05)
表8 小样本(n 1,n 2,N 1,N 2)=(20,20,30,30)下的经验功效(显著性水平α =0.05)
表9 中等样本(n 1,n 2,N 1,N 2)=(50,50,100,100)下的经验功效(显著性水平α =0.05)
续表(表9)
通过模拟结果可以得到以下结论:① 对于2个模型,即使在极小样本(如(n 1,n 2,N 1,N 2)=(20,20,30,30))下,Score检验统计量(T sc )犯第一类错误概率接近给定的显著性水平(α =0.05),相应的功效也比较大,随着样本量的增大,犯第一类错误的概率越来越接近显著性水平0.05且功效越来越大;② 对于模型1,除了小样本情形,考虑原假设下方差的Wald检验统计量(T w2 )、Score检验(T sc )以及反双曲正切变换统计量(T tan2)都表现良好,它们犯第一类错误的概率都比较接近于给定的显著性水平0.05,且有较大的功效;③ 对于模型2,在中等样本和大样本且犯病率不是极小时,所有检验统计量犯第一类错误的概率都基本接近名义水平且具有较高的功效。综上所述,在模型1下,推荐使用T w2 、T sc 和T tan1;在模型2下,当样本量极小时(如(n 1,n 2,N 1,N 2)=(20,20,30,30)),推荐使用Score统计量,在样本量不是极小时,所有统计量都可以推荐使用。
4 实例分析
为了验证本文提出方法的有效性,利用Nedelman[11]研究中的疟疾数据进行分析。考虑了未成年组(即9~18岁)的2个不同组的疟疾数据,数据结构见表10。
表10 实例数据
对于假设检验:H0:δ =0↔H1:δ ≠0,在模型1下,基于本文考虑的检验统计量T w1 、T w2 、T l 、T sc 、T tan1、T tan2的检验p 值分别为:0.113、0.130、0.129、0.184、0.115、0.132。由此,没有充分理由拒绝原假设,认为疟疾的患病率与不同的调查组无关。在模型2下,本文所提出的检验统计量的检验p 值分别为:0.127、0.141、0.143、0.145、0.128、0.142,同样认为没有充分理由拒绝原假设,即认为疟疾的患病率与不同的调查组无关。
5 结束语
本文基于2个有误判分类器下的二重抽样数据对2组患病率进行了比较研究,分别考虑2个二重抽样模型的6种检验统计量,并通过不同样本量和不同参数设置考察了它们犯第一类错误的概率和检验功效。对于模型1,即使在极小样本下,Score检验以及反双曲正切统计量都表现良好,在样本量不太小时,似然比统计量也能很好地控制犯第一类错误的概率;对于模型2,本文所考虑的所有检验统计量(在中等样本和大样本下且犯病率不是极小时)都表现很好。在2个模型中,考虑初级分类器和高级分类器不存在假阳性,在实际的模型中该条件可能不存在,但如果2种分类器都存在假阳性分类时,本文考虑的模型是不可识别的。此时,可以考虑采用贝叶斯统计方法进行研究,这是一个将来值得研究的问题。
参考文献:
[1] BROSS I.Misclassification in 2×2 tables[J].Biometrics,1954,10(4):478-486.
[2] TENENBEIN A.A double sampling scheme for estimating from binomial data with misclassifications[J].Journal of the American Statistical Association,1970,65(331):1350-1361.
[3] TANG M L,QIU S F,POON W Y,et al.Test procedures for disease prevalence with partially validated data[J].Journal of Biopharmaceutical Statistics,2012,22(2):368-386.
[4] TANG M L,QIU S F,POON W Y.Confidence interval construction for disease prevalence based on partial validation series[J].Computational Statistics & Data Analysis,2012,56(5):1200-1220.
[5] QIU S F,POON W Y,TANG M L.Sample size determination for disease prevalence studies with partially validated data[J].Statistical Methods in Medical Research,2016,25(1):37-63.
[6] TANG M L,QIU S F,POON W Y.Comparison of disease prevalence in two populations in the presence of misclassification[J].Biometrical Journal,2012,54(6):786-807.
[7] QIU S F,POON W Y,TANG M L.Confidence intervals for proportion difference from two independent partially validated series[J].Statistical Methods in Medical Research,2016,25(5):2250-2273.
[8] 安金兵,曹波,王强.无金标准条件下的诊断试验一致性检验[J].中国卫生统计,2007,24(1):76-78.
[9] QIU S F,ZENG X S,TANG M L,et al.Test procedure and sample size determination for a proportion study using a double-sampling scheme with two fallible classifiers[J].Statistical Methods in Medical Research,2019,28(4):1019-1043.
[10] 邱世芳,曾小松.不完全无误判金标准下二重抽样设计中样本量的确定[J].重庆理工大学学报(自然科学),2018,32(1):195-204.
[11] NEDELMAN J.The prevalence of malaria in Garki,Nigeria:double sampling with a fallible expert[J].Biometrics,1988,44(3):635-655.
[12] RAO C R.Linear statistical inference and its applications(2nd ed)[M].New York:Wiley,1985.
[13] LIE RT,HEUCH I,IRGENS L M.Maximum likelihood estimation of the proportion of congenital malformations using double registration systems[J].Biometrics,1994,50:433-444.
附录:
Score检验统计量的有关推导:
电气材料与设备作为影响电气安装工程施工质量的关键因素,若想提升建筑电气安装工程的施工质量,需要做好以下方面的质量控制工作。
1.模型1下的Fisher信息矩阵
l j (m ;π j ,η j ,θ j )=C +(n j -n 00j +x j )logπ j +(n 11j +n 01j +x j )logη j +n 10j log(1-η j )+
(n 11j +n 10j )logθ j +n 01j log(1-θ j )+n 00j log[1-π j (η j +θ j -η j θ j )]+y j log(1-π j η j ),j =1,2
Fisher信息阵的元素分别为:
Fisher信息阵的逆矩阵中第一个对角元素为:
2.模型2下的Fisher信息矩阵
l j (m ;π j ,η j ,θ j )=C +(n j -n 00j +x j )logπ j +x j logη j +n 10j log(1-η j )+n 01j log(1-θ j )+
n 00j log(1-π j )+y j log(1-π j η j )+n 11j log(η j +θ j -1),j =1,2
Fisher信息阵的元素分别为:
Fisher信矩阵的逆矩阵中第一个对角元素为:
Equivalence Test of Risk Difference for Partially Validated Series with Two Fallible Classifiers
QIU Shifang, HE Jie
(College of Science, Chongqing University of Technology, Chongqing 400054, China)
Abstract : Comparison of disease prevalence in two populations based on partially validated series with two fallible classifiers is considered in this article. The wald-type tests, likelihood ratio test, Score test and tests based on the inverse hyperbolic tangent transformation are proposed under two models, respectively. The performance of the various tests is evaluated in term of type I error rates and empirical powers via simulation studies. A real data is used to illustrate the proposed methodologies.
Key words : risk difference; fallible classifier; partially validated series; score test
收稿日期: 2018-11-28
基金项目: 国家自然科学基金资助项目(11471060,11871124);国家统计局统计科研重点项目(2017LZ27);重庆市科委项目(cstc2018jcyjAX0241)
作者简介: 邱世芳,女,博士,教授,主要从事生物医学统计研究,E-mail:sfqiu@cqut.edu.cn;何杰,女,硕士研究生,主要从事应用统计研究,E-mail:962738857@qq.com。
doi: 10.3969/j.issn.1674-8425(z).2019.10.030
本文引用格式: 邱世芳,何杰.无金标准部分核实数据下基于风险差的等价性检验[J].重庆理工大学学报(自然科学),2019,33(10):191-202.
Citation format :QIU Shifang, HE Jie.Equivalence Test of Risk Difference for Partially Validated Series with Two Fallible Classifiers[J].Journal of Chongqing University of Technology(Natural Science),2019,33(10):191-202.
中图分类号: C815
文献标识码: A
文章编号: 1674-8425(2019)10-0191-12
(责任编辑 陈 艳)
标签:风险差论文; 有误判分类器论文; 部分核实数据论文; Score检验论文; 重庆理工大学理学院论文;