依赖风险下医疗成本预测模型及其应用_随机变量论文

相依风险条件下的医疗费用预测模型及其应用，本文主要内容关键词为：条件下论文,医疗费用论文,及其应用论文,模型论文,风险论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

近几年，国内医疗改革不断深入，但“看病难、看病贵”仍是整个社会要面临的难题。看病贵主要体现在医疗费用居高不下。在医疗费用的预测中，经常假设门诊费用与住院费用相互独立，如刘媛媛等分析了心绞痛患者的住院医疗费用的影响因素[1]，杜修立和俞乔研究了住院医疗费用的影响因素[2]，王雪梅等研究了腹膜透析病人的门诊医疗费用[3]等，李林和刘国恩研究了医疗费用与盈利性医院发展的关系[4]。由于影响住院费用和门诊费用的因子是不相同的，分开考虑，便于研究，计算也相对简单。但事实上，门诊费用与住院费用是密切相关的，忽视了它们之间的相关关系，会导致对医疗费用的预测过低或过高。

Copula是一种通过单个变量的边缘分布构造多个变量的联合分布的一种数学方法，可以将多元随机变量的边缘分布和它们之间的相关结构分开研究，相关结构不受边缘分布的限制，有关Copula的文献很多，如Nelsen最早系统地介绍了Copula的有关理论[5]；Patton综述了Copula方法在金融和经济领域的应用[6]；Czado等和

等利用Copula函数研究了非寿险领域中损失次数与损失强度的相依关系，得到损失次数服从零截断泊松分布、损失强度服从伽玛分布的Copula回归模型[7-8]，并编写了R程序包copreg[9]；孟生旺和刘新红在此基础上研究了损失次数服从零截断泊松分布、损失强度服从伽玛和逆高斯分布的Copula回归模型[10]；Brechmann和Schepsmeier基于Vine Copula函数的研究，编写了R程序包VineCopula和CDVine[11]。

本文在前述研究的基础上，将门诊费用和住院费用的分布假设进行了推广，分别采用伽玛分布、逆高斯分布、对数正态分布和GB2分布建立它们的预测模型，并用Gauss Copula、Student t Copula、Clayton Copula、Gumble Copula、Frank Copula、Joe Copula、BB1 Copula、BB6 Copula、BB7 Copula和BB8 Copula来描述门诊费用与住院费用之间的相依关系，最后通过一个实例验证了Copula回归模型的优越性。目前还没有看到基于Copula回归模型对医疗费用进行预测的应用研究，因此本文的实证分析具有一定的现实意义。

1 门诊费用与住院费用的预测模型

为了便于建立门诊费用和住院费用的预测模型，首先定义门诊费用强度和住院费用强度。门诊费用强度定义为门诊费用除以门诊次数，记为

，住院医疗费用强度定义为住院费用除以住院次数，记为

。门诊费用强度和住院费用强度的分布可以用伽玛分布（GA）、逆高斯分布（IG）、对数正态分布（LN）和GB2分布进行描述。伽马分布的概率密度函数为：

逆高斯分布的概率密度函数为：

对数正态分布的概率密度函数为：

GB2分布的概率密度函数为：

当门诊费用强度和住院费用强度采用上面四种分布中的任何一种时，即可建立相应回归模型：

2 描述门诊费用与住院费用相依性的Copula函数

根据Sklar定理[5]，若F和G是随机变量X，Y的边缘分布函数，H是随机向量（X，Y）的联合分布函数，则存在一个Copula函数C（u，v）满足

H（x，y）=C（F（x），G（y））

如果F和G都是连续的，则C是唯一确定的；反之，如果C是一个Copula函数，F和G分别是随机变量X，Y的分布函数，则联合分布函数H可以通过上式得到。H（x，y）的密度函数可以表示为：

h（x，y）=c（F（x），G（y））f（x）g（y）

（2）

上式中，c表示Copula的密度函数，f（x）和g（y）分别为随机变量X和Y的边缘概率密度函数。h（x，y）是随机向量（X，Y）的联合密度函数。

下面给出本文使用的Gauss Copula、Student t Copula函数和阿基米德Copula函数的生成函数及其Kendall's τ秩相关系数。

（1）Gauss Copula函数

（2）Student t Copula函数

（3）Clayton Copula的生成函数

（4）Gumbel Copula的生成函数

当θ=1时，随机变量相互独立；当θ→+∞时，随机变量完全相关。Kendall's τ秩相关系数为

。

（5）Frank Copula的生成函数

当θ→0时，随机变量相互独立；Frank Copula的密度函数具有对称性，其密度分布呈“U”字型，只适用于具有对称结构的尾部相关模式，无法捕捉随机变量间非对称的相关关系。Kendall's τ秩相关系数为

，其中

（6）Joe Copula的生成函数

（7）BB1 Copula的生成函数

（8）BB6 Copula的生成函数

（9）BB7 Copula的生成函数

（10）BB8 Copula的生成函数

3 门诊费用与住院费用的Copula回归模型

在现实中，每个风险类别的住院费用Y与门诊费用X往往是相关的，两随机变量X，Y的联合分布可借用Copula函数刻画。相关性的大小可通过Kendall's τ秩相关系数来衡量。

医疗费用（包含门诊费用和住院费用）的概率密度函数可以表示为：

下面将前述的Copula回归模型应用于一组实际的医疗费用数据（来自文献[12]），该数据由2000个个体数据组成，其中157人至少发生了1次住院费用，1352人至少发生了1次门诊费用。数据中发现有2个异常值，删除后取对数进行分析。Frees应用Logit模型和Probit模型分析了住院频率问题，应用伽玛分布和逆高斯分布的广义线性模型分析了住院费用问题[12]，解释变量包括年龄（AGE）、性别（GENDER）、是否购买保险（INSURE）、居住区域（REGION）和健康状况（PHSTAT）等。

在不考虑解释变量的情况下，门诊费用强度与住院费用强度的Pearson相关系数为0.0144，样本的Spearman秩相关系数为0.2466，样本的Kendall's τ秩相关系数为0.1756，说明此数据中门诊费用强度与住院费用强度是秩相关的。

3.1 门诊费用强度和住院费用强度的回归模型

假设门诊费用强度和住院费用强度分别服从伽玛分布、逆高斯分布、对数正态分布和GB2分布的条件下，相应回归模型的参数估计结果如表1和下页表2所示。在该表中，括号内的数据表示参数估计的标准误。

从表1和表2可以看出，边际分布选择GB2分布最好，因为其AIC值最小。在门诊费用强度的分析中，年龄（AGE：范围为18到65岁）、是否购买保险（INSURE：基准水平为“没有购买保险”）、健康状况（PHSTAT：PHSTAT1表示“健康状况很好”，PHSTAT2表示“健康状态好”，PHSTAT3表示“健康状态一般”，PHSTAT4表示“健康状况差”，基准水平为“健康状态优秀”）、居住区域（REGION：REGION1表示“东北部地区”，REGION2表示“中西部地区”，REGION3表示“南部地区”，基准水平为“西部地区”）和性别（GENDER：基准水平为“男性”）的系数显著不为零。在住院费用强度的分析中，年龄（AGE）和是否购买保险（INSURE）的系数显著不为零。从表1和表2还可以看出，不同分布假设下的门诊费用强度和住院费用强度的参数估计结果比较接近。从门诊费用模型的参数估计值来看，年龄（AGE）较大的患者、购买了健康保险（INSURE）的患者和健康状况（PHSTAT）较差的患者，门诊费用较高，而东北部地区（REGION1）和女性患者的门诊费用较低，如在GB2分布的模型中女性的门诊费用强度比男性低2.22%左右。从住院费用服从GB2分布的模型的参数估计值来看，年龄每增加一岁，住院费用增加0.28%，购买了健康保险的患者，其住院费用会增加9.76%。

3.2 门诊费用强度和住院费用强度的相依关系

门诊费用强度与住院费用强度的相依关系可以通过K-图和Chi-图进行分析。K-图中的45°直线代表两个随机变量完全相互独立，平滑的曲线代表两个随机变量完全正相依。Chi-图是基于

统计量检验两个随机变量是否相互独立。χ统计量服从正态分布N（0，1/n），其中n为样本容量。χ的值越接近0，说明两个随机变量独立。Chi-图中的虚线是原假设的接受域（上下限），超出上限，说明样本是正相依的。低于下限，说明样本是负相依的。落在上下限之间的样本是相互独立的。

从K-图和Chi-图可以看出，门诊费用强度和住院费用强度具有正相依关系。能描述正相依关系的Copula函数有很多，如Gauss Copula，Student t Copula、Frank Copula等。

Copula函数中的参数可以应用下述两种方法进行估计：一种是所谓的IFM方法，即首先得到边际分布的参数估计、样本的分布函数值，然后利用极大似然法估计Copula函数中的参数；另一种是基于Kendall's τ值的矩估计方法（即IKT方法），该方法适用于只有1个参数的Copula函数。两种方法的估计结果如表3所示。

从表4可以看出，Frank Copula的Clarke检验的得分是次高的，而从AIC的角度看，Frank Copula是最优的。

Cramér-von Mises统计量（CvM）和Kolmogorov-Smirnov统计量（KS）可以检验选取的Copula函数与样本数据的拟合优度。从表5中可以看出，对于这两个统计量，在显著性水平为0.05的条件下，Gaussian Copula、Student t Copula、Frank Copula和BB8 Copula函数都没有被拒绝。

基于上述各种检验和AIC值，可以认为用Frank Copula函数描述门诊费用和住院费用的相依关系是最优的。

在使用Frank Copula函数和伽玛边际分布假设的情况下，门诊费用强度的回归模型参数估计值与独立假设下的参数估计值（表1中的数据）比较接近，但身体状况很好（PHSTATI）和身体状况好（PHSTAT2）的参数估计值由正变为了负。在独立假设下，身体状况很好和身体状况好的患者比身体状态优秀的患者门诊费用分别增加2.0609%和2.9013%，在相依的假设下，身体状况很好和身体状况好的患者比身体状态优秀的患者门诊费用分别减少3.1088%和2.9823%。而女性患者的门诊费用由独立假设下的比男性低2.24%左右，变为比男性的门诊费用增加1.56%左右。住院费用强度的回归模型的参数估计值分别为1.9122、0.0023和0.1449，与独立假设下的参数估计值（表2中的数据）非常接近。Frank Copula函数中的参数为1.4700，Kendall's τ值为0.1599，接近IFM方法的估计结果。在独立假设下，门诊费用强度和住院费用强度都服从伽玛分布的AIC为886.0365，而由Frank Copula连接的Copula回归模型的AIC为864.3092，说明Copula回归模型更优。

4 小结

在门诊费用与住院费用相互独立假设下建立的预测模型往往会低估医疗费用。本文通过一个实例验证了门诊费用与住院费用的正向相依关系。Copula函数是刻画各种相依关系的有力工具。本文对各种Copula函数和各种分布假设下的回归模型进行了比较，结果表明，Frank Copula可以较好地描述门诊费用和住院费用的相依关系，而伽玛分布可以较好的拟合门诊费用和住院费用的边际分布，因此最终基于Frank Copula函数建立了医疗费用和住院费用的伽玛回归模型，结果表明，该模型要优于独立假设下的广义线性模型。

标签：随机变量论文; copula论文; 预测模型论文; 参数估计论文; 回归模型论文; 医疗论文; 风险模型论文;

依赖风险下医疗成本预测模型及其应用_随机变量论文

猜你喜欢