高维模型选择方法综述,本文主要内容关键词为:模型论文,方法论文,高维论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0 引言
所谓模型选择,就是利用统计学方法和准则从多个候选模型中选择最佳的一个。换言之,我们并不总是建立一个包含所有变量的模型,而是选取其中信息量最大的子集进行建模。模型选择自六七十年代以来一直是统计学的热点研究问题,各种方法和准则相继被提出。传统的模型选择方法可概括为子集选择法,包括全子集法、最优子集法、逐步(向前、向后)选择法等。评判模型好坏的准则包括AIC准则、BIC准则、Mallows'、交叉验证等。
模型选择的目标可归结为两个。一为模型预报的准确性,即选择合适的子模型使得其对新数据的预测更为准确。有些地方也将其称为模型的有效性。例如在判别问题中,研究者往往并不关心哪些变量被选入了模型或这些变量的系数估计是多少,而是关心所选择的模型能否将新样本点正确地归入相应的类别。二为选择模型的相合性,即选择模型是否与真实模型相同。弱相合性表述为样本量增加时选择模型依概率逼近于真实模型;强相合性表述为选择模型几乎必然是真实模型。通常我们并不假定真实的模型存在于候选模型中,上述相合性表述中的真实模型可由候选模型中最接近真实的模型替换。例如在遗传疾病研究中,人们最关心哪些位点(自变量)与疾病(因变量)有密切关联,这时选择模型的相合性显得尤为重要。不同的模型选择方法侧重于不同的目标,而有效性和相合性一般无法同时满足。
近年来,生物信息、图像处理、金融管理等领域产生的高维数据为模型选择提出了更大的挑战。这些领域的实验数据维数甚至超过样本量大小。例如在基因学中,受试者(样本)可能只有几百人,而观测的基因位点(变量)可能达到数千个。科学家需要通过这些样本选取与疾病相关的基因。传统的子集模型选择法存在计算成本大、最优化难以实现等问题不能满足分析的需要,进而促使一系列新兴选择方法如LASSO等的诞生。可以说高维数据的出现极大地推进了统计思想的改革和发展。
高维模型选择在实际中应用广泛。例如,在计算生物学中,利用微阵列和蛋白质数据的肿瘤判别和聚类问题严重依赖于模型选择方法,科学家需要在成千上万的基因表达数据中提取与疾病真正相关的变量;在医疗健康的实验中,有时会面临多维的纵向数据,每个病例在一段时间内的生命体征都会被记录多次,而真正与患病相关的风险因素只占很小的一部分,这也需要用统计的方法进行选择;在金融工程和风险管理领域,跨国公司为了抵御市场波动的影响,会根据历史数据选择一些重要的财政指标进行干预;除此之外,在网络数据挖掘、机器学习等领域,高维模型选择方法也被大量应用。更多的可参见Fan和Li[1]的文章以及其中的参考文献。
本文旨在给出高维数据模型选择方法的综述,以介绍新方法为主。传统的模型选择准则的综述性介绍可参考Claeskens和Hjort[2],子集模型选择方法综述可参考Hocking[3],Guyon和Elisseeff[4]以及王和张[5]。高维数据模型选择方法综述可参考Fan和Li[1]、Li和Xu[6],Hesterberg等[7]以及Fan和Lv[8]。本文将涵盖上述文献之重要观点,并从更全面的方法总结来给出模型选择的发展概况及未来方向。我们的讨论主要集中在线性模型的选择问题。大多数方法可以自然地推广到广义线性模型。半参数模型选择和非参数模型选择与线性模型选择有很多相似的地方,但不完全相同。感兴趣的读者可参考Bertin和Lecue[9]关于高维非参数模型选择的综述以及Li和Liang[10]对半参数模型选择的讨论等。
本文的结构安排如下:第一节将介绍惩罚因子模型选择方法,并给出判断方法好坏的一个标准,即Oracle性质。第二节介绍Dantzig Selector方法。第三节对从降维角度出发的模型选择方法进行概述。第四节将着重介绍实现模型选择的一个重要步骤,即调整参数的选择。第五节给出高维模型选择领域尚存的一些问题和可能的发展方向。
1 惩罚因子模型选择法
惩罚因子法是目前较为流行的可以较好处理高维模型选择的方法。该类方法可以同时实现变量选择和参数估计,即在估计参数时,通过将部分系数压缩到零来实现模型选择。本文将讨论限制在惩罚似然函数(或惩罚最小二乘),即最小化下述式子得到参数估计
1.1 LASSO方法及其推广
1.1.1 LASSO方法
Least Absolute Shrinkage and Selection Operator(LASSO)方法是Tibshirani[11]在Nonnegative Garrote(NG)方法[12-13]的基础上发展而来的,也是Bridge方法的一种特殊形式[14]。NG方法的参数估计如下:
当设计阵非列正交时,可给定λ然后使用二次算法求解参数估计。更一般地,可使用最小角回归算法(LARS)求解。具体可参见Efron等[15]以及王和张[5]。
LASSO方法形式简单,其利用惩罚项在零点的奇异性,以较大的概率将一部分不重要的变量系数压缩到零。除此之外,相比于岭回归,LASSO方法对重要变量(参数估计较大的变量)的系数压缩较轻,因此提高了参数估计的准确性。LASSO方法最重要的意义在于其计算复杂度较小,且参数估计具有连续性,可用于高维数据的模型选择。可以说,LASSO方法开辟了高维模型选择的新方向。
但LASSO方法也存在一些固有的缺陷。例如当p>n时,LASSO方法最多只能选取n个变量。它对变量之间的强关联性也十分敏感,Tibshirani[11]通过数据模拟得出在自变量存在共线性的情形下,LASSO方法的模型选择效果不及岭回归方法。值得指出的是,LASSO方法为预测指向型,即选择模型有较高的预测准确度,但相合性不好。只有在满足较强的条件时,LASSO模型选择法才是相合的。Zhao和Yu[16]模型选择的相合性进一步区分为强符号相合性和弱符号相合性,即选出的变量的系数估计的符号也应和真实的符号一致。他们还给出了LASSO方法满足符号相合性的几乎充要条件,即“不可表示条件”,并证明了“强不可表示条件”推出“强符号相合性”推出“弱符号相合性”推出“弱不可表示条件”。“不可表示条件”表述如下:
则称满足强不可表示条件。若将上述不等式右端换为“<1”,即为弱不可表示条件。显然,强不可表示条件蕴含弱不可表示条件。在实际中,真实系数往往是未知的,Zhao和Yu[16]给出了“强不可表示条件”的一些可以验证的充分条件,有兴趣的读者可以参考其文章。
LASSO方法在更多的模型选择问题中得到了进一步完善。针对参数估计的相合性、有序模型选择、群组模型选择等问题,人们将LASSO方法进行推广,得到了如下的一些衍生方法。
1.1.2 两步法LASSO方法
为了提高LASSO方法参数估计的准确性和相合性,对其进行修正是必要的,为此我们介绍两步法LASSO的两个例子:Relaxed LASSO与Adaptive LASSO。
Relaxed LASSO是由Meinshausen[17]提出的。它的主要思想为:先计算LASSO在由全路径方法选取的调整参数下的参数估计结果(调整参数选择将在第五节讨论),选出合适的变量;对于选出的变量,再次应用LASSO,但减小或者消除惩罚因子的作用,因此第二步不进行变量选择。由此,Relaxed LASSO会得到与普通LASSO方法同样的模型,但是回归参数估计不同,前者不会过度缩小非零参数,因为模型选择和参数估计被分成两个独立的过程。
上述方法是基于第一步LASSO能够选出真实模型的前提假设的。放松惩罚项可以更准确的估计参数值。若令第二步的惩罚项为零,则为典型的LASSO/OLS方法。一些经验和理论的结果表明,该方法优于普通的LASSO方法。更多的可参考Meinshausen[17]。
另一个两步法LASSO的例子是Zou[18]提出的Adaptive LASSO。该方法利用全模型最小二乘估计计算不同变量的惩罚项。若某变量最小二乘参数估计值较大,则其更可能为真实模型中的变量,因此该变量在惩罚最小二乘估计时惩罚项应较小,以确保其有更大的概率被选入模型。Adaptive LASSO方法的惩罚项为
其中λ,θ>0为调整参数。注意到权重都是根据数据确定的,所以称为Adaptive LASSO。
同Relaxed LASSO性质类似,Adaptive LASSO也可以减弱LASSO对非零系数的缩减,从而减小偏差。但Adaptive LASSO更重要的意义在于当变量个数固定而样本量趋于无穷时,其具有相合性,且这些参数估计的分布与事先给定非零变量位置的最小二乘得到的参数估计的分布渐近相同。
1.1.3 有序变量的模型选择方法
有时数据变量呈现有序的结构,例如根据密度排列的蛋白质的光谱波长等。在这种情况下,我们希望相邻变量之间的系数估计相差不要太大,即选择模型中的变量总是与相邻变量同时出现。LASSO方法并不能实现这个目的。Tibshirani等(2005)[19]提出了Fused LASSO以达到上述目的。该方法在LASSO惩罚项基础上添加了相邻系数之差的惩罚项,即最小化下述式子
其中为调整参数。第二项惩罚项是对相邻变量系数差距的惩罚,可鼓励参数局部平缓变化。Fused LASSO一般用于变量存在自然顺序的模型选择中,它给出的参数估计在局部近似于常数。给定调整参数的值,则可利用二次算法来求解上述最小化问题。
1.1.4 未知分组的群组模型选择方法
当一组强相关的解释变量同时存在时,普通的LASSO方法倾向于选取其中一个变量。但有的情形下,我们希望将这一组强相关的变量都选出来。事实上,前面提到的Bridge方法的惩罚项是严格凸的,并且具有群组效应,但是不能实现模型选择。Zou和Hastie[20]结合LASSO方法与Bridge方法的优点,提出了既有群组效应又能进行模型选择的Elastic Net(EN)方法来解决未知变量分组情况下的组群模型选择。该方法的简单形式如下:
上述参数估计可视为LASSO估计(参数为)与岭回归估计(参数为)的结合,经历了两次系数缩减的过程。这个操作不能够明显降低参数估计的方差,但却带来了额外的偏差。最简单的调整方法就是将上述参数估计结果乘以(1+)进行尺度调整,Zou和Hastie[20]的模拟研究表明这样调整的预测效果较好。在参数数目随样本量增加的情形下,Zou和Zhang[21]将EN方法进行了推广。
EN方法在微阵列数据分析中有重要应用,因为它倾向于把相关的基因作为一个组群同时删除或选择出来。除此之外,当变量有共线性性时,EN方法得到的选择模型的预测准确性比LASSO高,并且前者可以更好地处理变量数目超过样本量的问题。具体可以参见Zou和Hastie[20]的文章。
1.1.5 已知分组的群组模型选择方法
与上一小节不同,有些情形下我们可以知道变量的分组情况,在进行模型选择时,我们希望能同时保留或删除同一组的变量。Yuan和Lin[22]提出的Group LASSO,Zhao等[23]提出的Composite Absolute Penalty(CAP)方法都是处理上述问题的方案。
上述通过调整惩罚项以实现特定模型选择目的的思想可以推广到更多的方法。例如已知重要的变量可以不加惩罚因子,而疑似噪声的变量可以配置更大的惩罚项。对不同的变量给予不同的惩罚项可以加入选择的先验信息,这样惩罚最小二乘估计就会变得更加灵活。
1.2 SCAD方法
Smoothly Clipped Absolute Deviation(SCAD)方法是由Fan和Li[24]提出的,其惩罚项定义为
其中a,λ>0为调整参数。Fan和Li(2001)[24]的文章中建议参数取值a=3.7。当设计阵列正交时,利用SCAD方法得到的参数估计显示表达如下:
SCAD方法有两方面的优势:一是其计算成本较低,二是参数估计对数据有连续性,因而较为稳定。较之岭回归方法,SCAD方法减少了选择模型预测方差。较之LASSO方法,SCAD方法减小了对参数估计的偏差,即过度缩减系数的现象。
1.3 Oracle性质
Fan和Li[24]出了模型选择方法应当满足的三条性质,又被称为Oracle性质:
1)稀疏性:模型选择方法的参数估计应自动实现系数的稀疏性,即将一些不重要的变量系数变为零。
2)无偏性:参数估计应无偏或近似无偏,至少对于系数较大的变量的参数估计应如此。
3)连续性:参数估计应对于数据是连续的,以避免模型预测的不稳定性。同时满足上述三条的模型选择方法称为满足Oracle性质的方法。
为了进一步阐述该性质,假设设计阵是列正交的,惩罚最小二乘的一般表达式可改写为:
但与此同时,Leeb和Ptscher[25]指出Oracle性质只是基于逐点形式的误差和估计,不具有一致评估整个模型的功效,而对模型的一致评估才是对参数做统计推断和评估方法好坏的基本出发点。Leeb和Ptscher[25]的文章详细阐述了Oracle性质定义的纰漏,并建议不将此作为评判模型选择方法好坏的标准。他们指出Oracle性质与Hodges估计有相似的问题,即只在逐点意义下满足一些好的渐近性质,但在有限样本的情形下这些性质又明显不成立。例如,Leeb和Ptscher[25]证明了任何利用上述疏系数方法得到的所谓的相合参数估计,其如下调整刻度的均方误差在样本量增加的时候发散到无穷:
另外,Leeb和Ptscher[26]以及Leeb和Ptscher[27]还得出了一些容易被忽视的结论,即以数据为导向的模型选择方法对后续参数估计有很大影响,即使对所谓的满足相合性的模型选择方法选取的模型进行参数估计,也不能等同于对真实模型进行参数估计。在求参数估计的分布时只能推导有限样本的密度估计,不能以渐近分布代替。有兴趣的读者可参考Leeb和Ptscher[26]及Leeb和Ptscher[27]。
2 Dantzig Selector方法
针对变量数大于样本量的高维模型选择问题,Candes和Tao[28]提出了Dantzig Selector(DS)方法。DS方法的参数估计为下述凸优化问题的解:
正如上面所说,在“一致不确定原则”下,DS方法参数估计的误差有很好的控制;LASSO方法参数估计的相合性需要“不可表示条件”的支撑。特别地,Meinshausen和Yu[30]推导了在一个对设计阵要求比“一致不确定原则”更宽松的条件下,LASSO方法参数估计的均方误差以一个更小的概率限制在与上述DS方法相同的范围内。文献中没有一个确切的结论说明DS与LASSO哪种方法更优。另一方面,二者形式的相近性自然引起人们探索二者联系的兴趣。事实上,Meinshausen等[29]给出了二者结果相同的充分条件。在p≤n的前提下,记,若满足对角线主导条件:
LASSO方法与DS方法的结果完全相同。特别地,当p=2时上述条件总成立,即二者总相同。
3 基于变量降维的模型选择方法
3.1 主成分回归
主成分分析(PCA)是对原始变量进行线性变换,得到一组线性无关的潜变量。得到的变量是按照解释原数据方差大小排序的。换言之,可将主成分分析看做是对坐标系的旋转,使得数据在第一维坐标方向上方差最大,在第二维坐标方向上次之,依次类推。特别地,主成分得分可由设计阵衍生矩阵的特征向量求得,相应的特征值大小表征了解释方差的大小。主成分分析的内容可在一般多元统计教科书中找到详细描述。
主成分回归(PCR)是将主成分分析和回归分析相结合的方法,是探索性数据分析常用的方法之一[31]。根据线性回归的线性不变性,若采用全部主成分拟合回归,则得到与原始变量相同的拟合结果。实际应用中,可根据需要选取前几个主成分建立模型。PCR的一大优势在于其自变量是线性无关的,避免了线性回归中共线性性的问题。原变量中具有共线性性的变量通过线性变换结合在一起,使得拟合的模型更容易解释。因此,当自变量有较强的共线性性时,适宜考虑采用PCR建立模型。除此之外,PCR通过选取少量的潜变量拟合模型,有效避免了过度拟合的问题,因而一般来说具有更高的预测准确性。Naes和Martens[32]指出PCR具有很好的应用价值。
PCR中主成分个数的选取与主成分分析有所不同。主成分分析是以尽可能多地提取变量信息为目的,而PCR则是以回归为目的。因此前者多依照主成分解释方差的比例选取变量数目而后者则多根据舍一验证等方法选取主成分数目。PCR中主成分个数可以看做调整参数,在第四节中我们将介绍更多调整参数的选取方法。
3.2 偏最小二乘
偏最小二乘(PLS)方法最早出现于Wold[33]。PLS方法已被广泛应用于候选变量较多的模型选择问)题,相应综述可参考Tobias[34]。
上述表达式与主成分分析的求解公式类似。事实上,PLS方法与PCR方法有很多相似之处。二者都是采用选取少量潜变量代替原始变量,从而达到降维的目的。选取潜变量的数目可以看做是调整参数。随着潜变量数目增加,数据拟合度相应增加,但并不意味着预测精度也相应增加。特别地,当潜变量数目与原变量数目相同时,选择模型与全模型完全相同。值得注意的是,PLS的潜变量作为原始变量的线性组合,其权重不是响应变量和自变量的线性函数,因而增加了计算的难度。通常需要借助数值计算方法得到权重,具体算法可参考Hoskuldsson[35]及Jong[36]。
PLS和PCR的差别在于前者选取潜变量是以与响应变量的相关性为导向的,而PCA方法则不需要响应变量的信息,只是选取方差最大的线性组合。从这个角度可以看出,当降维目的在于提高模型预测的准确性时,选用PLS方法更为明智,而PCA方法则侧重提取自变量的信息。Stone和Brooks[37]将PLS、PCR以及OLS(普通最小二乘)三种方法统一到同一个理论框架下,并指出OLS方法和PCR方法是连续谱的两个极端情形,而PLS介于二者之间。类似于Bridge方法,在该理论框架下,还可以讨论连续谱对应的其他可能的方法。文中通过多个实际数据例子比较了不同方法的参数估计准确度和预测精度。有兴趣的读者可以参考Stone和Brooks[37]。
Datta等[38]比较了PLS方法和LASSO方法在高维数据中的应用。他们指出两种方法均适用于变量维数较高的情形,但当变量中有较多噪音时,LASSO方法的预测精度较PLS更高。Nguyen和Rocke[39],Nguyen[40]则将PLSS方法应用于微阵列数据分析,并对二分数据和删失数据做了相应调整。
3.3 充分降维
4 调整参数的选取
在模型选择的方法中,调整参数的选择起着十分重要的作用。在前面很多地方已经提到了调整参数,例如惩罚最小二乘中连接最小二乘项与惩罚项的参数等,它用于在模型拟合优度和选择模型的复杂度之间取得平衡。由此可见,调整参数对于最终选择怎样的模型有着决定性作用。不同的调整参数选取方法往往侧重点不同,有的倾向于选择模型预测的准确性,有的倾向于相合性。本节着重介绍交叉验证方法及各种推广方法,还会涉及误选率、稳定路径等选择方法。
4.1 交叉验证
最小化上述公式得到λ的方法即为交叉验证。
记A(λ)为n×n的影响矩阵,满足
4.2 广义交叉验证
广义交叉验证由交叉验证方法推广而得。在交叉验证的调整参数估计式中,将用对角线元素的平均值代替,得到新的交叉函数如下:
使上述函数达到最小的λ即为广义交叉验证法选取的调整参数。
广义交叉验证的理论性质在Li[47]中有详细讨论。利用随机求迹方法计算trA(λ)的问题可以参考Hutchinson[48],另一种不同的计算方法参见Golub和VonMatt[49]。
4.3 广义近似交叉验证
广义近似交叉验证的目标是将真实概率分布和估计分布的相对KL距离最小化。相对KL距离CKL(λ)定义为
其中A(λ)为影响矩阵,W是对角矩阵,对角线的元素为,即伯努利分布的方差估计。
广义近似交叉验证的一个修改版本是B类广义近似交叉验证。前者的目标在于最小化CKL(λ)而后者的目标为选择真实的变量。B类指的是对模型的稀疏性有先验的信息,类似于BIC准则中的B。就像AIC是侧重于模型预报的选择准则,BIC是侧重于模型相合性的选择准则,广义近似交叉验证和B类广义近似交叉验证分别对应于AIC准则和BIC准则。在AIC到BIC的转换中,假定γ是模型的自由度,则BIC将γ替换为。类似地,我们可以如下由广义近似交叉验证得到B类广义近似交叉验证。令γ表示伯努利惩罚模型中代替自由度的量
4.4 误选率法
误选率法是由Wu等[51]针对向前选择法调整参数的选取而提出的,可推广到更多的模型选择方法。向前选择法中,选入标准α即为调整参数。通常选入标准是由分析人员主观设定的,一般取值为0.05或0.1。在给定已选入变量的条件下,因变量对每个不在模型中的候选变量建立回归,并做显著性检验,若P值最小值小于该水平,则相应变量被选入到模型中。越大的α值对应于越宽松的选择准则,最终的模型也会包含越多的变量。特别地,α=1时,选择模型为全模型。但在有的情况下,我们关心的不是选择模型是否包含所有真实的变量,而是选择模型中不含信息的变量比例是否被控制住。误选率方法就是从这个角度入手,在选择模型误选率不超过事先设定误选率的前提下,选择调整参数使选择模型达到最大。
最初的误选率法是将一些噪音变量人为地加入到设计矩阵中,通过观察他们在向前选择过程中进入模型的情况,来选取合适的调整参数[52]。Wu等[51]最初产生噪声变量的方法是将解释变量的观测随机打乱,从而与因变量失去对应关系,可看做噪声。但是当样本量较小的时候,这样产生的噪声变量还会与原变量有相关性,可以令每个产生的变量对原变量进行回归,利用残差作为噪声变量。那么,新的噪声变量与响应变量独立,与原变量无相关性,且满足样本均值为零。选择模型的误选率的表达式为
其中期望是关于真实模型的重复抽样而言的,U(α),I(α)分别表示调整参数取值α时选择模型中无信息变量数和有信息变量数,S(α)=U(α)+I(α)是选择模型的变量数,p是全部自变量的数目,p-S(α)是未被选入最终模型的变量数,是对全模型中无信息变量数目的一种估计。(α)是无信息变量进入模型的比例的估计,是由噪声变量估计的,即
Chen[54]对误选率法做了推广,从向前选择法调整参数选择推广到一般的Cox模型时的调整参数选择。例如在LASSO方法中,λ连接似然项和惩罚项,其取值越大,模型越稀疏。这与向前选择中α的功能类似,因此引入如下变换统一二者
其中c>0为常数,文中建议使用c=0.005。类似于普通误选率法,Chen[54]给出了应用于LASSO等方法的调整参数选择算法。这种方法的性质及与其他调整参数选取方法的比较可以参考Chen[54]。
4.5 稳定路径法
稳定路径选择法是一种将二重抽样和选择算法相结合的模型选择方法,之所以将其归为调整参数选择而非模型选择方法,是因为该方法不能单独使用,而是需与已有的模型选择方法如LASSO等配合使用。读者可参看Meinshausen和Buhlmann[55]。稳定路径法可将一般的调整参数选取问题转化为对调整参数不敏感的模型选择问题,进而绕开这个棘手的问题。除此之外,稳定路径法还可以提高已有选择方法的相合性。
其中被选概率的阈值0<π<1是新的调整参数。Meinshausen和Buhlmann[55]中的模拟数据例子表明,稳定路径法能明显地区分有信息变量和无信息变量的路径,概率阈值这个调整参数对最终模型选择结果的影响很小,并不像原模型选择方法中的调整参数那样敏感。同时,该方法对于原调整参数λ的取值域Λ依赖性也很弱,只要其取法不是太偏激,对最终结果影响不大。特别地,若受限于计算能力,只能对单一的λ进行稳定路径分析(此时每条路径退化为一个点),只要λ选取的适当,也是可以的。
稳定路径选择法的计算成本与用交叉验证选取调整参数的模型选择方法相差不多甚至更低。以LASSO方法为例,其时间复杂度为O(npmin{n,p})。在样本量小于变量数的情形下,用一半样本做模型选择的时间是用全体样本进行计算的时间的1/4。一般稳定路径法重抽样进行100次即可。那么对于给定的单一调整参数λ,稳定路径法实现变量选择只需要25倍LASSO运算时间。而若用十重交叉验证选取调整参数,对于每个候选调整参数λ,大概需要10倍LASSO运算时间。由此可得,对单个调整参数,稳定选择法的计算成本大概是交叉验证法的2-3倍。但是注意到稳定路径法并不需要穷举调整参数集Λ的所有元素(不同调整参数对稳定路径选取结果影响不大),因此其计算成本通常低于交叉验证。
稳定路径法最大的优势有两条:一是当调整参数的选取因数据噪声水平未知而变得非常困难时,该方法可以使得模型选择的结果对调整参数变得不敏感;二是通过使用该方法可以使原本不具备相合性的模型选择方法具有相合性。有兴趣的读者可参考Meinshausen和Buhlmann[55]。
5 结论和未来研究
高维模型选择是当代统计学领域的研究热点,在实际中具有广泛的应用价值。本文以线性模型为切入点,重点介绍了LASSO方法及用于特定情形的衍生惩罚因子模型选择方法,详细描述了DS方法、降维回归方法等,并细致讨论了模型选择过程中调整参数的选取问题。随着新思想的不断出现,模型选择的理论方法日益丰富,为解决实际问题提供了多种选择。
总的来说,模型选择最关注两个问题:一是选择模型的预测准确性,又称有效性;一是选择模型与真实模型的相合性,也可称为可解释性。例如在惩罚因子模型选择法中,NG方法、LASSO方法、EN方法等属于预测指向型方法;而Adaptive LASSO、SCAD方法等则属于解释指向型的范畴。调整参数的选择方法多依据交叉验证的思想得来,如舍一验证、广义交叉验证、广义近似交叉验证等都是典型的预测指向型方法;但也有少数方法如B类广义近似舍一验证、稳定路径法等从选择模型的相合性角度选取调整参数,因而属于解释指向型方法。在处理实际问题时,应根据实际需要选取相应的方法。
模型选择的未来发展将主要集中在如下的几个方面:
1)不同模型选择方法的比较与关联。目前的模型选择方法多种多样,方法之间缺乏横向比较,不利于应用工作者选择合适的方法解决实际问题。Lv和Fan[56]建立了惩罚最小二乘方法的统一理论框架,但是更多的模型选择方法的计算复杂度及选择效果的比较还有待研究。未来应该加强对不同方法理论基础之间关联性的研究,例如Bickel等[57]对LASSO和DS方法的对比分析,Efron等[15]对LAR、LASSO及逐段向前法三者关系的研究等都提供了很好的向导。
2)最大风险无上界问题。这一问题在实际中极易被忽略。最大风险的界定直接关系到模型选择估计参数的可靠性,在惩罚因子模型选择进一步发展之前,更多的研究应投入到这个问题上,以解决制约这一系列方法可靠性的负面效应。更多的讨论可参考Leeb与Ptscher[25-27]等。
3)进一步打破数据维数的制约。尽管惩罚似然函数模型选择方法不像子集选择法那样受到数据维数的严重制约,但是很多方法在应用于典型的高维问题(变量个数远大于样本量)时,仍承受着维数的困扰[58]。例如,LASSO方法选择的模型所含变量个数不能超过样本量等。这些困难的全面克服需要研究者对高维问题有更深入的认识。更多的可参考Bickel等[59],Fan和Li[1],Greenshtein[60],Greenshtein和Ritov[61]等。
4)运算速度。虽然现在的方法已计算可行,但是计算成本仍然过高。以交叉验证为例,其选择调整参数的计算成本非常高,这制约着模型选择方法应用于解决实际问题。
5)不同模型类型和不同数据类型下的模型选择。目前多数的理论研究仍集中于线性模型的选择问题。未来应将相应方法推广到非线性模型、非参数模型、半参数模型等复杂模型,特别是模型类型不同的情形,并探索其在删失数据[62]、测量误差数据[63]等方面的应用。这类研究对于实际应用有着深远的意义。
6)最后,要真正实现这些理论方法的价值,我们需要搭建理论与实际应用的桥梁。模型选择方法应尽量做到稳健高效,所选择模型的数值和图像解释要清晰易懂,算法实现应简单可行,这样才能被不同基础的实际工作者所接受。