基于正则化方法的最优稀疏指数跟踪模型设计_邻接矩阵论文

一种基于规则化方法的最优稀疏指数追踪模型设计，本文主要内容关键词为：稀疏论文,最优论文,模型论文,规则论文,指数论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

引言与文献综述

指数追踪是基金管理中一项重要的投资策略，在金融产品设计和风险管理中有着核心的作用。指数追踪的目的是购买一组资产以复制市场指数的收益率，从包含的复制标的资产数量上看，操作策略有两种，一种是完全复制方法，即购买指数中包含的所有资产；另一种是不完全复制方法，即购买指数中的部分资产，使得收益率和指数收益率之间的误差最小（Takeda等，2012）。基于指数追踪诞生了一批指数型基金，这类基金成本相对较低，平均收益率有保证，适用于中长期投资者。国外资本市场较为成熟，指数型基金发展较早且数量较多，为投资者提供了一种投资方式，1976年美国Vanguard基金管理公司推出了世界上首只指数型基金——Vanguard 500指数基金，该基金以标准普尔500指数为追踪标的。近年来发达经济体股票市场增幅较大，投资指数型基金可获得较高收益。中国资本市场相对不成熟但发展迅速，国内首只交易型开放式指数基金（ETF）为2004年12月发行的上证50ETF，以上证50指数为追踪标的，2011年7只ETF基金正式交易，2013年纳斯达克100指数ETF在上海证券交易所开始交易，追踪标的逐渐国际化，而非仅仅局限于国内指数。据统计，2014年国内共有48只指数基金发行，合计募集482.25亿份。指数型基金丰富了国内投资工具，在资本市场成熟健康发展过程中发挥了积极作用。

国外学者对指数追踪进行了较为详尽的研究，给出了以追踪误差（Tracking Error）最小化为主要思想的多种追踪模型。Roll（1992）引入指数化投资中典型的追踪误差最小化模型进行分析，将现代投资组合理论与指数型投资进行了结合。Peter和Pradeep（1994）指出追踪误差的计算与时间频率有关，越是高频数据，偏差越大，为追踪误差标准适用性范围提供了依据。Ammann和Tobler（2000）对追踪误差进行分解，为发现误差来源提供了理论基础。Walsh等（1998）在追踪误差框架下，实证分析对比不同求解方法、不同卖空约束条件和不同频率数据对追踪误差的影响。近年来，指数追踪也得到较快发展，多集中于求解方法的改进。Kyong等（2005）构建一种新的分层抽样复制方法，依靠遗传算法确定资产权重。Barro和Canestrelli（2005）给出一个动态指数追踪问题的随机优化解决方法，基于实证分析发现动态模型优于静态模型。Wang等（2012）将CVaR的限制纳入追踪组合的约束中，提出一个基于CVaR风险控制的指数追踪模型。这些模型改进侧重于样本内追踪误差最小，依据市场有效假说推至样本外追踪误差同样较小，但在市场无效的情况下，并不能得到较好的样本外追踪效果。

完全复制方法能很好地进行指数跟踪，但购买所有的资产需要耗费较大的成本，市场分析时也需要很高的管理成本，该方法在实际中不可行。非完全复制方法可以用很少资产来进行指数跟踪，该方法有一定误差，但降低了交易成本和管理成本。非完全指数跟踪方法追求的是少数的资产组合（即资产权重的稀疏解）以及良好的样本外预测能力，解决了以往样本外追踪能力依赖于市场有效假说的问题。因此本文主要集中于非完全指数跟踪方法。规则化方法在其他资产组合模型中已取得较为成功的效果，部分学者也深入研究其在指数追踪模型中的应用。规则化方法即在传统的模型中加入对资产权重的罚函数，使得资产权重的解变得稀疏，整个模型变得稳定，且有更好的样本外预测能力。它的改进和应用大多集中于最小方差资产组合模型（Minimum Variance Portfolio，MVP），因为该模型仅需要估计协方差矩阵，估计误差比需要估计收益向量的马克维茨模型（Markowitz，1952）要小。

文献起源于Jagannathan和Ma（2003）对含有

罚函数无空头资产组合模型的研究，

罚函数就是Lasso回归（Tibshirani，1996）中的

范数约束；之后Brodie等（2009）研究了含有

罚函数的MVP模型，得到稳定稀疏的资产组合模型；DeMiguel等（2009）研究了含有

罚函数的MVP模型，

罚函数就是岭回归中的

范数平方约束；Yen（2010）研究了含有Elastic Net罚函数的MVP模型，含有

罚函数和

罚函数的MVP模型是该模型的特例；Carrasco等（2011）研究了MVP模型中规则化方法对协方差求逆的改进；Fan等（2012）对含有

罚函数的MVP模型提供了理论依据；Fernandes等（2011）研究了资产的组结构在MVP问题中的作用。

近年来，国内学者也在尝试各种不同的非完全指数追踪方法的改进，陈春锋和陈伟忠（2004）以上证180指数为标的，比较分析了两种抽样指数复制方法；荣喜民和夏江山（2007）基于CVaR约束构造了误差最小化的指数组合优化模型，发现此约束能够有效控制风险；刘磊（2010）在考虑中国股市现实条件的情况下建立非完全指数追踪模型，利用遗传神经网络算法求解，得到较好效果；倪禾（2013）对规则化非完全指数追踪模型的研究主要集中于方法求解的优化，提出一种基于启发式遗传算法的寻优方案，进而得到相应资产权重；苏治等（2013）基于增强型内核搜索法求解模型，并明确指出此方法的适用范围；胡春萍等（2014）在规则化方法基础上，使用加权支持向量机的算法，提高了样本外预测能力，并改善模型的稳健性。

从上述来看，部分国外学者集中于对规则化方法的研究，提出多种罚函数，例如

和

罚函数、自适应

罚函数等，并将这些罚函数应用于MVP模型，得到具有稀疏性较好且样本外预测能力较高的资产组合。目前含有Elastic Net罚函数、含有图结构约束的

罚函数和含有图结构约束的自适应

罚函数的指数追踪模型还未有研究。国内学者则主要集中于风险控制约束和模型求解方法的尝试和改进，真正使用规则化方法以及对罚函数的改进和应用研究少之又少。

本文设计了一种基于规则化方法的指数追踪模型，计算得到相应的资产组合，评价不同模型在模型预测、变量选取等方面的表现，以期得到最优的指数追踪模型。引入的罚函数有

罚函数、

罚函数、Enet罚函数、自适应

罚函数、含有图结构约束的

罚函数和含有图结构约束的自适应

罚函数，依据模型对指数的复制效果进行模型评价，得到较为优秀的指数追踪模型。

一、指数追踪模型

1.二次规划模型

2.有效前沿模型

3.线性规划模型

Clarke等（1994）基于资产组合与指数收益率之差的绝对值之和最小化的思想，提出平均绝对偏差（Mean Absolute Deviation，MAD），随后衍生出最小最大化（MinMax）、平均绝对下方偏差（Mean Absolute Downside Deviation，MGDD）、下方最小最大化（Down-side MinMax，DMinMax）。四种目标函数如式（3）～式（6）所示。其中R表示资产价格对数收益率形成的矩阵，

表示指数对数收益率形成的向量；

和

分别表示

＜Rw时对应的资产收益率和指数收益率矩阵。

综上所述，三种主要指数追踪模型在目标函数和线性约束上均有所不同。相比来说，线性规划模型在发达国家股票市场的效果优于二次规划模型和有效前沿模型（Clarke，1994）；二次规划模型有较为简单和灵活的模型形式，更容易进行模型改进；不同于二次规划和线性规划，有效前沿模型目标函数较为复杂，对求解方法要求较高；从三种模型的发展现状来看，线性规划和有效前沿模型形式较为固化，改进研究较少，二次规划模型形式有一定发展前景。传统的指数追踪模型偏向于完全指数复制方法，在资产稀疏性和样本外预测能力方面表现不足。本文将规则化方法由MVP模型扩展到指数追踪模型，设计一种基于规则化方法的指数追踪模型，以实现较好的资产组合稀疏性和样本外预测性。从国外学者研究和指数追踪模型发展来看，现有文献主要在二次规划模型即式（1）的基础上添加罚函数并求解，Rudolf等（1999）给出了式（1）在无线性约束下解的形式，指出其计算简单，并且解具有最小二乘估计量所具有的最小线性无偏估计的性质，实际上其求解思想和模型形式与最小二乘估计几乎相同。综合考虑，本文重点研究式（1）基于规则化方法的模型表现。

二、基于规则化方法的指数追踪模型设计

完全复制指数收益率方法在实际中不可行，我们希望通过获取少量的资产品种来进行指数追踪，即不完全复制指数，这样既节省了交易成本，同时也可以提高样本外预测能力。获取少量品种的资产组合，意味着追求资产权重向量的稀疏性，也就是要求资产权重向量只有少数的元素不为0。目前规则化方法在稀疏性这一问题上受到了广泛的关注，基于规则化方法的很多模型在稀疏性和样本外预测能力上都超过了传统模型。本文引入目前流行的若干种规则化方法，对传统的二次规划指数追踪模型进行改进，设计一种基于规则化方法的指数追踪模型。

首先，基于规则化方法的指数追踪模型可以用一个通式来表达，即式（7），这个通式用调整系数λ将传统的指数追踪模型和资产权重ω的罚函数f（ω）连接起来。在统计学习理论中，罚函数是根据估计量的某些性质制定的。当λ=0时，模型退化为原始的指数追踪模型；当λ≠0时，模型是带有约束条件的规则化经典回归模型。

其次，本文针对资产组合解的性质，从不同的方面引入不同性质的罚函数，在这些罚函数下，指数追踪模型可以得到更符合实际数据的结果。本文主要考虑含有

罚函数、

罚函数、Elastic Net罚函数、自适应

罚函数，以及包含图结构约束罚函数的指数追踪模型。

1.含有

罚函数的指数追踪模型

罚函数是Lasso回归中使用的罚函数，是很多规则化函数中最先考虑的方法。基于

罚函数的指数追踪模型是对资产权重ω施加一个

范数约束，表示为式（8）。该模型在Brodie等（2009）研究马克维茨资产组合模型扩展形式时提出，在Takeda等（2012）研究指数追踪模型的稀疏性和样本外表现时给出了相应的数值分析。和基于

罚函数的MVP模型类似，基于

罚函数的指数追踪模型可以使原问题解变得稳定，同时增强了权重向量的稀疏性。

2.含有

罚函数的指数追踪模型

罚函数是岭回归中使用的罚函数，该函数虽然不能使得某些资产的权重缩减到零，但是当变量存在很大相关性时，可以得到很好的样本外预测效果。基于

罚函数的指数追踪模型是对资产权重ω施加一个

范数约束，表示为式（9）。Takeda等（2012）在研究指数追踪模型的稀疏性和样本外表现时给出了相应的数值分析。

3.含有Elastic Net罚函数的指数追踪模型

含有

罚函数的指数追踪模型可以对资产品种进行选择，含有

罚函数的指数追踪模型可以带来很好的样本外预测效果，参照Zou（2006）提出的Elastic Net，我们可以给出一种综合了

罚函数和

罚函数的指数追踪模型，该罚函数表示为两者的加权求和，得：

4.含有自适应

罚函数的指数追踪模型

在证券市场交易中，交易成本是每个投资者的关注重点，当某个资产品种交易成本较大时，通常会使该资产的权重变小，参照Zou（2006）提出的Adaptive Lasso，我们可以将交易成本加入Lasso回归中，在系数前赋予一个交易成本的权重项，表示为：

权重很大时，交易成本会很快缩减到零，这样得到的指数追踪模型将更加实际。Brodie等（2009）在马克维茨资产组合模型的扩展形式中，提到了含有交易成本的指数追踪模型，但是作者没有继续研究下去，也没有文献给出相应的数值分析。本文的权重向量

取样本内资产价格均值的0.3%。

5.含有

罚函数和图结构约束的指数追踪模型

高维数据中，变量之间的相关性结构同样是一个非常重要的因素，Li和Li（2010）在研究回归模型时发现含有图结构约束的方法在变量选取和预测方面优于已有的方法，因此我们将图结构引入指数追踪模型。

考虑一个无向有权图G=（V，E，W），其中，V=｛1，2，…，p｝是点集，E=｛u～v｝是边集，W是边的权重集合，w（u，v）表示边e=（u～v）的权重。图分析中最重要的是邻接矩阵

的建立。邻接矩阵通常基于相似性度量或不相似性度量将每对顶点之间的连接强度进行编码，可以是带有符号的矩阵，其中负的邻接系数表示两个顶点连接而且有负相关关系。通常情况下，邻接矩阵的对角线都是0。出于计算缘故，本文采用如下三种方式建立邻接矩阵，三种邻接矩阵均不带有符号，其中

表示两变量间的相关系数。

Li和Li（2010）的研究中发现，高维数据中变量之间有很大的相互影响时，Lasso回归不能给出理想的结果，因此他们在图结构的基础上给出了式（8）的惩罚函数，其中L=D-A，A是邻接矩阵，

，由于设定的三种邻接矩阵均不带有符号，因此

。本文依据这个惩罚函数建立相应的指数追踪模型：

为了计算方便，令

，将式（15）变换为：

最后，需要讨论基于规则化方法指数追踪模型的算法。由于本文引入的规则化函数符合凸化方法，因此我们采用Grant等（2009）开发的Matlab凸优化分析包CVX进行求解计算，这个计算包以SeDuMi为核心计算器。当调整既定参数λ时，可以编程运算得到有效的优化结果。

三、基于规则化方法指数追踪模型的相关性质

指数追踪模型和上文提出的六种模型都可以等同于一个受约束的二次优化，不同在于系数矩阵。通过拉格朗日乘数法，可以计算得到它们的解，最优解可以用一个通式表示，在不同罚函数下的最优解区别在于其系数矩阵不同。本节对这些模型的简化形式和解进行讨论和证明。

性质1 指数追踪模型等同于式（17）的优化问题：

证明指数追踪模型等同于：

目标函数简化并且省略常数项后，可得：

式（19）是一个带有约束条件的优化问题，其拉格朗日乘数形式可以表示为：

式（20）的一阶导数条件为：

目标函数化简可得：

证明含有Elastic Net罚函数的指数追踪模型等同于：

目标函数化简可得：

以上即为包含不同类型罚函数的规则化方法的指数追踪模型求解过程。改写含有不同罚函数或图结构约束的目标函数，得到不同的指数追踪模型。各优化问题的解主要在矩阵A和B上存在差异。构造拉格朗日乘数并求极值条件，得到在线性约束下的最优解。具体而言，规则化方法求解均可以写为式（19）、式（20）和式（21）。关于三种邻接矩阵的构造方法，其中（2）和（3）两种构造方法在部分情况下几乎相同，（2）和（3）邻接矩阵构造方法分别为

时，两种邻接矩阵相等。当选取的股票风格类似、相关系数大于零时，或者时间选取较短导致资产价格短期波动差异较小时，两种方法构造的邻接矩阵相似，基于两种邻接矩阵的追踪模型得到的最优解相似。指数成分特征会影响含有图结构约束的指数追踪模型效果。

四、实证分析

为考察在不同规模股票池中指数追踪模型的效果，以提高实证结果的稳健性，本文选择上证综指、沪深300指数和中证500指数作为追踪标的。上证综指样本股是全部上市股票，从总体上反映上海证券交易所上市股票价格的变动情况；沪深300指数是中证指数有限公司在沪深两市选取300只A股作为样本编制而成的成分股指数，样本覆盖沪深市场60%的市值；中证500指数是在沪深两市中剔除沪深300指数成分股和最近一年日均总市值排名前300位的股票，再剔除总市值排名后20%的股票，选取总市值排名前500位的股票作为样本股，主要反映沪深两市内小市值公司的整体情况。①

1.上证综指追踪

2.沪深300指数追踪

3.中证500指数追踪

五、结论和建议

传统指数追踪模型具有资产个数多、交易成本高、样本外预测能力差等缺点。为追求指数追踪模型中资产组合稀疏性和模型预测能力，考虑交易成本和资产间的相互影响，本文将规则化方法由MVP模型进行扩展，设计一种基于规则化方法的指数追踪模型，得到若干种稀疏而且稳定的资产组合，用于复制指数的收益率，并从模型拟合、模型预测、模型一致性、变量选取、空头比例和BIC准则六个方面对模型进行评价。

综合来看，含有图结构约束的模型可以提升模型的样本外预测能力、模型一致性和资产组合稀疏性；ITM-

在资产组合稀疏性上表现远好于其他模型；结合对三种指数的追踪效果，含有自适应

罚函数以及图结构约束的指数追踪模型总体表现优于其他模型。各模型有其指数追踪的适用范围，在指数型基金迅速发展的背景下，预测效果较好、资产稀疏性较优的模型改进具有较为深刻的理论和实际意义，对指数型基金管理公司来说，能够有效减少指数复制成本，提高指数复制精度，对个人和机构投资者来说，也可以以较小成本得到较为精确的指数复制投资组合。在未来的工作中，我们可以考虑更多实际问题对罚函数进行改进，将这些方法应用在其他资产组合模型中，考虑包含规则化方法的指数追踪模型在发达国家股票市场的表现，进一步检验模型的有效性。

①数据来源：上海证券交易所、中证指数有限公司。

②数据来源：Wind资讯金融终端。

标签：邻接矩阵论文; 预测模型论文; 能力模型论文; 稀疏表示论文; 误差分析论文;

基于正则化方法的最优稀疏指数跟踪模型设计_邻接矩阵论文

猜你喜欢