生存分析与股指涨跌的概率推断,本文主要内容关键词为:涨跌论文,推断论文,股指论文,概率论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0 引言
1900年Bachelier提出股市收益率服从正态分布的假设。然而后来许多学者研究发现许多不符合正态性假设的例子,也就是说收益率具有尖峰厚尾的特点,用正态分布进行拟合并不理想,这也使得基于正态分布的统计推断无效。进一步的研究表明,收益率服从稳态分布,而稳态分布包含的参数过多,不易于应用。本文研究的是连涨连跌的收益率。
其次关于有效市场的研究。在经典金融理论中,有效市场假说(EMH)一直是资本市场理论的基石。Fama[10,11]于1970年给出了有效市场的严格定义。该假说认为,资本市场的当前价格已充分反映所有的市场公开信息,今天的收益率与昨天的收益率无关,且彼此独立,价格变动是一个随机游动过程。可见有效市场假说是与随机游动假说密切相关的,当然正如Fama所言,市场有效并不必须是随机游动。关于随机游动假说,已有研究予以了否定。一种研究认为股市短期存在正相关,长期存在负相关。本文的研究也表明,随机游动只是一种粗糙的近似,股指收益率之间存在复杂的相关关系。国内对有效市场的研究很多,俞乔对1994年以前的中国股市有效性研究的结论是中国股市是非有效的;吴世农[6]指出中国股市当时尚未达到真正意义的弱型效率;张兵[7]认为1997年之前市场无效,1997年之后市场呈现弱式有效;何诚颖从另一个角度也探讨了中国证券市场的有效性问题。按照市场弱式有效的理论,技术分析即是无效的,但是在实际应用中,技术分析仍在大量使用,理论与实践产生了脱节,这是为什么?本文的研究恰能从一个角度对此加以解释。
其实有大量研究表明技术分析在一定程度上是有效的。Treynor[12]等的研究表明过去的证券价格结合其他有价值的信息,对于获得超额收益是有利的;Blume[13]等说明了成交量对于技术分析的适用性;Lo[9]等认为一些技术指标确实提供了一些附加信息从而具有一定的实际价值。戴洁[2]等论述了技术分析对于股价具有某种程度上的预测力。
生存分析(Survival Analysis)是工程、医学和生物学等领域中一个很受关心的内容,是研究有关生存时间即寿命数据的统计规律的。生存分析已成为现代数理统计的一个重要分支。许多统计学家在这一领域做出了大量工作,尤其是Cox的重要贡献。国外有学者利用生存分析研究一些股票在市场上的生存时间与规律[14],而笔者将生存分析引入对股指的研究[3],因为统计连涨连跌的收益率,它可视为股指每次涨跌的“寿命”,即对生存时间的定义与众不同。股市指数的连续上涨和下跌可以看作是一种特殊的生存过程,当股指连续上涨到头转为下跌时,可以视作上涨的“死亡”;同样当股指连续下跌到头转为上涨时,可视作下跌的“死亡”,股指就是在这两种状态下不停地进行着“生”、“死”相互转化的。通过生存分析理论中的危险率曲线分析及连涨连跌的相关性分析,可以看出股指收益率之间并不是独立的,它们之间存在一种复杂的相关关系,从而从另一个角度否定了随机游动假说。进一步地可以得出股指涨跌的概率和条件概率,从而得出股指涨跌的概率推断,特别考虑了处于极值时的情形,同时也研究了成交量的影响,这为投资者进行投资提供了有价值的参考信息。因此,生存分析方法提供了研究股指的一种新视角,其有助于研究有关股市的一些基础性问题。本文的研究是在笔者已往研究基础上的延伸。
1 历史价格对股指未来涨跌的影响
1.1 收益率理论分布的估计与检验
通过研究1992年5月21日至2007年4月11日的上证指数。(舍掉1992年5月21日以前的数据是因为在此前后的上证指数编报方法不同,无法放到一起作比较。)
采用对数收益率即
其实股指连涨连跌的天数就对应着统计中所说的游程的个数,只不过这里研究的是每一个游程中收益率的和,即连涨几天中或连跌几天中收益率的和,称之为连涨连跌的收益率。从生存分析的角度看,连涨的收益率和连跌的收益率可看作是两个不同的生存过程。
通过拟合优度检验,对于一维分布的检验,Kolmogorov-Smirnov检验较卡方检验为优,因此采用了前者,所得结果见文献[5],为了本文后面讨论的方便,将这一结果重又放到这里,如下页表1。
关于Γ分布的矩估计很容易得到,但众所周知,极大似然估计(MLE)优于矩估计,对中小样本,矩估计的效果并不明显比MLE差,但在大样本场合,矩估计不如MLE。在实际应用中,在上述MLE的基础上可以微调参数值,使与实际数据拟合得更好。
另外,由表1可发现X和Y的分布在实行“T+1”前后和实行“涨停板”前后以及国有股减持前后不一样,即它们在“T+0”时期①(1992年5月21日—1994年12月30日),“T+1”时期(1995年1月1日—1996年12月15日),“涨停板”时期(1996年12月16日—2001年6月30日)及“国有股减持”时期(2001年6月30日—2005年11月10日)是不同的,这反映出股市的政策效应,同时对近期(2005年11月11日—2007年4月11日)牛市进行了拟合,发现上涨和下跌的分布是不一样的,这从一个侧面表明收益率是非对称的。
表1 上指数在不同时期连涨连跌收益率分布的拟合
1.2 股指涨跌的概率与条件概率
根据股指连涨连跌指益率的概率密度函数,可以得到:
或者P(X>r)=1-F(r)
从而知道股指连涨(或连跌)小于若干点的概率或股指连涨(或连跌)大于多少点的概率。同时,更为有意义的,还可以得到股指涨跌的条件概率。一共有四种情况,即:
连涨之后继续涨,连跌之后继续跌,连涨之后转为跌,连跌之后转为涨。先考虑前两种情况。
首先考虑一个简单的问题:已知连涨收益率为一定的情况下继续上涨的条件概率为多少,是否为一个常数?设已知连涨收益率为上涨表示为Z=1下跌表示为Z=0,即求条件概率。可以统计这个条件概率,在“涨停板”时期,可以得到的结果如表2。
表2 “涨停板”时期连涨收益率已知时继续上涨的条件概率
可见,(1)当连涨收益率后,其继续上涨的条件概率迅速明显地下降,这是因为此时连涨收益率已经落在极(大)值的范围内,其继续上涨的条件概率将下降在后文将对此做进一步的解释;(2)当连涨收益率落在非极(大)值的范围内,仔细观察的话,其继续上涨的条件概率也有微小的变化,即小涨之后继续上涨的条件概率稍微大一点。这一点并非偶然,将继续在后文做进一步的解释。
由此看出,股指连涨收益率的多少,即历史价格对其之后继续涨跌的概率是有影响的。这一结论同样适用于连跌时的情况。进一步地,从下面的分析可以看出,股指连涨(或连跌)收益率的多少,对其之后上涨(或下跌)落在某一范围内的(条件)概率也是有影响的。
从概率的知识得知
P(AB|C)=P(A|BC)P(B|C)
事件C可以表示为,事件B可以表示为Z=1(或Z=0),事件C可以表示为。
可见,已知连涨收益率为一定的情况下,如果继续上涨,其落在某一范围内的条件概率可分为两部分的乘积,一部分为连涨收益率为一定的情况下继续上涨的条件概率,另一部分为在此条件下落在某一范围内的条件概率。从前面的表2可以看出,在非极(大)值的情况下,已经连续上涨了多少对其后继续上涨的条件概率影响的结果不大,因此可以近似认为P(B|C)≈P(B)。这样可以得到以下几种情形:
一种情形是连涨之后继续涨
第二部分的概率P(Z=1)和P(Z=0)可以从实际数据中简单地估出来,即P(Z=1)等于这一时期上涨的天数除以总天数,P(Z=0)等于这一时期下跌的天数除以总天数。在下文中重点考虑前一部分的条件概率。
在“涨停板”时期,得到这两种情况下的条件概率如表3。
由表3可知,在这一时期,当已知股指连涨收益率大于等于0.001时,如果继续上涨,那么在区间0.001至0.011之间转为下跌的条件概率为0.2988;而当已知股指连涨收益率大于等于0.01时,如果继续上涨,那么在区间0.01至0.02之间转为下跌的条件概率上升为0.3288;而当已知股指连涨收益率大于等于0.05时,如果继续上涨,那么在区间0.05至0.06之间转为下跌的条件概率上升为0.3529,此时比无条件概率即的值0.2885高出约6个百分点。可见已知股指连涨了多少对推断未来继续上涨多少的条件概率是有些影响的,它与无条件概率有些差别。
表3 连涨和连跌的两种条件概率
很容易得到已知股指连涨收益率大于r,之后继续上涨超过r+△r的概率。
类似地,可知当股市处于这一时期时,当已知股指连跌收益率大于等于0.001时,如果继续下跌,那么在区间0.001至0.011之间转为上涨的条件概率为0.3783;而当已知股指连跌收益率大于等于0.01时,如果继续下跌,那么在区间0.01至0.02之间转为下跌的条件概率下降为0.3557;而当已知股指连跌收益率大于等于0.05时,如果继续下跌,那么在区间0.05至0.06之间转为上涨的条件概率下降为0.3392,比无条件概率的值0.389下降了约5个百点。可见已知股指连跌了多少同样对推断未来继续下跌多少的条件概率也是有些影响的,也与无条件概率有些差别。而为何其条件概率出现这样的差别,在下文中会做出解释。
也可以很容易得到已知股指连跌收益率大于r,之后继续下跌超过r+△r的概率。
1.3 极值的情形
根据文献[4]中极值的一种定义方法,即:
从理论上推导出连涨和连跌收益率的极值的危险率曲线(其定义如下文)是上翘的。
这里运用极值定义的另一种方法,因为前一种定义方法在运用中没有此种方便。记N(u)为观察值中超过某一个值“的个数,极值:
当“涨停板”时期时,得到的实证结果为:
连涨的收益率当u=0.06时,极值分布即广义帕累托分布的参数为
ξ=-0.491 5,β=0.0448
连跌的收益率当u=0.08时,极值分布即广义帕累托分布的参数为
ξ=-0.1047,β=0.0375
计算条件概率:
其中R表示连涨或连跌的收益率。
得到的结果如表4。(表中的值已减去u)
表4 连涨连跌收益率处于极值时的条件概率
可见当股指大涨大跌,落在极大值范围时,其在之后某一区间内转为下跌或上涨的概率大大增加,(当然此时连涨之后继续上涨的条件概率或连跌之后继续下跌的条件概率大大下降,不能再视为一个常数)。这是因为大涨之后,获利回吐会增多,从而抛盘增加使得转为下跌的概率加大;大跌之后,逢低吸纳会增多,从而使得买盘增加使得转为上涨的概率加大。这与人们的炒股经验相符,而这里给出了实证的证据,并从理论上给出了解释。
1.4 对危险率函数曲线的分析
危险率函数(Hazard function,或称失效率函数)h(r)简单地说就是条件生存率,它是生存分析中的一个重要的函数。人的寿命的危险率函数曲线如浴盆状,即中间低两头高,表明人处于幼年和老年时死亡的概率较大,而青壮年时死亡的概率较小。应用到股市中,粗略地说,危险率函数h(r)表示当股指连涨(或连跌)的收益率为r时,在往后的单位收益率区间内下跌(或上涨)的条件概率,它表明股指在上涨(或下跌)到多少点时下跌(或上涨)的可能性大小。这一指标对于分析和预测股指具有重要的应用价值,也与前面的结论相关。
连涨的收益率的危险率函数定义为:
该式在△r较小时近似成立。
在“涨停板”时期,沪市处于一个牛市时期,上涨和下跌的理论危险率曲线如下页图1。
图1 “涨停板”时期上涨和下跌的危险率曲线
从上图可以看出,在“涨停板”时期,即牛市中,当前一天的股指上涨了一点点时,第二天下跌的可能性小一点,因为这一段的危险率曲线是向上弯曲的;当股指上涨较大时比上涨较小时转为下跌的可能性大一点。为什么会这样呢?因为在牛市中,人们对股市看好,当股指上涨一点点时,人们继续看涨,因此股指转为下跌的可能性小一点,而当股指上涨较多时,获利抛盘就会增多,从而使得下跌的概率增大。下跌的情况正好相反,牛市时,当股指下跌一点点时,第二天转为上涨的可能性大一点,因为股市看涨;当股指下跌较多时,转为上涨的概率小一点,因为此时人们对股指的预期也发生了变化。当连涨连跌的股指收益率处于极大值时,无论是上涨还是下跌,其危险率曲线都是上翘的②。表明当股指大涨或大跌时,其转为下跌或上涨的概率要大一点,这与人们的炒股经验相吻合。前文所得条件概率的结果也可以在这里得到解释。通过上述分析,可以根据以前股指的涨跌情况对明天的涨跌作一个概率推断,这种预测比靠单纯抛硬币来决定股指的涨跌要来得好一点,这对于投资者合理把握买卖的时机是有参考价值的。同时也看出这又比单纯在牛市中预测涨,熊市中预测跌来到精细一些。
熊市时的危险率曲线正好相反,这里就不作赘述了。
值得一提的是,有时候股指连涨连跌收益率的分布服从指数分布,其危险率曲线是一条水平直线,表明股指下一期的涨跌与前期收益率的大小没有关系(即独立的),指数分布是唯一具有无记忆性的分布,而股指连涨连跌收益率的分布在大多数情况下并不服从指数分布,从而也表明股市是有“记忆”的。指数分布应与随机游动相对应,粗糙地看,可以认为连涨连跌的收益率为指数分布,涨跌之间是独立的,也是无记忆的,但是精确地看,却并不如此。
由此也可以看出本研究结论与传统的随机游动理论不完全一致。传统的随机游动理论认为,股票价格的变化是无法预测的。因为股票价格的变动,是一种偶然发生的任意行为,在统计上是彼此独立的,前后没有任何联系;股票价格没有记忆,过去的价格不会重复,以后股票价格的变动不会取决于股票价格以前的变动,所以,股票价格的变动趋势是无法预测的。而从本研究可以看出,股指收益率的危险率曲线是弯曲的,也就是说其条件概率与收益率的大小有关,而不是独立的。
从前面的分析也能看出,在不同时期,不同的政策条件下,在不同的市场里,股指涨跌的危险率曲线以及其他生存函数曲线会有所变化,适时分析这种变化,既可以分析政策的影响,也可以发现市场的变化,这正是对股指进行生存分析的意义所在。由此可以看出,对连涨连跌的收益率的分布作变点研究,是极有价值的。由于连涨连跌的收益率服从伽玛分布,故可以通过分布变点的理论对其进行研究。可发现伽玛分布的两个参数可以很好地表示股指涨跌趋势的变化和波动的变化,对其进行实证研究,详细内容可参见文献[5]。通过对变点的研究可见,表示股市趋势变化的参数r在股市处于某一趋势时期如牛市(或熊市)时期内其取值相对稳定,另一参数λ当股市波动发生明显变化时其取值才发生明显的变化,因此,当股市处于某一趋势而波动又未发生明显变化时可以以一个相对稳定的分布对股指的涨跌做出概率推断,而当发生变点的变化时分布的参数需重新估计,这也是本文进行统计推断的一个基础。
在前面已经讨论了连涨之后继续涨和连跌之后继续跌的情况,下面来讨论连涨之后转为跌和连跌之后转为涨的情况。
1.5 连涨连跌收益率的联合分布与概率推断
连涨和连跌的股指收益率之间具有一定的相关性,这种相关性要比每日收益率之间的相关性来得大一点。统计股指收益率连涨了多少以后连跌多少的条件概率,可以得出的结论是小涨以后小跌的可能性较大,大涨以后大跌的可能性相对增大。同样也统计收益率连续下跌多少以后连续上涨多少的概率,得到的结论是:连续小跌之后有小涨的可能性较大,连续大跌之后有大涨的可能性相对增大。
用二元Gamma函数来进行拟合。得到在“涨停板”期间,连涨连跌收益率的联合分布,其具体方法见文献凹,在这里只引用其结果,与文献凹中有所不同的是,经过重新计算可得到这一时期连涨连跌收益率之间的相关系数为0.3。
可以得出的结果如表5。
表5 连涨后转为下跌的条件概率
可见,随着连涨收益率幅度的加大,之后的连跌收益率落在小幅度范围的概率在减小。同样也可以得到连跌之后转为上涨的条件概率。
这样就完全讨论了股指涨跌的几种情况,可以看出,无论是连涨之后继续涨,连跌之后继续跌,还是连涨之后转为跌,连跌之后转为涨,它们之间互相转换的条件概率都是与历史收益率的大小有些关系的,而非独立的,它们之间呈现一种复杂的相关关系。也就是说,单就已经连涨连跌了多少这一历史价格信息来看,也并不是对未来短期的股指涨跌没有影响。下面还将分析作为历史信息中的另一个重要信息成交量对股指涨跌的影响。
2 考虑成交量等因素对股指未来涨跌的影响
成交量数据作为一种市场交易中供需情况的具体表现,可能包含有用的信息能用于对其他感兴趣的金融变量(例如资产价格、收益率或波动率)的建模和预测。许多学者对此进行了研究,如Stickel与Verrecchia[16]研究了美国股市成交量对价格的影响;Silvapulle与Choi[15]研究了韩国股票市场KOCSPI指数收益率与成交量的引导关系;张维、闫冀楠[8]研究了上证综合指数周收益率与成交量的变动率的引导关系;陈怡玲、宋逢明[1]对中国股市的价格变动与成交量的关系进行了多层次的实证研究。他们的研究表明,股市的日价格变动的绝对量与日交易量呈线性正相关。本文研究也表明连涨连跌的收益率与成交量之间也具有正相关的关系,并进一步给出了成交量对股指未来涨跌的概率影响的具体值。
把连涨或连跌时的成交量V,即连涨或连跌的每日成交量之和,作为协变量来研究连涨连跌的股指与成交量之间的关系。其研究具体见文献[4],这里将其推导的过程引用如下,以便清楚其由来。
假如X的分布是伽玛分布,即
一般假设尺度参数λ受协变量即成交量u的影响,并且假设是一种线性关系,而形状参数γ与协变量没有多大影响。
即Z=log(X)=-logλ(u)+e
进一步假设为Z=α+βv+e。
可以用极大似然估计和最小二乘法两种方法得到参数值,但是极大似然法中不容易求解极大似然方程,而最小二乘法可以很容易得到参数值。由于这里使用了回归模型,于是提供了一个分析框架,即只考虑了成交量对连涨连跌收益率的影响,在Fama的著名三因素模型或其他人的多因素模型中考虑的变量,如市盈率等,甚至包括一些技术指标,其实也可引入这个框架内进行分析。在“涨停板”时期,可以得到连涨情况下:α=-4.6,β=0.023,且都是非常显著的,其中成交量的单位为百万手。连跌情况下:α=-4.9,β=0.028,且都是非常显著的。
表6 不同成交量下连涨收益率在不同区间的概率
这样在“涨停板”时期,带有协变量即成交量V的连涨收益率的分布为
可以计算出上证指数在“涨停板”时期不同成交量下连涨收益率的概率如表6。
可见,成交量确实对上涨的多少(即寿命)产生影响,即成交量较大时,连涨收益率落在较大值范围内的概率也较大。
更重要的讨论是其条件概率。一种情况是,连涨以后继续涨(或连跌以后继续跌)。
即
可以计算出“涨停板”时期,不同成交量、不同连涨收益率情况下的条件概率如下页表7。
可见,成交量的多少对条件概率的大小影响很大,这也表明已知股指连续涨跌了多少与成交量多少这些历史信息对未来股指涨跌的概率是有影响的,对推断其涨跌的概率是有帮助的。
另一种情况是,连涨以后转为下跌(或连跌以后转为上涨)。在这种情况下,将连涨连跌收益率的联合分布中的参数λ由固定的变为成交量的变量就可以了,其中λ与成交量的关系已由上述给出。即:
可得出在“涨停板”时期不同成交量时连涨连跌的条件概率如表8。
表7 不同成交量、不同连涨收益率时的条件概率
表8 不同成交量下连涨后转为下跌的条件概率
表9 以90%的置信水平,已知连涨收益率及成交量的情况下,后市涨跌△r的区间
由表8可见,连涨之后转为下跌时,如果连涨时的成交量大,则其下跌落在小范围内的概率增大。这种关系一般没有被人注意到。
同样可以得到以一定的置信水平,已知连涨或连跌收益率以及成交量的情况下,后市涨跌落在的区间。如以90%的置信水平,在“涨停板”时期,已知连涨收益率(非极值时)以及成交量的情况下,后市涨跌△r的区间如表9。
由表9可知,历史价格与成交量对未来涨跌的置信区间均是有影响的,其影响的机理如前所述。这一结果无疑具有重要的投资参考价值。
3 结束语
从上面的分析中可以看出:
(1)股指涨跌具有一定的趋势,即牛市和熊市交替出现,特别是在中国的股市,这种现象尤其明显。当已知目前处于何种趋势时,股指涨跌了多少对后市有一定的影响,这其实也是技术分析的一个重要假设。
(2)当出现连续大涨大跌时,由于人们的心理和投机行为,也使得其后下跌或上涨的概率增大。
(3)连涨连跌之间具有一定的相关性,从而也使得彼此涨跌的概率不独立。
(4)成交量不仅对当期的股指收益率有影响,而且对之后涨跌幅度的概率也有影响。
在本文中,不自觉地为技术分析找到了某种统计理论的支持。本研究恰巧说明了为何一方面市场有效性的理论极具影响,而同时技术分析特别是价量分析在实际中仍被广泛运用,是有其一定道理的。
由此得到的政策建议如下:1)市场有效与否应更加关注有关信息是否能及时披露,从而利用内幕消息获取超额利润的情形不能频频发生;2)市场是否有效要看市场不能被操纵,从而不能为某些人借以牟取利益,因此扩大市场规模是有益的;3)股市应保持一定比例(无风险收益加上一定的风险溢价)的缓慢增长,不应呈现明显的牛市和熊市的周期,因为这样离有效市场会偏离得更远。4)国资本市场之所以呈现出明显的趋势性,即周期性,与我国资本市场缺乏卖空(即卖出自己并不拥有的股票)等机制不无关系,进行融资融券交易是有必要的,这样可以使股票价格迅速地回归到一个合理的价格,避免股价大涨大跌。
本文研究的作用和意义在于:
(1)可以对股指涨跌作出概率推断。
可以知道股指连涨(或连跌)大于多少点的概率;可以知道股指连涨(或连跌)小于若干点的概率;更为重要的,可以得出股指涨跌的条件概率。已经涨跌了多少对之后的涨跌概率是有些影响的,特别是当涨跌幅度处于极大值时;成交量的大小不仅影响当期的涨跌幅度,而且对后期涨跌幅度的概率也是有影响的,从而可以得到在已有历史信息集的情况下股指未来涨跌的一个置信区间。这对投资者进行投资具有重要参考价值。
同样也可以用这种方法对个股进行分析,对高频数据如时数据、分数据,或低频数据如周数据、月数据进行分析。其实本文的研究方法可以引入对很多经济数据的研究,因为很多经济数据都可以从某个角度上看做是“寿命”数据。
(2)生存分析有助于分析股市的政策效应及股市的变化,从而这种分析方法能够对制订宏观政策提供帮助。通过此种方法,还可以探讨股市的一些基本性问题,如随机游动和市场有效性问题据此对市场有效性进行了一些深入的探讨。
注:本文所用软件主要为S-plus、Eviews、Matlab、Mathematica。
注释:
①以股市一项政策的出台作为某一时期起始时间并以之命名。
②当连涨连跌的收益率处于极值与非极值时,其危险率曲线不连续,这是因为极值的分布与非极值的分布是不一样的。