中立市数千只“股票”:股票收益率与百度搜索量关系的实证研究_股票论文

众里寻“股”千百度——股票收益率与百度搜索量关系的实证探究,本文主要内容关键词为:实证论文,收益率论文,百度搜索论文,千百度论文,关系论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

注意力(Attention)正在成为近年来金融学的研究热点,很多学者都将注意力引入金融领域来解释市场异象(Anomaly),研究者们也提出了多种衡量注意力高低的方式。本文使用了网络搜索量——百度公司提供的上市公司简称搜索量数据——作为衡量股票受关注程度的变量,我们认为这一数据集非常具有研究价值和研究意义,能够很好地代表注意力这一变量。第一,在科技高速发展的背景下,由于互联网的信息传递量大,传播速度快,网络已经成为投资者获取信息的主要来源,而且正在成为人们进行交易的重要平台。使用互联网的相关数据比使用其他媒体的相关数据更能衡量投资者的注意力。第二,百度公司在中国的搜索业务处于垄断地位。根据国内调研机构艾瑞咨询的资料显示,2011年第三季度中国网页搜索请求量达到775.1亿次,其中百度公司占比85.5%,位居第二的Google仅占比7.4%①。基于此,使用百度公司的搜索量数据完全可以代表中国民众的互联网搜索行为。第三,百度公司提供的这项数据能够衡量投资者的注意力,这是由于非股票投资者一般不会使用上市公司简称进行搜索,所以进行搜索的人有很大的概率关注了其搜索的股票。另外,我们还认为,事实上这组数据主要代表了个人投资者的关注度,因为机构投资者拥有较为完善和专业的信息来源,通常不需要使用百度来获取信息。

本文在百度的上市公司简称搜索量数据的基础上,分析了关注度和同时期股票收益率的关系。首先,本文研究了搜索量的高低与股票的收益率之间是否存在关系。研究发现,按照搜索量高低进行分组后,高搜索量组股票的平均收益率显著大于低搜索量组股票的平均收益率。为了控制其他变量对关注度的潜在影响,得到关注度与股票收益率更准确的关系,我们将股票按照搜索量与公司规模、换手率、账面市值比三个变量进行交叉分组做进一步分析。本文的研究发现关注度的解释力度不能够完全被这三个变量包括。其中,换手率包含了关注度的一部分解释力,规模和账面市值比都不包含关注度的解释力。

在得到股票关注度和其平均收益率正相关这一结论后,作者进一步提出关注度或其相关变量可能是系统地影响股票收益率的一个风险因子,并对这一命题进行检验。基于Barber和Odean(2008)提出的注意力理论,我们认为当一支股票被搜索的频数增加时,其受到的关注程度上升,被个人投资者购买的概率增加。在市场存在异质信念和卖空限制的情况下,短期内股票的价格会上升,股票产生正收益率;若股票受到的关注程度下降,可以类似地推出短期内股票价格下降,产生负收益率。由此,关注度变化率(搜索量变化率)会是一个影响股票收益率的风险因子。本文通过Fama-MacBeth两步回归方法检验关注度变化率的风险溢价是否显著异于零,由此推断该风险因子是否合理。但是数据的实证检验结果并不支持这一推论。

二、文献回顾

心理学的很多研究都已经表明了注意力(Attention)的有限性,这种有限性也会影响人们的选择与决策。Simon(1955)认为人们进行经济决策时处理信息的能力是有限的。Kahneman(1973)认为注意力是一种稀缺的认知资源。其他学者还研究了人们的选择性关注(Selective Attention)这一现象。Broadbent(1958),Tresiman(1964)等人均提出了自己的理论来解释选择性关注以及人们分配注意力的过程。

将有限注意力的假设引入金融学研究中带来了很多新的问题:人们如何分配注意力,是平均分配还是区别分配?注意力能否影响资产的收益?很多学者都提出了自己的理论框架,将有限注意力与资产定价理论结合起来研究。Merton(1987)认为,由于投资者的注意力是有限的,所以每名投资者只能对部分股票获取充足信息,他在研究投资者的资产优化配置过程中赋予每名投资者一个信息集,并假定该投资者只会选择自己信息集中的股票来优化自己的资产配置,在此模型的基础上得到了资产均衡价格。同时,Merton(1987)还指出了人们获取信息的成本主要包括三部分:收集、处理数据的成本,信息的传递成本以及引起投资者对该资产关注的建立成本。Hirshleifer和Teoh(2003)认为,投资者的注意力和处理信息的能力都是有限的,因此,投资者对于同一实质的信息的不同表述方式会产生不同认知,越简洁的表述越容易被人理解,越能够正确反映实质。Peng和Xiong(2006)提出了投资者分配注意力的一种方式,认为有限注意力导致投资者的种类学习行为(Category-Learning Behavior),即投资者倾向于将注意力分配在市场级别或者行业级别的因子上而非单一公司特定的因子上。Barber和Odean(2008)分析了注意力对股票供求关系的影响,他们认为个人投资者能够用于股票交易的注意力是一种稀缺资源,因此大多数个人投资者没有办法在研究所有的股票之后再做出购买股票的决定,而只是从高度吸引他的注意力的股票中选择一些购买。

除去建立有限注意力的理论,学者们在实证研究中还提出了不同的变量来代表注意力,如股票交易量(Gervai,Kaniel和Mingelgrin(2001)),换手率(Hou,Peng和Xiong(2008)),新闻和标题数(Yuan,2008),广告费用(Grullon,Kanatas和Weston(2004),Lou(2008),Chemmanur和Yan(2009))等等。Da,Engelberg和Gao(2011)则使用股票在Google中的每周搜索量指数SVI(Search Volume Index)作为衡量关注度的变量,他们认为,这一变量较上述其他变量而言更能直接的反映投资者对股票的关注情况。他们发现SVI与其他注意力的代理变量之间有相关关系,搜索量数据与其他代理变量相比,更能及时代表投资者,尤其是个人投资者的注意力。在国内的研究中,宋双杰,曹晖和杨坤(2011)参照Da,Engelberg和Gao(2011)的方法,利用Google提供的公司名称的每周搜索量指数构建了衡量投资者关注的指标,并利用该指标研究了中国股票市场的IPO异象。他们发现,IPO前个股的网络搜索量对于该股票市场热销程度、首日超额收益和长期低迷表现这三大IPO市场异象有良好的、统一的解释。俞庆进和张兵(2012)使用了百度指数来衡量投资者的有限关注,他们选取中国创业板股票市场的数据,并结合百度指数的日度数据进行研究,发现投资者的关注能给在未来股票带来超额收益,但是很快便会出现股价反转;同时,投资者在非交易日的关注将反映在下一个交易日股票市场开盘的价格跳跃中。本文与上述两篇文章相比有以下几个区别:第一,研究的问题不同,本文主要研究的是关注度和同时期股票收益率之间的关系,并检验了关注度是否能够作为股票收益率的风险因子,与宋双杰,曹晖和杨坤(2011)研究的IPO异象无关,而俞庆进和张兵(2012)主要侧重于关注度对滞后的股票表现的影响;第二,本文使用的数据频率为日度,能够更好地刻画中国股票市场的特点;第三,本文直接使用原始的搜索量数据作为关注度的代理变量,而上述两篇文章采用的指数均由搜索引擎公司在原始数据上进行过处理,同时文章作者也进行了进一步的构造②。第四,本文数据集的股票样本包含1,301支股票,与仅考虑创业板股票相比,更能全面地反映中国股票市场的情况。

除了对注意力的研究,学者还从市场有效性的角度研究市场异象,其中一个方向是对于资产的非流动性的探讨。一个得到研究广泛认同的结论是:股票市场的流动性并不完美,短期内的供求变化有可能影响股票价格,如果短期需求上升则股票价格会上升,反之则反。如Amihud和Mendelson(1986)、Brennan和Subrahmanyam(1996)、苏冬蔚和麦元勋(2004)、梁丽珍和孔东民(2008)等在这方面都有论述。

三、搜索量数据的描述统计量

本文作者使用百度公司提供的上市公司简称搜索量数据来衡量股票被关注的情况。这一部分列举这个数据集的描述性统计量以增加读者对该数据集的直观感觉。

该搜索量数据集是百度公司提供的③,包含1,301支股票的简称被互联网用户搜索的次数,数据频率为日度,时间范围是2006年9月3日至2007年8月28日。采取这一时间范围主要出于对数据频率的考虑。此外,因为部分公司的简称包含“ST”,“*ST”或者“**ST”等西文字符,而互联网用户在搜索时仅使用汉字部分,没有输入这些西文字符,所以一些公司简称的搜索量恒为零。剔除这些搜索量全部为零的公司后,数据集的样本量为953家上市公司。本文所称的搜索量数据是指这953家上市公司简称的日度搜索量数据。本文使用的除了该数据集之外的其他数据均来自CCER色诺芬数据库,后文不再赘述。

本文通过三种方式展示描述性统计量(表1)。第一种方式是“混合”,将每支股票的每日搜索量混合(pooling)成为一个序列后计算其描述性统计量。第二种方式是“每日均值”,先计算每日的平均搜索量,得到一个样本量为360的每日平均搜索量序列,然后列出这个序列的描述性统计量。第三种方式是“每股均值”,先计算每支股票的平均搜索量,得到一个样本量为953的每股搜索量序列,然后列出这个序列的描述性统计量。

本文发现,搜索量的跨时期波动较小,而股票间的差异较大。搜索量数据的均值是262.18,假设每个人每天只搜索一次,则平均每支股票每天约有262人在关注。混合序列的中位数是118.00,标准差是1,159.72;每日均值序列的中位数是242.68,标准差是100.02;每股均值序列的中位数125.03,标准差是1,030.34。每股均值序列的标准差远大于每日均值序列的标准差这一现象反映了不同股票之间的搜索量差异远大于同一股票不同时刻之间的搜索量差异,而混合序列的标准差较大主要是由于跨横截面的差异造成的,而不是跨期的差异造成的。此外,每日均值序列的偏度、峰度值都较小,而每股均值序列和混合序列的偏度、峰度值都较大。偏度值较大反映出序列分布的非对称性,峰度值较大反映出序列分布的厚尾性(Fat-Tailed)。总之,从上述的统计量得出的一致的结论是:同一股票不同时刻的搜索量数据比不同股票之间的搜索量数据要更加稳定。

本文还根据常用的几种方法将股票分组后再列出描述性统计量。我们按照市值规模将样本股票分为5组,标记最小组为S1,最大组为S5,其余各组分别为S2,S3,S4。在这里,股票市值使用的是2006年8月的市值。计算描述性统计量可以发现随着规模增大,搜索量的均值、中位数和标准差都增大。也就是说,大公司的平均搜索量大于小公司的平均搜索量(表2)。从搜索量均值上看,不管是均值还是中位数,不管是每日均值序列还是每股均值序列,平均搜索量都随着规模上升而增大。分为5组后,搜索量是随着规模单调上升的,明显表现出公司越大受关注越多的趋势。另一方面,搜索量数据的标准差也呈现随规模单调上升的趋势,这说明投资者对大公司关注程度的波动率高于对小公司的关注的波动率。

我们按照上市公司所属行业分组后计算描述性统计量,结果如表3和表4(限于篇幅,仅列出平均值和标准差)。可以发现,金融保险业的搜索量均值是3,028.39,房地产业的搜索量均值是421.71,而其他行业的搜索量均值介于148.56到394.72之间。金融保险业的平均搜索量很大,但是其他各个行业的平均搜索量较为接近。这很可能是因为金融、保险行业的公司和人们的日常生活相关,所以有很多搜索量是公司的日常业务造成的,而并不是投资者通过搜索引擎搜寻投资所需要的信息造成的。除去金融保险业后,跨行业的搜索量平均水平差异不大,说明上市公司的日常业务产生的搜索对本文的搜索量数据造成的噪音干扰并不严重。为了排除日常业务搜索为检验带来的影响,作者在第四、第五部分的研究中剔除了金融保险业的股票。

四、关注度与同时期股票收益率的关系

在对搜索量数据有基本了解后,我们分析搜索量与同时期股票收益率之间的关系。考虑到搜索量(关注度)并不是一个与其他变量相互独立的变量,所以必须控制其他能够影响股票收益率的变量对关注度的影响。在已有的研究中,Fama和French(1993)把规模和账面市值比当做风险因子,提出小公司股票的收益率大于大公司股票的收益率,高账面市值比公司的股票的收益率大于低账面市值比公司的股票的收益率。Hou,Peng和Xiong(2008)认为换手率反映了交易的活跃程度,并用换手率作为关注度的代理变量。在其他的一些研究中换手率还被视为流动性的代理变量。本文将这三个变量与关注度结合起来并进行交叉分组分析,以此控制和排除它们和关注度之间的相互影响。

这一部分选取的股票样本在第三部分953支股票的基础上剔除了金融保险业股票,时间范围与第三部分相同。我们将样本内每支股票的每日搜索量进行排序,一共分为5组,从低到高分别记为Al至A5,搜索量低的组投资者对其关注度低,搜索量高的组投资者对其关注度高。同时,每日还根据股票的规模、换手率和账面市值比进行排序,也分为5组,从小到大分别记为S1至S5,T1至T5,BM1至BM5,S代表股票的规模,T代表换手率,BM代表账面市值比。最后,我们将股票按照搜索量和规模、换手率、账面市值比分别进行交叉分组。

我们首先研究仅用单一变量(搜索量、规模、换手率和账面市值比)进行分组后每个小组内股票的平均日度收益率,通过比较小组间股票平均收益率的差异检验这四个变量是否与股票收益率有关;其次,我们采取交叉分组的方式,控制变量之间的相互影响,研究交叉分组后的平均日度收益率,通过比较小组间股票平均收益率的差异检验关注度的作用是否包含在其他三个变量内。得到的结果如表5所示。

首先,考虑单个变量与股票收益率是否相关。第一,从规模、换手率、账面市值比三种分组来看:在本文考虑的样本及时间范围内,小公司的平均收益率小于大公司的平均收益率,S1组的日度平均收益率为0.41%,S5组的日度平均收益率为0.70%,收益率差异达到-0.29%;高账面市值比的公司平均收益率也小于低账面市值比的公司,BM1组的日度平均收益率为0.74%,BM5组的日度平均收益率为0.40%,收益率差异达到-0.34%;高换手率股票的平均收益率大于低换手率股票,Tl组的日度平均收益率为0.08%,T5组的日度平均收益率为2.19%,收益率差异达到-2.11%。以上三组分类下收益的差异都在1%水平下显著。第二,从搜索量分组来看(表5的面板1),A1至A5组的日度平均收益率依次为0.35%,0.39%,0.49%,0.68%,0.92%,股票平均收益率随搜索量的上升单调递增,其中最高关注度组与最低关注度组的收益率差异达到0.57%,双边t检验在1%水平下显著(原假设为两个收益率序列的数学期望相等)。假设检验说明高搜索量(高关注度)组的平均收益率显著大于低搜索量(低关注度)的平均收益率,关注度与股票收益率有正相关关系。

其次,考虑交叉分组后股票收益率的情况。第一,从规模与关注度的交叉分组来看(表5的面板1),按照规模分组后,每个小组内部高关注度组和低关注度组的平均收益率差异都显著大于零。即使在S5组中,平均收益率差异是最小的,但是仍然在10%水平下显著。按照关注度分组后,小规模和大规模股票的平均收益率差异的符号和显著性却并不稳定。在A2和A3中,该值分别为-0.13%和0.08%,均在10%水平下不显著。在A4和A5中,该值分别为0.27%和0.52%,均在1%水平下显著。而没有分组时总体样本的中该值为-0.29%,显著小于零。以上数据事实说明,规模并不包含关注度的解释力,但是关注度包含了规模的一部分解释力。

第二,从换手率与关注度的交叉分组来看(表5的面板2),按照换手率分组后,只有在T3组中,高关注度组和低关注度组的平均收益率之差为0.09%,不显著大于零;其余各组中,该值都显著大于零。按照关注度分组后,A1组至A5组中的高换手率组与低换手率组的收益率之差依次为-1.84%,-1.93%,-2.03%,-2.09%,-2.44%,都在1%水平下保持显著小于零。以上数据说明,换手率包括了关注度的一部分解释力,但是关注度不包括换手率的解释力。

第三,从账面市值比和关注度的交叉分组来看(表5的面板3),按照账面市值比分组后,BM1组至BM5组各组内的高关注度组与低关注度组的收益率差异依次为0.48%,0.54%,0.73%,0.57%,0.48%,都在1%水平下显著大于零。按照关注度分组后,Al组至A5组内的高账面市值比组与低账面市值比组的收益率差异依次为-0.29%,

我们可以得到如下结论:第一,关注度与同时期的股票收益率存在正相关关系,关注度高的股票同时期的平均收益率也较高。第二,换手率包含了关注度的一部分解释力,规模和账面市值比都不包含关注度的解释力。第三,关注度包含了规模的一部分解释力,但是关注度不包含换手率和账面市值比的解释力。

五、关注度变化率作为风险因子的检验

关注度与股票平均收益率之间有正相关关系。一个进一步的问题是:关注度是否能够影响股票的收益?是否是股票收益率的风险因子?我们基于Barber和Odean(2008)的注意力理论产生一个假设,将关注度变化率与股票收益率联系起来,并通过Fama-Mac-Beth两步回归检验这一理论。有必要指出,第三部分我们是在横截面层面上研究关注度对股票收益率的解释力度,即对于不同的股票,其关注度不同,收益率也不同。本部分研究的是对于给定的一支股票,关注度如何影响其收益率,因而我们关注的是在时间序列层面上关注度的变化率。

基于第二部分文献回顾中Barber和Odean(2008)关于注意力和投资行为的研究以及若干关于股票市场流动性的研究,我们提出的假设如下:我们认为,如果承认搜索量变化率是个人投资者关注度变化率的代理变量,那么搜索量上升意味着关注某支股票的个人投资者数量增加,这支股票被购买的可能性增大。另一方面,受到中国股票市场非流动性的影响,对股票的短期需求上升意味着股票价格上涨,股票有正收益;对股票的短期需求下降意味着股票价格下跌,股票有负收益。因此,关注度变化率(搜索量变化率)可能会是一个影响股票收益率的风险因子,股票收益率对搜索量变化率的回归系数成为代表关注度风险的风险系数。根据我们的理论,关注度风险的风险溢价应当为显著正。

我们使用与第四部分相同的搜索量数据作为个人投资者关注度的代理变量,用搜索量的变化率作为个人投资者关注度的变化率的代理变量,在计算搜索量变化率时,本文使用每日的搜索量与前七天的搜索量中位数计算搜索量变化率。

我们检验的命题是关注度变化率是否是影响股票收益率的风险因子,采用Fama和MacBeth(1973)的方法来进行检验,分为两步:

第一步,在时间序列层面上,将每支股票分别回归,用每支股票的超额收益率对搜索量变化率、市场超额收益率、SMB因子收益率和HML因子收益率进行回归,并且保留回归系数(公式1)。其中,SMB因子收益率和HML因子收益率是根据Fama和French(1993)的方法构建的,无风险利率使用的是银行间市场7天拆借利率。这一步使用的数据是2006年9月3日到2007年8月28日。这一步中股票收益率对搜索量变化率的回归系数就成为了代表关注度风险的风险系数。

第二步,在横截面层面上,用每支股票的平均收益率对该股票在第一步的四个回归系数进行回归(公式2),数据的时间是2007年9月1日至2008年9月1日。为了保证结论的稳定性,避免计算平均收益率的时间长度影响结果,第二步计算股票平均收益率使用的时间长度分别为4周、8周、……、48周,起始日都是2007年9月1日(在第一步所用的数据之后)。

如果第二步得到的显著,那么原假设得到支持;如果第二步得到的不显著,那么原假设没有得到支持。

因为第二步回归使用的收益率计算期限长度分别为4周、8周、……、48周,所以每一个期限长度都对应一次回归的结果。表6中的每一列展示了每次回归的结果,各行分别是回归的系数、系数估计的标准差、显著性以及回归的R-square、调整的R-square和样本个数。

表6所示的公式2的回归结果显示,不存在显著为正的关注度风险溢价。在12次回归中,没有得到显著的正值结果,有2次得到了不显著的正的,有8次得到了不显著的负的,有2次得到了5%水平下显著的负的(收益计算期限为44周、48周时,关注度风险溢价为-1.043,-1.152)。

上述检验结果得出的结论是:关注度变化率并没有显著的正风险溢价,故不是影响股票收益率的风险因子。如果关于市场非流动性的假设成立(而这一般是成立的),并且搜索量变化率确实是关注度变化率的代理变量,那么我们的假设中关注度会影响个人投资者的购买行为就出现了问题。上述结果说明:这一假设很有可能不成立,注意力并不能系统性地引起个人投资者的购买行为,个人投资者购买某支股票的概率和他投入于这支股票的注意力没有显著关系。

我们对上述实证检验的原理、数据、结果进行了分析。我们认为,关注度风险溢价不显著也有可能是由如下缺陷造成的:(1)如前文所述,百度公司提供的这一搜索量数据某种程度上仅仅代表关注上市公司的个人投资者的数量,因此,搜索量的变化率仅能代表个人投资者的关注度变化和需求变化,无法反映机构投资者的关注度变化和需求变化。(2)搜索量的变化也不能完美地代表个人关注度的变化情况,上市公司的日常业务关系产生的搜索量噪音是很有可能存在的。但是,使用搜索量的变化率可以在很大程度上避免搜索量噪音的影响。(3)股票收益率同时受到个人投资者和机构投资者的影响,股票收益率可能不直接反映个人投资者关注度变化的影响。(4)该搜索量数据是以日历日为基础的,把每一个交易日收盘后的搜索量也算入了这一交易日,如果能够把t-l日收盘后到t日收盘前的搜索量算入t日,那么该搜索量数据就能够更好地反映个人投资者的关注度。(5)中国市场的流动性并不完美这一假设并没有得到完全的验证。如果中国市场的流动性非常充裕,股票的价格不受短期供求的影响,那么我们的推导将存在问题,得到的上述结论将受到严重质疑。(6)股票关注度风险系数跨时期的不稳定性可能使检验缺乏效力。

从另外一个方面,注意力并不能系统性地引起个人投资者的购买行为这一结论也可能具有更多的心理学上的原因。Norman and Shallice(1986)一篇引用广泛的文章中,讨论过注意力(Attention)对于行为(Action)的影响。他们认为注意力的主要作用在于控制人的行为。仅仅当人对于自己的行为需要修改,或者一些突发性的意外造成修改的必要时,注意力才能够成为影响人类行为的主要因素。而人的主观意志是主要的注意力影响行为的方式。考虑到本文的数据的局限性,我们的数据覆盖了我国历史上最大的牛市阶段。股市一直处于上涨阶段,因此人的主观意志多集中于购买持有股票。即其主要行为并没有修改的诱因。基于这个原因,关注度的效果可能无法体现。

六、结论与延伸思考

本文通过研究百度公司提供的上市公司简称搜索量数据与同时期股票收益率之间的关系得到了如下的基本结论:第一,通过研究搜索量与规模、换手率、账面市值比交叉分组后的股票平均收益率,本文发现关注度与同时期股票收益率有正相关关系,高关注度组股票的平均收益率显著大于低关注度组股票,同时关注度并不能完全被另外三个变量解释,并不包括在这三个变量之内。第二,本文从注意力和个人投资者的购买行为假设出发,推导出关注度变化率是影响股票收益率的风险因子。但是实证检验不支持这个理论,所以可以推断关注度变化率不是一个显著的风险因子。

本文使用了网络搜索量来衡量股票的受关注度,并以此为基础来研究中国市场中关注度与股票收益率之间的关系,为读者了解网络搜索量与股票收益的关系提供了一个较为完整的概要。然而,本文的结论仍然有一些局限性。第一,网络搜索量仅仅反映个人投资者的注意力,而不能够反映机构投资者的注意力,因此本文实际上只是对个人投资者产生的关注度进行了研究,不能把结论推广到全体投资者。第二,本文的样本量较少,覆盖时间范围比较早,而且较短,这可能导致了结论的不准确。第三,有一些股票因为业务关系而被频繁搜索,关于它们的搜索量是否能够代表投资者的关注度还需要进一步的讨论。

注释:

①数据来源:http://www.iresearch.com.cn/View/155878.html。

②宋双杰,曹晖和杨坤(2011)也提及百度数据是中国市场更好的度量。但是由于数据不可获得性,未能使用。

③感谢百度公司对于此研究的支持,特别是罗蓉和罗盎的协助。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

中立市数千只“股票”:股票收益率与百度搜索量关系的实证研究_股票论文
下载Doc文档

猜你喜欢