基于社会媒体的股票行为预测,本文主要内容关键词为:股票论文,媒体论文,社会论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修订日期:2012-12-14 文章编号:1003—207(2015)01—0017—08 DOI:10.16381/j.cnki.issn1003—207x.2015.01.003 1 引言 股票行为预测一直是金融等领域的研究热点。传统的股票行为包括股票回报率、股票交易量和股票波动性[1]。早期,研究人员利用公司的财务报表和股票历史信息来预测公司的股票行为。随着互联网的发展,网络论坛、博客、维基等社会媒体的出现为股票行为的分析提供了一个全新的视角[2]。社会媒体以Web2.0为核心,为人们分享意见、经验和观点提供了工具和平台,是一种新型的网络信息资源组织模式[3]。相对于新闻、报刊和杂志等传统媒体,社会媒体具有互动性,不仅为投资者提供了决策参考信息,还能使其自由表达观点,并且这些观点将进一步影响到其他投资人员的投资决策行为。因此,基于社会媒体的股票行为预测已经成为目前金融和知识管理等领域的热点研究问题之一。 已有的研究表明社会媒体的信息数量与股票波动性成正比,与股票回报率成反比[4]。社会媒体的情感倾向与股票行为具有显著的统计关系[2]。2012年2月,哈佛商学院的一位博士研究表明社会媒体的情感表达能提前6到7天预测出股票市场交易量的变化。现有的研究主要从整体层面上挖掘社会媒体的信息,认为分析社会媒体的信息活动强度和情感倾向有利于预测股票行为。然而,开放的社会媒体使得不同身份的人员均可以在其上自由地发表言论。不同类型人员的情感倾向对于股票行为的影响是不同的。相同类型人员讨论不同的话题对股票市场造成的影响也不同[5]。因此,若要更加精确的反映股票行为的变化,必须进一步分析社会媒体的参与人员和热点话题。 作为一种重要的社会媒体,公司论坛为广大投资者提供了自由开放的信息检索和意见交流平台。有效的分析参与公司论坛讨论的人员和他们关注的话题有助于分析公司的股票行为。干系人理论认为,一个公司具有众多利益相关的干系人,包括客户、员工、股东、政府部门人员等。公司要想取得长远的发展,不能只关注股东的利益,必须处理好其与各类干系人的关系[6]。由于社会媒体的开放性,不同类型的干系人均可以在公司论坛上自由地发表言论和观点,形成不同的热点话题[7]。相对于从整体层面分析公司论坛的信息活动状态,进一步研究每类干系人和话题在公司论坛上的信息活动状态能更加精确的预测股票行为的变化[8]。通过本文研究,我们能够知道究竟哪一类人员(或话题)在社会媒体上的活动能对股票行为产生重大影响,从而为公司决策和政府部门的政策制定提供理论依据。 2 社会媒体分析 2.1 干系人分析和话题分析 2.1.1 文本特征分析技术 一般说来,相同类型的干系人在语言表达上具有类似的特征。例如,相对于其他干系人,投资者可能更偏向于使用股票交易的专业术语和简洁明快的表达方式。同样,相同的话题也具有相似的内容特征,这主要体现在其使用同一类的高频词汇上。因此,分析社会媒体的文本特征能有效的识别各类型的干系人以及他们所关注的话题[9]。 社会媒体上的信息多为自然语言表达的文字信息,具有半结构化等特征。为了便于计算机处理,我们定义了社会媒体分析的文本特征集,将半结构化的文本信息转化为结构定义良好的文本特征向量。利用聚类方法将这些文本特征向量聚成不同的类别。由于同一类别中的文本向量相似度较高,我们有理由认为它们属于同一类干系人发表的信息,或者这一组文本向量代表的话题体现了同一个主题。 已有研究表明,文本特征集主要包括4个部分,即词汇特征、句法特征、结构特征和内容特征[10]。早期,学者通过分析不同文学作品的词汇使用情况来判断其作者身份特征[11]。然而,词汇的使用往往与特定的主题相关。同一类干系人在讨论不同话题时所使用的词汇也不同。社会媒体是一个开放的意见交流平台,为了限制话题范围,我们进一步定义研究对象的内容特征。由于语言表达不仅是词汇的堆砌,还涉及到语法特征和篇章结构。因此,句法特征和结构特征也应纳入文本特征集中。句法特征体现了社会媒体文本语句的组织方式。结构特征反映出文本的谋篇布局风格。由于社会媒体上的文本信息简短且结构较松散,因此,为了简化研究,本文的特征集构建不考虑文本的结构特征。基于以上分析,定义社会媒体分析的文本特征集如表1所示。 2.1.2 主成分分析技术 通过特征提取,公司论坛上各干系人和话题的消息均被转化为一个文本特征向量。然而,这些向量维度高,且各维度间线性相关性较强,不适合直接进行聚类处理[12]。因此,本文利用主成分分析(Principal Components Analysis,PCA),在保留各文本特征向量主要信息的基础上,降低其维度,以便于后续的聚类处理。PCA在最小均方意义下寻找最能代表原始数据的投影方向,从而达到对特征空间进行降维。以话题分析为例,说明主成分分析方法的应用。以每个帖子为单位(假设一个帖子主要讨论一个话题),根据预定义的文本特征集将其转化为文本特征向量。 2.1.3 聚类分析技术 聚类分析技术主要可以分为有监督聚类分析和无监督聚类分析[12]。有监督聚类需要先验知识,例如部分原始数据的类标签。传统的有监督聚类方法包括神经网络聚类和支持向量机聚类等。无监督聚类不需要先验知识,它根据原始数据自身的相似性或者距离将数据分类。例如K-means聚类,层次聚类等。由于没有论坛信息所属干系人和话题的先验知识,因此,我们采用无监督聚类识别公司论坛的干系人和话题。 一般来说,一个人可以具有多重身份。例如,某公司员工购买本公司股票,那么他既属于公司股东又属于公司员工。他在参与公司论坛讨论时具有多种干系人身份。同样,某个帖子的内容也可以讨论多个话题。为了体现多样性的聚类结果,本文采用EM(Expectation Maximization)聚类方法。EM聚类在确定干系人和话题所属类别时,结论不是非此即彼,而是呈现一定的概率分布。以话题聚类为例,某一帖子以不同的概率被认定为若干类不同的话题。我们将其所属概率最大的那个话题确定为该帖子讨论的主要话题。 EM算法从不完整数据估计混合模型的概率密度[14]。这里的不完整数据有两种,一是观测数据不完整,二是引入隐变量使之成为不完整数据。混合高斯模型的概率密度函数,即: 在实验中,我们选用Weka数据挖掘工具,对数据集进行EM聚类处理。 2.2 情感分析技术 干系人的情感倾向能显著影响股票行为的变化。为此,我们分析每类干系人和话题的情感倾向,并将其作为自变量纳入股票行为的预测模型中。情感分析,又称观点挖掘,它利用计算机自动识别文本中主观性内容的观点和情感倾向,被广泛应用于文本挖掘,舆情追踪,客户关系管理等领域[15]。根据粒度水平的不同,情感分析可以分为三个层次:篇章层,句子层和短语层[16]。起初,人们通过统计整篇文档中包含的褒义词和贬义词来对文档的情感倾向做出判断。例如,2002年,Pang[19]提取N-gram特征并利用机器学习方法研究文本的情感倾向。然而基于篇章层的情感分析没有考虑到情感词汇的语义上下文。为了解决这个问题,学者提出句子层的情感分析。Yu[20]在2003年提出基于句子的情感分类器判断语句情感倾向。虽然这些分类器在语句层面考察文档的情感,然而没有考虑到句子本身的语法结构,因此它与篇章层的情感分类没有本质区别。为了更好的判断句子的情感,需要进一步考虑句子的语法结构,例如对于短语的否定和修饰。有些否定和修饰词紧连极性词,有些则与极性词相隔较远,不易判断。为了考虑句子的语法结构对情感极性分析的影响,2007年,Meena[21]将句子表示成一个语法树,进一步提高了情感极性判别的精度。 本文结合观点发现系统(Opinion Finder System)和Senti Word Net(SWN)词表两种主要的情感分析工具判别句子情感极性。首先,利用观点发现系统预处理文本,包括句子分割、词性标注和去词干等。此外观点发现系统还能进行主观性语言匹配模式提取,利用大型主观语言词典提取出主观性的词汇和短语。观点分析系统能有效的将文档中的句子划分为主观性语句和客观性语句[17]。由于客观性语句主要陈述事实,一般不带有感情色彩,因此,我们只针对主观性语句进行进一步的情感分析,识别句中表达观点的极性词语,判断它们的褒贬性。 通过观点发现系统,我们有效的区分出文档中的主客观语句,并进一步分析主观性语句的情感极性。然而,针对情感极性相同的句子,观点发现系统无法提供情感极性的强度信息。为了弥补这个缺陷,我们结合SWN词表进行情感表达极性强度的判断。SWN词表是一个情感词的专业词表,它为每个情感词标注了情感强度的得分值[18]。通过SWN词表,我们计算出主观语句的情感得分。然而仅利用SWN词表计算情感得分忽略了语义上下文。例如,同一个单词在不同的上下文中情感强度不同,甚至情感极性相反。在使用SWN词表之前,利用观点发现系统对语句进行分割和匹配模式提取等预处理,有效的提取出相应的语境特征。因此,我们结合两者的优势对句子的情感倾向性进行判断。 图1 股票行为预测框架 3 研究框架 基于以上分析,我们提出本文的研究框架如图1所示。 本文选取股票回报率作为股票行为预测的因变量。为了有效的分析公司股票行为,必须选择合适的论坛活动变量作为模型自变量。根据前文的相关研究,我们分两个部分共提取四个论坛活动变量。第一部分为信息强度变量,包含每个交易日的消息平均长度和消息总量。第二部分为情感变量,包含消息情感得分和情感分歧,其中每条消息情感得分为消息中所有句子情感得分的平均值。交易日消息情感得分为当日所有消息情感得分的平均值。情感分歧是衡量情感得分一致性程度的变量,它是交易日所有消息情感得分的方差。若论坛消息情感极性一致性很强,即都是积极情绪或消极情绪,则情感分歧不大;相反,若消息情感褒贬不一,则情感分歧较大。显然情感得分相同并不足以说明论坛消息情感的褒贬分布状态一致。 通过之前的文本特征提取、主成分分析、EM聚类,我们提取出参与公司论坛讨论的各干系人和他们所关注的热点话题。为了进一步探究社会媒体上哪一类人员和议题对公司股票行为的影响更大,我们统计每类干系人和话题的论坛活动变量,并分别建立股票回报率预测模型。 图2 各干系人消息量的动态变化 图3 各话题消息量的动态变化 4 实验研究 以雅虎金融论坛的Bank of America Company板块为实验平台,利用项目小组编写的网络爬虫程序抓取论坛信息来分析股票行为。为了更好地体现社会媒体对社会事件的关注以及动态实时特征,我们选取美国问题资产救助计划为事件背景,研究公司论坛上的干系人和话题对具体事件的反应情况,以及这些反应对股票行为的影响。2008年年初美国经济遭遇次贷危机,为了稳定国内经济,2008年10月3日,美国政府实施了问题资产救助计划(Troubled Assets Relieve Program,TARP),主要是为了帮助在这次金融海啸中频临破产的银行和公司渡过难关。我们抓取从2008年10月到2009年12月(最后一批资助计划执行时间)期间论坛上发布的所有消息。根据论坛消息的文本特征,提取出在论坛上活动的干系人和话题,并对它们各自的信息量做统计,如表2,图2,图3所示: 由以上统计结果,我们发现论坛上每组干系人和话题的信息发布量是不同的,有的干系人较为活跃,有的较为保守。例如,公司股东人数远低于政策调控人员和公司员工的人数,然而,他们的人均信息发布量远高于其他两类干系人。这也反映了股东对公司的关注程度较高。在美国问题资产救助计划实施期间,股票交易一致是人们热论的话题。其次,人们最关注的话题是国家的金融政策措施(TARP计划)。由以上分析,我们发现各组干系人和话题的论坛活动状态差异很大,他们对公司股票行为的影响也势必不同。以前的文献利用整个社会媒体的信息活动强度和情感倾向等分析股票行为是有欠缺的,它们没有考察出到底那一部分论坛活动(干系人和主题)对股票行为的变化起到关键作用。因此,我们针对每类干系人和话题建立股票回报率回归模型,分析不同人员和他们讨论的话题对股票行为的影响,结果如表3所示。 由表3可知,当股东在公司论坛上表达正向情感时,伴随着下一个交易日的股票回报率的降低。相反,公司员工表达积极的情感则导致股票回报率的增加。当人们都赞成国家实施的金融危机救助计划时,往往导致股票回报率的下降。此外,当人们长篇大论的探讨TARP政策时,股票回报率也会下降。以上分析将干系人和话题剥离开来讨论,然而干系人和话题之间具有固有的关系,各组干系人熟悉的业务领域不同,因此,他们在讨论不同的话题时具有的可信度和权威性也是不同的。例如,政策调控人员对于国家的宏观调控政策较为熟悉,他们在讨论TARP政策时可能对股票行为造成较大的影响,而在讨论公司股票时他们没有公司股东对股票行为造成的影响力大。因此我们进一步探讨某一类干系人在讨论特定话题时对股票行为造成的影响。我们从六类话题中选取财政政策货币政策和民主党共和党两类话题,分别研究各组干系人在讨论这两类话题时对股票回报率造成的影响。结果如表4所示。 当政策调控人员对当前实施的财政政策和货币政策的意见分歧较大时,导致随后的股票回报率降低。公司员工在论坛上大篇幅的讨论当前的财政政策和货币政策时,会导致股票回报率在下一个交易日上升。 5 结语 针对社会媒体参与人员和讨论话题的多样性,本文基于文本特征分析和聚类方法等,研究不同干系人和话题在公司论坛上的活动状况对于股票行为的影响,揭示了社会媒体上对股票行为起到关键作用的人物和言论。研究结果表明: (1)不同干系人在社会媒体上的活动状况与公司股票行为的关系是不同的。例如,不同干系人的情感倾向对于股票回报率具有不同的影响。 (2)社会媒体上的不同话题对股票行为的影响也不同。在金融危机环境下,探讨TARP政策比探讨其他话题对股票回报率的影响更大。 (3)同一干系人讨论不同话题对股票行为的影响也不同。一般说来,干系人讨论他们较为熟知领域的话题时对股票行为造成的影响较大。 本研究主要存在两个方面的不足:第一,没有考虑到社会媒体的动态性,在不同的时期,社会媒体参与人员和讨论话题会发生改变,未来可以对事件进行阶段划分,研究不同事件阶段,社会媒体上各干系人和话题的变化以及这些变化对于股票行为的影响。第二,没有考虑到社会媒体的多语言环境,未来可以进一步针对中文特征,研究多语言环境下的社会媒体分析对股票行为的预测。基于社会媒体的股票行为预测_股票论文
基于社会媒体的股票行为预测_股票论文
下载Doc文档