摘要:媒体新闻是信息的载体,信息是投资者决策的基础。在阅读新闻过程中,非理性的投资者会受到文字所携带的乐观或者悲观情绪的影响,国外学者证实了财经文字与股票价格之间存在显著的关联。为了支持国内学者在此领域的研究,本文介绍了媒体词汇影响投资者决策的理论基础,并重点介绍汉语情感词典(Chinese Financial Sentiment Dictionary,简称“CFSD”)的构建过程。
关键字:汉语词典;证券投资;语言文字;
1.引言
由于财经新闻、分析师报告等文字(以下简称“财经文本”)是投资者进行证券交易的重要信息来源(Tetlock et al.,2008),利用计算机分析财经文本已经成为证券投资领域的热点研究内容。2014年以来,由百度、中证指数有限公司、广发基金联合打造的广发百发100指数基金赚足了投资者的眼球。根据广发基金官方介绍,百发100指数以用户在百度搜索的关键字为依据,结合金融基本面分析构建而成。2015年,新浪网推出了“舆情牛股”产品,该产品24小时不间断地聚合财经新闻,通过计算语言学方法对新闻文字进行识别和分析,挖掘可能大涨的“牛股”,为投资者提供咨询服务。
由于记者、编辑以及各种报告的撰写者可以影响内容的客观性,文字内容通常具有明显的情绪倾向(Mullainathan and Shleifer,2005),考虑到投资者并不是完全理性的(Shiller,2003),在阅读了携带情绪倾向(以下也称“情感倾向”)的财经文本后,投资者被“潜移默化”,他们的投资决策因此会受到情绪的影响。例如,乐观的文字内容让投资者对未来充满信心,从而愿意购入更多的股票,股市因此充满上涨潜力;相反,悲观的文字内容让投资者更加谨慎,从而减少投资,股市面临下跌风险。财经文本的乐观或者悲观倾向可以由情感词汇体现出来,例如,“光明”,“复苏”等乐观词汇预示着市场前景较好;“疲软”、“架空”、“颓势”等悲观词汇预示着经济前景不明,上市公司盈利可能会下滑。
为了从财经文本中提取情感倾向,哥伦比亚大学商学院教授Paul C. Tetlock巧妙地借用了General Inquiry (以下简称“GI”)系统。实际上,早期的GI(Stone et.al,1962)用来统计文字中某些词汇的数目,即“数值信息”。由于GI包含了哈佛大学心理学词典 (Harvard Psychology Dictionary,以下简称“HPD”),GI也可以用来提取文字内容包含的情感倾向。Tetlock et al.(2008)将GI和HPD引入上市公司股价和业绩的分析中,他们发现财经新闻中的悲观词汇比率越高,下一交易日股票收益越低;本季度的悲观词汇比率越高,公司下一季度的业绩会下滑。由于HPD是社会心理学的通用词典,它包含的词汇与财经领域的专业词汇有着较大的不同,因此,美国圣母大学金融系教授Bill McDonald从上市公司年报中总结了具有情感倾向的词汇,构建了国际上著名的财经情感词典 (简称“LMD”)。
尽管语言文字研究在证券投资领域得到了广泛应用(Kearney and Liu,2014),但国内相关研究却相对滞后。游家兴和吴静(2012)、尹海员和王盼盼(2015)是为数不多的两篇代表性成果,前者通过人工阅读的方法确定媒体报道的情感倾向,后者则通过统计情感词汇数目来确定报道内容的情感倾向。尹海员和王盼盼(2015)对411篇新闻进行了人工分析,列举了17个乐观情感词汇和18个悲观情感词汇,他们的实证结果显示新闻中的乐观词汇个数可以显著推动投资者情绪变化。然而,他们披露的情感词汇仅有35个,无法为国内研究的开展提供强有力的支持。
为了促进国内的相关研究,本文介绍了汉语财经情感词典(CFSD)的构建过程。其中包括三种方法,第一,通过人工翻译法从LMD借鉴部分词汇;第二,通过人工阅读法从财经新闻中总结部分词汇;第三,通过计算机和统计学方法从财经文本中自动提取情感词汇。本文第2节介绍人工翻译法,第3节介绍人工识别法,第4节介绍自动识别法,第5节是总结与展望,词汇见附录。
2.财经情感词汇的直接翻译
美国证券市场是世界公认的最为成熟的市场,各种法律法规都非常健全,因此,借鉴LMD对我国相关研究有着重要价值。
专业性和广泛性是财经资料的显著特点,这给财经词汇的翻译带来了诸多挑战。财经词汇的专业性要求翻译过程必须符合行业规范,力求让内行人看懂。因此,需要特别留意“一词多义”的情形。例如,Balance, 最通用的含义是“平衡”,但是财经领域的意思应该为“账户余额”。此外,英文词法的特点也带来了“一词多态”的问题。例如,Abate,在法律意义上,该词汇的含义为“取消”,但是,该词汇有第三人称、过去式、现在分词等多种形式,可以衍变为Abates, Abated, Abating。尽管Abate的形式多样,但汉语含义只有一个“取消”。
3.财经情感词汇的人工识别
情感词汇是表达人类心理状态的特殊词汇,它们既和心理学有关,又和语言学有关。
期刊文章分类查询,尽在期刊图书馆由于自然语言(英语、汉语)是随着人类文化自然演变而来的语言,它的理解与语法、逻辑紧密相关(胡龙彪,2006)。因此,人类的经验和逻辑思维是识别情感词汇的最佳手段。国际上成熟的HPD和LMD都是由人工总结而来,因此,CFSD的构建也离不开人工识别。
为了借助人类经验补充CFSD的词汇,本文首先搜集了一个财经文本语料库,随后,6名学生中两两一组对相同的财经文本进行阅读,独立识别出所有乐观和悲观情感词汇。如果两人意见相同,则确认词汇纳入CFSD,如果两人意见相左,则引入第三方进行仲裁。
在阅读某新闻时,两名人员对于词汇“供过于求”产生分歧,第一名工作人员认为该词汇只是经济学里面的一个普通概念,与“情感”、“情绪”无关;而第二名工作人员认为,该词汇虽然描述了一个客观的市场状态,但经济学原理指出,“供过于求”会导致商品价格降低,企业收入减少,具有一定的悲观色彩。仲裁人认同第二名人员的分析。因此,“供过于求”纳入CFSD的悲观词汇。相应地,作为同义词,“供大于求”也被纳CFSD。
4.财经情感词汇的自动识别
随着社会的发展,新词汇层出不穷,词汇本身的含义也在不断演变。为了适应不断变化的社会环境,词汇自动识别法是必要的。通常认为,股价下跌后,市场情绪低落,媒体内容多为负面报道,悲观词汇出现的概率较大;股价上涨后,市场情绪高涨,媒体内容多为正面报道,乐观词汇出现的概率较大。
由于自动识别法是基于统计学的方法,不具有人类的经验,有可能出现意想不到的错误。例如, “要紧”既具有很强的乐观色彩,也具有较强的悲观色彩。事实上,它更像是个“关键词”,无论在股市大涨还是大跌过程中均会以较高的概率出现。为了确认自动识别法的可靠性,人工审核是必不可少的最后一步。
5.总结与展望
国外学者借助计算语言学研究金融问题已经成了新常态,与此同时,国际投资界也正在汲取计算语言学带来的营养。为了促进国内相关领域的学术研究,本文介绍了汉语财经情感词典的构建过程,列出了部分词汇。
从金融学术角度看,财经新闻、分析师报告、上市公司公告、网络财经论坛等都是证券市场中极为重要的信息来源,上述财经文本中的情感倾向对上市公司信息披露、公司治理、公司高管行为、金融分析师行为、股价波动、期货与现货的联动都有极其广泛的研究价值;从证券投资角度看,基于媒体关注、新闻报道、用户网络搜索的投资组合已经成为国际投资界的宠儿。可以预见,CFSD的问世将极大地促进国内有关领域的研究。
[参考文献]
Kearney, C. and Liu, S. "Textual sentiment in finance: A survey of methods and models," International Review of Financial Analysis (33:0), 2014, pp. 171-185.
Mullainathan, S., Schwartzstein, J. and Shleifer, A. "Coarse Thinking And Persuasion.," Quarterly Journal of Economics (123:2), 2008, pp. 577 - 619.
Shiller, R. J. "From Efficient Markets Theory to Behavioral Finance," Journal of Economic Perspectives (17:1), 2003, pp. 83 - 104.
Stone, P. J., Bales, R. F., Namenwirth, J. Z. and Ogilvie, D. M. "The general inquirer: A computer system for content analysis and retrieval based on the sentence as a unit of information," Behavioral Science (7:4), 1962, pp. 484--498.
Tetlock, P. C., Saar-Tsechansky, M. and Macskassy, S. "More Than Words: Quantifying Language to Measure Firms' Fundamentals.," Journal of Finance (63:3), 2008, pp. 1437 - 1467.
胡龙彪.自然语言形式研究的历史演进—从逻辑技术的视角看[J],中共浙江省委党校学报,2006(2):44-48。
游家兴,吴 静. 沉默的螺旋:媒体情绪与资产误定价[J],经济研究, 2012(7):141-152
尹海员,王盼盼. 媒体报道、市场收益与投资者情绪[J],软科学, 2015,29(7):136-144.
附 录
汉语财经情感词典
截至2015年12月,本词典总计包含情感词汇3302个,其中积极词汇1389个,消极词汇1913个。由于篇幅限制,本附录只列出了部分词汇,全部词汇请查阅www.tiejun.wang
乐观(积极)情感词汇:
安全、安然、安稳、安心、安逸、安逸的、按期、按时、昂扬、傲然、拔尖、百折不挠、摆脱、板上钉钉、办妥、帮助、褒奖、褒扬、宝贵、…….主要、走高、走强、足够、最大、最多、最高、最好、最佳、最新、尊敬、尊重、遵循、做多、做好。
悲观(消极)情感词汇:
爱莫能助、暧昧、安抚、暗淡、暗示、暗箱、暗中、暗自、黯淡、昂贵、凹凸不平、傲慢、懊恼、罢工、霸占、白白、白费、摆布、败笔、败坏、败退……自责、走低、走过场、走冷、走弱、走私、走熊、阻碍、阻挡、阻断、阻断物、阻挠、阻塞、阻止、最差、最低、最坏、罪恶、罪犯、罪过、罪魁祸首、罪名、罪行、作罢、作废、作假、作弄、做错、做空。
论文作者:王铁军
论文发表刊物:《语言文字学》2016年11月
论文发表时间:2017/2/22
标签:词汇论文; 情感论文; 财经论文; 悲观论文; 投资者论文; 汉语论文; 倾向论文; 《语言文字学》2016年11月论文;