国内微博研究的发展与机遇,本文主要内容关键词为:机遇论文,国内论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:TP391 文献标识码:A 文章编号:1002-1965(2012)07-0025-09
1 研究背景及相关工作
微博(microblogging)又称“微博客”或“微网志”,是一种允许用户及时更新简短文本(通常少于140字)并可以公开发布的微型博客形式,其代表有Twitter和新浪微博等[1]。
在国内,2010年被称之为中国的“微博元年”[2],2011年更是被称之为“中国政务微博元年”[3];截至2011年12月底,已经收录到《中国重要报纸全文数据库》的主题为“微博”或者“Twitter”的文章达2 153篇之多,其中1 739篇(约占80%)为2011年的新作[4]。在这样的背景之下,微博及其相关话题成为政府、商务机构和寻常民众的热门话题,也是信息科学和社会科学共同关心的焦点之一。
本文以“中国知网(CNKI)”[5]、Web of Knowledge[6]、Engineering Village[7]收录的相关文献的题录数据及国家基金委[8]、美国专利局[9]等的检索数据为基础,从微博相关文献的年代趋势、作者分布、关键字分布、刊物分布、专利内容、基金资助方向、研究焦点等多个角度探讨微博研究的现状及特点,识别出趋势预测、行为分析、信息控制、跨领域应用等热点领域,并帮助读者掌握刊物和文献特点,为国内相关研究人员提供参考。
目前已经有多篇关于微博研究的综述性质的论述。闫幸等[10]。从微博的基础性研究、微博环境下的沟通研究和微博沟通价值三个方面对当前研究状况进行综述,总结了微博的分类、使用现状及影响因素、沟通特征、传播模式及在各行业的应用等,指出了在社会化营销中微博的重要地位和进一步研究的方向。文献[10]基本上局限于营销领域,没有涉及网络、信息、计算科学等相关学科,也没有进行整体上的统计分析。
从营销角度,Rui Wang[11]等结合微博营销和复杂网络理论,综述了在营销领域建立的各种理论模型及相关的营销方法,讨论了微博和其他社交网络的不同特点,以及复杂网络在解释微博现象时的不足之处。该文献局限于营销领域和单个理论框架(复杂网络理论),没有提供微博研究的整体概况。
从信息技术角度,Cheong & Lee[12]将Twitter相关研究分为两个领域:“用户(user)”相关和“消息(message)”相关,并将已有文献分别纳入到这两个框架中进行讨论,详述了各个文献所使用的数据采集方法(例如网络爬虫法和搜索API等)和数据处理方法,总结了用户度量方法、信息传播模式、用户和文本的聚类分析等研究进展。但该文献[12]仅关注计算机及信息技术领域,同时既没有涉及中国相关研究的数据,也没有宏观层面的统计分析。
本文试图以更为广泛的文献资料为基础,从宏观层面全面地总结微博研究的现状,并从中归纳出若干规律性结论,为相关研究人员提供参考。
2 基础数据
本文从中国知网(CNKI)、Web of Science、Engineering Village以及国家基金委和美国专利局网站[9]使用“微博”、“twitter”等关键字进行检索(检索时间截止为2011年年底),获得如表1的数据,作为本文研究的基础数据。注意其中的“文献数”是在检索结果中删除了著录信息不全及非论文性质的题录后的有效结果数量(例如缺失作者名的题录和文集的前言等都被删除)。除中国基金项目和美国专利数据外,所有数据均被导入到NoteExpress(简称NE)中,以方便检索和统计处理。这些数据(NEL格式,即NE库文件),可在文献[13]自由下载。
从表1可以看出,关于微博的SCI/EI收录论文、核心期刊论文等都有相当的数量;其中,EI收录论文中,2011年的数量约为660篇。作为对比,2011年“data mining”(数据挖掘)方向的EI文献数约为4 000篇,子方向“Web mining”(Web挖掘)的EI文献数为185篇;考虑到微博是最近数年刚刚兴起的技术形式,在单年度发文量上有这样的成绩,表明微博相关研究已经成为一个独立的子方向。
另外,国内论文总数、专利申请数均有一定规模,说明国内相关研究已经起步,并已经取得实质性的成果;但其中标注有基金资助的论文数相对较小,不到中文核心论文总数的8%。作为对比,我们使用“数据挖掘”做主题在核心期刊中检索,在使用基金过滤条件和不使用基金过滤条件的情况下,结果论文数分别为4 788项和9 381项,即超过50%的文献带有各种基金资助。这种差距说明微博方向的研究在中国尚未受到严重的关注。
3 论文数量对年代的分布
图1是微博文献数量随年代的分布情况(博士论文数量较小,没有统计在内);为了对数量的变化有一个直观的理解,我们在图中添加了主题为“Web mining”(Web挖掘)的SCI文献的数据以作为对比的参考;“Web mining”是一个已经比较成熟的领域,因此可以看到它的曲线趋于平缓。从图1可以看出,从2008年起,微博相关的研究论文呈迅速增长趋势(其中SCI收录论文数包括SCIE、SSCI和、CPCI)。
图1 微博研究论文数随年代的增长趋势
4 收录论文作者国家分布
以“China”为检索词,在EI检索条件中增加“国别”(Country)条件,及在NE的SCI题录文件夹中过滤“作者地址”,可以分别得到两个类别中国内作者的数量;类似方法可以得到过滤条件为美国(即“United States”或者“USA”)的论文数量。其结果见图2。
图2 SCI/EI收录论文中美作者数量对比
从图2可以看出,国内微博研究的论文数量,在整个EI收录论文中,所占比例为美国的1/4强;而在偏向理论研究的SCI收录论文中,则不到美国的1/10,说明我国相应研究的层次尚有很大的提升余地。图3和图4是更详细的国别分布,对我们了解国际上各个国家在微博领域的研究现状有所帮助,特别是注意到同一国家在两个分布中的不同地位,对于我们了解该国的研究特点有所启发。
图3 EI收录论文关于作者国别的分布
图3和图4说明,中国作者在SCI上的排行远逊于EI排行,这可能和目前国内EI会议论文的快速增长有一定关系;台湾和印度分别占据EI发文排行的第6和第9,但在SCI排行前十中消失,可能暗示这两个地区的技术偏向比较强,而理论偏向较弱。
西班牙和韩国在SCI上表现不错,而印度作为一个基本上的英语系的国家,被排除在SCI的前10之外,落在韩国之后。
图4 SCI收录论文关于作者国别的分布
在理论研究方面,除美、加之外,英国、德国、日本、澳大利亚的研究成果都值得重视。特别需要注意的是,EI和SCI收录论文中,美国的比例均占1/3强,同时也基本上与排行前十的其他国家的总和持平,这可以看做是美国的科技大国的地位在微博相关研究方面的充分体现。
5 刊物分布
表2、表3、表4分别为SCI收录论文、EI收录论文和中文核心期刊论文的发文数量前20名的期刊列表,其中已经剔除了会议论文。
对比三个表的数据,我们可以发现如下规律:
a.SCI期刊中,综述性刊物的比例较大,排行前20中有4个直接以综述(Review)作为刊物名称,而其他部分刊物(如FORBES、FORTUNE等)也可以认为是综述性刊物。
b.SCI期刊中包含多种世界顶级杂志,例如Forbes、Fortune、Harvard Business Review等,以及最大的在线杂志Plos One;其他重要期刊包括全球最早发行的社会关系杂志Public Relations Review[14],美国信息技术协会出版的Journal of the American Society for Information Science and Technology[15],Elsevier出版的Business Horizons[16],Sage出版的New Media & Society[17]等。
c.SCI期刊偏向于社会科学、信息科学和交叉科学,关心技术对社会和人类行为的影响等。
d.EI期刊则偏向技术层面,关心网络、通讯、信息技术的理论与应用等。和SCI刊物的特点类似,表3中的刊物也多数是世界知名刊物,例如:排行第一的EContent[18]是IT行业的权威,其评选的“Econtent100”反映了信息科技的最优秀企业和行业的最新进展。排行第3的Technology Review[19](中文版名称为“麻省理工《科技创业》”)则是有110多年历史的权威科技商业杂志。除此之外,还有多种IEEE、ACM、HP等的重要会刊在列。
e.中文核心期刊中排行前20的,绝大部分属于新闻、传播领域,基本上没有其他领域的学术刊物,也缺乏有影响力的权威刊物,因此可以认为中文文献虽然在数量上有一定规模,但分量不重。
根据以上特点,我们认为,国际范围内的微博研究已经受到足够的重视;相比之下,国内微博相关的论文虽然绝对数量并不少,但大多数属于应用层面或实例分析等文章,缺乏理论和技术深度;而刊物的分布也说明整个国内学术界的微博相关研究尚没有形成规模,与国际趋势差距很大。
6 关键字分布
表5是中文关键字的分布情况;表6是SCI/EI收录论文的关键字分布情况;我们在这两个表中都只列出了频次在前20位的关键字。
从上述关键字分布数据可以看出,中文关键字的分布比较集中,中文文献主要关注社会科学领域,包括新闻、传播、营销等;特别是舆情监控、议程设置、意见领袖的识别等,和当前国内政府管理部门的某些需求强烈相关;少数关键字涉及信息技术领域(如AJAX和Web 2.0等)。
EI文献的关键字分布体现出强烈的技术性,涵盖信息获取、语义分析、数据挖掘、可视化、信息传播、算法、搜索引擎、社会科学计算等多个领域。
SCI文献则关注更为基础的层面,包括社会化媒体、社交网络、行为学、隐私等。
从总体上看,中文文献的实用性、应用性倾向比较强烈,而EI/SCI文献则表现出研究领域的专业化和多样化,技术和理论含量较高,可以为国内相关研究的发展提供参考。
7 专利分析
作为一种新兴的技术形态,微博相关的专利申请尚比较少;表7是2011年中国公告的部分专利申请,表8是2011年美国公告的部分专利申请(申请人后面的括号表示非美国申请者的国别缩写),两个表都是按照时间最近优先的原则列出了10项。
对比这两张表,我们可以发现一个很有意思的现象:美国和中国的专利申请者,都包括较多的大型公司和学术机构,例如中国申请者华为、腾讯、中科院、清华,美国申请者微软、雅虎、爱立信(瑞典)、天主教大学工业学术合作基金会(韩国)等。
从专利内容上看,两国专利申请的大部分都为软件系统和信息处理方法;中国专利较多地关注微博应用本身(如微博专用设备等),技术含量较高的(例如包含自主算法的“话题检测方法”)还比较少;美国专利的研究则在广度和深度上都有更多的体现,包括内容自动生成、广告推送、可视化通讯、社交数据分级、语义聚类等。
8 作者/领域分析
作者/领域分析有助于识别专业研究个人和团队,并追踪相关的发表和成果。
限于篇幅,本文列出中文、EI和SCI作者中发文较多者各15名,并对每个作者所发论文相关的研究领域做一个简单的总结,见表9、表10和表11,其中表11中删除了仅有会议论文的作者记录。
上述表格数据表达了和文献关键字分布同样的信息,即中文作者的研究方向多数局限于新闻、传媒等领域,仅有少数属于计算机技术领域;而EI/SCI作者的研究领域则表现出专业性和多样性。
还有一个有趣的特点,即中文文献作者的单人发文量并不高(与EI作者比较),说明“微博”方向可能不是该作者的主研领域之一,专业研究团队尚未完全形成。
9 博士论文
博士论文代表周期较长规模较大的研究行为,对于研究方向的比较和选择有较大的参考意义。在本文写作之时尚无直接以微博为研究对象之博士论文,但涉及微博和社交网络的有四篇,下面分别说明这些文献和微博及社交网络的相关之处:
文献[20]讨论了一种电视节目(真人秀)与当前社交网络环境的融合,以及在这种语境下的营销创新设计。
文献[21]仅仅将微博放在互联网这样一个大环境中,探讨与网民的“表达自由”相关的法律问题。
文献[22]与文献[21]类似,同样是在互联网的大背景下的探讨,其议论中心是网络舆论的传播规律。
只有文献[23]是针对以微博为代表的社交网络的专项研究;它提出以层次聚类算法来构建动态兴趣组,从而改善内容推送设计和潜在朋友关系推荐框架。该文献的研究领域属于数据挖掘(特别是文本的主题挖掘)。而其他三个文献虽然涉及微博,但缺乏针对微博特性的专门讨论,因此不属于严格意义上的微博相关研究。从这个角度来看,目前中国的博士论文,还根本没有针对微博的人文社科领域的研究。
10 国家基金资助项目
从2007年起,国家基金委开始对“社交网络”(或称“社会网络”)有关项目进行资助,但直到2011年,才资助直接以“微博”为研究对象的2个项目;这两个项目都是青年基金项目,起止时间是2012年到2014年年底[8]:
a.面向微博客空间实时舆情监控的观点挖掘关键技术研究(冯时,东北大学)
b.基于信任链的微博群体情感挖掘研究(张波,同济大学)
这两个项目基本上都属于文本挖掘领域,并且其应用范围可能都是舆情监控,虽然从理论上来说,观点挖掘和情感挖掘也可以用于商业营销等。
基金项目代表了近期研究的热点方向,结合第10节的分析,我们认为,以文本挖掘为基础,结合各领域的不同需求,以及社交网络数据的实时性、大容量、高可变性、持续流动等特性,而进行的各项高效算法及应用技术的研究,应该是当前国内微博研究的一个热点方向。
11 前沿/潜力方向分析
由于中文微博文献较多地讨论社科话题,因此我们先来看看典型的社科基金资助文献所关心的方向;“典型”文献选择的方法是:过滤掉知识普及型和具体事件型的文献,并挑选以发表学术论文为主的刊物;过滤后的2011年典型社科文献见表12。
上面的文献可以分成3种类型:a.微博作为一种社会工具,在社会政治体系中的作用及利用方式,如应用于公民参政和廉政建设[24-25]。b.微博作为一种社会现象的作用机制和本质属性[26-28]。c.微博作为一种舆论力量,其监测和引导的机制与方法[29-31]。
这些文献在探讨上述问题时,往往侧重于定性研究,而在定量研究方面仍比较欠缺。
表13是中国自然科学基金(或重点转向、计划等)资助的文献;从数量上来说,要少于社科文献,但刊物的权威性要高于表12,文献的专业性和研究深度也比较高。
除综述[10]外,表13中的文献可以分为如下几个方向:
a.微博数据的采集方法[40](其采集的数据可作为相关研究的数据基础);b.针对微博文本的数据挖掘[32-33,39](包括主题挖掘、文本分类、信息过滤等);c.针对微博用户的数据挖掘[34,37](包括意见领袖识别、用户特征分析等);d.微博在其他行业和领域中的应用研究[35-36,41];e.微博技术本身[38]。
在上述的方向中,b、c、d应该是最为主流的方向。
关于微博研究方向更为权威的数据,可以从SCI文献中获取。在本文采样的SCI文献中,有近20%的论文标注有基金支持;为了研究的方便,我们从中抽取如下最具代表性的基金机构,来分析微博研究的热门及潜力方向。这些基金机构主要包括:a.美国自然科学基金会(National Science Foundation,NSF);b.美国国立卫生研究院(National Institutes of Health,NIH)。
这是世界上最为知名的两大科学基金机构。除此之外,我们还将受以下机构资助的论文也包括在内:
a.美国军事研究所(U.S.Army Research Laboratory,ARL);b.中国自然科学基金委员会(National Science Foundation of China,NSFC);c.瑞典科学基金会(National Science Foundation,SNSF);d.美国空军科学研究署(Air Force Office of Scientific Research,AFOSR)等。
按上述抽取原则,表14列出了2011年SCI文献中部分基金项目:
在表14中,很显然,NIH资助的研究[43,48]都是关注在微博(如Twitter)中跟踪疫情或者个体健康相关信息。这些信息可以为流行病的防治或者有针对性的保健活动提供参考乃至预测作用。从这两个文献抽样可以看出,由于微博的海量容量和体现个人状态的及时更新,结合微博的跨领域应用是一个很好的方向。
文献[45]使用Twitter数据验证了Dunbar理论,即:在社交群体中,一个个体能够与之保持稳定联系的其他个体数量是有限制的,大约在100~200之间。这为研究群体中信息传递的规律提供了一个边界条件。文献[51]提出一种新的分类的框架,用于社交网络分析,以整体性的理解社交网络中角色和角色的属性。这两个由军事机构资助的研究,都是使用数据挖掘技术进行人群行为的分析和分类等,亦可认为其包含有潜在的政治军事策略用途。
类似研究人群行为规律还有文献[44]和文献[46];这两个研究分别由中国和瑞典的国家基金资助。文献[44]从统计角度提出社交网络的参与者与活动数之间的幂律关系;文献[46]使用仿真实验证实了社交网络中“富的更富”的领袖形成机制。
在受NSF资助的文献中,文献[42]通过Twitter数据研究人的情绪随白天时间的变化,以及不同季节对人的正向情绪的影响;文献[47]研究社交网络对人群情绪的影响,特别是主观幸福感在“线上”社交网络中与在真实网络中有着同样机制;文献[49]以局部地理位置上的Twitter信息为基础数据,研究这些数据所携带的时间趋势信息,并提出了对这些趋势的分类度量等算法;文献[50]基于“事态感知”理论,对孟买恐怖袭击事件中Twitter的负向作用进行了分析,并提出一个用于信息分析和控制的概念框架。这些文献至少向我们传达了三个重要的研究方向:基于微博人群的情绪(行为)研究、基于微博的趋势分析及预测,以及特殊语境下的微博信息控制策略。
12 结论
本文以微博相关的中文核心期刊收录论文、中文博硕士论文、SCI/EI收录论文、中文专利、美国专利,以及相关基金资助信息,分析“微博”研究的现状和趋势,总结出热点领域和潜力方向;其主要结论为:
a.微博相关研究已经成为一个独立的子方向;中国关于微博及“社交网络”的研究已经起步,并有相当数量的发表,但距离国际水平尚有很大差距,特别是理论层次需要提高;而从基金资助的比例来看,微博相关研究在中国尚未受到严重的关注;从另一个角度来看,这种现状也是一个开拓研究领域的新机遇。
b.微博文献从2008年起,开始快速增长,其增长速度明显高于其他类似学科(例如“Web挖掘”)。
c.EI/SCI收录的微博相关文献中,美国作者约占1/3;在文献数量前10名的国家中,美国作者的数量更是相当于其他9国之和,充分体现了美国的科技大国地位。
d.微博相关的中文论文虽然绝对数量并不少,但缺乏理论和技术深度,发文刊物的学术性和权威性也很有限,说明国内学术界的微博相关研究尚没有形成规模,与国际趋势还有相当的差距。
e.从关键字分布上看,中文文献的实用性、应用性倾向比较强烈,而EI/SCI文献则表现出研究领域的专业化和多样化,技术和理论含量较高,可以为国内相关研究的发展提供有力参考。
f.从专利内容看,国内专利发展较快,并偏重应用层面,多为设备或应用系统,而在具有较高层次理论和技术支撑的专利方向上还有很大的发展余地。
g.作者领域的分布和文献关键字分布表达了同样的信息,即中文作者的研究方向多数局限于新闻、传媒等领域,仅有少数属于计算机技术领域;而EI/SCI作者的研究领域则表现出专业性和多样性。中文文献作者的单人发文量不高,也可能意味着“微博”方向不是作者的主研领域,及国内相关的专业研究团队尚未形成。
h.人文社科领域的中文文献数量较多,但却根本没有真正以微博为研究对象的博士论文,显示出目前该领域还是一个完全的空白。
i.中国直接针对微博的研究基金资助在2011年刚刚开始,项目要到2012年才启动,这个方向应该是还有很大的上升空间。
j.基于社交网络和真实社会及人群的密切关系,以及社交网络数据的实时性、大容量、高可变性、持续流动等特性,而进行的各项理论和应用研究,应当是当前微博研究的重要方向,其中包括并不局限于:基于微博的趋势分析和预测、人群的行为研究、特点语境下的信息控制、各种高效算法研究、跨领域跨学科的各种应用研究等。
本文仅限于微博相关研究的整体状况总结,没有进入具体的研究领域中进行工作,也没有提供关于某研究方向的最新进展等详细数据,因此若需要进一步的分析,可以在文献[13]下载本文所采集数据的NoteExpress数据库格式文件,直接导入后即可进行更为详尽的研究。
收稿日期:2012-03-26 修回日期:2012-05-23