大数据舆情研究的现状与进路:基于文献计量分析的思考论文

·舆情研究·

大数据舆情研究的现状与进路:基于文献计量分析的思考 *

周培源

(中国长江三峡集团有限公司博士后科研工作站 北京 100038)

摘 要: [目的/意义] 社会舆情从发展历程看经历了传统社会舆情研究、网络舆情研究和当下大数据舆情研究三大阶段。大数据舆情尚未形成完整的研究体系,需要梳理研究现状,从理念和范式的角度反思并推进大数据舆情研究。[方法/过程] 依托文献计量的方法,借助SATI和Citespace软件对目前大数据舆情研究的文献进行分析,从研究主体、内容、主题和热点等维度勾勒该领域的研究现状并揭示存在问题。[结果/结论] 文章认为“数据”和“技术”是大数据舆情研究的关键生产要素,应当形成基于数据和技术的“新数据-技术范式”驱动下的大数据舆情研究路径。通过打破学科壁垒,营造更加开放合作包容的研究环境助推大数据舆情研究向纵深发展。

关键词: 大数据;舆情研究;研究范式;文献计量法;关键生产要素

2019年是我国全功能接入国际互联网的25周年。25年来,互联网深刻融入并影响了各个领域,成为国家发展的核心变量之一。从传统的门户网站、论坛社区再到移动终端、“两微一抖”等,互联网不仅是社会舆论的策源地、放大器,更是观察社会发展、触摸时代脉搏的重要窗口。广义的网络舆情研究同步于互联网的诞生发展,我国网络舆情的大规模研究与实践则始于新世纪。国内研究文献以2005年为起始年,随后呈现逐年增长态势,2016年达到峰值,近几年仍然保持在高位,提示了该研究领域的热度。

然而,2017年起发文量相对回落,2018年的文献发表数量与2013年数据相当。难道网络舆情的研究不再重要了吗?这构成本文思考的起点:即在“互联网进入下半场”的普遍认知下,网络舆情相关研究是否还具有显著的正当性?当区别于传统互联网的大数据时代降临后,网络舆情研究又面临怎样的机遇和挑战?本文将借助经济学“关键生产要素”的概念,试图回答在大数据时代如何更新网络舆情研究的理念和范式,更好发挥作为一种新型的社会治理手段的网络舆情分析实践的正向功能。

图 1“网络舆情”研究文献数量走势

1社会舆情研究的范式更迭

网络舆情是社会舆情的组成部分,对社会舆情的准确把握是有效弥合“两个舆论场”的重要前提。互联网的不断普及导致更多网民更为充分的网络表达,社会舆论的阵地转移也决定了社会舆情研究重点的转向。

从实践层面看,网络舆情的兴起实际上从早期的互联网信息整合集成开始,旨在“帮助领导干部读网”、实现“倾听民情、通达民意”的目的。随着专业性的增强,网络舆情渐成一种专业化的领域,不再依靠简单的信息整合,而是形成了开源情报分析、社会态势感知等更为丰富立体的研究实践,成为“国家治理体系和治理能力现代化”的重要途径。

从学术层面看,研究者指出,社会舆情研究发展大致经历了传统社会舆情分析、网络舆情分析和大数据舆情分析三个阶段,并且“当前社会舆情的研究正处于从网络舆情研究到大数据舆情研究的过渡期”[1],其中网络舆情分析阶段有广义狭义之分,大数据舆情分析包含在广义的网络舆情分析之下。另有研究者指出,大数据舆情尚未形成完整的研究体系[2],无论是理论概念的界定、现实中的运用等都存在不同声音,学界业界尚未形成统一观点,甚至还有理念上的冲突。可见,“大数据舆情”作为一个独立研究对象或多或少存在争议,因而有必要针对不同阶段研究的关注重点、信息来源、数据特点、核心方法和技术路线等维度进行对比,以论证不同阶段的社会舆情研究作为独立研究对象存在的合理性。不同阶段各自主导的研究范式要素比较如表1所示:

表 1社会舆情研究不同阶段的要素比较

上文简单的对比即可发现不同阶段研究在对象、数据、技术等层面旨趣迥异。尤其是大数据时代对社会舆情的研究带来极大颠覆,可以说,大数据的出现促进并引领着科学研究范式的转变。从研究范式的层面出发,吉姆·格雷总结认为,人类科学研究经历了经验/实验、理论和计算机模拟/仿真三种范式,目前正在进入“数据密集型”科学研究的“第四范式”[7]。鉴于吉姆·格雷是基于自然科学的视角,有研究者指出,社会科学研究正在经历从定性、定量、仿真向大数据研究的第四研究范式转型[8]。随着这一观点的铺陈,学界普遍将“第四范式”等价为大数据研究范式,“大数据+”成为科学研究的新的学术增长点。

近年来,在国家环保相关政策的推动之下,“节能减排”、“低碳环保”及“绿色工厂”等概念不断被企业所推崇,各种高效节能设备在行业中的利用率也是越来越高。在轨道交通行业,传统的弧焊工艺对工况环境要求恒温恒湿,否则极易出现气孔、夹渣、未熔合等缺陷,同时整个焊接过程会产生大量的烟尘,这不仅对环境造成污染,更是对企业员工身心健康的威胁,企业需要投入大量的资金建设相关除尘排烟设备才可能解决一定的问题。而搅拌摩擦焊对焊接环境要求低,能够实现无烟无尘的绿色焊接。记者在参观忠旺集团车间时发现相关的除尘排烟设备都没有开动,但车间环境依然很好,这也充分证实了搅拌摩擦焊可以作为一种绿色焊接,在企业中投入使用。

然而,回到学术话语的具体语境下,“大数据”和“数据密集型”显然存在显著的语义和内涵的差别,有研究者通过库恩的“范式”理论,分析了将“数据密集型”研究方法和“大数据研究方式”混用的逻辑矛盾[9],正本清源。因此,本次研究所谓“大数据舆情研究”即大数据环境下的舆情研究,既包括舆情研究在大数据时代的新情况新变化,也包括通过大数据技术进行舆情研究。为了更好厘清“大数据+舆情”的研究思路,深度把握大数据舆情研究的现状,我们需要从大数据时代的基本特质入手,通过对研究现状的梳理,重思大数据时代网络舆情的研究与实践。

最后,从应用前景看,大数据及相关技术发展应用前景广泛。在电信、能源、金融、商贸、农业、食品、文化创意等行业领域经济效益明显;在政务、交通、教育、健康、社保、就业等民生领域的应用也彰显其突出的社会效益。大数据及相关技术在社会舆情的研究和社会治理层面的应用则更蕴含着实用性和建构性的多重功能,未来的大数据舆情研究可以在推动国家治理能力和治理体系现代化中大有可为。

2大数据舆情研究的文献计量分析

同“大数据”的语义模糊一样,库恩意义上的“范式”同样是个充满歧义的学术概念,社会科学领域的研究在多种意义上使用了“范式”一词,这使得“范式”似乎成为一个含混不清的概念。笔者在此借用经济学中“技术经济范式”的演变来阐释大数据舆情研究的范式转向。

2.1文献分布与走势

图 2大数据舆情研究文献数量走势

图 3大数据舆情研究占网络舆情研究文章比重走势

在对其中的916篇期刊文献展开分析,发现期刊来源有487个,其中发文量前三的刊物分别是《领导决策信息》(26篇)《情报杂志》(19篇)和《青年记者》(19篇)。分析文献共有作者1 286位,来自于1 089个不同的机构单位,其中发文量最多的作者是夏一雪(21篇)、兰月新(20篇)、张鹏(10篇)。值得注意的是,目前发表文献的关键作者在学科背景和发布数量上均存在比较明显的“头部效应”,即少量作者发表了大多数的研究成果,并且主要聚焦于情报学等学科。在成果发布TOP50研究者的知识图谱中,去除没有关系的孤立节点,只剩约一半的作者关系网络图谱,研究机构也局限于少量几家,如图4所示。这表明相关研究还需要进一步打破学科壁垒,呼唤更多元、更开放的研究。

图 4去除孤立节点后的作者、研究机构关联图谱

从数量上看,大数据舆情研究的文献自2012年起开始发表,其后增速明显,2018年略有下降。但从比重走势看,2012年以来大数据舆情研究占网络舆情研究文章的比重一直保持增长态势,2018年更是增长至1/4,表明大数据相关研究已经成为并且持续占据网络舆情研究的重要位置。

(5)从工艺上讲,对小于0.045 mm细泥在底流中的混杂率要求并不很严格,本次试验为21.27%,水力分级效率=粗粒正配率-细泥混杂率=77.56%,此值符合现实情况。

表 2关键词词频与中心列表

按词频排序,高频关键词和图谱很显著地体现了研究的重点。从中心度的指标看,大数据舆情中的“大数据”兼具技术(中心度0.48)和产业(中心度0.34)的双重属性,催生了网络舆情特别是高校网络舆情(中心度0.45)的具体应用。更进一步,本文利用Citespace通过知识聚类的视角对核心期刊发表的“大数据舆情”相关研究成果进行聚类分析,绘制相关研究成果的网络聚类图谱并命名如下:

图 5研究关键词的知识图谱

图 6基于关键词的聚类结果和命名

回到“大数据”研究本身,“大数据”已经成为学术研究的“明星词汇”,并且从“范式”概念本身来考量,“大数据”实际上更有资格成为一种新的科学范式[9]。早在20世纪80年代,阿尔文·托夫勒(Alvin Toffler)在《第三次浪潮》中就明确提出了“数据就是财富”的观点。2008年,《自然》(Nature)杂志也出版专刊探讨未来大数据研究相关的技术问题和挑战,大数据(Big Data)逐渐成为炙手可热的概念进入学界业界政界,并切实成为驱动社会发展的新的生产力。可以说,大数据相关思维、理念以及技术等的运用,已经为不同的行业、领域注入了新的增长动力。从现实层面看,网络舆情与大数据的结合可谓势所应当,仔细辨别,两者在数据文本思维、技术处理需求等方面还存在相似之处。本文最后一部分,拟从网络舆情研究的最新态势出发,结合前文分析的研究现状,对如何进一步推动大数据时代的舆情纵深研究提供理念上的思考。

表 3研究主题聚类结果

图 7相关研究的突现主题分布

最后,从突现主题的历时变迁可以看出,研究伊始就形成了上述五大关键领域,这五大突现领域分别肇始于2013年和2014年,持续时间均在2-3年。2016年以来,尚没有形成新的突现研究话题,提示了近来研究的创新话题乏力。

文献计量方法的运用旨在透视研究领域,深度把握研究现状并暴露潜在问题。上述的分析过程我们至少能够得出几个基本结论:第一,从数据面的整体情况看,大数据在舆情研究中的重要性日渐凸显,比例稳定攀升,但研究相对集中、学科壁垒明显以及对策泛化等。第二,从“大数据”的语义层面,还存在很多模糊性有待厘清,包括作为一种产业、作为一系列技术、以及作为区别于“小数据”的大数据,还应从语义、特征和本质等维度深刻阐释。第三,相当数量的研究成果沉淀了相对稳定的研究方向,围绕“数据”和“技术”成为大数据舆情研究的重要分支,有待进一步深入。最后是研究背后的潜在危机,包括近几年没有形成新的突现主题,同时2018年大数据舆情研究的数量首次出现负增长,提示我们需要进一步冷静思考,如何通过提高研究质量进一步把大数据舆情相关研究推向纵深发展。

2.2研究内容和热点挖掘 本部分的研究热点主要通过期刊文献的关键词的频次、中心度和相关指标的聚类进行发掘。一般地,关键词是文献核心内容的集中反映,高频关键词能够直观反映研究的相对热点。同时,基于关键词的共词分析、聚类分析等能够进一步发现研究的热点内容、研究分布等。

3大数据舆情纵深研究的范式思考

为更具体直观地发现研究的相关主题和关联热点,通过SATI软件,采用Ward.D2聚类算法对已有研究的关键词进行聚类分析,将重点议题数量设置为5,则有如下结果:

鉴于当前大数据舆情研究尚未形成公认的研究范式和明确的研究路径,本部分拟通过对知网相关中文文献的回溯,窥探目前国内围绕大数据舆情研究的基本态势。本文在中国知网以“大数据”AND“舆情”为主题进行检索,返回相关文献1166条,采用文献计量法,借助SATI[10]和Citespace[11]等软件,从研究主体、研究内容和研究热点等维度勾勒该领域的研究现状。

“技术经济范式”本是用来解释技术创新和经济变迁的关系的,所谓技术经济范式是在一定社会发展阶段,由主导技术推动宏观和微观经济结构和运行模式发展的过程,并由此决定经济生产的范围、规模和水平[12]。相对应的,大数据及其相关技术创新与舆情研究进展的关系,同样可以在一种新的范式思维下进行把握,我们认为相较于传统的舆情分析,大数据舆情研究的“关键生产要素”产生了根本性改变,即“数据”和“技术”这两个关键生产资料在整个舆情研究中发挥了独特的无可替代的角色和功能。“关键生产要素”决定了不同范式的特点,同时也是划分和区别不同范式的标准和依据。判断影响要素是否可以成为“关键成产要素”需要满足三个特性,一是生产成本具有下降性;二是供应能力具有无限性;三是运用前景具有广泛性[13]。本文认为大数据(此处的“大数据”特指“海量的数据”本身)和围绕大数据形成的相关技术群落具备“关键生产要素”的特征。

人海之大,竟无一是你所求,无一能为你所托。你不得不一次又一次地做了欲望的傀儡,木樗樗地继续着你的每一天,并把它称作“我的生活”。

首先,从成本上看,由于数据和信息自身的固有性质,随着大数据及其相关技术的成熟和更广泛的应用,决定了其边际成本会显著下降。同时随着科技的进步,算法优化、计算能力的增长等利好因素使得同等规模的数据抓取、存储、分析效率提升、成本下降,完全符合“关键生产要素”的第一个特征。

其次,从供应能力上看,大数据时代的数据生成速率将呈现稳定高速增长。大数据战略浪潮下,各国先后制定、陆续发布了政务数据开放的政策文件。另一方面,社会生活无时不刻不在产生信息和数据,互联网3.0时代的舆情数据生产速率更快、规模更大、开放性更强,为大数据时代舆情研究的数据供给提供了根本保障。在现有技术处理能力上,算法和计算能力的同步推进,“关键生产要素”的第二个特征也非常明确。

为了真正做到有效倾听,最需要克制的就是“过早质疑”。打断说者几乎总是“不好”的,要么不礼貌,要么不恰当。打断说者往往会浪费他人的时间、分散他人的注意力。

基于以上的分析,本文认为,大数据舆情研究阶段,数据本身和围绕大数据形成的关键技术群落已经具备了“关键生产要素”的基本特征,因而本文认为大数据时代的舆情研究应当从传统舆情研究和网络舆情研究阶段走出,产生范式的转变,即形成在数据和技术双重驱动下的大数据舆情研究“新数据-技术范式”。

5.中国在研究时间上整体较日本滞后,研究成果较少,层次不是很高,尤其系统性、整体性研究较日本相差很多。

从数据要素看,不仅是因为大数据时代的“4V”特征,而是需要我们实现从重视数据本身到发掘数据间关系的转变。无论是传统社会舆情分析阶段还是网络舆情分析前期,我们关注的重点都是信息本体。大数据时代低密度的非结构化数据本身可能很难直接导出有价值的结论,但通过对海量数据之间关系的挖掘,有助于实现对高价值密度信息、情报的补益、验证,可以有效获取数据分析的重点方向。因而,反观本文一开始提出的社会舆情分析“三阶段”,在大数据舆情分析阶段,研究对象悄然发生了变化,即从数据文本本体转向了数据文本关系。

(三)个体差异理论。个体在生长过程中,因为先天、后天等诸多原因,导致个体的成长千差万别。作为学校的教师,在教师力所能及的范围内,根据学生的差异,因材施教是及其必要的。教师要更多的考虑构建和谐的学校环境、如何调动学生学习主动性、激发学生创造性。

从技术要素看,目前大数据已形成了相关技术产业,能够提供不断完善的技术平台。从数据获取存储预处理、热点发现追踪评估以及决策支持等,跨界合作可以一定程度降低大数据舆情分析的技术门槛。但我们需要进一步思考的是算法技术的科学性问题。很多平台和算法都声称技术的科学稳定,但以热点发现处理为例,常用的聚类算法很多,包括Single-Pass聚类算法、K-means算法、SOM神经网络聚类算法等,不同算法可能在处理相同对象时得到不同的结论[14],这反而动摇了技术流派的科学性和准确性的基础。目前已有研究者开始对不同算法进行横向对比,以回答“什么时候用什么算法更好”的问题[15-16]。这表明,在相同情景下,算法选择的差异可能导致舆情评估的差别,我们试图“科学化”的大数据舆情分析,实际上同样面临与传统时期和网络舆情时期一样的科学性质疑。

4结语:期待开放合作的大数据舆情研究

大数据重要性毋庸赘言,但更需要我们区分基于学术研究的大数据舆情和基于实践运用的大数据舆情。尽管两者无法剥离,但存在本质区别。大数据技术、大数据产业以及大数据研究等方向分别遵循不同的推进思路,需要我们分别讨论、有的放矢。目前知网关于“大数据”的研究已经接近12万篇,大部分来自计算机等理工专业,相当部分是技术层面的讨论;新闻传播学科的“大数据”研究也超过7000篇,研究者试图在大数据时代尝试突破传统新闻传播议题的边界,运用大数据技术探索新闻传播的新领域、新境界。但正如研究者批评和担忧的,部分所谓大数据舆情研究实际上“舆情而不大数据”。其实,大数据的特征决定了智能时代的舆情研究需要颠覆性的方法和技术路线,不同方法和技术路线的争议,有的是学科分化后的壁垒导致,如理工类学科更倾向于建模等“技术流派”[2],人文社科领域则更多走反思的“思辨路径”[17];有的是学科内的理念争鸣,如“理论驱动”与“数据驱动”的分化[18]等等。这些理念的分野、范式的砥砺、技术算法的优化,既表明当下的短板与不足,同时也给出了解决方案,即在一种开放、合作、包容的研究环境中推动大数据舆情研究向纵深发展。

一般来说,当循环水浓度由50 g/L增高到300 g/L时,精煤灰分可增高1%,因此在选煤生产中,严格控制循环水浓度十分重要。循环水浓度降低,可深化重复利用。合理调整水量平衡,尽最大努力利用循环水。在选煤系统工艺调整或检修桶、池时会排放煤泥水,因此选煤厂必须建立足够容量的事故池,并使工艺达到事故池中的煤泥水能回到选煤系统中。选煤厂补充用水提倡采用处理后的矿井水或中水。洗煤用水应净化处理后循环复用,大中型选煤厂必须实现洗水一级闭路循环,洗选原煤清水耗应控制在0.15 m3/t以内。

参考文献

[1] 夏火松,甄化春.大数据环境下舆情分析与决策支持研究文献综述[J].情报杂志,2015,34(2):1-6,21.

[2] 李金海,何有世,熊 强.基于大数据技术的网络舆情文本挖掘研究[J].情报杂志,2014,33(10):1-6,13.

[3] 唐 涛.基于大数据的网络舆情分析方法研究[J].现代情报,2014,34(3):3-6,11.

[4] 张云中,李紫千.大数据分析到情报研究:天堑抑或通途?[J].情报理论与实践,2019,42(6):17-21.

[5] Sun X, Ye J, Ren F. Multi-strategy based sina microblog data acquisition for opinion mining[C]//International Conference on Intelligent Computing. Springer, Cham,2014:551-560.

[6] 化柏林.从棱镜计划看大数据时代下的情报分析[J].图书与情报, 2014(5):2-6.

[7] Jim G. On eScience-a transformed scientific method[J]. Tony H, Stewart T, Kirstin T. The Fourth Paradigm:>[8] 米加宁,章昌平,李大宇,等.第四研究范式:大数据驱动的社会科学研究转型[J].学海,2018(2):11-27.

[9] 董春雨,薛永红.数据密集型、大数据与“第四范式”[J].自然辩证法研究,2017,33(5):74-80,86.

[10] 刘启元,叶 鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012,(1):50-58.

[11] 李 杰, 陈超美.Citespace科技文本挖掘及可视化[M].2版.北京:首都经济贸易大学出版社,2017.

[12] 李 哲. 大数据将加速形成新的技术经济范式[N]. 学习时报,2015-01-05(007).

[13] 鄢显俊. 从技术经济范式到信息技术范式——论科技—产业革命在技术经济范式形成及转型中的作用[J]. 数量经济技术经济研究, 2004, 21(12):139-146.

[14] 马永军,刘 洋, 李亚军, 等. 基于 Single-Pass 的在线话题检测改进算法[J]. 天津科技大学学报, 2017(6):73-78.

[15] Xi T, Li J . A comparative study between single-pass algorithm and k-means algorithm in web topic detection[C]// International Conference on Advanced Ict,2014:190-195.

[16] 柳 虹, 徐金华. 网络舆情热点发现研究[J]. 科技通报, 2011, 27(3):421-425.

[17] 邵培仁,王 昀.触碰隐匿之声:舆情认知、大数据治理及经验反思[J].编辑之友,2016(12):5-10.

[18] 张志安.大数据与新闻传播研究的学术想象[J].国际新闻界,2018,40(2):133-139.

The Status Quo and Path of Big Data Public Opinion Research :Rethinking Based on Bibliometrics

Zhou Peiyuan

(Postdoctoral Research Station of China Three Gorges,Beijing 100038)

Abstract :[Purpose /Significance ]Social public opinion has gone through three stages: traditional social public opinion research, network public opinion research and big data public opinion research. Big data public opinion has not yet formed a complete research system, so it is necessary to sort out the current research situation, rethink and promote the research of big data public opinion from different concepts and paradigms.[Method /Process ]Based on Bibliometric method, this paper uses SATI and Catespace to analyze the current research results on the study of big data public opinion, outlines the research status and reveals the existing problems in this field from the dimensions of research subjects, contents, themes and hotspots.[Result /Conclusion ]The article holds that "data" and "technology" are the key factors in the research of big data public opinion, and the research path of big data public opinion driven by "new>Key words :big data; research on public opinion;research paradigm;bibliometrics; key factors of production

收稿日期: 2019-07-14

修回日期: 2019-10-08

基金项目: 中国博士后科学基金资助项目“‘一带一路’背景下央企品牌国际传播研究”(编号: 2018M640158)研究成果之一。

作者简介: 周培源 (ORCID:0000-0003-2588-161X),男,1990年生,博士,博士后,研究方向:大数据舆情研究、品牌国际传播。

中图分类号: G206

文献标识码: A

文章编号: 1002-1965( 2019) 12-0086-06

引用格式: 周培源.大数据舆情研究的现状与进路:基于文献计量分析的思考[J].情报杂志,2019,38(12):86-91.

DOI :10.3969/j.issn.1002-1965.2019.12.013

(责编:贺小利;校对:王 菊)

标签:;  ;  ;  ;  ;  ;  

大数据舆情研究的现状与进路:基于文献计量分析的思考论文
下载Doc文档

猜你喜欢