数据新闻:一个需要专业化建设的领域--基于中国五大数据新闻栏目的定量研究_大数据论文

数据新闻:一个亟待确立专业规范的领域——基于国内五个数据新闻栏目的定量研究,本文主要内容关键词为:数据论文,新闻论文,定量论文,领域论文,栏目论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       This paper is a part of the project“Research on the Reform and Innovation of Beijing Media Industry in Big Data Era”(Project No.2015SKL006),subsidized by 2015 Annual Youth Social Science Talent project of Beijing Association of Social Sciences.

       “数据新闻”是近年来在新闻界兴起的一股浪潮,它最初源自英美等国媒体的报道创新,随后逐步向全球扩散,成为大数据时代新闻报道的新方式。

       2012年,“大数据”的概念被引入国内,同年1月13日,网易创立了《数读》栏目,这是国内媒体最早开辟的数据新闻专栏,也由此拉开了国内媒体探索数据新闻本土化发展的序幕。此后无论网站、电视台还是纸媒,不同级别、不同性质的媒体纷纷开始涉足数据新闻这一新领域,刊发此类报道的栏目一一创立。时至今日,数据新闻已经成为学界和业界普遍关注的重要话题之一。然而,一个新闻领域的发展需要相应的专业规范,界定这个领域的特质并给予实践以基本的理念指导和行为模本,否则于领域内外的人而言,都会觉得边界不清而陷入迷惘。数据新闻从产生到发展有其独特的运行逻辑,在英美等国媒体人的探索中,这个领域已逐步形成了相应的专业规范。那么在国内媒体的数据新闻实践中,是否遵循了这种业已形成的规范,亦或是这样的专业规范并没有明确与建立?

       一、文献综述

       要探讨数据新闻领域的专业规范问题,首先需梳理数据新闻产生的背景。作为一种以量化报道为特征的新闻报道方式,数据新闻的专业规范的形成与其产生和兴起的特定的社会历史背景不无联系。

       早在19世纪,新闻业就开始运用量化数据进行报道。全球知名的数据记者Simon Rogers(2011)(英国《卫报》网站数据博客前主编,现任Twitter旗下的数据新闻业务主编)在一篇回顾《卫报》数据新闻历史的文章中曾指出“虽然我们现在有新的分析数据的工具,但是早期媒体记者使用数据、分析数据的动机与我们并无不同”。他认为《卫报》创刊号(1821年5月5日)中就有数据报道(尽管如此,这种使用量化数据的报道方式当时并未形成规模化)。

       Uskali和Kuutti(2015)在一项研究中指出数据新闻的兴起与计算机辅助报道等传播技术在新闻报道中的运用不无联系,并强调美国在这个方面相比欧洲具有更深厚的历史底蕴。20世纪60、70年代开始,美国开始逐步普及计算机辅助新闻报道(CAR),同时以社会科学方法获取报道资料,并采用量化方法对事实或现象进行调查和解读的“精确新闻学”也随之诞生,使用量化数据进行报道的理念与方法逐步为新闻业界和学界所接纳。但限于当时的社会条件,这种新闻理念与操作方式并没有在新闻界得到普遍推广。

       近年来,新闻业面临的格局发生了巨大变化,随着科技的发展与互联网的普及,社会迈入“大数据时代”。来自个人和机构的海量数据得以开放,大量信息以数字形式存储,这使得采集、分析、计算量化数据成为新闻报道的一种必要的方式。数据新闻在这一背景下诞生,同时新闻业真正迎来了“一种朝着量化方向转变的趋势(Petre,2013)”。

       除了受到上述新闻业传统和科技因素的驱动,有学者指出数据新闻的发展还得益于多个层面因素的叠加,“新闻业求生的创新尝试、政府处理信息开放时的逻辑、开源软件对技术壁垒的消解、编辑部里人员结构的重组以及实践的全球扩散等。这些貌似联系松散的行动者们交织成独特的网络,一起完成对数据新闻这项社会实践的制造”。(钱进、周俊,2015)

       在诸多因素中,独特的政治文化因素的影响不容小觑。Rogers(2013)在对《卫报》数据新闻所做的经验总结中提及,从华盛顿到悉尼,从加利福尼亚到伦敦、巴黎、西班牙,数据新闻代表着一场信息透明化的新运动。他认为在英、美、澳、新、西、法等诸多国家政府和该国地方政府都开始推出数据门户网站,大量数据集被发布,为新闻界提供了取之不尽的新闻来源。Coddington(2015)也提及“朝着量化方向转变的趋势”与西方社会的民主传统息息相关,因为诸多此类报道都与支持政府开放的主张和行动相联系,并遵循调查性报道为公众服务的传统。同时,他还补充互联网的开源文化(指支持开放软件源代码的运动文化)使程序员和记者之间的沟通更加充分,改变了编辑室的文化,崇尚创新性、实验性和信息开放的理念也被引入新闻界。

       其次,谈到数据新闻领域的专业规范,还需从其区别于传统报道的特征角度入手。对此,有的学者认为可以相对宽泛地界定,如Alexander等人(2014)在哥伦比亚大学新闻学院数字新闻中心发布的报告中指出数据新闻最基本的形式中必须包含三个要素,其一把数据视为消息来源,采集和印证数据;其二是运用统计方法质询数据;其三是运用可视化呈现数据。同时,他们还提到很多持开放新闻学理念的人认为数据新闻应该包含第四个要素,即数据记者应该将他们调查的原始数据存档,并将之公开发表。他们还需将他们使用的研究方法和分析过程的编码内容一同公布。

       还有一些学者则做了更为细致的界定。在对约90篇相关主题文献进行研究后,Coddington(2015)采用四个维度对数据新闻、计算机辅助新闻报道和计算机新闻(Computational journalism)三个与量化数据报道相关的概念进行了辨析,他认为区分数据新闻可以着重从以下四个维度进行考量:

       一是在专业指向层面,一方面数据新闻保留了编辑的选择权,仍然在用传统的新闻价值观念来评判数据,且仍具有以数据讲故事的新闻学传统专业理念。但另一方面通过开放数据和教导用户使用分析和报道工具,数据新闻更倾向于一种网络协作的生产方式。

       二是在开放性上,数据新闻的理念是崇尚开放,开放新闻生产过程与新闻产品本身就是数据新闻的核心理念。

       三是在认识论的层面,数据新闻实践与以往的量化报道相比,更趋向于运用大数据与大数据处理方法,而非抽样统计的样本与传统统计分析方法①。

       四是从公众在报道中的地位层面看,公众在数据新闻中处于非常重要的角色,他们不是被动地受影响,而是能主动地参与报道,且数据新闻对数据的分析都是站在公众的角度上评判数据对于公众的价值。

       事实上,Coddington(2015)所做的对数据新闻的严格的界定是一种较为理想的状态。而在是否以大数据处理为标志,是否运用统计分析这些层面尚存争议。如Bradshaw、Rogers、Lorenz等知名数据记者都曾在不同场合表示对原始数据集的呈现也属于数据新闻的范畴(Knight,2015)。即使是《卫报》和《纽约时报》这样知名媒体制作的数据新闻作品,也未必都能划分到Coddington的范畴。Rogers(2013)曾提到一种《卫报》用过的“讨巧的数据新闻制作方法”,现在越来越多制作过程相对简单的数据新闻,在新闻事件正在发生的时候,记者们就能非常迅速地找到关键数据进行分析,并引导读者参与到报道过程中来。而Tabary等人(2015)对加拿大魁北克省数据新闻的研究也发现多数作品都是基于公开的数据库呈现出很简单的数据和可视化。

       在另一项通过深访英、美和芬兰等国六位知名的数据记者的研究中,Uskali和Kuutti(2015)发现数据新闻正发展出两种模式,即“调查型数据新闻”(investigative data journalism)和“常规型数据新闻”(general data journalism)。他们认为两者存在诸多区别(见表1②)。研究认为常规型数据新闻能被众多新闻业广泛采纳,成为新闻编辑室里一种常见的形式,而调查型数据新闻则会在少数资源丰富的大媒体存在。除了这两种典型模式以外,文中还提及了一种新出现的模式,即实时数据新闻(Real-Time data journalism),指通过算法对数据来源的数据进行自动处理而生成的数据新闻,这种模式目前仅在美国存在。

      

       总结上述研究成果,我们大致可以描摹出国外数据新闻领域的专业规范,所谓专业规范,应该是某个专业领域运作的基本理念与原则,在数据新闻领域,它起码应该分为两个层面,其一是针对所有类型的数据新闻操作层面,作为领域内的普遍规范;其二则是针对不同类型的数据新闻操作层面,对应于该领域内现有的两类报道模式的专业规范。

       在普遍规范层面,业已达成的共识有以下几点:(1)在从事数据新闻报道时,应该以数据作为报道的主要内容;(2)数据新闻对于选题的新闻价值的判断基本遵循新闻业的传统;(3)应该尽可能地对数据进行核查;(4)应该向公众开放数据来源和数据获取的渠道与方法;(5)尽管有一些报道是专门呈现原始数据集,但大多数报道中应该做统计分析;(6)应该尽可能地将公众吸纳进报道的过程中来;(7)以可视化作为主要的呈现方式,并应该对多元化的可视化形式进行探索。

       在针对两种模式的报道规范层面,对于操作常规性数据新闻,专业规范的要求则相对较低,除了遵循上述基本规范以外,还应该至少做到:(1)从以政府数据集为主的权威数据来源获取数据,数据来源可以是单一的;(2)数据应该对公众具有服务价值。而对于调查型数据新闻,除了遵循普遍规范以外,还应该至少做到:(1)采用包括非政府渠道的多源数据;(2)必须对多源数据的逻辑性和真实性进行核实和交叉比对;(3)采用相对更复杂的数据处理方法。

       总体上看,上述专业规范已得到数据新闻领域内的多数从业者和学者的认可,属于该领域的共识,而这些是构成数据新闻作为一种新的新闻业态存在与发展,并区别于其他新闻业态的核心基础。

       与之相比,由于处于不同的历史和文化背景,我国数据新闻的发展轨迹虽有相同之处,也存在差异。关于数据新闻的专业规范问题虽然缺乏权威的研究,但有关这个话题的讨论已散见于少数文献中。

       有学者指出“从开放数据在中国的推广程度以及新闻教育的跟进状况,国内数据新闻的发展隐含着一些潜在的问题”(黄俊,2014)。而其中最受到质疑的是数据来源操作的规范问题,刘义昆(2014)曾分析国内尝试数据新闻的多是并无采编权的网络媒体,缺乏采编权使它们在数据新闻的制作上更多地依赖传统媒体的报道。因而数据来源较为单一,多数时候只能通过引用传统媒体报道的内容进行二次“咀嚼”。虽能保证数据新闻的准确性或者说“安全性”,但信源渠道的局限,却使得数据新闻的广度、深度和原创性大打折扣,从而影响数据新闻能量的发挥与未来的发展。李逸凡、薛国林(2015)则认为数据新闻在我国媒体和网站扮演重要传播角色的同时,也存在着专业失范现象。数据挖掘技术的不断发展加上来源数据的不透明,使得我国数据新闻的传受关系强弱悬殊。传者利用技术优势挖掘未公开的数据进行独家报道,受者面对单一的信息渠道没有选择的余地,只能被动地接受,这在某种程度上形成了数据新闻时代的传媒话语霸权。

       综合上述,目前针对国内数据新闻的专业规范的研究在诸多数据新闻研究中只占很少的比重,这些研究多以文献梳理和经验性的总结分析为主,虽然提出了一些具有创新性的见解,但是却存在两个缺憾:一是没有对数据新闻的专业规范进行较为清晰的梳理和界定,如果没有这个层次的分析,就无法继续探讨国内的数据新闻领域是否确立了专业规范的问题;二是缺乏相应的扎实的论据做支撑,在学术性上略显薄弱。在探讨一个领域内的专业规范是否确立的问题时,必须对这个领域的状况做一个较为全面的研究,如果仅以一两个案例作为论证支撑,则容易有失偏颇。

       本研究拟借鉴Lewis(2015)所说的三种视角对数据新闻本土化的发展现状与瓶颈做研究。Lewis曾概括针对“大数据时代的新闻学”话题的研究具有三种主要视角:一是基于案例的实证研究视角,主要是进行描述和解释新闻业的发展状况;二是概念体系的研究,以对上述新闻业的变化进行阐释并使之学理化;三是批判视角的研究,质疑这个领域中一些想当然的规则。Lewis认为这三种视角的研究并不相互排斥,在一项研究中往往同时出现三种视角的交叉。本研究认为研究国内数据新闻的专业规范问题需结合这三种视角,既要厘清一系列基本概念,还应该采用实证研究,并且需对此领域的现实问题提出合理的质疑。唯有结合三种视角,才能对这个亟待解决的话题作出更为全面和有深度的考量。

       二、研究方法

       (一)样本选择

       本研究运用内容分析法对新华网《数据新闻》、搜狐网《数字之道》、网易《数读》、财新《数字说》和澎湃新闻的《美数课》五个国内知名数据新闻栏目做定量研究③,从报道的角度反观媒体及操作者对数据新闻运行逻辑的认知。

       在全国范围内选择上述五个栏目主要基于三个原因:

       第一,栏目是承载报道的重要平台,我们默认推出数据新闻报道栏目的媒体也相应地更重视数据报道,并应以数据报道的专业规范制作新闻产品。因而做栏目研究更能进行深度分析,反之,散见于不同报道中的数据新闻数量多且难以作出全面统计;第二,这些栏目依托的母媒具有代表性,覆盖了不同性质的媒体;第三,五个栏目的业界知名度都比较高,且都具有一年以上的栏目历史,因而更具典型性。

       国内刊发数据新闻报道的媒体虽然很多,涉及的媒体形态也非常丰富。但是一些媒体将数据新闻置于以“图解”、“百科”之类词汇命名的栏目中(如人民网《图解天下》、腾讯《新闻百科》等),导致我们难以判断其是否以数据新闻的专业规范来报道;还有一些媒体则是缺乏专门的数据报道栏目因而难以做量化统计(如央视等),故未将这些纳入本研究对象的范围。

       收集上述五个栏目中自2014年10月1日到2015年9月30日历时一年的所有报道作品共计1381个,剔除无法打开的报道和非新闻作品(如广告、澎湃中的漫画、历史上的今天、冷知识中的一些作品),共有1283个报道作为研究样本。样本分布如表2所示:

      

       (二)类目建构与编码说明

       本研究根据Lorenz(2010)所描述的数据新闻的生产过程模式,分别针对数据来源、数据分析和数据呈现设置了相应的指标来分析国内数据新闻的现状,同时因为数据新闻的主题与专业规范相关,在上述三个主要指标之外,还设计了主题指标作为补充。

       首先是对数据新闻来源的分析,包括数据来源的数量、数据来源的描述、数据来源机构从属三个指标。其中数据来源的数量分为无、1个和多个三种,数据来源的描述指数据新闻作品中对来源的描述程度,分为无、模糊、清晰三种,模糊指没有给出数据文件链接或只给出数据的大致来源,读者无法获知具体来源的描述,清晰则是读者能够通过链接或报道中具体所指找到数据文件的描述。数据来源机构从属研究数据的具体出处,分为无、非政府、混合、政府、自采五种。因为数据新闻来源众多,为了研究的目的,我们仅将所有机构简单地划分为政府机构和非政府机构,如果一则报道中运用了多种数据且数据分别出自这两类机构的则划分为混合型(单一数据来源出自政府机构与非政府机构合作的样本也划为此类型),媒体自己展开调查获得的数据则属于自采类型。

       其次是对数据新闻主题的分析,包括主题内容类型和主题功能类型两个指标。其中主题内容类型主要从内容角度对报道进行分类,包括话题型、事件型和混合型三类,主题功能类型主要从报道的目标角度对其进行分类,包括常规型和调查型两类(此处参考了Uskali和Kuutti的分类模式)。增设主题内容分类指标是为了分析两种分类方式是否具有交叉关系。

       再次是数据处理分析。此处运用赋值的方式对报道中的数据处理进行分析。其中完全没有数据处理的给0分,展示数值或只有简单的百分比、均值计算的给1分,做了多样化的描述性统计分析的给2分,做大数据挖掘、探索性统计分析等复杂处理的给3分。

       最后是呈现形式分析。Knight(2015)对英国数据新闻报道研究中用复杂程度和视觉吸引力为指标,以赋值的方式对其进行分析。本研究认为这两个指标可以进行一定的融合,借鉴其赋值的方式对国内报道样本做呈现形式分析。按照呈现形式实现的难易程度进行赋值,其中全文字的静态设计给0分,只有表格或表格变种(指类似表格的图形化处理)的静态设计给1分,结合数据的静态信息图设计或静态时间轴给2分,具有交互性的时间轴和普通视频给3分,交互地图和3D动画设计给4分,设计游戏的给5分。

       本研究由两名编码员负责编码。经过培训后,抽出部分样本让编码员做信度测试,发现编码员间信度(根据霍斯提公式)为0.85。然后对两位编码员进行再培训和信度测试,编码员间信度超过0.9后开始正式编码。

       以上变量都采用SPSS软件进行数据分析。

       (三)研究问题与假设

       本研究拟解答“国内数据新闻领域是否已确立专业规范?”这一问题。我们假设国内数据新闻领域已经确立了相应的专业规范。

       那么根据前面的文献梳理,为了进一步细化研究问题,在普遍规范层面,需验证以下几个假设:

       假设a:所有的样本都应该交待数据来源,而且多源数据应该比单一数据所占比重更高。

       假设b:即使有少量数据来源描述模糊,样本中的绝大多数应该是描述清晰的。

       假设c:因为数据新闻对新闻价值的判断依然遵循新闻业的传统,即使话题型在操作上可以有更充分的时间,但在主题内容分布上,事件型、话题型和混合型的主题比重应该基本相当,不应该出现严重偏向某类主题的现象。

       假设d:在数据处理层面,所有的样本都应该至少做了简单的数据处理,得1分以上,且总体样本的均值应该介于2~3分之间。

       假设e:在呈现形式层面,所有的样本都应该至少做了简单的可视化,得1分以上。为了让作品更多地吸纳用户的参与,总体样本的均值应该3~5之间,因为3分以上的作品才设计了交互方式。因为数据新闻是媒体创新的一种方式,所以作品的呈现形式应该更为多元,样本在2~5档不同的分数上应该均有分布。

       假设f:因为数据新闻往往由团队协作完成,因而不同的环节之间具有较为紧密的联系,数据处理的程度将对呈现形式产生影响,两者之间应该呈现出较为显著的正相关关系。

       而在不同类型的数据新闻层面,需验证以下假设:

       假设g:鉴于我们所选样本的代表性,调查型数据新闻与常规型数据新闻的比例应该大致相当。

       假设h:常规型选题应该更倾向于使用单一数据来源,而调查型选题则倾向于选择多源数据。

       假设i:常规型选题对政府数据的引用比重要高于调查型选题,而调查型选题对自采数据的倚重要高于常规型选题。

       假设j:调查型选题的数据处理评分应该高于常规型选题,介于2~3分之间。

       三、研究发现

       通过SPSS软件对数据进行分析后,得出如下结果(以下涉及栏目将以媒体名简称)。

       (一)国内数据新闻领域是否遵循普遍的专业规范?

       1.假设a验证

       从数据来源数量分析(表3),假设a只能部分成立。

       首先,不是所有的样本都交待了数据来源,尚有7.4%的样本没有交代数据来源。这其中网易表现最优(全部交待数据来源),新华网(13.4%)和澎湃(10.7%)则令人堪忧。

       其次,研究样本中近六成为多个数据来源,单一来源的紧随其后,说明多源数据所占比重略高于单一来源数据。其中网易和财新中两种来源样本比重上相对持平,其他栏目则相差至少二成以上。

      

       2.假设b验证

       从数据来源的描述看(表4),假设b不成立。

       因为在总体样本中,除了7.4%的数据新闻没有对数据来源进行描述以外,尚有73.0%的样本描述模糊,这个数据远远超过描述清晰的19.6%。

      

       在所有栏目对比中,只有搜狐一个栏目的样本描述清晰的比重(86.6%)高于描述模糊的比重(12.4%),其他栏目都不能达到假设b的要求。

       3.假设c验证

       对样本的主题内容类型进行分析(表5),发现假设c不成立。

       因为在总体样本中,话题型的数据新闻比重远远高于其他两种类型,达79.1%,而混合型和事件型比重基本持平(分别为10.2%和10.7%)。且各栏目在主题内容分布上的差异并不明显。这说明目前国内数据新闻出现了主题一边倒的现象,重话题策划,轻事件追踪。

      

       4.假设d验证

       对所有样本的数据处理进行赋值评分后(表6)发现,假设d基本不成立。

       在所有样本中,有20.7%的样本只得到0分,意味着这些样本完全没有做数据处理。同时,总样本的均值为1.27,众数为2,从分布上看,主要的数据处理集中在1~2分档,而不是2~3分档,而做相对复杂的数据处理的比重则很低(2.9%)。

       在所有栏目对比中,除了新华网的栏目中由于37%的报道基本没有数据处理而使其均值低于总样本平均水平以外,其他栏目皆高于样本平均水平,但没有一家栏目的数据处理得分均值高于2分。

      

       5.假设e验证

       根据对呈现形式的统计分析(见表7),假设e基本不成立。

       所有样本中有3.2%基本未做可视化,所有样本呈现形式评分均值为1.84,远低于假设中的3~5分之间。其中得分为2的样本占比达到76%,其次是1分,得分为3及以上的交互作品只占了4.9%,且得到5分的样本为0,远远低于假设e的条件。

      

       比较不同栏目,即使得分最高的澎湃,其均值也只有2.02分。除了澎湃的样本表现较为突出,共有14.3%的样本分布在3分和4分档以外,一些栏目的呈现形式较为单一,并且已经出现固化和模式化,如搜狐的样本中没有3、4分的呈现,而网易的样本全部集中在2、3分两档。

       6.假设f验证

       将数据处理评分和呈现形式评分两个变量做相关分析后发现,Pearson相关性的值为0.474,属于中度相关,表明这两个数据的相关性并不显著。说明假设f基本不成立。

      

       [★★].在.01水平(双侧)上显著相关。

       根据以上六个假设的验证,我们可以基本推断出在数据新闻领域的普遍规范层面,前面所做的假设“国内数据新闻领域已经确立了相应的专业规范”不能成立。

       (二)国内数据新闻领域中不同类型的数据报道是否遵循相应的具体专业规范?

       下面将继续从不同类型数据新闻的专业规范角度做进一步论证。

       1.假设g验证

       对样本主题功能类型进行分析(表9),发现假设g不成立。

       在所有样本中,常规型主题的报道占有绝对优势,比重高达89.2%。主题的分布极不均衡。而在对所有栏目进行对比后发现,财新和新华网的栏目中常规型导向的数据新闻样本占比皆超过90%,而搜狐和澎湃的栏目中这一数据稍低,也超过了70%,唯一不同的栏目是网易《数读》,常规型主题和调查型主题分别占比58.8%和41.2%,两个数据较为接近。

      

       2.假设h验证

       将两种主题的样本分别做数据来源数量的分析,发现假设h部分成立。常规型选题样本并没有表现出更倾向于使用单一数据来源的特征,使用单一数据来源和多源数据的比重分别为34.6%和57.5%。而调查型选题样本则更倾向于选择多源数据,上述比例为31.2%比65.9%。调查型选题对多源数据的倚重只是略高于常规型选题,差异并不明显。

       3.假设i验证

       分别对两种主题样本做数据来源机构从属的分析,发现假设i不成立。

       无论是常规型选题还是调查型选题,使用最多的数据来源是非政府数据,而不是政府数据。常规型选题中政府数据的引用比重只有8.8%,甚至低于调查型报道样本的11.9%的数据;而调查型选题也没有表现出对自采数据的倚重,其自采的比重只有6.0%,甚至低于常规型选题的7.1%。

       4.假设j验证

       分别对两种主题样本做数据处理评分的分析,发现假设j成立。

       调查型选题样本比常规型选题样本在数据处理上更为复杂,均值差异为1.18比1.96。在0分档和1分档,前者比后者分别低20.7和13.1个百分点,而在2分档和3分档,前者比后者则分别高出29.9和13.8个百分点。

       根据以上四个假设的验证,从不同类型的数据新闻操作角度审视这个领域的专业规范,我们发现在国内的数据新闻报道已经出现了类似国外的两种类型的分流,但是在不同类型的报道中,其具体的专业规范表现并不显著,在实际操作中与国外数据新闻领域的专业做法存在较多差异。

       四、讨论与结论

       综合以上两个层面的假设验证,我们可以基本作出判断:国内数据新闻领域并没有确立一套相对完整、全面且具有针对性的专业规范。尽管经过了近四年的实践,这个领域已经具有较高的影响力,并在一定程度上取得了进展,也探索了一些适合中国开展数据新闻的方法。但是其在发展过程暴露出的诸多问题不容忽视,而这些失范的操作正在影响这个领域朝着更加清晰的专业化路径推进,并会反过来蚕食这个领域的科学价值和专业价值。从这个角度看,对此话题进行深入的讨论就显得尤为必要。

       (一)国内数据新闻领域对“数据新闻”的概念体系的认知不够清晰,各种基本概念混淆的问题较为严重

       在研究中我们发现国内数据新闻领域还存在对数据新闻概念认知不清晰的问题。最经常被混淆的概念主要是数据与数字/数值,数据新闻与数据可视化/新闻可视化这样两组概念。

       数据不同于数字或数值,它是一个更宽泛的概念,而

       “数据新闻中的数据应该是经过科学的社会研究方法进行统计分析后得来的信息,即新闻生产者将原始信息经过收集、量化形成可被计算机处理的数据,按照报道的目的、依靠科学的程序和方法对数据进行统计分析,然后将被解构的具有结构意义的数据信息以新闻的形式呈现。在这个过程中,数据是支撑整个报道叙事逻辑的关键线索,或是报道中至为重要的论据”。(方洁,2015)

       从这个角度看,数据新闻中应该重视数据的运用和数据分析,而在对样本的数据处理上我们可以看出,数据在报道中的作用并不明显,

       另外,大量报道将数据新闻与数据可视化或者新闻可视化的概念相互混淆。数据可视化是可视化领域的一个范畴,而数据新闻则是一个更宽泛的概念,如果把数据新闻等同于数据可视化,甚至新闻可视化的话,就会相应地倾向于可视化的呈现,而忽略数据的地位,更忽略数据的分析和处理。在搜集样本时我们就发现,国内很多栏目虽然刊载了数据新闻,但并不以数据新闻为主,而是以所谓的“图解”新闻为主,无论是栏目名还是栏目中的主要作品,都着重于新闻可视化。而有的栏目以“数据新闻”命名,其中又会混杂大量新闻可视化作品,如新华网中有37%的样本未做数据处理,基本是简单的新闻可视化。栏目名使用的随意化以及概念的相互混淆易让操作栏目的人和用户都无法明确数据新闻的特征,从而导致对此专业领域产生更多的误解。

       (二)数据新闻存在被简单化的趋势,其与传统新闻之间的界限并不明显

       正因为概念理解上的混淆,使数据新闻领域涌现出大量被简单化的作品,在数据处理和呈现形式两个层面,皆差强人意。大量的数据新闻和一般的包含数值的新闻相比,并没有显示出明显的差别和优势。

       从调查结果可见,超过一半的被调查样本基本不做数据处理,而在数据处理层面,能运用到相对复杂的处理方法的数据新闻所占比例只有2.9%。很多数据新闻报道将数据新闻等同于数值新闻,只是简单地罗列和展示数值,大量报道将数据处理等同于计算总量、均值和百分比。

       这些简化的数据处理容易让读者产生误解,以为数据新闻与传统新闻中的统计分析没有差别,就是把已有的文字报道做成漂亮的图形而已。换句话说,数据新闻逐步演变成“戴着创新帽子”的传统新闻。看多了这样的数据新闻,用户难免质疑数据新闻和传统新闻之间到底存在怎样的界限?这说明现阶段国内数据新闻领域中数据处理的专业规范并没有受到足够的重视,而数据新闻兴起时所引以为傲的通过数据挖掘和分析以解决问题的专业价值,以及依赖于大数据时代的复杂数据分析能力都被削弱了。

       (三)数据新闻领域缺乏开放数据的理念,缺少与用户的交互

       数据新闻的诞生受益于全球的开放数据运动,而以《卫报》为代表的媒体在推行数据新闻时同样奉行媒体机构向用户开放数据,广泛地吸纳用户的参与。这是数据新闻领域一项已获共识的专业规范。

       从调查结果可见,国内数据报道对数据来源的使用和呈现形式的开发上都显示出缺乏上述理念,对用户价值开发的力度不够。

       以数据来源为例,新闻报道中的基本规范是对消息来源的交代要清晰,但数据新闻报道中有相当数量的作品根本不交代数据来源,还有大量的报道则是模糊描述数据来源,这与数据新闻领域倡导的开放理念背道而驰。

       虽然国外的数据新闻领域正在更多地鼓励报道中采用多源数据,而我国媒体在这一点上已经基本做到对多源数据运用比重高于单一数据,但是在数据新闻报道中,多个数据来源就意味着在数据整合层面作出更多努力,比如哪些数据可以整合,整合的条件是什么?数据是不是同一时段采集的?数据采集的对象是否相同?这些问题都需要作出相应的解答,否则可能使报道因为不同来源数据的差异而出现错误或数据拼凑等问题。在调查中发现,比较单个数据来源和多个数据来源的样本,前者比后者对数据来源的描述清晰的比重更高,多出近13个百分点。由此可见,虽然很多报道采用了多个消息来源,但同时在描述数据时也常常容易出现“偷工减料”、不守规范的情况。

       此外,在呈现形式上过于倾向静态图表,缺乏交互式设计的特征也反映出国内的数据新闻在用户交互层面的开发严重不足。

       (四)数据新闻的主题分布不平衡,常规型数据新闻占比过高在一定程度上削弱了此类报道的深度与科学性

       国内的数据新闻对话题型、常规型主题的绝对倚重显现出数据新闻在我国已被作为一种重要的策划报道类型。其对时效性强的事件报道并不青睐固然受新闻制作的时效限制的影响,但是话题型的报道占主流的内容特点,使得大量的数据新闻都定位于向大众普罗常识,而不是追踪和调查新闻事件或社会问题。由于此类报道多关注话题,而非事件,更多地集中于在一些不痛不痒的软新闻领域做简单的话题重复,在很大的程度上和主流的重大新闻报道相互隔离,从而产生逐步被边缘化的危险。

       尽管Uskali和Kuutti(2015)也认为调查型数据新闻只会在少数突出的具有良好资源的媒体出现,例如《纽约时报》、ProPublica和《卫报》中此类报道比较常见。但是作为国内最具影响力的数据栏目,五家栏目中调查型数据新闻占比过低已是不容忽视的事实。可见相比低投入高产出、运作效率更高的常规型数据新闻,更注重数据印证、数据分析的调查型数据新闻因其耗时长、投入高而并不被看好。这也从一个侧面解释了为什么国内鲜有类似财新《周永康的人与财》那样脍炙人口的作品,而更多的作品则是Rogers所说的讨巧式的报道。

       另外,由于大量常规型数据新闻往往是话题新闻,其以服务性为主,而不是对事件的深度调查和解释。这些作品的共同特点是往往只经过了相当简单的数据处理,甚至没有经过数据处理。这让量化报道原本应该诉诸科学与理性的优势荡然无存,消解了数据新闻的深度。而这正是数据新闻赖以生存的根本,即结合运用计算机的量化研究和分析得出仅通过主观的逻辑推理难以获取的信息和观点。反之,数据新闻仅仅以几个数据和简单的分析就仓促做结论,反而给人不准确不科学的阅读观感,也为数据新闻的传谣埋下了隐患。

       (五)数据新闻的呈现形式略显单调,并未显现出此领域的创新驱动作用

       在全球数据新闻领域,探索呈现形式的创意与多元化是一种趋势。因为数据新闻产生于新闻行业发生巨变、新旧媒介融合的背景之下,媒体将之视为一种新闻报道创新的方式,而创新就意味着投入更多的创意设计的元素,使此类报道不同于以往已有的新闻报道模式。因此,除了静态信息图表,更多媒体开始尝试采用编码、视频技术等多媒体技术手段的交互图表、视频短片、3D动画、计算器、虚拟游戏等呈现形式,将数据新闻与当下最新的新闻生产技术和理念相结合,形成独具匠心的报道。这并不意味着要放弃原有的呈现形式而过度追求作品的外在呈现,而是以一种新闻界探索未来的姿态,体现出这个领域的前沿性及其作为一个交叉领域的实验性。

       与之相反,国内的数据新闻在呈现形式上并没有明显地体现出上述前沿性和实验性,大量数据新闻仍然维持在“一张图读懂……”的程度,在我们搜集的样本中没有一个作品运用了虚拟游戏这种正在被广泛运用于新闻报道的形式,形式相对复杂的作品所占比重也不到5%。不只是我们研究的栏目,一项针对央视数据新闻的研究也发现,当前央视大数据新闻的数据来源多为互联网公司及第三方服务提供商等机构,而数据电视新闻报道呈现仍以浅层应用为主,呈现方式仍以数据来源方提供的原始形态为主,与电视媒体特征结合的层次有限(徐琦、宋祺灵,2014)。甚至还有一些报道只是将文本改头换面地移植到图形中,这些使这个尚未成熟的领域已经出现了遭人诟病的报道程式化的问题,也值得业内人警醒。

       综合上述,本研究认为当下国内数据新闻的发展其实在表面繁荣的景象背后还深藏着隐忧,这个领域虽然已经初步呈现出一些专业做法,但是相距建立较为完整、全面和具有针对性的专业规范相去甚远。在推行数据新闻的过程中,很多做法已背离了数据新闻兴起的基本理念,而这个领域的当务之急是确立一套具有现实指导性且成体系的专业规范。使越来越多从事数据新闻报道的媒体人和对之感兴趣的用户理解这个专业的基本理念和操作规则。

       本研究尚存两点缺憾:一是仅从文本的角度以内容分析的方法反观了这个领域的专业规范问题,选择的样本也主要集中于互联网领域,这使研究结论的深度和代表性上受到了一定的限制。二是对导致此领域专业规范问题背后因素的探寻不够,研究应该结合深度访谈,并将此话题放在社会环境背景中去做更深层次的探讨,尤其是数据新闻领域的专业规范从很大程度上受到国内开放数据大环境的影响,也与新闻媒体的机制转型、新闻教育等诸多话题息息相关。如《南方都市报》数据记者邹莹(2015)就曾在一篇文中感慨,“在此过程中,发现在国内做数据新闻,最痛苦的莫过于数据缺失,太多数据未公开。这类选题,一旦碰壁,倍感无力”。限于篇幅,本研究并没有在这些话题上继续深耕,此话题也亟待研究跟进。

       上世纪90年代,国内曾兴起一股精确新闻报道的潮流,诸多媒体都开办了精确新闻栏目,在报道中引入社会调查方法,加入数据分析。但是仅仅不到十年,这股浪潮就逐步消逝,如今才呱呱坠地的“数据新闻”会重演这段历史吗?

       (中国人民大学新闻学院2015级硕士研究生范迪对此文的材料收集工作亦有贡献。)

       注释:

       ①关于这一点,笔者认为还是一种理想状态,可以被理解为是一种报道旨趣。因为目前国外的数据新闻报道也不能达到完全都做大数据处理,这从后面提及的两种模式的差异可见一斑。

       ②此表根据Uskali,Turo.& Kuutti,Heikki.(2015).Models and streams of data Journalism.The Journal of Media Innovations 2(1),77~88一文中的观点绘制。

       ③澎湃新闻的《美数课》栏目并没有将自身定位于纯数据新闻栏目,其中的“漫画”“历史上的今天”“冷知识”等版块内容不属于数据新闻,但是澎湃新闻作为新锐媒体,其具有一定的市场影响力与代表性,且该栏目中不乏出色的数据新闻,故将之列为样本选择对象。

       ④虽然新华网《数据新闻》栏目样本比重高度40%以上,但通过剔除新华网报道样本,剩余四个栏目的数据分析结果与包含新华网样本的结果差异并不显著,故本研究认为并没有因为新闻网样本比重较高而引起调查结果的偏差。

标签:;  ;  ;  ;  ;  ;  ;  ;  

数据新闻:一个需要专业化建设的领域--基于中国五大数据新闻栏目的定量研究_大数据论文
下载Doc文档

猜你喜欢