大数据时代新闻信息资源的结构性变化及其影响,本文主要内容关键词为:结构性论文,信息资源论文,时代论文,数据论文,新闻论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在中国,“大数据”这个词在最近的一两年变得格外火热。在有关大数据的热烈讨论中,也时不时地有泼冷水者。无论是热炒还是冷思考,我们需要看清的是,大数据究竟只是一个过眼烟云的概念,还是一个将深刻影响未来的大趋势。
尽管新媒体时代的确有不少热门概念转瞬即逝,但我们也看到,有些概念经受住了时间的考验。“互联网”这个在当年与大数据一样热的词,在今天已经不仅仅是一个概念,而是成为了我们生活的一部分,成为影响社会发展的重要力量。
同样的,“大数据”这个概念的出现,是信息时代这个大的背景,它也与社会化媒体、移动传播、物联网、云计算等技术应用紧密相关。可以说,它是各种技术的综合产物,也会因各种技术的发展而不断演进。
从目前大数据技术展示出来的能力来看,大数据技术的影响将是深远的,甚至很多影响也许是我们今天无法想象的。对大数据技术,我们当然要保持冷静的观察,不能指望大数据能改变一切,也不能把大数据这个概念套在一切现象上,但是,如果它将成为未来的必然趋势的话,那么我们没有理由因为它太热,而有意地回避或逃避。
对于新闻业来说,现在要完全判断大数据技术将如何改变新闻业的生产方式,也许并不容易,但至少有一点我们已经看到,那就是,新闻生产过程中的信息资源,即新闻中的事实、要素、背景等信息,其来源将发生结构性变化。物联网中传感器采集的数据(包括移动互联网中的地理位置数据)、社会化媒体中的用户生产内容(UGC)以及新媒体中的各种用户数据,将得到更为广泛与深入的应用。也就是说,非专业媒体人甚至是非人工采集的信息将占有越来越大的比重。
在大数据等技术支持下,新闻中所需要的信息资源,将越来越多地通过自动的方式进行采集,并通过相关的技术进行过滤、分析,新闻的深度、个性化程度也会在技术的支持下得到加强。
新闻信息资源的结构性变化,也会导致新闻业务形态的变化,目前在国外开展的“传感新闻”、“机器人新闻”尝试,正是代表了在数据技术驱动之下传媒业新的探索。
一、物联网数据与“传感新闻”
今天关于大数据的很多案例,都是指向对用户数据的分析、对用户生产内容(UGC)的利用等方面,但是,从发展趋势来看,大数据时代一个重要的数据来源,是物联网。
物联网的概念是在1999年提出的。物联网技术是通过射频识别(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网连接起来,进行信息交换和通讯,以实现智能化识别、定位、跟踪、监控和管理的一种网络。物联网也就是“物物相连的互联网”。物联网的重要特点是,自动采集物体的信息,并根据需要将这些信息发布到互联网上。
当然,这个“物”,也包括“人体”。手机、人体传感器以及“谷歌眼镜”、智能手表等可穿戴设备的进一步发展,将可以更方便地采集人体和与之相关的信息,并将它们通过互联网传播。
大数据技术之所以成为必然趋势,也与物联网的发展分不开。物联网一旦普及,将使得数据的量级以惊人的速度发展。
物联网的基础是安装在各种物体上的传感装置,它们是信息的采集手段。虽然不同物体上的传感装置及工作原理不尽相同,采集的数据也有所差异,但是,没有传感器,就没有物与物的相联。
一些美国媒体已经开始研究如何借助传感器搜集即时数据来进行报道,并且将这样一种探索称为“传感新闻”(Sensor Journalism),尽管在这个名义下进行的实验所采用的传感装置有些还比较原始。
这其中一个代表性的个案是美国纽约的WNYC广播电台的约翰·基菲(John Keefe)发起的一个项目,他和一些志愿者利用自制的传感装置,来预测“17年蝉”的出现,其依据是,当地下8英寸的土壤温度达到64华氏度时,这些蝉就会从地底冒出①。
美国的Public Labs发动路易斯安那、密西西比、阿拉巴马和佛罗里达等地的自愿者利用带有照相功能的气球和风筝等探测设备进行航拍,以反映海湾地区的石油泄漏情况,各地人们拍摄的这些航拍图,揭示出海湾地区石油泄漏的范围与程度。他们希望这些资料能为环境研究以及相关的政策的改善提供依据。虽然这算不上一个新闻报道,但是这一项目同样可以给媒体带来启发。
Pachub(现发展为Xively)是一个物联网信息分享平台,它帮助全世界用户共享来自物体、设备、建筑和环境的传感装置的实时数据,其中一些传感器数据可以帮助人们实时地了解自己周围的空气质量。这个平台也被“传感新闻”的研究者所关注。
美联社的记者们也已经开始通过与手机连接的传感装置,来监测空气质量并进行实时报道。
有研究者认为,目前一些天气预报和交通方面的报道已可以称为“传感新闻”。
一些新闻院系和研究者也开始关注“传感新闻”,哥伦比亚新闻学院甚至计划建设一个“传感新闻实验室”。
虽然目前在美国进行的“传感新闻”实验,大都还没有采用物联网技术,并且主要是通过志愿者参与探测、传感工作,但是它们已经揭示了一种可能,那就是,探测、传感装置可以成为媒体人的助手,在人力所不能及的地方进行信息的采集。在更先进的物联网技术支持下,数据的采集会变得更为准确、持续,它们能给新闻报道带来更广泛、庞大的数据资源。
物联网提供的数据,不仅丰富了新闻的信息来源,也会促进某些新闻形态的发展。从长远来看,物联网与大数据技术的结合,更有可能促进以下几方面的新闻与信息服务的发展。
1.预测性新闻
通过传感设备探测的信息,来预测一个事物的变化过程,揭示其发展趋势,是可行的,特别是在与环境、交通、健康有关的领域。当物联网将所有需要观察的对象都连接在一起时,可以在更大范围内进行数据的比较与综合,它作为社会的“晴雨表”的功能会更为突出。例如,如果同一时期部分人的体温等数据发生相似的异常情况,也许预示着流行疾病的爆发。拥有了相应的物联网数据,无论是相关机构还是媒体,都可以更好地预测未来,未雨绸缪。
2.深度报道
目前的深度报道主要依赖于记者们的主观观察。无论多么优秀的记者,他对于事物的观察都只能是受制于个人的视野与立场,即使是相对深入的,也未必是全面的、充分的。而与记者在某一个视野有限的观察点上对事物进行的观察与分析不同的是,在某些领域里,物联网的数据可以更直接、准确地反映全局性的或深层次的状况,如果能在这些数据的基础上进行分析,报道的深度将得到有效的提升。
3.个性化新闻服务
物联网的传感装置不仅可以反映全局性的状态,也可以反映某一个特定物体或空间的状况,这为个性化的新闻或信息服务提供了依据。
据报道,物联网企业Ayla正在与新浪合作开发WiFi气象站,利用安装在某所房子的传感装置的探测,可以为用户提供针对这座房子的微型天气预报。这样的一种精确到一座房子的个性化信息服务是前所未有的。只有依赖物联网技术才能将信息服务做到如此个性化。当然,当上千台这样的设备连接到云端,就可以获得一个城市的离散天气预报。②
在提供个性化信息服务方面,LBS应用的潜力也值得关注。虽然目前人们并没有太多地将LBS与物联网联系在一起,但LBS与物联网是相通的,它也应被视作物联网应用方向中的一种。
LBS是通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部定位方式(如GPS)获取移动终端用户的位置信息,在GIS(Geographic Information System,地理信息系统)平台的支持下,为用户提供相应服务的一种增值业务。在LBS技术的支持下,移动互联网的服务商不仅可以向移动状态的人们提供信息和服务,还可以向不同位置的人们提供不同的信息和服务。
LBS是基于人们所携带的移动终端来获取其地理位置信息,移动终端在这也扮演了传感器的角色。它采集的用户所在的地理位置信息,成为个性化新闻与信息服务的依据。
当LBS与新闻生产联系在一起时,便意味着,记者所采集的新闻信息,或用户发出来的新闻线索,都可以标识上具体的空间位置。那些附加有地理位置的新闻信息,可以增强人们对新闻发生的地理空间的认识,也有助于新闻报道中新闻现场的还原。
在这个意义上看,LBS“传感”的地理位置数据,也是未来“传感新闻”中需要利用的重要资源。但在这方面,目前媒体的探索还是有限的。
二、UGC、用户数据与“机器人新闻”
社会化媒体中用户生产的内容,即UGC,已被视为今天新闻生产的重要资源,但是,目前为止,媒体对这些资源的利用方式主要是人工的,即需要媒体人对这些内容进行主动的收集、分析与过滤,将非常有限的部分用于媒体的报道中。
但是,UGC内容是海量的,Twitter一天的内容超过5亿条,新浪微博每天的微博数超过1亿条……在这些海量信息面前,人工力量往往显得弱小。
一家拥有大约30名员工的美国公司Narrative,运用自己开发的软件系统,收集社会化媒体等来源的相关信息,再利用已有的报道模板将这些信息变成新闻稿,大约每30秒就能够撰写出一篇新闻报道。目前这样一种“机器人新闻”主要是用于金融和体育等报道领域。Narrative联合创始人兼首席技术官(CTO)克里斯蒂安·哈蒙德(KristianHammond)认为,未来机器生成的新闻将占到媒体新闻的90%,并且在未来五年之内,这样的新闻有可能获得普利策新闻奖。③尽管五年内得普利策新闻奖的预言也未必能实现,但是,Narrative的模式的确值得媒体人关注。
机器代替人进行新闻信息采集,完成写作,并不会出现在所有的报道领域,但对于那些具有持续、稳定信息来源的较为简单的报道对象来说,机器人新闻应该是有一定优势的。而在体育等方面的报道中,UGC正是这样一种稳定的信息源。反过来,机器人新闻也使得媒体对UGC内容的收集更为广泛,利用更为充分。
机器人新闻并不只是在UGC的应用方面,在未来的物联网数据应用中,它也同样具有潜力。
而未来的机器人新闻也许不仅可以对于已经发生的事实进行报道,也可以对发展趋势进行分析与判断。像物联网提供的数据一样,UGC中的信息和反映出来的情绪同样是预测未来的一种依据。
联合国推出了一个名为“全球脉动”(Global Pulse)的项目,希望利用数据分析来了解人们的生存状况,对可能发生的危机进行预警。其中一个尝试是,该项目利用SAS公司的软件自动提取了2009年6月至2011年6月间含有“失业、被解雇”等关键词的博客、论坛和新闻网站内容,再借助分析工具对每一条目表达的“情绪”定性,然后将人们情绪和讨论话题的逐月变化趋势与官方失业率统计数字进行比较。研究结果显示,在美国、爱尔兰等国,在经济形势下滑的前几个月,网络中人们负面情绪已经普遍出现。这在一定意义上说明,通过社会化媒体中的情绪可以预测经济形势的走向。
此外,用户在新媒体中的行为(例如搜索行为、点击行为、购买行为)等数据,也是未来预测性新闻的重要资源。
2008年,谷歌发布了“流感趋势”,提出了通过用户搜索的关键词去预测流感爆发的思路。在2009年的H1N1流感爆发时,“流感趋势”比官方卫生机构更早地做出了预测。2013年,谷歌又发布了《用谷歌搜索量化“电影魔法”》的白皮书称,根据搜索次数的多少可以判断电影票房成败:次数越多,票房越成功。它还特别强调,当网络用户从头到尾彻底了解了一部影片之后,就更有可能走进电影院去观看。虽然谷歌的这两个研究揭示的是用户数据对流感预测或市场预测的价值,但如果将这两个案例的意义推广的话,我们可以看到,无论是公共健康状况、市场趋势还是社会发展趋势,都与人们的行为有着密切的关联性。如果能够利用数据来研究与揭示这种关联,那么媒体可以更好地预测社会发展的动向与趋势。
无论是基于用户生产内容(UGC)还是用户行为数据揭示变化趋势,基于大数据技术的“机器”都比人更有优势。Narrative负责人哈蒙德之所以发出未来五年之内机器写作的新闻将获得普利策新闻奖的豪言,也许正是在这样一个层面上的预测。
物联网数据、用户生产内容(UGC)数据等新的新闻信息资源并不仅仅导致传感新闻、机器人新闻的出现。传感新闻、机器人新闻不过是大数据时代传媒业初级探索的开始,它们也许并不是准确的概念,两者之间也有交叉,它们只是从不同角度说明了数据在未来新闻生产中的作用以及相应的影响。
大数据对新闻业的影响显然会更为深远。媒体在获得更多新闻生产的资源与手段的同时,也会面临新的挑战,以下三方面的挑战尤为突出。
一是数据采集的合法性。物联网技术所采集的信息很多都涉及个人隐私,社会化媒体以及用户数据的利用中,也往往容易越过隐私边界。如何把握新闻传播所需要的资源与个人隐私之间的界限,这将是对媒体伦理的一个新挑战。
二是数据的准确性与有效性。数据的丰富性与其准确性、有效性并不画等号,相反,数据的丰富性会增加对数据验证的难度和有效数据筛选的复杂度。提高数据的准确度,是未来新闻业中应用大数据技术的前提。
三是数据分析模型的科学性、可靠性。大数据技术应用于新闻业,一个重要的方向是通过全面、深入的数据分析来提高新闻报道的深度与媒体的预测能力,但这需要建立在科学、可靠的数据分析模型基础上,这意味着将有更多的数据分析专业人才进入到传媒领域,或者是传媒业与专业数据分析机构的合作将加强。
注释:
①这种蝉每隔17年才从地底出来一次,因此,它们的露面也成为热门新闻。关于这个项目,可以参看http://project.wnyc.org/cicadas/.
②《物联网创业公司Ayla获得540万美元投资,与新浪合作开发WiFi气象站》,http://www.36kr.com/p/203870.html.
③《连线杂志:未来新闻90%以上将为电脑化新闻》,见http://tech.qq.com/a/20120503/000271.htm.