大数据发布的概念、方法及发展路径_数据与信息论文

大数据发布的概念、方法及发展路径_数据与信息论文

“大数据出版”的理念、方法及发展路径,本文主要内容关键词为:路径论文,理念论文,方法论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       近年来,“大数据”成为国内出版业的一个热门词,不仅从2012年起就有相关专业书和畅销书出版,学界对其也给予了相当的关注。如:刘鲲翔对大数据技术在数字出版领域的应用模式及面临的挑战进行了分析[1],张涛甫认为大数据将给出版行业的生产方式和传播方式带来根本性的变革[2],曾凡斌有关大数据对媒体经营管理的影响研究[3]等等。这些研究从不同角度揭示了大数据对出版行业产生的深远影响,说明学界已经充分意识到大数据的重要意义,但就目前的检索情况来看,除了出版业界的王明亮以“体会与猜想”的方式提及“大数据出版”之外[4],并没有其他学术文献对“大数据出版”进行专门的论证,而这正是本文尝试去探讨的主题。

       所谓“大数据出版”,其内涵绝非仅仅为出版有关大数据的主题书籍,也不完全是纯学术或技术层面的新概念,而是指应该将“大数据思维”作为方法论,来改造传统的出版发行业。由此,需要思考的核心问题是:从“数字出版”到“大数据出版”,其变革的核心及其意义是什么?大数据究竟给传统的出版业带来了哪些新动向?我们又应该如何利用大数据对出版业进行顶层设计,以实现资源重整和流程再造?下文将从理念、应用方法和发展路径等角度来尝试对这些问题展开探讨。

       一、从“数字出版”到“大数据出版”:概念的提出及其意义

       对“大数据出版”的阐释,需要从其“前身”——数字出版说起:它是指“从编辑加工、制作生产到发行传播过程中的所有信息都以二进制代码的形式存储于光、磁、电等介质中,必须借助计算机或类似设备来使用和传递信息的出版”。[5]显然,数字出版的形态优势在于其介质:由于不再依赖传统的纸媒,信息可以在边际成本几乎为零的情况下大量复制、存储和传播,因此,出版物的信息容量、便携性、易存储和易复制性等指标都得到了极大提升,可以说数字出版是继印刷术之后人类出版史的第二次大变革。

       而从“数字出版”到“大数据出版”的重大转变,则根植于“数字化”(digitization)与“数据化”(datafication)的根本性差异。数字化,指的是把模拟信号(analog information)转化为0和1的二进制代码;而数据化,则是指“把现象转化为可制表分析的量化形式的过程”[6]。与之相对应,“大数据出版”就是指将海量的出版物转化为可制表分析的量化形式,并通过建立数据库使信息产生相关关系的过程。美国学者舍恩伯格曾经举过Google图书馆的例子来说明数字出版和大数据出版的差异:前者只是将书本内容搬到了计算机和因特网上供人查阅,而后者则是通过光学识别软件将书本中的内容转化为计算机可以检索和运算的信息,从而将所有文献内容集成为一个大数据库,借助计算机可以对其中的任何文本进行挖掘和分析。[7]

       由此可见,数字出版的历史进步性在于对信息存储、复制和传播方式的变革,但数字出版所没有解决的是对信息的挖掘和运算问题——而这正是大数据出版最关注的核心价值:在没有数据化之前,所有数字出版的产品只不过是比特海洋中的一个个“信息孤岛”,它们无法被集成和参与运算;而实现了大数据出版之后,这些信息孤岛就被海底的大陆架所连接,虽然其呈现方式可以是一本本书籍,但其内在结构却是一个可被分析的大数据库。

       “大数据出版”概念的提出,具有实践和理论两个层面的意义:从实践层面看,出版业既有引进大数据理念和技术并与之全方位融合的迫切需要,也有对大数据进行利用的行业底蕴与先发优势,因为出版业在过去积累了大量的文献资料,现在要做的,就是从大数据的拥有者变成大数据的使用者。正如王明亮所指出的,应该把有意义的每一条数据及其数据关系,都看成是一个出版产品,这样才能使每个数据体现其自身的价值。[8]从理论层面看,可以说大数据出版拓展了“出版”概念的外延:学者林穗芳曾言简意赅地将“出版”定义为“选择作品复制发行”[9],按照这一定义,过去的出版产品是图书、音像和电子文档,未来则将数据产品及其相关服务也纳入到出版的范畴中。

       当然,从数字化到数据化,只是大数据出版迈出了最为关键的第一步,在对出版物进行数据化之后,还需要出版者以大数据的思维来改造传统的出版行业,使之既能利用先进科技完成对已有资源的重整激活和对自身流程的优化升级,更能顺应时代发展和用户的需求,开拓出更多的行业经济增长点。

       二、大数据出版的现实应用路径

       其实,出版行业已经完全具备了实现大数据出版的资源基础——即海量的各种介质的出版物,也有研究古典诗词的学者意识到出版物作为可供运算数据的价值[10],但就目前而言,对于出版资源的大数据开发还远远不够,大数据出版的优势更未曾发挥出来。

       为了便于说明问题,下面将以历史典籍中记载的自然灾害为例,探讨大数据出版的方法与应用。之所以选它,是因其兼具了大数据出版的可行性和重要性:可行性是指在中国浩如烟海的历史类出版物中,积累了历朝历代各种自然灾害的海量信息(如《四库全书》《中国荒政全书》等),而且自然灾害的数据结构(主要是时间、地点、伤亡状况等客观记载)易于辨识和运算,这些都是大数据出版的基础;重要性指的是自然灾害对人类社会的生产生活造成了巨大影响,如果能够通过建立自然灾害历史数据库来进行大数据运算,势必极大地提升人类对自然灾害的认识水平和防灾能力,从而体现出大数据出版的价值。具体而言,大数据出版的现实应用路径如下:

       首先,大数据出版需要对出版物资源进行大数据的采集和存储,以建立各种不同主题的数据库。过去出版界更熟悉的概念是“文库”,但那只是一种静态的信息存储,现在的大数据出版则更强调“数据库”的建设,与文库相比,其最大优势是能够让各种信息(包括不断新增的信息)参与到动态的统计和运算中,而不是只能被静态地呈现。在大数据出现以前,中国悠久的历史和丰富的汉语表达,使得有关自然灾害的“数据原矿”[11]呈现出“非结构化数据”的特征(如对地震的描述,就有“地动”“坏城垣”“地裂压杀人”“丘山陷”“地坼裂,水泉涌出”“地陷裂”“隐隐有声,屋瓦摇”等模糊多样的表达方式),因此这类记载只能描述史实却无法参与运算。而大数据出现之后,由于其具有对于多样化、混杂性数据的兼容功能,这就使得历史典籍的大数据存储成为可能,过去被认为不适合统计运算的历史文献能够被重新激活,以结构化数据的形式存在,并成为大数据出版的重要资源。

       要想实现这一点,可以通过设置“最小数据集”的方式来建设主题数据库,将这些信息集成起来进行相关性研究。所谓“最小数据集”,指的是“通过收集最少的数据,最好地掌握一个研究对象所具有的特点……其核心是针对被观察的对象建立一套精简实用的数据指标”[12]。还是以地震为例,其最小数据集可以只包含“时间、地点、伤亡人数”三个要素,如果能够将历史典籍中有关地震的所有记载都以最小数据集的方式集成为中国地震灾害数据库,显然将非常有助于我们从宏观上去把握历史上地震的时空分布规律;如果能够进一步将地震主题数据库与其他主题数据库进行关联分析,很可能会发现一些依靠传统研究难以揭示的相关关系。

       其次,大数据出版需要对采集到的出版物信息进行大数据挖掘。所谓大数据挖掘,指的是“有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术”[13]。对于出版行业而言,大数据挖掘的最主要应用就是对于不同主题数据库的联机分析(Online Analytical Processing)和相关关系分析,这是其面向专业研究机构和满足特定用户需求的重要应用途径。联机分析是把分立的数据库相联成关系型数据库,并进行多维度的分析,在大数据出版中,多维分析就是指用户可以按照自己的需求非常便利地从不同角度对历史出版物中的自然灾害进行统计与运算,只要建立好不同主题的关系型自然灾害数据库即可。[14]例如,一旦建立了分别以时间和地点为主题的中国古代洪水灾害历史数据库,就可以通过联机分析任意提取某时某地的洪水灾害分布状况,总结历史规律。如湖北自有记载以来的洪灾发生规律,或宋代(960-1279)的洪灾分布规律等。如果进一步将这些规律与现代的洪灾数据库相结合进行深入的联机分析,则将更有助于我们更好地预测未来的洪灾发生规律。

       而相关关系的核心则是量化两个数据值之间的数理关系,它意味着这两个变量之间存在着同向或异向的联动关系。对于大数据出版来说,相关关系同样具有非常重要的意义。例如,香港科技大学龚启圣教授曾经收集过去2000余年中原省份的气候数据,包括每年降雨量、旱灾、水灾以及黄河破堤次数,以及北方游牧民族攻打中原的时间和次数,结果发现两者之间存在明显的相关关系:任何十年里,多一年旱灾就会使游牧民族攻打中原的概率增加26%,使更长时间里进攻中原的概率高57.6%。[15]试想,如果能够把现有历史典籍的出版物全部转化为不同主题的数据库,再采用联机分析和相关关系运算,一定能够为各项研究提供更多的新思路和新证据。

       最后,大数据出版还需要对已经取得的出版物数据挖掘的结果进行可视化呈现。大数据出版的可视化呈现,指的是将出版物中复杂或者难以描述的内容以易于视觉传达的方式呈现,使得这些难懂的信息易读易懂,从而使人们更加全面和深入地理解信息的内容、结构和内在规律。Antony Unwin等学者曾指出:“信息的图形化为数据挖掘提供了一种美妙的途径,也是表现其结果的关键因素。”[16]这是因为,“数据可视化的技术,可以通过图像在逻辑思维的基础上进一步激发人的形象思维和空间想象能力,吸引、帮助用户洞察数据之间隐藏的关系和规律”[17]。还是以历史典籍中自然灾害的大数据出版为例,如果能够在出版物中融入对统计数据的可视化内容,如在中国版图上呈现不同地域的地震发生频次与严重程度,肯定有助于普通读者更好地感知其分布规律。此外,还可以将历史数据的可视化呈现售卖给大众媒体,作为其新闻报道的重要背景支撑材料,实现其更大的传播价值。

       由此可见,大数据出版的主要价值有三点:一是对过去出版资源的重整激活。出版行业在过去积累了海量的书籍、音像等出版物,但大多数都堆积在仓库或存储在硬盘中,其价值没有释放,而大数据出版可以让这些资源得到重新利用。二是为专业研究提供大数据产品与服务。如对灾害研究而言,可对历史典籍进行大数据的采集、清洗和运算,以发现用传统眼光无法觉察到的灾害规律;更进一步,如果当相关主题下集成到的数据足够多,到一定程度的时候,就能通过相关关系的运算来推测某些灾害的发生概率。三是有助于出版行业与整个大数据时代实现无缝对接。

       三、行业重整:面向未来的大数据出版

       综上所述,大数据出版需要出版人将传统的优势资源和先进的大数据技术结合起来,重新制定整个行业的游戏规则,以便在将来的数据世界中抢占信息高地。上述对于历史典籍中自然灾害的大数据研究只是大数据出版的一种应用可能,即借助大数据技术对传统出版物进行深加工来挖掘其新的价值。其实,大数据出版还有很多其他的应用可能及发展路径,如通过对消费者阅读喜好的大数据分析来进行出版物的精准营销,搭建出版的大数据平台,让每个有出版意愿的个体都能非常便捷地实现“自媒体出版”,等等。

       具体对于国内出版行业来说,“大数据的本质特征,是因为其本身具有极大的知识挖掘价值,而成为一种极为重要的研究对象和资源”[18]。因此,大数据出版的未来,应该是国内各大出版社依托过去的历史积累和资源优势,制订与自身相匹配的大数据出版规划。根据大数据在其他行业的应用现状,我们可以推测未来的大数据出版可能会给出版业带来三点新的变革:

       第一,出版行业核心竞争力的变化。舍恩伯格指出,传统的出版商只是将书本内容视为核心价值,却没有把书籍看做一种数据纳入到自己的商业模式中。[19]大数据的出现,要求出版行业对自身的核心竞争力进行重新审视与定位。出版业的核心竞争力过去可能是历年积累的版权资源、熟谙行业市场的人才和出版社的品牌价值,将来则可能是在传统核心竞争力的基础上,进一步借助大数据来培育新的核心竞争力——基于版权内容的大数据出版平台建构和新的产业链打造。例如,气象出版社可以将过去出版的各类气象书籍资料中有关气象灾害的内容加工成气象灾害数据库,然后再面向气象灾害的研究机构和大众传媒提供他们所需要的数据产品与服务。

       第二,出版行业的资源整合和服务方式的更新。大数据出版将重新整合过去的出版物资源,打散传统出版物按照书名及领域的分类方式,按照不同的主题,通过建设数据库的方式对过去出版物的内容资源进行新的数据集成,以打通不同出版物之间的界限与隔离,在数据层面实现信息资源的“完全燃烧”。资源的重新整合也将带来服务方式的更新,过去出版行业的服务方式主要是给用户提供产品(图书、期刊、电子书等),而在大数据出版时代,出版业除了传统的产品供给之外,还能够为用户提供大数据服务。

       第三,版权保护与交易方式的改进。在大数据出版的时代,版权保护的重要性比之前任何时期的都要强,因为不仅要保护实体出版物的版权,更要保护虚拟世界中的数据版权。这就要求出版机构具备数据版权意识,如利用DOI(数字对象识别系统)为所有的数据资源建立唯一的网络编码,它能够为数字化环境下的内容产品提供唯一的和持久的标识符,不会由于数据的地址等相关信息的改变而变化,而且使用DOI既便于检索,又能防止数据盗版,可以更好地保护和利用数据版权。更重要的是,基于共享目的而诞生的DOI协议除了能保护出版物的数据版权外,还能提升版权交易的便利性,因为它采用了网络数字化识别的技术,比传统的版权市场更容易实现版权与使用权的交易管理。[20]这无疑给大数据出版提供了新的发展契机,因为出版机构能通过该协议与国外相关数据库进行共享与合作,以资源共享的方式获取更多的数据库资源,最终可能在全球范围内形成一个将各种主题的出版数据库联系起来的出版资源——“云平台”,这也是大数据出版在未来发展的一种宏大愿景。

标签:;  ;  ;  

大数据发布的概念、方法及发展路径_数据与信息论文
下载Doc文档

猜你喜欢