图书馆大数据体系构建的学术环境和战略思考,本文主要内容关键词为:图书馆论文,体系论文,学术论文,战略论文,环境论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 研究背景
随着信息技术及数字信息环境的迅速发展,信息量的增长率、数据类型的增长幅度及数据结构的复杂程度逐渐超出人们所能接受的范围,其带来的直接结果就是全球将近87.5%的数据未得到真正利用[1],85%以上的是非结构化数据和半结构化数据[2],而且这一比例还在不断扩大。信息量呈指数级增长、数据类型及数据结构的日趋复杂化并逐步脱离人们的控制等情况的出现,意味着对图书馆的知识服务体系进行革命性创新是非常有必要的,同时也有助于以大数据为基础的科学研究第四范式及新型知识服务范式的形成。但现有信息技术和信息管理模式已难以满足大数据获取、存储、组织、分析、决策及显示等各阶段的信息管理需求,从而使得图书馆饱受数字信息环境的转变与创新所带来的巨大压力,面临着价值质疑、贡献边缘化、技术落后、人员队伍不适应未来等重大灾难性危险[3];已有数字图书馆的建设需求、构建模式和信息服务模式也面临着被新的知识服务需求、知识传播与服务模式所取代的生存危机;而数据量的日益增长、数据类型的逐渐增多及数据结构的日趋复杂化,逐渐超出了图书馆信息服务范畴,日益成为图书馆知识服务体系的“半盲区”[4]。上述三者已逐渐成为困扰图书馆知识服务创新的新的理论与技术瓶颈。
因此,如何在这一时代背景及图书馆发展背景下,积极开展图书馆大数据体系构建的基础理论及实践的研究工作,就具有非常重要的学术价值和实践意义。
2 大数据体系构建的学术环境
2.1 大数据的发展历程
“大数据”这一概念并非突然出现,而是有其独特的发展历程。“大数据(Big Data)”不同于“海量数据(Massive Data)”及“超大规模数据(Very Large Data)”,但又无法完全独立地进行研究,单纯从字面上探讨三者之间的区别没有太大意义,从数据管理技术发展的角度来厘清三者之间的联系和区别,对于我们理解大数据的概念、核心挑战和技术问题大有帮助,如图1所示。
“超大规模数据”出现于20世纪70年代中期,是在数据库领域享有盛名的1975年的超大规模数据库会议上提出的。当时由于受到技术及软硬件环境等因素的限制,只将达到数百万条记录的数据称之为超大规模,并且局限于关系型数据类型。伴随着信息技术的飞速发展,人们发现数据规模急剧扩大、数据类型逐渐出现了非关系型,原有的数据概念已无法完整描述数据量的剧增及数据处理技术的发展,于21世纪初期提出“海量数据”概念。然而,在飞速发展的数字信息环境中,数据成本下降促使数据量急剧增长,新的数据源和数据采集技术的出现使数据类型增多,各种非结构化的数据又增加了大数据的复杂性,原有关系型数据库已经无法有效管理这些数据,以Hadoop为代表的HDFS文件系统和MapReduce数据处理框架将结构化、半结构化和非结构化数据有效管理变为现实,Hadoop Common、Chukwa、HBase、Hive、Pig、ZooKeeper等大数据处理添加件、交叉集成件的逐步完善促使“大数据”真正走上了历史舞台。事实上,大数据是伴随着信息技术的发展,云计算、物联网和移动互联网等技术的快速普及而提出的概念,它具有数据量大(Volume)、数据多样性强(Variety)、处理速度快(Velocity)、价值密度低(Value)四种基本特性。
如果从大数据概念的发展历程来看,以上三者之间的区别在于:“超大规模数据”表述的是GB级别的数据;“海量数据”表述是TB级别的数据;“大数据”则表述的是PB级及其以上级别的数据及相应的数据管理技术。
2.2 大数据理论与应用研究发展分析
也许仅仅从数据发展历程的角度就断定大数据的到来尚不够客观,我们需要从更多角度和层面来考察大数据这一新的理论和技术,本部分将通过对大数据理论与应用研究发展进行分析,感受大数据体系构建所处的学术环境。
事实上,早在1990年,数据仓库之父Bill Inmon就开始关注大数据[5],但最早提出“大数据”概念并被广泛传播则始于2008年9月Nature发表的文章Big Data:Science in the Petabyte Era[6],同期,该刊还发表了关于大数据的系列专题文章,如The Next Google[7]、Data Wrangling[8]、Wikiomics[9]、Distilling Meaning from Data[10]、The Harvard Computers[11]及The Future of Biocuration[12]等,分别对英国威康信托基金会桑格研究所数据中心的大数据存储及处理过程、大数据的收集和处理原则问题、维基百科的大数据协作知识服务创新体系以及大数据在现代生物学方面的应用研究等进行探讨和研究。如果说之前的研究是为大数据时代的来临做好铺垫的话,那么2011年5月全球最大的战略咨询公司McKensey发布的关于大数据的调研报告——《大数据:下一个前沿,竞争力、创新力和生产力》[13],则标志着大数据理论和实践研究工作已经成为科技界和企业界不得不面对的新兴研究课题,而后《纽约时报》14及《华尔街日报》[15]开辟专栏,对其展开激烈讨论,并作为专栏封面,这一举动则更是起到了推波助澜的作用。大数据理论与应用提出后受到社会的广泛响应,亦成为许多国家未来发展战略的重要组成部分。如2012年3月,美国奥巴马政府投资2亿美元正式启动的“大数据研究和发展计划”[16-17]是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展战略部署。在美国宣布大数据计划后,世界其他国家及各大IT企业也对大数据给予了极大关注。
数据资源是与自然资源、人力资源等一样重要的战略资源[2],如何有效地组织和使用大数据将对我国信息产业发展产生巨大的推动作用。在云计算、传感网、物联网和移动互联网等技术的推动下,大数据处理的兴起也在极大地推动着信息技术进入到以“分析即服务(Analysis as a Service,AaaS)”为主要标志的Cloud 2.0时代。国内关于大数据的理论与实践研究工作乏善可陈,关于大数据在图书情报领域中的理论探讨及应用研究工作几乎没有。但由于大数据对全球信息产业所产生的巨大冲击,预示着大数据在国内学术界的广泛研究和应用的开始。《计算机学报》2011年第10期发表了王珊、王会举等人的综述文章《架构大数据:挑战、现状与展望》,从面向大数据分析的数据仓库架构的设计入手,对当前大数据分析的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行归纳[18],算是开创国内大数据研究的先河。而后该课题组的覃雄派、王会举等人进一步提出面对大数据深度分析的挑战,传统关系数据库技术的扩展性、容错性和大规模并行处理的局限性遇到了前所未有的困难,如何将传统的关系型数据库管理系统(Relational Data Base Management System,RDBMS)与MapReduce技术相互竞争、相互学习,实现两者有机融合,促进大数据分析新生态系统的实现是解决这一困难的有效途径[19]。如果说以上两者是国内大数据研究的拓荒者,那么李国杰院士、李德毅院士、李未院士则是大数据研究的倡导者。正是在他们的积极倡议下,中国计算机学会(the China Computer Federation,CCF)于2012年6月专门成立了大数据专家委员会,并举办了“大数据时代,智谋未来”学术报告会,分别就大数据挖掘、体系架构理论、安全、平台开发、应用案例和大数据基础理论进行了深入讨论[20],并在《中国计算机学会通讯》2012年第6期组织专题展开了深入研究。其中,中国工程院李国杰院士提出在应对大数据的挑战中,需要解决非结构化和结构化数据高效处理及数据表示方法、大数据的固定模式、因果关系和相关性、数据和信息的融合、数据冗余处理和数据存储等问题[2];周晓方、陆嘉恒等则从数据管理角度,提出在大数据处理过程中要考虑到数据的异构性和不完备性、数据处理的时效性、数据的隐私保护及大数据分析需要人参与等因素,才能更好地应对大数据带来的挑战[21];马帅等则以大数据科学与工程为切入点,以互联网网络化应用的大数据处理需求为核心,围绕大数据的三个关键问题,重点阐述了海量异构数据模型理论与管理技术、海量复杂数据智能分析理论与技术、大数据分布式处理技术、数据质量管理基础理论与技术、大数据的安全与隐私保护五个方面的问题[22];付印金等针对集群重复删除系统的研究现状,分析了它的集群重复数据删除和大数据保护两大核心技术[23];中国科学院李未院士认为针对非结构化数据建立新型数据模型是非结构化数据管理系统的关键,并提出四面体模型(即基本属性刻面、语义特征刻面、底层特征刻面、原始数据刻面)[24];中国工程院李德毅院士则认为互联网和云计算是大数据产生的基础,宽带不宽依然是制约云计算与大数据发展的瓶颈[24]。
尽管如此,大数据技术与理念的冲击的确能够使图书馆知识服务受众、供应者、运营者及知识服务本身得到更为充分、有效的体现,更可以通过对结构化、半结构化及非结构化数据的常规、广度及深度分析,实现图书馆知识服务创新能力智能评价、知识服务创新预测性分析、知识服务竞争力分析、服务态势综述及知识受众行为预测等高附加值及智能化的智慧服务。但大数据对于图书馆而言,并不意味着所有,更不是一蹴而就的,正如美国著名的信息咨询公司Gartner 2012年发布的新兴技术超周期图[25]所描述的一样,大数据处理与管理技术目前正处于技术诱发阶段,进入真正实施及应用推广阶段还需要2~5年时间。如何抓住这一时机是摆在图书情报领域研究者面前的机会与挑战,也为图书馆和研究人员提供了一个极为紧迫和重要的缓冲期。
3 图书馆大数据体系构建的战略思考
3.1 大数据对图书馆的影响
大数据研究及应用的热潮激励着图书情报领域的科研人员开始考虑“图书馆大数据体系构建”和“信息智能服务”问题。但图书馆界必须认清一个现实,就是大数据工程技术研究已领先于大数据科学研究,而大数据科学研究也已走在大数据知识服务体系研究的前面。当前的局面是工程领域的专家都以自己为主,处理本领域的大数据;信息领域的专家则主要起到辅助作用,与应用领域的科研人员合作,辅助解决应用领域大数据处理的技术问题;信息服务领域的机构和专家则暂时独立于大数据知识服务体系之外。这也就成为当前甚至是在未来2~5年内,图书馆界亟待深入研究的热点问题之一,也可能是图书馆建立新型嵌入式协作化知识服务体系的最佳契机。
显而易见,如果想研究大数据对图书馆的影响,绝不能简单地将图书馆作为一个独立的个体来进行讨论,而应该结合图书馆所处的学科背景、研究背景及管理背景。笔者将大数据对图书馆的影响归结为以下三个方面。
(1)正如刘国钧先生所言,图书馆学所研究的对象就是图书馆事业及其各个组成要素[26]。反之,大数据在对图书馆事业产生巨大影响的同时,必然会对图书馆学、情报学、档案学等相关学科产生影响。图书馆学、情报学和档案学等本身作为科学学科,必然也会采用大数据基础理论和应用实践的方式开展学科基本问题、学科领域拓展及交叉学科等方面的研究。
在美国奥巴马政府将美国国家医学图书馆作为“大数据研究和发展计划”重要组成部分,并且要求“提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平”及“提供大数据归档、保存、传播和其他数据的基础设施服务”[16]时,也就意味着传统的图书馆学、情报学等相关学科面临着巨大冲击,而且在未来2~5年内这种影响将会表现得非常明显。但在不同分支学科领域中,影响程度也会有所不同。由于RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据将会成为未来图书馆大数据的几个主要来源,因此,大数据对图书馆学、情报学等相关学科的影响主要表现为:一是社交网络分析、用户行为智能预测、移动互联数据分析、知识服务技术引擎等领域将会是大数据所波及的第一战场;二是信息计量学和网络计量学也将深受大数据理论与应用研究的积极影响,在研究内容、研究对象和研究方法上获得新的发展契机;三是基于海量科学文献的分析将会在常规分析基础上,使得文献关联关系分析、时间序列分析、大规模图分析、社会网络分析及移动平均线分析等广度、深度智能分析及预测不再如“空中楼阁”,而是位于图书馆人“触手可及”的地方;四是情报学所受到的冲击应大于图书馆学、档案学,因为它对信息、软硬件及网络等技术依赖性相对较强,并且与数据存在特殊的关联关系,使得它必然会成为大数据理论与应用研究的主要战场;五是信息资源获取、存储、组织、分析、决策以及信息可视化技术、工具等也会伴随大数据在图书馆应用的逐步深入而发生根本性的变化。
美国Harvard大学图书馆的服务中引入“大数据”[27]并付诸应用[28]、美国Georgetown法律图书馆在2013年1月召开“大数据和大挑战法律和法律信息”研讨会[29]、美国Library Journal举办"Future of the Academic Library Symposium:E-Texts,Big Data,and Access"学术研讨会[30]等,讨论如何在大数据时代背景下建设未来图书馆。正如我们所预料的一样,大数据无论是对图书馆,还是对与图书馆相关的学科,都在潜移默化中产生了巨大影响。相对于国外图书馆界大数据理论与应用研究的热火朝天,国内图书馆界无疑显得颇为沉寂。
(2)由于图书馆学、情报学等与信息技术、科学研究、知识服务具有较强的关联关系,大数据理论与应用研究必然会产生新的研究内容、研究对象、研究方法,甚至产生新的研究领域,或者新的学科交叉维度与深度。
毋庸置疑,图书馆与科学研究、科技创新及知识服务等有着不可分割的关联关系,图书馆作为一个嵌入式协作化知识实验室,具备着认清当前和未来科技创新所需要的知识服务能力、科研数据管理和基于知识协作的交互协调创新能力,但是具备并不意味着能够充分发挥这样的能力。传统图书馆学、情报学的研究内容、研究对象、研究方法等能够满足过去一段历史时期的信息服务需求,但在价值质疑、贡献边缘化、技术落后、人员队伍不适应未来等多重危机以及新型知识服务体系和机构的迎面夹击之下,已无法应对接下来科学研究及科技创新所迫切需要的知识服务挑战。而大数据理论与应用研究则可更加快速地做出知识服务决策、监控最新知识服务趋势、快速调整方向并抓住新的知识服务机遇,应对这一挑战,从而产生新的研究内容、研究对象、研究方法,甚至是产生新的研究领域或新的学科交叉维度与深度。
(3)大数据对图书馆的影响并不仅仅体现在技术上,由于图书馆所处的时代背景和学术背景也是一个与时俱进的有机体,而大数据理论与应用研究对图书馆的影响轨迹是由外至内、由内到外双向运行,所以必然会对图书馆的信息资源、用户、图书馆领导和管理者、工作方法,甚至是建筑与设备产生直接或间接的影响。
通过对已有研究成果的分析,可以发现大数据的影响并不会仅仅体现在技术上,而是对其所处应用领域的技术、思想、管理、软硬件基础设施等各个方面产生影响。但国内外图书馆界已有研究成果却并没有考虑到这一点。作为与时俱进的有机体,大数据理论与应用研究对图书馆的影响轨迹应该是由外至内、由内到外双向运行模式,而不是单纯的由内到外的人文因素引导或是由外到内的技术因素引导下的畸形发展模式。图书馆的信息资源、用户、图书馆领导和管理者、工作方法以及建筑与设备等在大数据的推动下,应该呈现出有机融合的发展趋势,并依据研究角度不同,在共同研究体系之外,还应该有其独特的研究体系和发展轨迹。
3.2 图书馆的应对
面对着大数据所带来的挑战和机遇,图书情报领域需要有从自发到自觉、局部到整体、微观操作应用层面到宏观政策管理层面的全方位的应对措施,才能有效应对当前图书馆大数据体系构建的社会需求和科研发展带来的显著挑战和机遇[31]。
笔者认为,图书馆要想科学、合理地构建好大数据生态体系,必须做好以下应对措施。
(1)图书馆领导和管理者在制定大数据全局战略及局部战略规划时,需要依据不同的情况,建立大数据战略角色定位,结合图书馆所处地区、主要服务学科、主要服务领域、馆藏特色等因素,建立分层、分级实施策略,从而协调构建大数据知识服务纲要,探索大数据体系构建模型、业务模型、知识服务模型及技术模型等。
(2)图书馆员必须在思想意识形态、技术、服务理念、服务技能、业务能力等方面进一步提高。除了要像传统的图书馆员一样,掌握图书馆学、情报学、信息管理学等专业理论外,还需要熟练掌握信息科学、心理学、教育学、管理学等其他学科知识,特别是对大数据、云计算、物联网、移动互联网、数据密集型计算等基础理论和技术思想有一定了解,从而树立嵌入式知识协作、合作交互、服务创新等新型知识服务理念。
(3)研究图书馆大数据体系构建的构成要素和驱动因素,从环境架构、战略架构、业务架构、信息架构、技术架构、安全架构、协作架构及架构管理八个方面探索图书馆大数据体系构建的相关理论及应用研究,以及图书馆在促进大数据科研发展中应有的作用和地位。
(4)研究支持图书馆大数据体系的知识服务环境。作为集信息、数据、交互、工具、平台和服务为一体的知识服务环境,除了具备学术搜索、资源及服务推荐、知识服务社区实体(包括用户及资源)行为分析、用户知识需求预测、多维度信息资源获取、组织、分析及决策等功能外,还需要实现与传统图书馆自然环境、人文环境及技术环境的有机融合和无缝切换。
(5)探讨图书馆大数据知识服务体系中信息资源、人力资源、物力资源、网络资源及服务资源的管理模式。
(6)按照数据全生命周期来实现图书馆大数据的获取、存储、组织、分析、决策、评估、可视化、利用等功能。结合大数据的来源及用户的服务需求,解决主要技术问题,提出科学、系统的基础理论体系。
(7)研究图书馆大数据的管理人才、技术人才及服务人才的培养方案,分析这类人才的知识结构、学科素养、专业技能、思想体系,将培养计划付诸实施,为未来图书馆大数据体系构建提供所需人才。
(8)从大数据源头抓起,研究提高全民数据素养的方法和方式。
3.3 对图书馆大数据体系构建的几点思考
客观地说,当前也有不少人对大数据产生质疑[32],但正如当前数字图书馆技术出现后,图书馆界出现很多质疑声音一样[33],图书馆人研究大数据不可避免地会遇到一些质疑。基于此,笔者认为有必要阐明几个观点:
(1)大数据并非对图书馆传统信息服务模式、信息技术的彻底终结,而是在已有信息服务模式、信息技术、人文情怀基础上的完善与补充。正如我们将数字图书馆、移动图书馆和云图书馆[34]作为三种信息资源管理技术的标签,但是不意味着后一代技术完全取代和终结前一代技术。因此,技术体系、人文情怀和服务理念等相互渗透和有机融合是解决大数据问题的最佳选择。
(2)面对大数据的挑战,图书馆界有责任和义务来承担起图书馆大数据体系构建的理论与应用研究的重任,特别是图书情报领域位于一线的科研人员、图书馆学家及情报学家。
(3)始终确立用户是中心、数据是根本、图书馆是枢纽的大数据研究理念,三者之间既是相辅相成的有机整体,又具有平等的独立地位。
4 结语
正如已故图灵奖得主Jim Gray首次提出,而后微软公司的Tony Hey及Stewart Tansley等整理出版的《第四范式——数据密集型科学发现》[35]所描绘的一样,大数据不仅仅是数据量的剧增,也不仅仅是信息技术的飞跃,而可能是人类对客观世界认知飞跃的前奏。大数据时代已经到来,对大数据基础理论和应用进行合理地分析和研究必将会推动图书馆学、情报学等相关学科和图书馆事业的进步,当然也会为社会和所服务机构提供更先进的知识服务和创造性成果。但是我们所面对的可能不仅仅是图书馆新型知识服务体系构建模式上的变化,而是由量变到质变、由局部到整体、由微观到宏观引起的图书情报领域观察模式的转变,或如互联网、数字图书馆以及云计算对图书馆造成的冲击,大数据可能会引起图书馆生存方式的变化或用户对图书馆服务认知的飞跃。因此,我们必须支持图书馆大数据体系构建的基础研究,增强学科内、学科间以及图书馆界与工业界、学术界之间的学术交流与合作。