大数据环境下数字资源融合初探,本文主要内容关键词为:环境论文,数字论文,数据论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G35 [文献标识码]A [文章编号]2095-2171(2015)02-0079-06 DOI:10.13365/j.jirm.2015.02.079 “大数据”(Big data)是继云计算之后IT行业最火热的词汇。2007年,国外学者开始关注大数据。2008年9月,《自然》杂志发表了Big Data:Science in the Petabyte Era系列专题文章,最早提出了大数据的概念[1]。2011年,美国麦肯锡咨询公司最早发布“大数据调查报告”,在IT行业和商业领域掀起了大数据狂潮[2]。2012年2月,奥巴马政府宣布推出“大数据的研究和发展计划”,并于3月29日在美国白宫网站发布《大数据研究和发展倡议》,在政府管理和社会应用领域掀起了大数据巨浪[3-4]。正如Steve Lohr在给美国《纽约时报》撰写的《大数据时代》(The Age of Big Data)一文中宣布的那样[5]:大数据时代已经来临! 在大数据时代,“大数据”才有价值,数据开放、信息公开、资源融合、无缝联结是未来发展的必然趋势,大数据开启了数字资源融合的新方向。 1 文献回顾 1.1 大数据研究现状 国外大数据研究主要集中在IT领域、商业领域、公共领域和科研领域等,正在向各行各业和各学科领域拓展。IT领域主要从技术、算法、模型和实现等角度研究大数据,其中有关云计算、数据处理、数据挖掘、知识发现等的研究最引人注目。 我国从2011年开始引入大数据,很快成为继云计算之后的另一个关注热点。大数据研究以翻译和介绍国外研究成果为主,处于研究的初级阶段,并且常常和云计算研究结合在一起,重点集中于商业经济和IT领域。 1.2 数字资源融合研究现状 英文中的“融合、整合与集成”三词都用“Integration”表达,区别不明显。国外基于数字信息资源整合、集成和共享的信息资源融合与服务相关研究已经十分丰富和成熟,如数字信息资源集成与服务,以数字图书馆、跨库检索系统、数据库集成系统、搜索引擎等为代表;数字信息资源整合、共享与服务,以文献资源保障体系、图书馆联盟、数字信息资源共享等为代表[6]。 我国数字资源融合研究始于20世纪末,以“数字资源集成”、“数字资源整合”、“数字资源共享”等形式出现,而其中“数字资源整合”一词最受关注。相关研究以理论研究为主,方法和技术研究次之,应用研究相对较少。“数字资源整合”中关于图书馆、数字图书馆,尤其是高校图书馆的数字资源整合研究较为成熟。数字资源整合从整合层次上来看可分为物理层整合和逻辑层整合,从加工处理程度来看可分为数据整合、信息整合、知识整合,从整合模式来看主要有基于OPAC的整合(以馆藏书目数据为核心)、基于资源导航的整合(将检索入口整合在一起、学科导航)、基于跨库检索的整合(提供一站式的跨库检索服务)、基于超级链接的整合(超文本网页链接)和基于语义的整合(知识本体)等。从整合对象上来看主要有面向对象的整合(以用户需求为重点)、面向内容的整合(以信息资源为重点)和面向任务的整合(以功能分析为重点)[6]。 1.3 研究现状评述 从大数据研究来看,国外目前主要以技术和应用研究为主,理论研究、系统研究和综合研究不多。而国内主要以翻译和介绍国外研究成果为主,简要介绍大数据的特征、内涵、思维变革等,探讨大数据给各行各业带来的机遇和挑战,处于研究的初级阶段。从数字资源融合研究来看,国外关于数据融合、信息融合、信息与信息资源整合等方面的研究较多,但没有有效地解决数据资源和信息资源的分散分布、重复建设、利益冲突及低效利用等问题。国内研究者混合使用整合、集成、融合等概念,而没有明确区分。 2 大数据与数字资源 2.1 大数据 目前学术界对大数据还没有形成统一的认识。IBM公司最早将大数据概括成4V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)和潜藏价值(Value)[7]。由此可见,大数据不仅仅指其数量之大,更指它潜在的巨大价值,需要通过数据分析、数据挖掘等手段去发现。 大数据是一场数据革命,在众多领域得到广泛应用,对我们的工作、生活和思维产生了巨大影响。大数据时代,我们可以分析更多的数据,甚至是全体数据,而不是随机样本;更多地发现数据之间的相关关系,而不是因果关系;当拥有海量大数据时,绝对的精确度不再是我们追求的主要目标,而开始接受大数据的混杂性和模糊性[8]。 2.2 数字资源 数字资源指以数字形式存取、发布和利用的信息资源集合或总和。大数据环境赋予了数字资源新的内涵,将数字资源从数字化转换到数据化。数据化指将均匀、连续的数字比特结构化和颗粒化,形成标准化、开放、非线性、通用的数据对象,并基于不同形态与类别的数据对象,实现相关应用,开展相关活动,其本质还是数字信息的内容[9]。大数据环境下,数据资源规模巨大,增长速度快,种类以图片、声音、视频等半结构化和非结构化数据为主。有统计显示[7],全世界结构化数据增长率大概是32%,而非结构化数据增长率则是63%。用于产生智慧的大数据,往往是这些非结构化数据。 大数据时代数据资源的特征不只在大,更在于它潜在的大价值。当数据量足够大时,数据资源之间的相关关系将会更加明显,通过识别有用的关联物,分析相关关系,可以发现数据资源的潜在价值。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。 3 大数据环境下的数字资源融合及其演变 3.1 数字资源融合的内涵 大数据时代,技术条件已经有了很大的提高,我们拥有了收集和处理海量数据的能力,小数据时代收集样本数据的做法已经没有多大意义,因此我们需要尽可能收集“全样本”和“总体数据”。但数据总量的爆炸式增长也带来了数据结构复杂、分散分布、鱼龙混杂等障碍,如何有效收集有价值的数据成为一大难题,这正是推动信息机构进行数字资源融合的一大动力。数字资源融合是指数字资源集成、共享和整合在大数据环境下的延伸与发展,通过数据公开和开放获取,建立一个以完整的大数据为基础的统一平台,以实现数据、技术、平台、服务的融合。数字资源融合强调的是基于同一平台的异构数据的融合,其目标是实现数据的无缝联结,并跨越时空和主体界线,将数据组合成一个有机整体。 3.2 数字资源融合的特征 数字资源融合与数字资源集成、共享与整合既有联系,又有区别。数字资源融合具有以下明显的特征: (1)数据开放和信息公开是数字资源融合的基础。大数据环境下,融合完整的“大数据”才有价值,只有数据全面开放和信息无限公开,才有可能获取有价值、完整的数据,因此数据开放和信息公开是数字资源融合的前提和基础。目前美国、英国等发达国家的数据开放运动已取得较大进展,主要体现在政府数据开放和信息公开方面,各国纷纷建立了政府数据开放和信息公开网站,致力于建立全世界统一的数据开放平台和开放标准,这也是大数据环境下的一大趋势。 (2)数字资源融合既是数据资源的融合也是技术和服务的融合。大数据环境下,在一个统一的平台上实现数据与多种技术的互操作,提供综合服务,将会在很大程度上节约成本。数字资源融合便是基于同一平台的数据、技术和服务的融合,通过构建数字信息资源融合及服务平台,从而创新信息机构开展信息服务的方式,如数据挖掘、关联分析、个性化服务等。 (3)无缝联结和数据网络是数字资源融合的最终归宿。大数据环境下,数字资源融合将分散分布、零碎存在的数据和信息融合成完整的“大数据”,数据与数据之间通过内在的联系挂起钩来,“联”在一起。这是基于数据的含义和属性建立的关系,是数据本质关系上的联结,所有的相关数据互相联结,构成一个数据网,数据将像网页一样,成为组织资源的单位[10]。 3.3 数字资源融合的演变 数字资源融合由数字资源集成、数字资源共享和数字资源整合演变而来,四者之间既有区别又有联系,在数字资源建设中发挥着重要的作用。数字资源集成以计算机领域研究最广,常用“信息集成”、“集成服务”表达。数字资源整合是网络环境下图书情报领域的一个重要研究内容,整合基础理论、整合方法及整合平台等研究都已较为成熟。数字资源融合是大数据环境下集成和发展的新方向。 从研究对象来看,都是数字资源。但随着网络技术和互联网的发展,数字资源的内涵不断延伸。数字资源集成、共享和整合的对象是数字化资源,以数据库和网络信息资源为主。大数据环境下,完整的、数据化的大数据才有价值,其成为数字资源融合的主要对象。 从内涵来看,数字资源集成对不同来源、格式和特性的异构数字资源进行统一表示、存储和管理,以便为用户提供数字资源的统一视图,仅从形式上合并数字资源,是一个基础性概念。数字资源整合[11]是数字资源优化组合的一种存在状态,根据一定需要,对各个相对独立的数字资源系统中的数据对象、功能结构及其互动关系进行类聚、重组,形成一个新的有机整体,实现了形式上和内容上的整合,它是基于不同平台的异构数字资源的集成。数字资源融合是基于同一个平台的异构系统,围绕数字资源的集成与协作,包括数据融合、平台融合和服务融合三个层次。 从目标来看,无论是数字资源集成、共享、整合,还是融合,其目的都是为了数字资源的共享和有效利用。但信息集成、数字资源整合没有有效解决数字资源分散分布、重复建设、利益冲突等问题,基于完整数据的数字资源融合将有利于解决这些问题。 4 大数据环境下的数字资源融合框架与模式 4.1 融合内容 大数据环境下,规模大、种类多是数字资源的首要特征,随着海量数据处理技术的发展,使用一切数据让我们更清楚地看到了大数据的价值。数字资源融合是大规模数据的融合,融合内容为针对某个对象在时空两个维度上的数据,将信息和数据组成一个完整的有机整体进行开发利用,以获得更多更大的价值。从时间上来看,数字资源融合指融合有一定时间积累的完整数据,即从时间上融合过去、现在和未来的数据;从空间上来看,指融合不同区域、不同行业领域等的完整数据。这种完整数据,在大数据环境下,还表现为“多源”,即有多个源头在不同方向对同一个对象进行数据记录,数据之间可以互相印证。所以,数字资源融合也包括同一主题而来源不同的数据的融合、同一组织主体而类型不同的数据的融合、不同信息机构如图书馆、档案馆和博物馆之间的数据融合等。 4.2 融合层次 大数据环境下,数字资源融合体系可分为三个层次,即数据融合、平台融合和服务融合,数据融合是基础,平台融合是关键,服务融合是目的。将庞大的异构数据融合在一个平台上本身即是一种创新,以此为基础建立的数字信息资源融合及服务平台,将为信息机构在大数据环境下开展信息服务提供新的活力,增强信息机构开展信息服务的竞争力。 数据融合指在收集到的原始数据上进行的融合,通过元数据将时间、空间、行业、地区、主体、主题等方面具有关联性的所有数据互相联结,构成一个大的数据库;平台融合指通过构建一个集成平台或云平台,实现与多种技术、多种格式数据的互操作,将其融入到一个统一平台中;服务融合指在数据融合和平台融合的基础上,通过对服务要素进行动态优化,构建融合服务体系,实现服务内容、形式与功能的融合。完整的数字资源融合体系如图1所示。大数据环境下数字资源整合初探_大数据论文
大数据环境下数字资源整合初探_大数据论文
下载Doc文档