大数据环境下数字资源整合初探_大数据论文

大数据环境下数字资源融合初探,本文主要内容关键词为:环境论文,数字论文,数据论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      [中图分类号]G35 [文献标识码]A [文章编号]2095-2171(2015)02-0079-06

      DOI:10.13365/j.jirm.2015.02.079

      “大数据”(Big data)是继云计算之后IT行业最火热的词汇。2007年,国外学者开始关注大数据。2008年9月,《自然》杂志发表了Big Data:Science in the Petabyte Era系列专题文章,最早提出了大数据的概念[1]。2011年,美国麦肯锡咨询公司最早发布“大数据调查报告”,在IT行业和商业领域掀起了大数据狂潮[2]。2012年2月,奥巴马政府宣布推出“大数据的研究和发展计划”,并于3月29日在美国白宫网站发布《大数据研究和发展倡议》,在政府管理和社会应用领域掀起了大数据巨浪[3-4]。正如Steve Lohr在给美国《纽约时报》撰写的《大数据时代》(The Age of Big Data)一文中宣布的那样[5]:大数据时代已经来临!

      在大数据时代,“大数据”才有价值,数据开放、信息公开、资源融合、无缝联结是未来发展的必然趋势,大数据开启了数字资源融合的新方向。

      1 文献回顾

      1.1 大数据研究现状

      国外大数据研究主要集中在IT领域、商业领域、公共领域和科研领域等,正在向各行各业和各学科领域拓展。IT领域主要从技术、算法、模型和实现等角度研究大数据,其中有关云计算、数据处理、数据挖掘、知识发现等的研究最引人注目。

      我国从2011年开始引入大数据,很快成为继云计算之后的另一个关注热点。大数据研究以翻译和介绍国外研究成果为主,处于研究的初级阶段,并且常常和云计算研究结合在一起,重点集中于商业经济和IT领域。

      1.2 数字资源融合研究现状

      英文中的“融合、整合与集成”三词都用“Integration”表达,区别不明显。国外基于数字信息资源整合、集成和共享的信息资源融合与服务相关研究已经十分丰富和成熟,如数字信息资源集成与服务,以数字图书馆、跨库检索系统、数据库集成系统、搜索引擎等为代表;数字信息资源整合、共享与服务,以文献资源保障体系、图书馆联盟、数字信息资源共享等为代表[6]。

      我国数字资源融合研究始于20世纪末,以“数字资源集成”、“数字资源整合”、“数字资源共享”等形式出现,而其中“数字资源整合”一词最受关注。相关研究以理论研究为主,方法和技术研究次之,应用研究相对较少。“数字资源整合”中关于图书馆、数字图书馆,尤其是高校图书馆的数字资源整合研究较为成熟。数字资源整合从整合层次上来看可分为物理层整合和逻辑层整合,从加工处理程度来看可分为数据整合、信息整合、知识整合,从整合模式来看主要有基于OPAC的整合(以馆藏书目数据为核心)、基于资源导航的整合(将检索入口整合在一起、学科导航)、基于跨库检索的整合(提供一站式的跨库检索服务)、基于超级链接的整合(超文本网页链接)和基于语义的整合(知识本体)等。从整合对象上来看主要有面向对象的整合(以用户需求为重点)、面向内容的整合(以信息资源为重点)和面向任务的整合(以功能分析为重点)[6]。

      1.3 研究现状评述

      从大数据研究来看,国外目前主要以技术和应用研究为主,理论研究、系统研究和综合研究不多。而国内主要以翻译和介绍国外研究成果为主,简要介绍大数据的特征、内涵、思维变革等,探讨大数据给各行各业带来的机遇和挑战,处于研究的初级阶段。从数字资源融合研究来看,国外关于数据融合、信息融合、信息与信息资源整合等方面的研究较多,但没有有效地解决数据资源和信息资源的分散分布、重复建设、利益冲突及低效利用等问题。国内研究者混合使用整合、集成、融合等概念,而没有明确区分。

      2 大数据与数字资源

      2.1 大数据

      目前学术界对大数据还没有形成统一的认识。IBM公司最早将大数据概括成4V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)和潜藏价值(Value)[7]。由此可见,大数据不仅仅指其数量之大,更指它潜在的巨大价值,需要通过数据分析、数据挖掘等手段去发现。

      大数据是一场数据革命,在众多领域得到广泛应用,对我们的工作、生活和思维产生了巨大影响。大数据时代,我们可以分析更多的数据,甚至是全体数据,而不是随机样本;更多地发现数据之间的相关关系,而不是因果关系;当拥有海量大数据时,绝对的精确度不再是我们追求的主要目标,而开始接受大数据的混杂性和模糊性[8]。

      2.2 数字资源

      数字资源指以数字形式存取、发布和利用的信息资源集合或总和。大数据环境赋予了数字资源新的内涵,将数字资源从数字化转换到数据化。数据化指将均匀、连续的数字比特结构化和颗粒化,形成标准化、开放、非线性、通用的数据对象,并基于不同形态与类别的数据对象,实现相关应用,开展相关活动,其本质还是数字信息的内容[9]。大数据环境下,数据资源规模巨大,增长速度快,种类以图片、声音、视频等半结构化和非结构化数据为主。有统计显示[7],全世界结构化数据增长率大概是32%,而非结构化数据增长率则是63%。用于产生智慧的大数据,往往是这些非结构化数据。

      大数据时代数据资源的特征不只在大,更在于它潜在的大价值。当数据量足够大时,数据资源之间的相关关系将会更加明显,通过识别有用的关联物,分析相关关系,可以发现数据资源的潜在价值。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。

      3 大数据环境下的数字资源融合及其演变

      3.1 数字资源融合的内涵

      大数据时代,技术条件已经有了很大的提高,我们拥有了收集和处理海量数据的能力,小数据时代收集样本数据的做法已经没有多大意义,因此我们需要尽可能收集“全样本”和“总体数据”。但数据总量的爆炸式增长也带来了数据结构复杂、分散分布、鱼龙混杂等障碍,如何有效收集有价值的数据成为一大难题,这正是推动信息机构进行数字资源融合的一大动力。数字资源融合是指数字资源集成、共享和整合在大数据环境下的延伸与发展,通过数据公开和开放获取,建立一个以完整的大数据为基础的统一平台,以实现数据、技术、平台、服务的融合。数字资源融合强调的是基于同一平台的异构数据的融合,其目标是实现数据的无缝联结,并跨越时空和主体界线,将数据组合成一个有机整体。

      3.2 数字资源融合的特征

      数字资源融合与数字资源集成、共享与整合既有联系,又有区别。数字资源融合具有以下明显的特征:

      (1)数据开放和信息公开是数字资源融合的基础。大数据环境下,融合完整的“大数据”才有价值,只有数据全面开放和信息无限公开,才有可能获取有价值、完整的数据,因此数据开放和信息公开是数字资源融合的前提和基础。目前美国、英国等发达国家的数据开放运动已取得较大进展,主要体现在政府数据开放和信息公开方面,各国纷纷建立了政府数据开放和信息公开网站,致力于建立全世界统一的数据开放平台和开放标准,这也是大数据环境下的一大趋势。

      (2)数字资源融合既是数据资源的融合也是技术和服务的融合。大数据环境下,在一个统一的平台上实现数据与多种技术的互操作,提供综合服务,将会在很大程度上节约成本。数字资源融合便是基于同一平台的数据、技术和服务的融合,通过构建数字信息资源融合及服务平台,从而创新信息机构开展信息服务的方式,如数据挖掘、关联分析、个性化服务等。

      (3)无缝联结和数据网络是数字资源融合的最终归宿。大数据环境下,数字资源融合将分散分布、零碎存在的数据和信息融合成完整的“大数据”,数据与数据之间通过内在的联系挂起钩来,“联”在一起。这是基于数据的含义和属性建立的关系,是数据本质关系上的联结,所有的相关数据互相联结,构成一个数据网,数据将像网页一样,成为组织资源的单位[10]。

      3.3 数字资源融合的演变

      数字资源融合由数字资源集成、数字资源共享和数字资源整合演变而来,四者之间既有区别又有联系,在数字资源建设中发挥着重要的作用。数字资源集成以计算机领域研究最广,常用“信息集成”、“集成服务”表达。数字资源整合是网络环境下图书情报领域的一个重要研究内容,整合基础理论、整合方法及整合平台等研究都已较为成熟。数字资源融合是大数据环境下集成和发展的新方向。

      从研究对象来看,都是数字资源。但随着网络技术和互联网的发展,数字资源的内涵不断延伸。数字资源集成、共享和整合的对象是数字化资源,以数据库和网络信息资源为主。大数据环境下,完整的、数据化的大数据才有价值,其成为数字资源融合的主要对象。

      从内涵来看,数字资源集成对不同来源、格式和特性的异构数字资源进行统一表示、存储和管理,以便为用户提供数字资源的统一视图,仅从形式上合并数字资源,是一个基础性概念。数字资源整合[11]是数字资源优化组合的一种存在状态,根据一定需要,对各个相对独立的数字资源系统中的数据对象、功能结构及其互动关系进行类聚、重组,形成一个新的有机整体,实现了形式上和内容上的整合,它是基于不同平台的异构数字资源的集成。数字资源融合是基于同一个平台的异构系统,围绕数字资源的集成与协作,包括数据融合、平台融合和服务融合三个层次。

      从目标来看,无论是数字资源集成、共享、整合,还是融合,其目的都是为了数字资源的共享和有效利用。但信息集成、数字资源整合没有有效解决数字资源分散分布、重复建设、利益冲突等问题,基于完整数据的数字资源融合将有利于解决这些问题。

      4 大数据环境下的数字资源融合框架与模式

      4.1 融合内容

      大数据环境下,规模大、种类多是数字资源的首要特征,随着海量数据处理技术的发展,使用一切数据让我们更清楚地看到了大数据的价值。数字资源融合是大规模数据的融合,融合内容为针对某个对象在时空两个维度上的数据,将信息和数据组成一个完整的有机整体进行开发利用,以获得更多更大的价值。从时间上来看,数字资源融合指融合有一定时间积累的完整数据,即从时间上融合过去、现在和未来的数据;从空间上来看,指融合不同区域、不同行业领域等的完整数据。这种完整数据,在大数据环境下,还表现为“多源”,即有多个源头在不同方向对同一个对象进行数据记录,数据之间可以互相印证。所以,数字资源融合也包括同一主题而来源不同的数据的融合、同一组织主体而类型不同的数据的融合、不同信息机构如图书馆、档案馆和博物馆之间的数据融合等。

      4.2 融合层次

      大数据环境下,数字资源融合体系可分为三个层次,即数据融合、平台融合和服务融合,数据融合是基础,平台融合是关键,服务融合是目的。将庞大的异构数据融合在一个平台上本身即是一种创新,以此为基础建立的数字信息资源融合及服务平台,将为信息机构在大数据环境下开展信息服务提供新的活力,增强信息机构开展信息服务的竞争力。

      数据融合指在收集到的原始数据上进行的融合,通过元数据将时间、空间、行业、地区、主体、主题等方面具有关联性的所有数据互相联结,构成一个大的数据库;平台融合指通过构建一个集成平台或云平台,实现与多种技术、多种格式数据的互操作,将其融入到一个统一平台中;服务融合指在数据融合和平台融合的基础上,通过对服务要素进行动态优化,构建融合服务体系,实现服务内容、形式与功能的融合。完整的数字资源融合体系如图1所示。

      

      4.3 融合方法

      大数据时代,数字化向数据化转换,数据将成为资源组织的单位,一个数据可以像网页一样,获得一个地址,利用统一的语义对它进行描述。从资源组织和资源融合特征出发,数字资源融合主要有以下四种方法:

      (1)基于语义的融合。所谓“语义”,是指遵循一个统一的标准,给每一片信息赋予一个计算机都能理解的“意义”,用术语说,则是“元数据”,也可以形象地理解为给信息贴上各种标准化的“标签”[10]。基于语义的融合,实际上是对数字资源进行重新组织、加工、开发和创造新知识的过程。以元数据技术为基础创建本体,对数字资源进行概念化和标准化的描述,通过元数据标签,实现数字资源之间的自动联结,这样就能最大限度地融合完整的数据,解决资源分散和重复建设的问题。同时,也能发现数字资源之间的潜在关联,充分满足用户对数字资源的需求,使数字资源得到有效利用,从而创造新的知识和价值。

      (2)基于主题的融合。主题法是直接从表达主题内容的语词出发,对文献信息进行组织和检索的重要方法,在大数据环境下也可得到较好的应用[12]。基于主题的融合,指通过主题词将有关联关系的数字资源融合,便于用户检索与利用与某一主题相关的所有数字资源。如需要检索与“大数据”有关的数字资源,则所有与“大数据”相关的图书、期刊、网页、技术等都能展现在一个页面上。基于主题的融合方法的关键在于确定主题词、主题词之间的关联关系以及与某一主题相关的语词的组织。

      (3)基于用户的融合。数字资源融合的最终目的是为用户提供信息服务,以人为本是信息服务的关键所在。基于用户的融合,即是在“用户中心理念”基础上的数字资源融合方法,它以用户为中心和出发点,按用户的特定需求来融合数字资源。实际上,这种融合也可称为个性化融合,其目标是为用户提供个性化服务。大数据环境下,面对多而杂的资源环境,信息机构只有真正做到“以用户为中心”,提供用户所需要的数字资源,才能在信息服务提供中保持重要位置。

      (4)基于应用的融合。基于应用的融合是指通过应用层面的逻辑关联来实现无缝实时的集成[13]。对于信息机构的不同业务部门以及提供不同信息服务时,它们所需的数字资源都会实时传到相关数据库表中。这些数据库表之间的关系是按照数字资源融合平台应用层面的逻辑定义,通过表之间的内部和外部键而实现的实时关联。这种融合方法的实时性更强,其关键在于应用层面的逻辑定义。

      5 大数据环境下数字资源融合面临的问题

      数字资源融合是大数据环境下数字资源整合与共享发展的新趋势,是一次重要的突破,同时也面临着众多现实问题需要解决,成为未来数字资源融合研究和发展的重要方向。

      5.1 观念问题

      如果说使用数据是一种文化、一种习惯,那么开放数据则是一种态度、一种观念。大数据时代的到来,为各行各业带来了机遇,但同时也带来了担忧,开放后的数字资源以及用户数据是否会被滥用和恶用,数据安全成为一个重要问题。目前,在各国数据开放的实践中,基本上已形成了不危及国家安全和不能侵犯公民隐私两个界限[10],在这两个界限之外的数据都应该开放,数据开放是大数据时代无法阻挡的趋势。因此,无论是政府、机构还是用户,都应该从观念上正确认识和处理数据开放与数据安全的矛盾问题。

      5.2 技术问题

      近年来,随着计算机技术、信息存储技术和互联网技术的快速发展,数字资源融合相关技术取得了突破性进展,为数字资源融合实践的开展提供了有力支持。但大数据时代的到来,数据规模的巨大性、数据种类的复杂性、数据模型的不确定性,对数字资源的存储容量、保存技术、标准规范化以及数据安全保障等提出了更高的要求,这些技术问题是数字资源融合需要解决的重要问题,非关系型数据库、本体技术、元数据、云计算技术、网格技术等将发挥重要作用。

      5.3 经济问题

      数字资源融合立足于整体功能大于部分功能之和,通过融合数字资源,能有效解决数字资源重复建设、分散分布、获取难度大等问题,并有力促进数字资源的共建共享与高效利用,这对信息机构、用户和信息服务的发展,无疑都是有益的。但数字资源融合及服务平台的建设是一项耗资巨大的工程,需要投入大量的人力、物力和财力,成本较高,最终是收益显著还是效益较小,具有较大风险,需要进行综合衡量。政府应大力鼓励人才培养和提供财政支持。

      5.4 管理问题

      数字资源融合服务平台的建设是一项系统工程,涉及众多机构、人力、财力与物力的协调,甚至某些主体之间存在利益冲突,因此需要建立并完善数字资源融合的统一管理机制。首先,必须要有专门的负责机构和人员,实施统一标准,进行合理规划和科学布局。其次,鼓励制度创新,通过创设新的、更有激励性的制度和规范体系鼓励信息机构和信息人员积极参与。最后,完善数字资源融合的运营机制,明确不同信息机构的管理职能,对融合服务平台的建设进行定期审查和统一规范管理,保证数字资源融合的顺利进行。

      5.5 法律问题

      法律约束是促使数字资源融合更具合法性的重要保障。大数据环境下,数据安全、个人隐私和知识产权是数字资源融合涉及的主要法律问题。政府相关部门应尽快制定与大数据相关的法律法规体系,出台具体措施,保障用户的个人隐私和数据安全,完善数字资源知识产权保护政策,妥善处理好知识产权保护与知识传播及共享的关系,为数字资源融合实践提供制度保障。

      6 结语

      大数据时代,数据和信息成为重要资产,如何有效收集、存储、组织和利用数字资源成为信息机构的一大重要难题。数字资源融合是数字资源集成和整合的新方向,有利于解决传统环境下存在的数据和信息资源分散分布、重复建设、利益冲突及低效利用等问题,对信息机构抓住大数据环境带来的机遇、有效开发利用数字资源和提供信息服务具有重要指导意义。但目前数字资源融合的研究大多还停留在理论层面,应加强技术实现和服务平台建设方面的研究,并在此基础上探讨数字资源融合服务对策。

标签:;  ;  ;  ;  ;  ;  ;  

大数据环境下数字资源整合初探_大数据论文
下载Doc文档

猜你喜欢