数据空间及其信息资源管理视角研究,本文主要内容关键词为:信息资源论文,视角论文,数据论文,空间论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 数据空间技术
由于传统数据库(Database)技术无法满足跨域、异构、海量、不确定性数据管理的需要,M.Franklin,A.Halevy,D.Maier等学者于2005年比较系统地提出了数据空间(Dataspace)的理念[1]。数据空间技术的提出以及数据库技术到数据空间技术的过渡是现阶段计算机信息管理理论研究和实践应用的重要革命之一。
1.1 基本思想
1)含义。一般情况下,数据空间是指主体数据空间。主体数据空间是与主体相关的数据及其关系的集合,数据空间中的所有数据对于主体来说都是可控的,主体相关性和可控性是数据空间中数据项的基本属性[2]。主体是数据空间的所有者,可以是个人,也可以是一个组织;主体相关性是指数据空间所管理的是与特定主体相关的信息,而这些信息可以出现在不同的时间,存放在不同的位置,也可以采用不同的格式表示。可以从时间、空间和内容3个维度理解数据空间的主体相关性特点。从时间维度看,随着应用需求、成本、能力、进度的增强,公共数据空间中的数据项不断被纳入到数据空间的管理范围之内,数据空间具有动态管理不确定数据的能力。从空间维度看,数据源可以分布式存储在不同的网络环境中,数据空间支持跨域数据的集成管理。从内容维度看,数据源可以是结构化、半结构化、非结构化等多种格式数据,数据空间可以实现对异构数据的统一管理。主体可控性是指主体通过各种操作或服务来控制和管理数据空间中的数据项。
2)组成。从数据空间的定义看,数据空间集成了来自跨域、异构、动态数据源的不确定性数据内容。因此,一个数据空间可被定义为若干个数据源(又称参与者)及其相互关系的集合[3]。数据源为数据空间提供了数据内容及其相应服务。一方面,同一个数据空间应支持多种数据源,包括关系数据库、文本文件、XML文档、图像文件、Web服务、软件构件库等;另一方面,数据空间可以利用数据源的自我管理能力实现部分数据管理功能。数据源之间的内在联系是数据空间的另一个重要组成部分。数据空间的建设不但需要从不同数据源获取所需数据项,而且还需要记录数据源之间多种关系,包括重叠、冲突、继承、同源、映射等。目前,常见的表示数据源间相互关系的方法有两种,即模式匹配和数据映射。
作为数据空间的实现形式,数据空间系统(Database System)由目录、本地存储与索引、搜索与检索、发现构件、扩展构件和管理构件等部分组成[1],如图1所示。其中,“目录”记录数据空间所包含的数据源及其相互关系;“本地存储与索引”主要用于查询、获取或恢复数据空间;数据空间系统应支持统一检索、结构化查询、元数据查询等多种“查询”或“检索”功能;“发现”构件用于发现新数据源,并维护数据源及其联系;“扩展”构件用于扩展和改进各数据源的数据管理能力;“管理”构件用于统一管理数据空间及其组成构件。
图1 数据空间系统的组成
3)生命期。数据空间的生命期一般包括初始化、测试/评价、部署、使用、维护和改进阶段以及解散阶段[4]。初始化阶段主要负责数据源的识别、映射、匹配和集成工作。初始化阶段结束部署阶段开始之前,需要对数据空间的查询和检索结果的完整性、冗余性、不一致性进行测试评估,以便进一步完善初始化阶段的工作。由于数据空间采用的是“现收现付”(Pay-as-you-go)的设计模式,其使用、维护和改进可同步进行。使用阶段对数据空间中的数据进行查找、集成、统计和利用等操作;维护阶段主要完成数据源的增加、更新或减少;改进阶段根据用户反馈信息,改进数据空间的设计。此外,数据空间完成其使命后,可对其进行解散操作。
1.2 主要特征
相对于数据库技术,数据空间技术具有现收现付,数据在先、模式在后,不断演化的数据模型,数据集成不改变数据的原有格式,数据内容以共存形式分布在不同数据源,自动处理数据源的动态变化,充分利用数据源的自我管理能力,主体对数据具有部分控制能力,建设过程信息丢失相对少,支持数据关联的动态变化以及服务质量的不确定性等特点,如表1所示。
为了便于理解,可以从两个不同层次分析数据空间技术的主要特征。
1.2.1 内部特征 数据空间的内部特征是决定数据空间的功能和规律的本质特征,是外部特征的决定因素。
1)建设模式。传统数据库技术采用的是先行支付(Pay-before-you-go)的建设模式——根据特定时间点的需求分析,事先设计出数据模式,然后根据已设计好的数据模式收集和管理数据内容,并且数据模式在一定时间内相对稳定。因此,传统关系数据库中存在两个缺陷:一是数据相关性较差,为了提高数据库的应用性,需要捕获和管理大量的无用信息;二是灵活性差,当需求发生变化时,传统数据库设计的修改困难。为此,数据空间技术采用了另一种建设模式——现收现付,数据空间技术只收集和管理与特定主体的当前需求相关的数据,随着需求变化不断改变数据空间的捕获范围和数据内容。可见,数据空间的设计和使用是同步的,随着数据空间的持续使用,其建设更加趋于完善。
2)数据模式。传统关系数据库技术遵循的是“模式在先,数据在后”的数据模式设计理念,其数据模式一旦设计出来后,在相当长的时间内稳定不变。数据模式变更需要数据库的重新设计,进而造成软件程序代码的修改,造成的更新成本较大。
因此,传统关系数据库中存在另外两种缺陷:一种是数据内容与数据模式之间的耦合过高,数据筛选和管理完全依赖于数据模式设计,数据模式设计无法与数据内容及其变化保持同步;另一种是数据模式本身的灵活性非常低,数据获取和转换过程中存在较大的信息丢失。为此,数据空间技术采用了不同的数据模式——“数据在先,模式在后”,即先收集所需数据,在数据积累和应用过程中逐渐形成主体所需的数据模式,其数据模式的设计是一种不断演化和不断改进的过程。
3)数据模型。传统关系数据库技术采用以关系表为主的数据结构,通过关系代数、结构化查询语言等精确操作技术实现其数据操作,并可配有多种完整性约束条件。因此,传统关系数据库中的数据操作结果具有最优性和确定性。但是,“现收现付”的建设模式和“模式在后,数据在先”的数据模式导致了数据空间技术需要对传统数据模型中的数据结构、数据操作和完整约束条件机制的进行创新和改进,其数据操作结果具有次优性和不确定性。
4)数据格式。传统关系数据库技术需要对不同数据源中的数据格式进行转换或映射成统一格式后由数据库管理系统(Database Management System,DBMS)集中存储或管理。但是,这种数据格式转换和映射过程不可避免地造成信息丢失现象的出现。为此,数据空间技术采用了另一种信息集成技术,即在信息集成过程中不改变数据在数据源中的原始格式。
5)存储位置。传统关系数据库技术需要数据的集中式存储,由DBMS统一管理。但是,数据空间技术不要求对数据进行融合,数据项可以存放在不同的数据源中,由数据源负责管理。
1.2.2 外部特征 数据空间的外部特征是指在数据空间的使用和维护中表现出来的区别于其他技术的特征,一般为内部特征的外在表现。
1)数据源的不确定性。该特征主要由数据空间的“现收现付”建设模式决定的。在传统数据库技术中,参与数据集成的数据源是事先设计好的,其数据源具有相对确定性特点,当新增、减少、变动数据源时,需要重新设计其数据模式。然而,数据空间技术采用的是“现收现付”建设模式,支持数据源的新增、更新和减少等动态变化,不要求数据源的确定性。
2)数据管理和数据控制的不完全性。该特征主要由数据空间的“分布式共存数据存储和管理”特征决定。在传统数据库技术中,数据管理由DBMS集中管理,DBMS对所管理的数据具有全部控制能力。但是,由于数据空间技术的“分布式共存”数据存储和管理特点,数据项一般由数据源自己负责管理,数据空间管理系统对数据项的管理权力具有不完全性特点。
3)信息集成过程中信息丢失较少。该特征主要由数据空间的“不改变数据源中的数据格式”特征决定。数据空间技术不需要对数据源进行格式转换和映射工作,可以避免传统数据库技术在格式转换和映射过程中的信息丢失。
4)数据关联的复杂性和演化性。该特征主要由数据空间的“现收现付建设模式”特征决定。相对于传统数据库技术,数据空间中不仅仅记录数据项之间数量上的对应关系,还需要记录多种语义关系。数据项之间的关系可以随着数据源的变化不断变化,表现出一定的复杂性和演化性。
5)服务质量的不确定性和次优性。由于数据空间技术采用的是“现收现付”建设模式和“数据在先,模式在后”的数据模式,其服务质量,尤其是建设初期的服务质量往往不如传统关系数据库技术。但是,随着数据空间的不断演化,其服务质量将得到加强。
1.3 典型案例
数据空间技术在个人信息管理、关联数据管理等领域得到了初步应用。文献[5]以DB2Ⅱ,Aladin,SEMEX,iMeMex,ITrails,PayGo,UDI,Roomba,Quarry为案例,分析了数据空间应用的特点。
其中,iMeMex[6]是比较典型的成功案例之一。iMeMex采用了一种特殊的数据模型——iDM(iMeMex Data Model),并考虑到采用XPath,XQuery等语言描述iDM模型资源检索表达式的复杂性,设计了一种专用查询语言——iQL(iMeMex Query Language)。iMeMex系统的框架体系的核心是资源视图管理器(Resource View Manager,RVM)和iQL查询处理器(iQL Query Processor)。该系统的实现采用了OSGi面向服务框架和Java语言,可支持多种数据源,包括文件系统、网络共享、电子邮件、数据库、Web文档等。
2 信息资源管理中的数据空间
从信息资源管理视角看,与数据空间相关的主要研究课题如下。
2.1 数据建模
数据模型的创新是数据空间技术的研究和应用中的主要挑战之一。目前,计算机科学与技术领域的专家学者提出了一些初步的解决方案,例如iDM数据模型[7]、UDM(Unified Data Model)模型[8]、Haystack模型[9]、PSM(Probabilistic Semantic Model)模型[10]和RSM(Resource Space Model)模型[11]等。
但是,相对于以关系代数为数学理论基础的关系数据模型,现有的面向数据空间的数据模型仅仅是传统数据模型的改进或重组,缺少在理论基础和计算工具上的突破性创新。面向数据空间的数据模型研究必须以专用的数学理论基础和计算工具为突破口,而不能停留在现有技术的改进或重组。
数据空间需要在3个不同层次上进行针对数据模型的创新型研究,具体包括概念层次、数据层次和物理层次。信息资源管理领域在信息组织,尤其是信息构建方面积累了较多的成果,对创新性地提出面向数据空间的概念模型和数据模型具有一定的参考价值。因此,面向数据空间的数据建模方法,尤其是概念模型和数据模型的构建是信息资源管理领域值得研究的课题。
2.2 不确定性数据管理
不确定性作为数据空间的核心特征,是传统数据库技术向数据空间技术转移的重要瓶颈。文献[2]将数据空间的不确定性分为数据不确定性、模式匹配不确定性和查询处理不确定性3个层次,并分别进行了较为深入的分析。文献[8]分析讨论了数据空间中的数据集成、数据映射(Data Mapping)、中介模式(Mediated Schema)的不确定性,并提出了一种基于概率的模式映射和中介模式构建方法。
目前,对数据空间的不确定性特征的探讨较多,但是尚未系统研究如何应对和利用数据空间的不确定性的问题,不确定性成为数据空间理论研究的难点之一。
计算机科学及其应用研究领域对确定性数据的研究越来越成熟,但对不确定性数据的研究却严重落后。相反,信息资源管理领域善于定性研究,在不确定性数据的研究上具备一定的优势。因此,信息资源管理领域可以结合数据空间的基本思想、主要特征和典型案例,侧重研究不确定性数据的动态管理问题。
2.3 数据空间管理系统
与数据库管理系统负责管理数据库相似,数据空间需要由专用的管理工具软件——数据空间管理系统(Dataspace Management System,DSMS)来统一管理。但是,数据空间管理系统的研究刚刚进入起步状态,尚未达成共识。数据空间的特殊性决定了数据空间管理系统需要一套区别于传统DBMS的新兴框架体系。
文献[2]提出了数据空间集成与管理框架,该框架体系包括4个主要组成部分:数据集成引擎负责管理数据源,监控数据空间的内部和外部变化,进行数据集成和更新;数据空间引擎负责数据的存储、索引、访问、查询等,是该框架体系的核心部分;数据演化引擎负责数据模式的抽取、数据关系的发现、数据重要性及相关性的自适应运算、自动索引等,其目的是使数据空间的操作更加高效;数据输出引擎主要负责处理数据的接口、展示和输出。
信息资源管理领域的研究成果尚未直接应用于IT领域的核心技术,反而过分依赖于网络技术和数据库技术等IT基础设施,导致了信息资源管理领域的被动性。数据空间技术的出现为信息资源管理领域进入底层技术和关键领域提供了新的机遇。因此,信息资源管理领域的专家学者应深入研究数据空间,对其系统架构、功能模块、关键算法的设计方面作出自己的贡献。
2.4 个人信息管理
个人信息管理是数据空间的重要应用领域之一。近年来,随着企业信息管理技术的成熟和个人信息资源的迅速增长,信息管理的研究重点从企业信息管理转向个人信息管理。
文献[12]提出了一种面向个人数据空间的内容管理和共享的系统架构,并提供了对应的原型系统。文献[13]试图将本体引入到个人数据空间中,分析描述个人数据空间中个人信息资源的元数据,并探讨了面向个人数据空间的资源本体和应用本体,以及资源和本体之间的映射和语义查询问题。但是,基于数据空间的个人信息管理的研究仍处于起步阶段。
个人信息管理作为信息资源管理领域的重要研究内容,也已经积累了很多成果,在管理方法、策略、机制、评估等方面的研究具有自己的独特视角和不可替代的优势。
因此,信息资源管理领域的研究可以结合个人信息资源管理和数据空间技术,提出新型的个人信息资源管理模式与技术,转变把“企业信息管理的技术”直接当作“个人信息管理”工具的现状,为个人信息管理提供有效的平台保障。
除了上述4个基本研究领域之外,也有很多科学问题需要信息资源管理领域专家学者的研究。例如,关联数据(Linked Data)和大规模协同数据工程。关联数据建设的四项基本原则较好地支持了数据空间的设计和建设模式[14]。因此,关联数据在数据空间中的应用也会成为相关领域的重要研究课题之一。
文献[15]认为开放关联数据技术使目前的Web逐渐演化成为全球性数据空间。文献[16]在分类研究关联数据的查询方法的基础上,提出了一种利用数据空间的思想调用关联数据的初步设想。从目前的研究现状看,数据空间技术和关联数据的结合是未来研究的重要趋势。数据空间的主体相关性和主体可控性凸显了主体,尤其是长尾用户在数据空间建设中的重要地位。因此,大规模协同处理必将成为数据空间研究的新课题之一[17]。加州大学伯克利分校正在研究利用Web 2.0和草根智慧进行协作数据清洗,进而提高数据理解能力和集成效果[18]。文献[1]强调了人的注意力的重用和机器学习在数据空间中的重要性。文献[19]强调了用户反馈在数据空间建设中的重要性,并探讨了如何根据用户反馈改进数据空间的设计问题。
3 分析与展望
现代数据管理中的跨域、海量、异构、不确定性特点推动了数据管理范式从数据库范式向数据空间范式的转变,推动了计算机信息资源管理领域的新一轮革命。传统数据空间技术的应用具有短期信息需求的支持不够、异构或跨域数据的集成不好、数据管理能力差、维护与改进工作复杂的共性特点。
相对于传统数据库技术,数据空间技术具有先行支付的建设模式,模式在先、数据在后的数据模式,不确定性数据模型、不改变数据源中的数据格式,分布式“共存”存储模式等内在特征,而且这些内在特征也表现出了诸多外部特征,包括数据源的不确定性、数据管理和数据控制的不完全性、信息集成过程中信息丢失较少、数据关联的复杂性和演化性、服务质量的不确定性和次优性。作为比较典型的数据空间应用之一,iMeMex在数据模型、数据操作、框架设计、系统实现方面对数据空间的理论研究和应用开发具有重要启示。
目前,数据空间技术的研究主要集中在数据模型、不确定性、数据管理、数据空间管理系统及其框架体系、关联数据、数据集成、个人信息管理、大规模协同数据工程问题的探讨。其中,数据模型、不确定性、数据空间管理系统、个人信息管理是未来数据空间技术的重要研究方向。信息资源管理领域的专家学者应抓住这一机会,利用自己的独特研究视角和成果积累,作出重要贡献。
标签:信息资源管理论文; 数据库技术论文; 数据管理论文; 大数据论文; 空间数据论文; 概念数据模型论文; 个人管理论文;