信息管理的新视角:开放数据_大数据论文

信息管理的新视角:开放数据_大数据论文

信息管理的新视角:开放数据,本文主要内容关键词为:信息管理论文,新视角论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

开放数据(Open Data)是最近几年出现的一个新词语,也是国外最近研究的一个热门领域。在2007年的万维网会议上专设了“建立一个数据参与的语义网络”(Building a Semantic Web in Which Our Data Can Participate)讨论主题[1]。

J.Taylor提出开放数据的原因主要有3点:战略(商业)决策、数据标准化、价值增值[2]。N.Grossman也指出,开放数据=优秀媒体(Good Press)[3]。除此之外,开放数据可以促进新事物的发现,开放数据正产生一项根本性的变革,它将以相对低的成本创造财富、知识以及机会[4]。

1 开放数据产生背景

正如P.Miller等人所指出的那样,大家关注的比较多的是开源以及开放获取,但目前几乎在任何地方,人们都可以看到越来越多的大量数据被发布到网上,其目的非常清楚,即实现互操作,但是隐含着强有力的开放性推动[5]。笔者认为开放数据产生的背景包含两个方面。

1.1 开源的理念与文化推动(理念层面)

1)开源所蕴涵的开放文化理念和发展模式推动了开放数据的产生。①自由开放思维。K.Robert分析了开源与开放数据的关系[6],提出开源4项原则以及自由开放文化(Open Culture Freedoms)的4个特征,以此为基础提出自由开放数据(Open Data Freedoms),其属性包括以下几点:自由使用数据、自由研究数据并依据自己的需要修改它;自由使用并分享原文复本;自由完善数据并重新发布这些修改后的结果。此外,A.Randall对开源与开放数据的概括如下[7]:相同点在于,开放数据与开源软件的原则基本相似,包括免费获取,自由添加变量并重新发布,在一定程度上保留了原始创造者的基本归属权利。②发展模式。基于许可的策略,开源强调发展过程以及许可策略。而开放数据的许可将是未来决定开放数据发展的重要因素之一。

2)开源与开放数据对象的不同,促进了以数据为基础的开放,而扩展开源的应用。但开源并不足以适应人们的需求,其主要原因是:开源仅仅包括软件;开源不要求开放格式;数据比软件持续时间更长;数据一旦获取则更有价值;任何代码都是可以接受的,但并不是任何数据都可以[8]。开放数据强调标准格式及发布模式,它有更宽领域的应用,甚至一个具有专属权的内容应用也可以提供开放数据[7]。因此,由于开源所针对的对象主要是软件,而开放数据的对象是数据,这种数据所具备的可增值性和可扩展性,导致了其应用价值与应用范围远远超过开源。从这样意义上来说,开放数据的出现是为了解决开源不能解决的问题,从而更好地实现两种模式的共同发展。

1.2 开放获取运动的实践与新需求(实践应用层面)

开放获取在科学研究及科学交流中的作用激发了科学家对开放数据的强烈需求:真正的开放获取也应该包括数据层面的获取,而不仅仅是基于全文的获取。

1)无法获取实验数据,保证数据的再使用。布达佩斯开放获取计划(Budapest Open Access Initiative)中指出[9]:通过对文献的“开放获取”,我们可以在公共网络上自由获取,允许任何用户阅读、下载、复制、分发、打印、搜索或者链接文章的全文,建立索引进行爬行,并将它们作为数据传输到软件中,以及因其他任何合法的目的使用它们,而没有经济、法律或者技术上的障碍,除非只有因无法连接互联网本身的这些障碍。在这方面有关复制及发布的唯一限制以及版权的唯一作用,就是应该给予作者控制其作品完整性以及在他人引用时应当表达适当致谢并注明出处。

正如P.Murray-Rust所指出的那样[10],虽然有很多开放获取的期刊和数据库,但是它们大多是基于原文的,对于科学实验等原始数据仍然是不可重复使用的,对于出版商来说他们或者没有能力处理,只是作为全文文献的辅助信息印刷出来而已,并没有实现太多的增值,但这些数据对于科学家之间的交流是非常重要的。此外,有学者认为,开放数据现被探讨为网络上的一个新的运动,以更好地分享数据及在全球的再次使用(Reuse)。它与开放获取运动类似,尽管没有像开放获取那样为人所知。开放获取一般关注的是传统的出版物,这是科学团体要求更多的开放性地获取。但是,如果将开放获取拓展到实验数据本身,那么开放获取也就与开放数据一样[11]。笔者认为,将开放数据仅仅等同于开放获取的扩展(实验数据),只是从科学研究的角度探讨了开放数据的一个层面,而非开放数据的全部。

2)无法保证数据的机器可理解性,从而保证从元数据层面上的可获取。M.Nielsen认为,开放获取有多种类型,取决于获取的方式以及在什么时间允许获取文献资料。但是,开放获取运动大多数的努力在于强调提供文献供人类阅读,其文献格式往往是诸如html或者pdf格式的。虽然这些格式对于人们阅读很适用,但是对于机器来说,将这些格式拆分并提取其中的意思来挑选一个简单的例子就相当困难,更不用说从一篇文献的原始pdf格式中准确抽取一系列的作者或者机构名。他认为需要建立一项机器可理解的开放获取原则,这一理念是指文献应该使其全文和元数据都以一种极其可以理解的形式让人们自由获取并出版发行[12]。综合以上两方面的原因,开放获取无法满足基于原始数据的开放性及实现机器可理解这两方面的需求,在一定程度上促进了开放数据的产生和发展。

2 开放数据内涵分析

维基对开放数据的定义如下:开放数据是一种哲学理念及实践,要求一定的数据可以被任何人自由获取,没有来自版权、专利或其他机制限制。它与其他的一些开放运动及社区组织有着类似的理念(思潮),例如开源及开放获取。但是,它们之间并没有逻辑关联,现已有一些实践组合。实践及意识本身被完整地建立起来,但是术语“关联数据”本身是最新的概念。在这一概念中强调来自科学研究及数据驱动网络的“数据”。在一些情况下开放数据可能更多的被认为是开放元数据,现在还没有一个一致的描述[13]。而关于哲学理念方面的阐释,D.Humphrey从“开放”与“数据”两个角度认为[14]:①开放意味着不是封闭,开放意味着自由。开放告诉我们如何到达数据,告诉我们怎样理解数据,一旦我们遇到它。开放是我们必须终止的地方,而不是开始的地方。②数据是一种被给予的东西,它通过被人们所接受变成事实。数据是我们所接受的,其本质是正在被给予,已经被给予,被接受。③开放数据是以一种我们认识到数据的“给予”的方式被给到某人。

开放数据不是可供人们获取的数据,也不是免费(自由)的数据,它是总是被给予的数据,它依赖于见证者而存在,它不是我们接受或不接受的数据或其他的,它是我们给予、分享与接受的记忆。但笔者认为,对于开放数据可以从3个角度来理解。

2.1 开放数据的对象:数据集

开放数据的对象从字面上理解即为数据,但笔者认为该数据概念是一种集合概念。开放知识定义(OKD)对知识重新进行定义,而非对数据进行定义。该定义认为,知识包括所有形式的数据,如音乐、电影或者数据等的内容,以及其他形式的信息[15]。具体来讲,术语“知识”包括以下几点:如音乐、电影、书籍等内容;无论是科学领域、历史领域、地理领域还是其他领域的数据;政府或者其他管理信息。但笔者认为,开放数据所指的数据应该从数据链的角度予以理解,它是包含所有事实、数据、信息、知识、智慧所组成的数据。它不是单一的数据链上的某一种元素,而是呈现的一种集合数据形式。其原因主要有两点:①从单一链上来看,它能够清晰地反映数据的基础性地位以及数据、信息与知识之间的组织与表达关系,开放获取与开源都可以看作是对知识的一定程度的开放。②从整体来看,该系统所组成的数据是有格式的,数据的格式化存储使其易于被描述、处理、加工、扩展与获取,也在一定程度上有助于它实现可理解性。即开放数据的数据对象是一种具有数字化格式的数据集,包括描述该组合数据的元数据,这一数据集也超越了科学实验数据本身,是广泛意义上的各种领域的数据。开放知识定义中强调的“知识片段”应该具备此含义。

2.2 开放数据的条件:开放

开放知识定义给出了判断作品为开放的几项条件[15]:获取(Access);重新分布(Redistribution);再使用(Reuse);无技术限制(Absence of Technological Restriction);成果归属(Attribution);完整性(Integrity);无个人或者群组歧视(No Discrimination Against Persons or Groups);无领域歧视(No Discrimination Against Fields of Endeavor);许可的发布(Distribution of License);许可不是只针对特定的包(License Must Not Be Specific to a Package);许可不能限制其他作品的发布(License Must Not Restrict the Distribution of Other Works)。P.Murray-Rust也指出,开放数据的重要概念就是“再使用”,普遍属性是“排除使用障碍”(Removal of Permission Barriers)[10]。开放数据的“开放”应该包含以下要素。

1)再使用。笔者认为使用的概念是广义的,包括数据的获取、发布、共享等有关数据管理方面的一系列流程,但作为开放性角度来讲的一个显著特征,即为“再使用”数据进行相关的数据操作。事实上,关于该方面有两点需要关注:一是入口,即保证再使用的各项措施,技术层面、法律层面及社会层面,等等;二是出口,开放数据再使用所要求的数据管理新模式。

2)开放许可(Open License)。开放许可不仅是保证数据再使用的有力武器,它也是保证数据实现再增值的重要条件。国外关于开放许可对于开放数据的重要性,不仅在理论探讨层面,还是在应用实践层面,都得到广泛关注。首先,在理论研究方面,最近几年万维网会议都对开放数据许可进行了专门探讨。其中2007年万维网会议对开放数据的探讨,主要包括开源、开放数据法律许可等几个方面[12],R.Styles认为开放数据许可的原因在于许可数据以使其开放要比许可数据使其封闭重要;开放许可包含的要素有以下几个方面:内容、数据、元数据。而2008年万维网会议也专对开放数据的开放许可进行了探讨,其主题为“开放数据共用:开放数据的一个许可”(Open Data Commons,A License For Open Data)[15]。其次,在开放许可的实例方面,也出现了许多相关组织,如开放知识联盟(The Open Knowledge Foundation,OKF)、Talis、创作共用CC(Creative Commons)及科学共用(Science Commons)。一些重要的许可包括:创作共用CC许可、开放数据共用(Open Data Commons)的公共领域贡献与许可(Public Domain Dedication and License,PDDL)和开放数据库许可(Open Database License,ODbL)。因此,开放数据从数据层面来讲能否实现持续再增值,就在于开放许可机制是否完善。

2.3 开放数据的最终目的:再增值

开放数据的最终目的即为再增值,它可以分为两个部分:一是基于开放数据对象(数据集)的增值,其主要的增值空间在于从数据本身角度实现数据的增值性应用,更多的是与新的信息技术环境与互联网环境的结合(如Web 2.0、云计算、语义网等),但该层面的增值是根本性的增值,它将作为新互联网与新信息通信技术环境下实现各种应用的基础,改变整个信息管理的方式,并影响商业模式的运作。二是基于开放数据“开放”性的增值,其主要的增值空间在于从数据受众与时间跨度的角度实现数据的多次获取、发布、共享、使用、仓储等,从而保障数据的长期开放性增值。可以看出,这两种增值的方向是不同的,一个是技术层面的应用性增值,偏向利用开放数据对象(数据集)进行技术创新与变革性应用;另一个方向则是社会层面的保障性增值,偏向利用开放数据条件(开放)进行持续性增值保障。而后一种增值方向可以为前一种增值方向提供基础,从而强化其增值;前一种增值又会为后一种增值提供良好的技术支撑,两者相辅相成,实现开放数据的价值最大化。

开放知识定义认为最简单的概括开放数据的方式:如果你能自由使用,再次使用且重新发布某一知识片段,那么该知识片段就是开放的[15]。开放数据的内涵主要包括3个层面:开放数据的对象、开放数据的条件及开放数据的最终目的,每一层面相互关联,从而可以从整体上把握开放数据的背景、价值与发展方向,弄清楚每一个层面可能存在的问题,尤其是开放数据带来的信息管理领域的变化。

3 信息管理新思维:开放数据

3.1 开放数据与信息生产

根据EMC的IDC白皮书《激增的多元化数字宇宙》对2011年全球信息增长最新预测[16],2007年数字宇宙的规模,即以数字形式创建、捕获或复制的信息的数量为281EB。2011年,该年度产出的数字信息的量应该接近于1800EB或相当于2006年产量的10倍。但目前,基于开放数据的信息生产所产生的数据量也将会进一步增加数字信息的规模。

1)偏向各种不同领域内容及主题提供的开放数据集,如CKAN(Comprehensive Knowledge Archive Network)是一个开放数据及内容聚集注册的网站,它可以将开放内容及数据的寻找、共享和再使用变得容易,特别是在处理方式上,实现的是机器自动处理[17]。当然,开放数据的信息生产还不只这些,例如,还有DBpedia(http://dbpedia.org/About),MusicBrainz,GeoNames,Open Streetmap等。

2)偏向各种不同数据集整合仓储的开放数据集应用平台。①Inforchimps项目。Inforchimps能够帮助发现、共享和销售任何大小、任意主题及任何格式的数据,它存储的内容包含有成千上万个数据集,截至2009年11月初,显示的存储数据集为5654个,具有标注的数据集为5 248个,而具有分类的数据集为225个[18]。MetaFilter中对其评价如下:就像维基可以帮助你找到关于所有事物的某些内容,而inforchimps.org可以帮助你找到关于某些事物的所有内容[19]。②Freebase项目。它利用Metweb技术,收集世界信息的一个开放数据库,由社区创造并为其所用,可以让任何人免费查询、贡献数据、创建应用并整合到他们自己的网站上。目前它包含上百种分类的百万多个主题,其开放数据集来源包括维基、MusicBrainz等,已具备良好的应用性[20]。③Fatual项目(Beta版)。它是任何人可以分享与分解(Mash)任意主题开放数据的平台,它主要是为了更好地让结构化数据开放获取,包括开放数据仓储(An Open Data Repository)、合作工具(Collaborative Tools)、数据审计(Data Accountability)、数据引用与完善(Data Sourcing and Improvement)[21]。

3.2 开放数据与语义信息组织

如前所述,开放数据集的增长会促使信息量的增长,而人们获取数据信息的负担将会加大,因而,开放数据下的信息组织也将显得尤为关键,而实现基于机器和人类的共同信息可理解,并强调人的主体行为。互联网创始人T.Berners-Lee在TED 2009的会议上提出下一代互联网是基于开放数据、关联数据的网络,倡导“现在开始发布原始数据”(Raw Data Now),终止“拥有你的数据”(Hugging Your Data),他希望原始数据可以出现在网络上,从而可以相互关联并整合在一起应用在多学科领域,例如结合基因组学数据与蛋白质数据,可以尝试着治疗老年痴呆症[22]。从他的这种理念中可以看到开放数据是一种必然的趋势,笔者以为应该从整个互联网环境的变化来分析信息组织。

1)开放数据在网络环境下的角色。R.MacManus提出新的网络纪元[23]:Web 3.0、关联数据与语义网,认为Web 3.0就是关于开放与更为结构化的数据,将从本质上促使网络更加“智能”;关联数据针对的结构化数据,但不总是具有语义,它只是提供一种媒介来将关联数据连接,从而使得机器可读。但是他指出2009年网络趋势有以下几点特征:开放数据、结构化数据(智能化)、内容过滤、个性化、移动性、一切事物的互联网(在真实世界对象中的网络)[24]。以数据为基础的网络将是未来发展的重要趋势,在该网络中,开放数据、关联数据、结构数据的关系需要加以区分。整个数据网络中既包含结构化数据,也包含非结构化数据,目前的网络中有着大量的结构化数据,它是语义网的重要基础。而同时数据网络中既包括开放数据,也包含封闭数据。关联数据所处理的一定是针对结构化数据,在这些结构化数据中,有些可能是开放数据,也有可能是私有封闭数据。结构化关联开放数据正在成为人们关注的焦点,正在一步步推动语义网的发展与进步。

2)根据上述的互联网环境下的各种数据关系,开放数据的组织已经不仅仅指针对开放数据源本身,而且也包括关联开放数据:开放数据源本身的相关组织和关联开放数据组织。开放数据有两种增值方式,因而也决定了开放数据的两种组织形式,前者偏向开发数据的长期增值性,后者偏向与语义等各种互联网信息技术的结合。也正是由于这两种组织方式,使得开放数据朝着两个应用方向发展,前者朝着公共信息服务领域(政府、科研组织等)的数据开放与信息透明制度方面的应用,后者将会越来越从商业应用的角度进行挖掘与组织。而随着语义技术的广泛应用,两者的应用领域界限将会模糊,关联开放数据的组织则会逐渐成为重点。例如,W3C发布的关联开放数据(Linking Open Data,LOD)项目[25]。

3)开源与开放数据组织相互整合。开放的各种不同形式只是在于面向对象或者面向领域的区别,为了满足不同层次的需求,往往是各种表现形式共存,甚至相互整合加以应用。开源可以在开放数据组织方面发挥其重要作用。K.Robert提出开放数据的开源包括以下3个方面:①分解数据(Scraping Data):应用程序界面、下载数据集、解析器(Beautiful Soup(Python))。②集聚数据(Munging Data):Perl编程语言、R统计计算与图像处理语言环境、Hadoop并行数据处理。③可视化(Visualisations):MIT Simile的语义互操作以及Processing编程语言[6]。

除此之外,Web 2.0、语义网、云计算等环境要素与开放数据的整合值得我们进一步研究与探讨,例如开放语境(Open Context)语义网环境下的语义关联数据将成为核心,而开放数据未来的增值潜力在于它将会成为语义网环境下关联数据的数据对象,随着应用实践的加强,两者整合的力度将会使两者的界限模糊化。

3.3 开放数据与信息分析与利用

开放数据将会促使新的信息生产模式,并结合新的语义技术实现增值性的信息组织,从而促使新的商业模式与组织信息管理模式产生。但无论哪一种模式,它都是需要经过不断地对各种数据和信息进行分析,从而作出及时有效的决策,提升组织的竞争优势。

开放数据下的信息分析强调数据集分析和通过数据集的各种流动方式呈现出来的信息分析,它与目前的数据信息分析是不同的,其原因在于:①目前的数据分析侧重对某种变量的统计性分析,它是进行科学决策的依据;信息分析强调信息的筛选、甄别、处理与分析。两者在数据、信息获取方面本身的差异将直接会导致最终分析结果及决策的效度和精度。②开放数据下的数据集本身就提供了一种获取方面相一致的基础,针对数据集的分析及数据集流动呈现出来的信息分析将具有复杂和隐蔽性,决定最终分析结果的要素在于数据的洞察、整合、挖掘、分析和快速应用能力。R.Magoulas和B.Lorica指出,随着越来越多的数据变得公开获取,包括从网络,从公共数据分享站点(例如Infochimps,Swivel以及IBM的Many Eyes),从透明度不断增加的政府信息资源,从科学组织、数据分析竞赛等一些渠道,也有更多分割数据和开源分析的一些机会[26]。将不同的数据源整合在一起可以比在任何一个组织中获取的数据更能提供背景和深入的洞察力。竞争优势来自更为快捷地搜集数据、建造系统并自动对数据作出反应。

4 结束语

正如相关学者指出的那样,预测未来几年将是开放数据理念和应用领域的快速发展时期,与此相关联的是开放数据处理技术和工具的快速发展,而其他需要创新的是围绕开放数据收集的存储方案以及围绕生产、发布、提供或支撑开放数据的商业模式[7]。其主要研究问题可以归纳为以下3个方面:①开放数据的核心问题:数据的“开放”+数据的“许可”机制研究与探索。②开放数据的组织问题:基于语义网、云计算环境下的开放关联数据的研究。③开放数据的应用问题:多领域应用的开放数据挖掘。

收稿日期:2010-03-04

标签:;  ;  ;  ;  ;  

信息管理的新视角:开放数据_大数据论文
下载Doc文档

猜你喜欢