数据耕耘理论及其大数据知识服务视角解读,本文主要内容关键词为:数据论文,视角论文,理论论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 马费成教授结合当前情报学学科发展及环境形势,提出“数据耕耘与知识成长”将会成为未来情报学所面临的或者说需要研究的九个前沿性课题之一。情报学研究有四种范式,即美国、欧洲、苏联及中国范式,其共性特征强调的是对已存在的事实、数据、信息及知识等的处理与利用[1],而较少从情报产生源头进行培育及管理。从学术研究的角度,情报研究者依靠传统情报学研究模式在数据挖掘、信息获取等方面已做了大量工作,产出了很多成果,但是对于数据耕耘、信息培育的研究却不多。随着信息技术的飞速发展和网络环境的逐步完善,这一状态正逐渐发生改变,尤其是在大数据理念与技术的影响下,数据耕耘研究将可能成为情报学的一个热点问题。 大数据环境是典型的复杂系统,而大数据知识服务更是突出了其复杂性、非线性特征,由此产生的新型科研范式、知识组织及服务模式对情报学研究及信息管理提出了巨大的挑战。大数据知识服务体系[2]是由诸多具有自主特征和自适应能力的数据、模块或要素组成,元素彼此之间必然会产生联系,这种联系依赖于大数据环境及用户信息服务需求,充满了复杂性、不确定性及偶然性,使得情报源头的微小变化都可能会产生情报利用终端的预测失败或决策失误。因此,有必要找出一种有效的方法和手段,找出大数据知识服务体系中不确定的、非线性的元素在哪里,找到关键因素来促使知识组织及服务过程向着预期方向发展。本文在此基础上,对数据耕耘理论与方法进行分析,简要论述了其产生的背景、开发工具及平台,并从大数据知识服务视角对其进行解读。 2 相关研究述评 2.1 数据耕耘的基础理论与研究述评 数据耕耘理论是用于探讨复杂体系中的不确定、非线性因素所引起的结果变化,并对结果进行学习重新探索不确定要素的循环过程[3-4]。它通过不断“播种”大量数据,对复杂体系或环境中的不确定、非线性因素进行特殊的“培育”,并通过反复的计算、模拟、仿真,探索“播种”事物发展的规律和可能会出现的问题。广义上看,数据耕耘理论是一套完整的系统方法论,分为施肥、栽培、种植等一系列循环过程。狭义上看,可以认为数据耕耘理论是一种通过“收获”结果数据集合的技术和方法,来确定哪些数据传送给信息获取、数据挖掘等方法使用。 数据耕耘理论最早是应用于军事、国防领域,诞生于1996年美国海军陆战队Alfred Brandstein博士和MITRE公司的Gary Horne博士联合提出的“艾伯特计划”(Project Albert)之中,1998年,两位科学家正式提出“数据耕耘”(Data Farming)理论,并将数据耕耘作为该计划的核心思想,在该计划中,数据挖掘被誉为21世纪研究问题的元技术(Meta-technique)[3,5-6]。随后,Gary Home等进一步对其核心技术进行了论述,认为数据耕种理论与技术的实施主要依赖于三种技术的发展:一是基于Agent的智能建模技术;二是高性能计算;三是数据组织、分析、处理及可视化技术[7]。国内关于数据耕耘理论的研究起步较晚,经过调研,可以发现国内该领域的研究始于2007年。黄柯棣等针对信息化作战理论研究需求,分析了基于数据耕种的作战仿真理论及其关键技术[8]。胡润涛等对数据耕耘的概念、方法进行了讨论,并描述了其运行过程,并认为数据耕耘技术对研究战争非线性具有重要意义[9]。胡晓峰等认为数据耕耘是一种有效的探索战争复杂系统的方法,并分析了支撑数据耕耘的基于问题建模、提炼、可视化多维数据分析以及高性能计算等关键技术,讨论了探索性仿真分析方法与数据耕耘的关系[10]。 根据已有文献,发现国内已有研究主要以应用研究为主,涉及的理论探讨以总结及分析国外研究成果为主,且已有研究文献基本来自于国防科学技术大学研究团队,应用领域主要集中于军事、国防领域,而在其他学科、应用领域,只有马费成教授曾经提出数据耕耘将可能成为未来情报学研究的一个主要前沿性课题[1],除此之外,相关研究很少。在国家级科研立项方面,经调研,仅2010年西北工业大学史豪斌的“基于数据耕种的对抗决策支持系统”获得国家自然科学基金资助。另外还有一点需要指出的是,国内研究者对于“Data Farming”基本概念并没有统一、权威的阐释,先后出现过“数据耕耘”、“数据耕种”、“数据耕作”等多种说法,但其本质都是一样的。 2.2 开发工具及平台分析 从已有研究发现,关于数据耕耘开发工具及平台的研究主要有两种:一是根据数据耕耘关键技术或技术组成进行分类描述与分析;二是针对特定领域、特定国家进行数据耕耘而开发的工具软件及应用平台。 毫无疑问,Albert工程是数据耕耘技术应用的最为成功的案例,而Albert工程将其数据耕耘技术分析体系概括为三个主要组成部分:数据耕耘模型、数据生长平台及耕耘结果分析[13,16],国内现有研究基本上都是按照Albert工程的分类方法进行分类描述,其基本开发工具与平台主要有:(1)数据耕耘模型:主要有1SAAC、Pythagoras、MANA及Socrates等模型,Bacto Wars、Netlogo、EINStein、WISDOMII及Swarm等仿真模拟平台。(2)数据生长平台:Albert工程实施的软硬件支持主要由位于美国夏威夷的高性能计算中心提供。(3)耕耘结果分析:用软件、工具对得出的耕耘结果进行研究与分析,是整个耕耘过程的一个重要步骤,Albert工程也开发了Playback tool,VizTool Landscape Plotter及AVATAR等工具,如表1所示。 另一方面,由于美国Albert计划的成功实施,引起了其他国家的关注,并积极参与到数据耕耘理论与技术研究队伍中来。其中,主要的研究成果有:Daniel K与Tobias S介绍了北约的NMSG组织(NATO's Modeling and Simulation Group)成立数据耕耘工作组,采用数据耕耘方法来解决北约内部决策所遇到的一些问题[24]。Henrik F与Gary E H等利用数据耕耘技术对瑞典与美国军方进行了联合研究[25]。 2.3 数据耕耘研究目前存在的问题 2.3.1 研究对象具有单一性 目前国内外关于数据耕耘理论与技术的研究大部分集中在军事领域,主要是以传统军事作战模拟仿真过程中难以分析的问题作为研究对象,尤其是国内,这一特点表现得更为明显,且以国防科学技术大学研究团队为主。另一方面,国内研究人员关于数据耕耘理论研究以总结、分析国外研究成果为主,较少出现原创性、开拓性的研究成果。 2.3.2 涉及学科较窄 尽管数据耕耘研究一直局限在系统仿真学,较少涉及其他学科,但随着云计算、大数据等信息技术的飞速发展和网络环境的日趋复杂化,越来越多的专家学者已经意识到这方面的问题,而情报学相较于其他学科、应用领域而言,在这一方面则有着先天优势。数据耕耘理念及思想的出现,正是萌芽于“情报深度加工”,数据耕耘的目的是提供知识服务,知识服务的基础是知识发现,而知识发现的本质就是发现情报背后的情报。情报学也是最早意识到数据耕耘理论的潜在价值及现实意义的学科之一,并将其视为未来学科发展的一个重要的前沿性课题之一。 2.3.3 容易形成技术性“垄断”问题 由于现有研究大部分是在美国Albert工程的数据耕耘理论与应用基础上的重复性、拓展性或补充性研究,这样就可能会采用相近的研究方法、技术标准、实施方案和评价体系,甚至是相同的数据耕耘开发工具及平台,进而形成该研究领域的技术性“垄断”,就可能会引发潜在的信息安全、技术管控及创新障碍等问题。 2.3.4 重复性、描述性研究较多 尽管数据耕耘研究已有十几年时间,也出现了许多研究成果,但遗憾的是,除了Data Farming:A Meta-technique for Research in the 21st Century这样的开创性研究成果之外,在接下来的十多年间,很少出现开拓性、有影响力的研究成果。大部分研究围绕介绍、转述、译述Alfred、Gary两位数据耕耘研究开创者的成果而展开,其中重复性、描述性研究与分析占据了非常大的比例,以国内发表的数据耕耘研究文献为例,其中便有着较多重复性描述。 3 大数据知识服务视角解读 3.1 大数据知识服务视角的数据耕耘机理分析 从根本上来探讨数据耕耘与大数据知识服务的融合,可认为其主要目的是讨论如何在大数据知识服务体系中设计相应的运行环境、接口及服务模块,能使得用户、服务运营者、提供者及设计者等在协同环境下方便地提交、运行知识服务模型,设计服务,搜集及分析该过程所产生的数据及结果,以支持情报服务机构及研究人员优化服务、做出决策。而对数据耕耘的运行步骤进行描述可借用生物学领域中农产品生长过程,将其分为五大步骤:施肥(Fertilizing)、栽培(Cultivating)、种植(Planting)、收获(Harvesting)及再生(Regenerating)[3]。下面就大数据知识服务角度,对五个步骤分别进行解读[12]:(1)施肥:主要是指进一步丰富知识服务研究人员及领域专家的思想和理念,其通过大数据知识服务平台,将其观点、思想及理念融入到智能专家库中,使其能够依据用户不同知识服务需求,掌握如何分析大数据知识服务过程中的一些关键要素,而这些要素是传统信息、情报及知识服务过程所无法确切掌握或被忽略的,如用户及服务人员实时情绪、自适应性、系统服务能力、用户直觉知识等。(2)栽培:指培养服务提供者、运行者、设计者等服务主体对特定大数据知识服务实体或虚拟服务环境中关键影响因素的智慧化判断、处理、分析及决策能力,并对各环节产生的数据进行分析应用。(3)种植:指将智能专家库中的观点、经验、思想及理念尽可能地融入到知识服务模型的整个过程中去,同时依据用户知识服务需求建立相关运行模型,设定关键要素对应的变量空间,进行系统分析和考察。(4)收获:对种植阶段产生的数据加以搜集、处理,并依据用户需求,在大数据知识服务平台上对这些数据进行分析。(5)再生:在对耕耘结果进行分析、处理的基础上,依据分析与处理的结果,进行下一次的数据耕耘。 需要指出的是,这五个步骤是相辅相成、协同关联的,且整个运行过程是一个不断循环、交叉的过程。首先,用户通过大数据知识服务平台提出问题或服务需求,平台在接受问题或服务需求后开始构建数据耕耘运作模型,开始运行施肥、栽培及种植等模型;在通过数据挖掘、分析及可视化等技术进行处理及分析后,收获此次数据耕耘结果;然后,依据此次结果,指导下一次耕耘过程,如此反复循环,不断地增强对用户知识服务需求的理解,最终为用户提供最为精确、专业、人性化的知识服务。 3.2 大数据知识服务视角下的数据耕耘方法解读 目前,数据耕耘方法有很多,如蒸馏法[13]、开环法(Open-loop Methods)、闭环法(Closed-loop Methods)[14]等,其中蒸馏法是最常用的,也有称之为提炼法、提纯法。蒸馏法核心思想就是在数据耕耘过程中,充分考虑到诸多不确定、非线性因素,并且对服务需求进行整体性、系统性分析,因此就采用一种探索式分析方法,对整个过程中各种非线性、不确定性结果进行探索性研究。 从知识服务角度来看,可认为蒸馏法是针对用户知识服务需求,在大数据知识服务平台上,建立相应的数据耕耘处理模型,并在每个耕耘模块中设计一些简单的子模型,组合成为能满足该用户知识服务耕耘模块的子模型集合,然后进行反复运行分析,最后从底层向上将数据及所得到的结果逐层蒸馏,从而向用户返回其所期望得到的数据、信息、情报或知识。通过蒸馏法可以过滤出数据耕耘各个环节的关键影响因素,从而对产生的数据进行有针对性的耕耘活动,针对不同环节、领域、平台及不同用户知识服务需求所采用的蒸馏方法也是不一样的。事实上,这一过程中所涉及的模型、子模型都是对现实实体知识服务机构、人员及用户的抽象及蒸馏。 3.3 数据耕耘理论与大数据知识服务融合的几点思考 数据耕耘理论并不是作为一个新的信息技术出现,数据耕耘与数据挖掘原本应该是作为相辅相成的“对立面”出现的,由于传统网络环境及信息技术的限制,在学术界、企业界对数据挖掘、Web挖掘等研究如火如荼的时候,数据耕耘理论却默默无闻。但随着大数据、云计算、物联网等信息技术与网络环境的飞速发展,使得数据耕耘技术的实施、推广成为可能,并逐渐使得学术界、企业界不得不重视起来。客观地说,在大数据环境下,数据耕耘与数据挖掘都是情报工作或情报学术研究中不可或缺的,但正如数据挖掘流行之初所面临的困境一样,数据耕耘研究不可避免地会遇到许多挑战、质疑。基于此,笔者认为有必要对几个观点进行简要阐述: (1)数据耕耘理论并非是站在数据挖掘的对立面,二者之间应该是相辅相成、协作交互的关系,数据耕耘理论与技术完善能在很大程度上推动数据挖掘、Web挖掘理论与技术的研究。另一方面,需要指出的是,任何技术的实施其最终目的是为人服务。因此,技术影响、人为影响及服务能力三者之间的有效融合、相互渗透才是数据耕耘理论与大数据知识服务融合的最有效手段[26]。 (2)由于情报学、计量学等与信息科学、计算机仿真学及管理学等有着不可分割的关联关系,而情报工作、情报学术研究工作与军事领域、仿真模拟及探索性分析等也有着密切关系,因此,原本被应用于军事作战、仿真模拟及探索性分析的数据耕耘技术必然在情报学研究中有着广阔的研究及应用前景,而数据耕耘理论与大数据知识服务的交叉融合,也必然会产生许多新的研究内容、思路及方法,甚至可能会衍生新的研究领域。 (3)回顾数据挖掘、Web挖掘研究的发展历程,二者也面临过数据耕耘研究存在的四个问题,但随着研究横向、纵向的不断深入,前期所存在的问题逐渐成为后期研究创新的源泉,因此,有理由相信数据耕耘研究也必然会克服目前所存在的问题,产生大量具有原创性、开拓性的研究成果。 4 结语 本文在充分调研和深入分析的基础上,对数据耕耘理论及应用现状进行了描述,其中重点介绍了数据耕耘的基础理论、开发工具及平台等,随后从大数据知识服务视角对其进行了解读。可以说,自从数据耕耘领域20世纪90年代被创建以来,经过国内外学者专家近十多年来的不断努力,数据耕耘研究取得了巨大的进步与发展,并伴随着大数据知识服务的突起与流行,逐渐成为未来情报学发展的前沿性课题之一。然而,鉴于“数据耕耘”及“大数据知识服务”自有的复杂性、不确定性及动态性,二者的有机融合仍然面临着若干需要深入研究的问题。基于此,本文基于大量调研及近年来的研究经验,提出四个值得深入探讨的创新点,希望对其他研究者有所启示。 (1)基于大数据知识服务平台的数据耕耘系统的研究。尽管已有一些研究者开发出了适用于军事作战的数据耕耘原型系统,但大数据知识服务、情报学研究有其独特的理论、技术特征,如何在大数据知识服务平台上,开发对应的数据耕耘原型系统,就成为一个相当有意思的研究内容。 (2)大数据知识服务体系中的数据耕耘与数据挖掘的关联、协作问题。在情报学、图书馆学、计量学等学科领域中,研究数据挖掘、Web挖掘的学者专家不在少数,而在计算机科学领域,关于云挖掘[27]、大数据挖掘[28]及智能挖掘更是近两年研究的热点话题,然而,将大数据、云计算、数据耕耘、数据挖掘四者融合起来的研究几乎没有。因此,如果能够在大数据知识服务平台上,针对特定领域的数据耕耘、数据挖掘的关联问题及协作关系进行研究,相信能够填写或补充这一研究领域的空白。 (3)适用于大数据知识服务的数据耕耘过程的建模问题。在构建适用于大数据知识服务的数据耕耘模型是该研究课题的重中之重,也是解决前面两个问题的基础与核心。 (4)数据耕耘技术的推广问题。伴随着信息技术及网络环境的不断发展,将会有越来越多的数据耕耘理论与技术从实验室环境中进入到商业应用、知识服务应用,并对用户信息获取方式、情报机构服务模式产生重大影响。然而,鉴于数据耕耘技术的专有性、大数据知识服务的新兴性,目前并没有成熟的相关应用出世,如何利用已有互联网推广平台,加快数据耕耘理论与技术的研究,就应当引起人们的足够重视。从知识服务角度解读数据培育理论与大数据知识服务_大数据论文
从知识服务角度解读数据培育理论与大数据知识服务_大数据论文
下载Doc文档