大数据背景下Web新型学科资源共享与开发研究,本文主要内容关键词为:资源共享论文,学科论文,数据论文,背景下论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 Web学科资源共享与开发的研究现状 社会进步和信息技术发展持续促进着图书情报与档案管理(简称“图情档”)学科网络资源的共享与开发。图情档信息网站及其学术论坛、专家博客等新媒体涌现的大数据正成为信息管理学科共建共享的新型资源,对它们的分析处理已由注重因果关系转变为相关关系的挖掘,亟待理论研究与应用探索。国内外,一方面是对图情档为核心的网络信息资源融合的研究方兴未艾,但对Web新型学科资源共建共享的理论、方法研究明显不足;另一方面,对图书情报和档案各学科网络资源运用信息技术开发的研究承前启后,但对Web新型跨学科资源的整合开发研究还缺乏技术、系统支撑和应用创新。 国际上,就Web学科资源共享与开发的热点已连续召开有关信息整合的学术大会。图情档学科主要研究了基于信息门户的整合方式,如巴西州联邦大学硕博论文数字图书馆、美国考古数字图书馆等;国际图联发布图书馆、档案馆与博物馆“协作与合作趋势”报告,并推荐7个最佳公共馆数字资源整合门户[1];加拿大国家图书馆、档案馆合并,已为政府信息资源的组织与服务工作提供一系列工具和方法体系;2008年,Alexandra Yarrow等人倡议建立统一综合系统以提供整合和融合的信息服务,目前已有信息资源共建共享、实现一体化管理的数字化馆范例,如英国成立多馆联合理事会以推动和指导机构之间的合作,美国俄亥俄州大学集资2000万美元将18个重要的图情档部门连成信息网络[2]。在国内,早期主要实施图书馆与情报所、档案馆的合并,信息网络技术不断推动学科资源新整合服务模式的建立;政府信息开放政策牵引我国社会公众对信息资源共享的需求上升,私家图书档案馆也在民间出现。实践是推动理论发展的基础,图情档一体化研究更加深入,发布的“学科战略规划研究”报告[3]中指出图情档管理学科的研究领域面向经济社会发展需要,可适度拓展学科发展空间;一些专家学者多次提出图情档学科将在巨大社会需求的推动下得到前所未有的发展[4]。近年来,信息网络技术的发展在许多方面改变着传统信息机构的工作与服务机制,从而使以图情档为核心的学科资源在大技术环境中有更多的融合与交叉,展现出Web学科网络资源共建共享的丰硕成果。但检索国内外相关信息资源发现,围绕图情档跨学科的学术论坛、专家博客新型媒体的研究鲜有涉及,对其资源共建共享的认识不深并存有争议,因此造成相关理论和方法的研究基本属于空白。 在学科网络信息资源的组织方面,涉及了本体与传统工具改造、Web新媒体资源分类及智能化、跨学科数据转换与映射等技术;在学科网络信息资源的挖掘方面,涉及了多学科Web数据自动关联、分类主题概念智能映射、集成化和可视化信息检索等技术。近年来,国外大量研究分类法、叙词表等网络版知识组织系统,如影响较大的杜威十进分类法(DDC)在编辑支持系统上联合美国国会图书馆标题表(LCSH)为OCLC完成系列知识组织系统构建方面的项目[5],OAIS为馆际联合及联合编研工作提供系统支持而得到广泛应用,日本亚洲资料中心(JACAR)通过协议合作在其检索系统上实现资源的最大限度利用;国内研究在通用分类法、叙词表一体化基础上构建动态知识组织系统,并在互联网环境下开展知识服务,如《中分表》、《中图法》Web服务版工具等6-7]。早期异构数据整合主要是结构化数据,自Tim Berners-Lee提出语义网概念后国内外开始研究信息语义整合,Ontology技术在信息整合中起重要作用[8];LOD关联开放数据的出现为数字图书馆关联出版物数据处理提供重要的机会,在美国58%的图书馆开发或使用问答服务,其中15%来自对其他学科资源的链接[9]。主题图作为一种新型的语义知识组织模式被用于中国知网,揭示学科知识资源之间的关系,实现专业知识资源的共享重用及体系展示[10。但上述成果在网络社区有序管理、信息挖掘深度和分类标准系统性等方面需要改进,尤其在复杂多样的跨学科新媒体大数据环境下,有效整合异源数据、提高知识共享系统一致性和新型资源开发智能性等方面亟待全新的研究。 2 大数据背景下Web新型学科资源的研究 在海量的网络信息环境下,人们面临的问题不是信息匮乏,而是信息过载和信息噪音,人们关注的重心已从搜索采集的信息序化变为分析为主的信息转化[11]。作为网络新媒体大数据核心的“Web学科源数据”具有以下特点:一是数据量特别大,通常从TB级别到PB级别,且可达ZB级别;二是数据属性、类型特别杂,通常包括了多种类型的结构化和非结构化数据;三是要求的响应处理能力高,需要在能够支持决策的相对短的时间内处理完毕;四是部分数据整合的价值密度低,可用信息隐藏在海量数据中,且通常比重低。因此,需要有针对性地加强分布式数据整合、多维数据组织管理、数据噪音识别、数据一致性分析、大数据挖掘等方面的研究。针对Web新型学科的资源共享与开发,笔者提出以下相关研究的基本观点。 2.1 学科在相互融合中协同发展并始终与信息网络技术密切相关 任何信息机构不可能仅凭自身资源建设来满足无限的用户信息需求,而蓬勃兴起的Web技术正推进信息管理学科从信息共建、共享向知识挖掘、传承发展。图情档是信息管理学科的核心,因为所研究对象不同而造成了各学科研究内容单一、研究者思维定势,甚至对新型资源共建共享的认识还存有争议。但是,它们的研究对象本质上同为“信息资源”,且学科的使命具有一致性。长期以来,信息技术促进和保障了基础理论的创新研究,信息机构依靠网络技术提高了工作效率,定量计算技术使学科研究方法更加科学,显然,学科在相互融合中协同发展,这种发展始终与信息网络技术密切相关。 2.2 学科网站、学术论坛和专家博客已成为重要的新型共建共享学科资源 网上学术论坛、专家博客等提供的大数据越来越受到关注而成为当前学科发展的新型资源,共享开发这些资源既是学科信息化建设的战略性步骤,也是新媒体大数据环境下有效建设与利用学术资源的必然选择[12-13]。目前,仅利用学科网站发布原生信息的服务模式已经难以满足用户和社会的需求,搜索引擎又存在着信息组织与标引缺乏控制、信息挖掘缺乏深度、分类标准缺乏系统性和规律性等问题。构建Web学科网站、学术论坛和专家博客服务系统,无论是从广度和深度上挖掘学科信息资源以提高利用效率,还是实现学科信息增值服务和提高信息服务的竞争力,都具有重要的推广应用价值。 2.3 大数据分析中的知识挖掘是Web学科信息资源开发处理中的核心业务 大数据超出传统方式的处理能力而需考虑新的手段和工具,大数据分析也由注重因果关系转变为相关关系的探索和发展趋势的预测。信息聚类通过统计学科新型资源共性特征支持用户发现有价值的信息,利于发掘逻辑联系与隐性价值;信息分类按已有分类标准或抽取关键要素作为类别标签,标引采集信息并用语义知识减少特征稀疏的影响;关联分析挖掘学科资源的大量相关联系并自动关联,为用户多维度地掌握学科信息提供导航。国内外虽然已有一些分散的研究成果和一批有影响力的研究者及其机构,但围绕我国当前Web环境下丰富又广泛的学科资源的共享与开发,相关理论和方法研究比较空泛,应用研究实用性不强,Web新型跨学科资源开发的实证研究尚属空白。大数据分析中的知识挖掘是Web学科信息资源开发处理中的核心业务。 综合以上观点,开展大数据环境下Web新型跨学科资源共享与开发的研究,其价值主要体现在三个方面:一是信息管理各学科在相互融合中继续共同发展;二是学科体系建设在网络资源共建共享中协同发展;三是学科基础理论创新研究在新技术支撑下系统发展。因此,开展本领域新研究的意义就在于:第一,研究图情档为核心的学科Web新型资源的共建共享,拓展学术论坛、专家博客等新媒体资源的共享理论和方法,可以探寻网络学科资源功能效用的最大化,实现对经济社会发展的战略价值和推动作用;第二,研发大数据环境下Web新型学科资源的整合服务系统,探析学术论坛、专家博客等新媒体资源的开发技术、应用研究,有利于挖掘新媒体学科资源、增强网上信息交流与增值服务,提升学科整体信息服务的竞争力。 3 Web新型跨学科资源共享与开发的内容与步骤 面向大数据的Web新型跨学科资源共享与开发,笔者提出以下涉及理论方法、技术应用和信息服务系统三个方面的主要内容。 3.1 跨学科Web新型资源的共建共享理论与方法研究 针对Web新型学科资源的共建共享理论与方法,主要的研究包括:一是从总体、功能、数据和环境四个方面,对图情档为核心的网络信息资源一体化的研究现状进行梳理和分析;二是针对当前图情档信息网站及其学术论坛、专家博客等新媒体资源,展开科学调研和需求分析;三是基于层次分析法构建信息源评价指标,并研究新型资源的信息组织方法;四是探寻Web新型学科资源知识集成的理论体系,并提出整合方案。 3.2 跨学科Web新型资源的整合开发技术与应用研究 针对Web新型学科资源的整合开发技术与应用,主要的研究包括:一是对集成学科资源的知识组织技术进行研究(图1A);二是提取大数据及其属性特征并整合传统资源载入一体化处理模型(图1B);三是采用Ontology技术对跨学科新型资源进行知识挖掘(图1C);四是运用社会网络分析工具(Pajek)和可视化工具(VOSviewer)对挖掘结果进行研究(图1D)。图1表示了Web新型学科资源的整合开发处理流程。 3.3 基于大数据分析平台的Web学科资源信息服务系统研究 针对Web新型学科资源的信息服务系统构建,主要的研究包括:一是利用信息采集、数据挖掘、文本分析、分类聚类等技术,对通用大数据分析平台进行优化设计;二是基于新平台构建跨学科、新媒体的Web学科资源信息服务应用系统;三是开展实证研究,即通过构建概念关键词的共词网络和绘制知识图谱,展示大数据环境下我国Web新型学科资源的研究热点及共享规律。 Web新型跨学科资源共享与开发必须有清晰的技术路向和科学的研究方法,其基本思路是先理论方法研究后技术开发,先研发领域知识后进行方法集成与实践,充分借鉴国内外已有成果,根据实际情况在实施过程中主要采用比较、建模和综合集成等方法。(1)比较方法,即采用多种检索工具和检索方法,对现有资源共享开发的理论、方法进行阐述和对比分析;(2)模型方法,即利用层次分析法研究博客和论坛的评价指标,通过权重计算筛选出需要采集用以集成的数据源,在研究过程中采用建模的思路,对网络信息共享中的资源整合方案用知识技术建模;(3)综合集成方法,面向学科新型资源研究信息采集、数据挖掘、文本分析、分类聚类方法,利用社会网络分析理论揭示档案新媒体信息的知识地图和学者间的关系网络,融合多学科技术实现综合集成。图2表示了Web新型资源共享与开发的研究过程和技术路向。 通过理论方法、技术应用和信息服务系统三方面的创新研究和建设,不仅可以构建以图情档为核心的学科Web新型资源的共享与开发的理论方法,还可以构建基于大数据分析平台的Web新型学科资源信息服务系统及其技术。在系统梳理和需求分析基础上,不断拓展跨学科学术论坛、专家博客等新媒体资源共建共享的研究,构建信息源评价指标研究新型资源的信息组织方法,提出Web新型学科资源整合开发的一体化处理模型,对学科资源深度知识挖掘以探寻网络资源功能效用的最大化方案,实现对经济社会发展的战略价值和推动作用。同时,利用信息采集、数据挖掘、文本分析、分类聚类等技术改进通用大数据分析平台,构建一体化跨学科、新媒体Web学科资源信息服务原型系统,实现知识共享系统的一致性,提高学术论坛、专家博客新型资源开发的智能性,有利于挖掘新媒体学科资源、增强网上信息交流与增值服务,提升学科整体信息服务的竞争力。 4 大数据知识集成:跨学科Web资源共享与开发的关键 知识集成的概念由Grant首次正式提出,他认为知识集成是企业创造优势的重要力量[14]。但迄今为止,知识集成仍然没有统一的概念,它在不同的学科和语境中有不同的涵义。如从企业管理角度,成思危认为知识集成是为了在已有知识的基础上,通过有机的组织来产生自己的知识产权[15];顾新建则指出知识集成一方面是对分散在企业中,主要是存在于企业员工头脑中的意会性知识进行集成,另一方面是对分散在不同协作单位间的知识进行集成[16]。从计算机机器学习的视角,还可以认为知识集成是一种包括对新知识识别、处理、评估及与已有知识之间交互、改造的机制。从图书情报学科整合的视角提出知识集成是在知识表示、组织、获取、存储、使用和创新等过程中,对各种异构、复杂的知识进行一致化的过程。笔者运用社会网络分析工具Pajek和可视化工具VOSviewer对Web of Science数据库中收录的国外研究大数据的相关文献进行分析和综述。通过构建关键词的共词网络和绘制知识图谱,梳理了国外大数据研究的4个热点,分别是“大数据源起、概念和特点”、“生物信息学”、“云计算”、“MapReduce和Hadoop”,如图3所示。 从图3中可以发现,“知识集成”的研究热点也是大数据时代关注的重要领域,尤其在图书情报与档案管理学科领域。仔细挖掘共词网络中与“knowledge integration”关联的主题词,可以进一步发现其与“metadata”(元数据)、“big data”(大数据)、“ontology”(本体)、“data integration”(数据集成)、“data grid”(数据网格)、“visualization”(可视化)、“data management”(数据管理)、“clustering”(聚类)、“semantic web”(语义网)等关联紧密。这些关键词代表着面向大数据的Web新型学科资源共享与开发研究的要素。但对新媒体跨学科资源的知识集成的研究成果尚未见到,值得进一步去研究。 以同样方法考察技术方面,大数据很难适用于现有文献数据库架构,采用传统的软件工具也难以捕捉、存储、管理和分析,大数据的数据获取由传统的抽样转变为所有数据,对数据的要求也由精确性向混杂性转变,其分析处理则由注重Web新型学科资源因果关系转变为相关关系的探索,以及对事物发展趋势的预测。因此,图情档学科的Web资源知识集成技术也值得进一步研究。大数据背景下Web新学科资源的共享与开发研究_数据整合论文
大数据背景下Web新学科资源的共享与开发研究_数据整合论文
下载Doc文档