e-Science环境下面向用户科研过程的知识服务研究,本文主要内容关键词为:科研论文,过程论文,环境论文,知识论文,用户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在信息技术发展和科研需求的相互作用下,出现一种以网格技术为基础的新科学研究环境e-Science。它采用先进的信息技术,为全球科研人员构建出一个开放共享、安全可控、分布协同的网络化数字化科研平台,使科学家能够利用更加先进的技术方法,更好、更快地从事科学研究。e-Science是信息时代科学研究环境和科学研究活动的典型体现,它的出现使得研究高度协作与资源高度共享的“大科学”时代初见端倪,发展中的e-Science实践工作也正努力向着这一目标靠近。
科研环境的变化给科研工作者的研究工作带来了深远的影响,进而影响到科学研究过程的方方面面。这种变化导致科研工作者在科研过程中的知识需求较之传统环境出现较大的差异。因此,需要首先在e-Science环境下重新分析科研用户的知识需求,才能更有效地满足这种需求。
1 e-Science环境下科研过程的知识服务需求分析
1.1 e-Science环境下科研新特点
(1)科研过程数字化。e-Science是信息时代科学研究环境和科学研究活动的典型体现,其实质是“科学研究的信息化”。在e-Science环境下,科学研究依赖的各种信息资源已经逐步数字化,包括文摘索引、期刊论文、学位论文、会议论文、技术报告、预印本以及重要工具书和专著等,形成较为完善的数字化资源空间;另一方面,科学研究的组织和运作机制也逐步网络化。以虚拟实验、网络协作、网格系统等为代表的技术,由辅助科研过程转变为科研过程的重要组成部分,它们同观测台站、实验仪器、计算与分析能力、数据资源等科研工具有机、灵活地协同整合起来共同发挥作用;同时,丰富多样的数字化数据采集与处理工具和宏观及微观数字化科研管理系统等,又为科研人员组织科研工作全流程提供数字化形式的有力支持,使科学研究逐步信息化。
(2)出现了计算机模拟技术等新研究方法。传统条件下的科学研究主要采用两种方法:理论分析和实验观测。而在e-Science环境下,科研人员、仪器、信息、过程以及管理机制可以有机地聚合在同一数字空间,因而可以采用计算机仿真和模拟分析等新方法,这种以计算机技术为基础的新方法成为科研人员创造知识的新模式。在大气与环境科学、物理与天文科学、医学与生物、材料与工程,甚至社会行为等领域,计算机仿真和模拟已成为主要的研究手段。这种新方法可以支持或替代传统的实验手段,还能更充分描述大尺度或微尺度的实体或事件,能更细致表现可能的状态组合或变化,使得研究人员可以根据自己的需要从前人研究过程中的任一点开始继续研究,极大地增加科学研究的灵活程度,扩大了科学研究的范围。
(3)信息成为主动的知识创造工具。大规模数据或文献集合中蕴藏着大量的尚未发现的内容、关系和规律。传统环境下,这些数据和文献主要以纸质的形式分散存在,使得他们仅仅是科研人员进行研究的参考资源,虽然也有科研人员通过数据分析来验证或发现规律,但由于技术条件等的限制,这种方式并不普遍。e-Science环境下,科学数据和科学文献大规模数字化,高精尖仪器和工具成为科研人员进行研究的基础工具,因此,以信息内容为基础、面向知识发现的研究分析的难度大大的降低,信息开始变成主动的知识创造工具。科研人员可以通过信息过滤、内容析取、数据挖掘、可视化分析等技术,对信息进行广泛、灵活和深入的分析,可以发现规律、发掘趋势、揭示未知、引导研究。
(4)跨学科、跨领域资源共享与协同成为基础研究方式,传统学科界限被突破。在近代科学产生之初,科学研究主要是个人独自完成的。协同式的科学研究是科研环境发展的重要特征,科学研究的协作需求将日益突出。e-Science环境下,科学研究面向问题,跨越了不同学科领域之间的界限,需要不同学科专家之间的广泛、有效的合作;随着计算机技术、通信技术和宽带网络技术的发展,虚拟组织将日益普遍。虚拟组织的成员一般具有共同(或相似)学科背景或者来自于同一研究团体,他们能够有效共享知识,自由地使用分布在全球各种资源进行协作式研究,无须考虑资源的存储位置及提供者。这种基于网络、跨时空多系统的协同将成为重大科研活动的基本支撑形态,例如空间科学、环境研究、全球性重大事件研究等。 此时,动态、交互、协同的网络化数字化科研平台成为科研“现场”,基于网络的信息交流、组织、分析成为科研活动的组织纽带和核心部分,网络化数字化成为参与研究的基本条件,合作与协同成为研究群体有意识的组织行为。
总之,e-Science的出现改变了传统的科研环境和科研方法,对传统的科研模式提出挑战,进而改变了用户的信息行为。为此我们有必要对e-Science环境下的用户需求进行分析,才能提供更加有效的知识服务。
1.2 e-Science环境下的用户知识需求
1.2.1 服务的集成化与集约化倾向日益明显
e-Science环境下,科学研究依赖的各种信息资源逐步数字化,形成了比较完善的数字化资源空间,科学研究的组织和运作机制逐步网络化,这就要求知识服务机构提供的知识服务必须基于数字化的平台。其次,科研人员在研究过程中,可能用到各种类型的STM全文资源、重要的规章制度、国内外研究计划、科研项目相关信息、相关领域或项目专家资料与联系方式、产品或资料等信息,所涉及的载体形式也是各种各样的,如图书、期刊、专利文献、数据库、多媒体资源、网络资源甚至是实验数据等。让科研人员逐一打开动态分布的第三方平台需要科研人员大量的时间和精力,这也不符合知识服务机构“以用户为中心”的服务宗旨。因此,应该利用统一的界面便捷地提供科研人员所需要的各种类型的资源。
1.2.2 越来越重视“灰色信息”的开发与利用
灰色文献是指不经盈利出版者控制,而由各级政府、学术单位、工商业界所产制的各类印刷与电子形式的资料,包括内部刊物、会议资源、科技报告、行政报告、调查报告等。在e-Science环境下科研过程产生的灰色信息的内容不断扩展,导致灰色信息大量出现:在科学研究的准备阶段,数据可能来源于研究环境,例如实验采集的数据、传感器产生的数据以及访问交流而获得的数据等;在正式研究阶段,也同样会产生多种非正式信息和数据,例如聊天记录、视频会议内容、模拟实验结果、非正式研究成果、开放源码和注释等。由于高性能实验设备投入使用,记录的科研数据的数量级发生变化[1],这些数据通常呈指数级速度增长[2]。
数字存储和管理技术的发展使得科学研究可以不再从“源头”开始,科研人员通过对已有数据的重新认识、组织、解析、分析和利用,就能产生新的研究成果。因此,科学数据和信息在研究中的重要性正日益提高,但是这些由科研活动产生并“从属于”科研活动的信息,通常并不公开且很难记载。这就要求知识服务机构采用有效的方式对其进行组织和管理。
1.2.3 知识化服务需求越来越迫切
知识服务的一般概念是指在网络环境下,以信息知识的搜寻、组织、分析、重组的知识和能力为基础,根据用户的问题和环境,融入用户解决问题的过程之中,提供能够有效支持知识应用和知识创新的服务[3]。e-Science环境下,用户信息需求的重点和瓶颈是知识需求,而不是简单的检索和物理地获取文献集合,即用户不仅要求满足其know-who、know-what、know-when、know-where的信息需求,而且要求能够回答know-why、know-how以及know-if的知识需求,甚至希望能够针对他们需要解决的问题提供直接的答案或解决方案,并预见其可能遇到的潜在问题[4]。这就要求知识服务机构融入用户具体问题环境,针对用户整个问题解决过程,对搜集到信息的内在特征和价值进行析取、集成、创新,挖掘出其知识内容和关联关系,给用户提供恰到好处的知识服务。
1.2.4 “即时”交流成为越来越普遍的需求
e-Science环境下的信息和知识呈指数增长,知识共享和交流行为也更加频繁,科学家希望方便获取最新的研究进展,亟待便捷的学术交流,希望自己的研究成果以最快的速度发布,传统的学术交流体系已经不适应学术发展的新需求。按照门泽尔(Menzel)和米哈依诺夫(A.H.Mikhailov)对“正式交流过程”和“非正式交流过程”的划分,传统的学术交流体系是以正式交流过程为主导,以文献等资源的出版发行为标志的单一的、线形的体系结构[5]。这种单一线性的学术交流体系,一方面影响科学成果的及时发布,阻碍了科学研究的快速发展,挫伤了科研人员的积极性;另一方面,传统学术信息交流中,科研人员需要通过参加学术会议或利用信件、电子邮件等间接方式与他人探讨学术问题,这种交流方式影响了交流反馈的速度、交流的互动性和连续性。“大科学时代”科研项目需要多领域、多学科的科学家通力合作才可能有效率地完成,在协作的过程中全球各地的科学家之间的“即时”交流是非常重要的,可以发现参与者彼此之间思想的空白,及时发现研究中存在的问题。
2 加强e-Science环境下面向科研过程的知识服务的措施与建议
2.1 制定统一的元数据标准和标准化协议,强化知识资源的有效组织
建设数字化、信息化、集成化的知识空间和知识网络,必须加强各知识服务机构的共同计划和协调,包括各个图书馆、研究所、大学以及其他相关的信息服务机构,如政府部门、博物馆、档案馆、企业等等,共同致力于建设一个包含了所有知识、内部信息和知识充分互连的知识服务平台。实现这个目标的前提是制定标准规范和统一的元数据标准来提高资源的互操作性。
(1)制定统一的元数据标准实现分布异构资源的整合与互操作。元数据是提供知识服务的语义基础。2007年度,在新加坡举行的都柏林核心(Dublin Core)与元数据应用国际研讨会提出元数据应用规范--“新加坡框架”,规定了一整套元数据方案需要包含的五类文档,描述了这些文档所依据的标准规范与标准应用的领域模型及语义万维网的基础标准之间的关系,以保证元数据应用的各项形式化约束具有一致性和延续性[6]。把2003年推出的关于元数据应用纲要的描述指南欧洲标准CWAI4855又往前推进了一步,解决了编码模型标准化的问题。
“新加坡框架”要求知识服务机构构建更加完备的数据描述机制,为分布式信息体系提供规范的描述方法、整合工具和纽带。通过提供信息资源库中的资源描述、资源发现、资源处理、资源评价与排序的基本准则,增加广泛分布的不同信息资源站点互操作性和扩展性,同时向知识服务平台高层协议中间件提供标准的数据访问接口。
(2)构建统一的标准化协议实现分布异构系统的互联互通。各类分布系统的异构性是实现信息资源全面整合进而实现“一站式”服务的突出问题。需要构建统一的标准化协议解决异构平台、异构操作系统、异构数据库的互联互通问题。
网格技术是e-Science环境的支撑技术,遵循Web Service中的几个重要协议标准:XML/SOAP/WSDL/UDDI等,为WebService提供了与硬件无关的虚拟计算平台。这些协议提供标准的、透明的机制和完善的信息源标识功能[7]。开放网格服务体系结构(OGSA)实现了计算网格和Web服务的结合,基于OGSA的网格平台将成为下一代互联网的基础设施,因此要进一步完善基于OGSA的标准规范框架,统一描述与检索相关的标准检索语法、检索结果的表示以及信息源接口和基本特征;支持对异构数据资源的访问,为用户提供统一的访问接口,并自动选择适当的访问协议来实现用户提出的数据访问请求。
2.2 实现数字资源的高效管理,促进知识资源的深度开发与利用
(1)尽可能高效地完整记录和保存科研过程中的数据与资料。e-Science环境下对数据和资源进行有效的记录和管理是实现其知识服务功能的基本前提。首先,要尽量实现记录的自动化,尽可能不要增加科研人员负担。知识服务机构可以利用各种先进的技术手段,有目的、有选择的自动记录完整的科研过程,系统、详尽地记录整个科研过程(从科研思想的萌发到科研成果的应用)。其次,要全面地记录各种类型的数字资源,包括各种电子期刊、电子图书、数据库、多媒体资源、网络资源(包括Web2.0环境下的可开放获取资源)以及科研过程中产生的新“灰色信息”。最后,实现数据的开放描述。这里的开放描述是指利用计算机可识别的开放语言和规范方式来描述信息系统各个层次的内容,尤其是数据格式、组织体系和管理机制,所形成的描述文件置于透明的第三方系统。第三方系统可以根据描述信息对该系统进行搜索及解析,从而能够识别该系统的格式和规范,进而完成互操作[8]。
(2)实现各种资源的有效组织与整合。e-Science环境下,由各种仪器设备产生的科学数据是分布在全球各地、各个机构中的,所以必须实现这些分布式的数据的整合[9]。这些数据对象包括:不同载体、不同类型数据,异质信息资源,本地资源和远程资源等。因此,就需要找到一个切入点,来实现对诸如此类资源的有效整合与开发,而基于知识元的资源组织模式则是实现这一目标的有效途径。
所谓知识元,是指构成知识结构的最小的独立单元,用来表示针对特定问题的解决方案,它可以是概念、方法、规则、公理等数据或事实以及实例化的知识。基于知识元的组织技术采用规范的形式语言、精确的句法和明确定义的语义,对领域中的概念与概念、概念与实体、实体与实体之间的关系进行预先标注,有效减少了系统内各主体领域中概念和逻辑关系可能造成的误解和歧义,具有良好的概念层次结构和对逻辑推理的支持。
e-Science环境下,通过网格实现全球范围内知识服务机构互联,进而利用知识网络系统实现数据库的全息关联,把数据库信息资源的整合深度推进到知识元层次,根据不同的用户和用户群的需求提供不同的知识链接方式,使所有知识信息资源组织成一张循环互动的知识网络,从而用户可以更有效地获取所需的数据信息。
(3)强化对知识资源的深度分析与导航。e-Sci-ence环境中,可以充分运用知识组织、数据挖掘、知识发现、数据融合、智能搜索等多种技术和工具对知识资源进行深度分析,满足科研用户深层次的知识需求。
首先,对资源库中知识内容、知识对象及其逻辑关系进行深入、系统和动态的语义描述,结合具体数字资源的特点和应用环境,深层次描述知识对象的整个生命周期,并揭示其来源、社会环境、文化环境、用户使用模式、偏好、权威性等“语境”信息,通过单一语义映像和多层语义互联,将不同类型的语义空间转换和整合到同一的语义空间,实现跨专业、跨系统的语义互联和互操作。
其次,提供知识地图,可视化地显示知识和知识对象及其各种关联关系(等级关系、相关关系、因果关系、逻辑关系、评价关系等),消除“知识孤岛”,形成一个广泛、深入、动态的知识网络。
第三,为用户提供隐性知识和显性知识导航。一方面按照不同学科领域、工作流程或项目情况构建个性化的显性知识地图,使其根据知识地图揭示的知识间的关联快速方便地找到相关信息;另一方面构建隐性知识地图,为用户提供隐性知识的线索(隐性知识的拥有者、隐性知识的状态、隐性知识的范围等),从而加速隐性知识和显性知识的转换,促进用户对隐性知识和显性知识的管理和利用。
第四,利用开放机制与检索、链接、合并工具等,帮助用户获取、共享他人个性化的知识,促使不同背景的用户在各个具体层面上和环境中进行有效的交流和协作,促进知识共享和知识创新。
2.3 提供集成与智能检索系统与工具,协助科研用户方便地实现知识发现、挖掘与获取
首先,在实现对信息资源库中资源进行深度分析的基础上,对用户需求进行语义分析和语义描述,准确表达用户需求,允许用户以自然语言的形式表达检索需求。通过数据挖掘技术,为知识检索提供“知识基础”和“知识模型”,辅助检索系统准确把握用户的检索需求,并调整和优化系统自身的知识环境和解决问题的能力,实现对检索知识的高效获取、精准检索。将用户需求与信息资源集进行语义匹配,以达到它们之间的互理解。将用户需求有效地整合到统一的用户需求空间,使得具有相同或相似需求的用户能够实现共享资源基础上的协同工作。
其次,使用关联、聚类、分类等数据挖掘方法对知识对象、知识关系、知识结构等进行分析,建立相应的“信息源知识库”。实现从任何一个对象或关系角度,去关联其他相关的知识对象或关系,而且支持从不同聚焦点进行的重组,支持用户对知识空间的探索和思考。
最后,对用户和专家的行为记录进行挖掘,建立相应的“用户知识模型”、“专家知识模型”。根据用户行为模式和需求特征,有针对性、及时地主动向用户推送相关知识和最新信息,实现知识智能推送服务。
2.4 构建开放的数字化网络化学术交流体系,支持实现以用户科研过程为中心的学术交流
根据用户需求,e-Science环境下的学术交流体系应该是一种开放的数字化网络化学术交流体系,实现数字信息资源的永久保存和利用,保持数字化资源的动态性和实时的特性,达到跨平台无缝融合、更广泛意义上的资源整合,保证学术资源的稳定链接、融合以及共享。
建设的过程中要把科研人员放在中心位置,一切组织和交流的过程都应该按照以科研人员为中心的原则进行。e-Science环境下,同样存在着正式交流和非正式交流两种学术交流方式,而且非正式交流方式的地位有了显著的提高。科学的发展、科研的需求、信息技术三足鼎立共同支撑起非正式交流的发展,非正式交流已成为科学家获取信息的重要途径[10]。所以,这个平台应该支持新的非正式交流的方式,为各种交流方式的发展提供了适宜的条件,从而丰富了信息交流。
2.5 有计划地提高科研用户的信息素养,提升用户知识创新的效率
e-Science环境下用户的信息素养包括三个方面:信息意识、信息能力和信息道德。培养用户的信息素养就是要培养用户积极思考、敏锐洞察、深入挖掘、准确表现个体信息需求的能力;培养用户有效地利用各种检索工具满足个体信息需求的能力;促使用户在获取信息的过程中尊重他人的劳动成果。
在e-Science环境下,知识的发现、利用和创造不仅依赖“好的大脑”和“坚韧不拔的精神”,还依赖于有效地利用相关的信息技术、工具和系统。科学研究的有效性与人们的信息生存能力密切相关,用户的信息素养将成为成功的知识创造的主导因素之一[11]。因此,e-Science环境下仍然有必要加强用户信息素养的培养。首先,在知识服务中激发用户的信息意识,将用户隐形需求显性化。知识服务机构可以利用日志分析等跟踪用户创造知识的行为及其变化,利用引文分析、内容分析、链接分析等方法掌握科学发展的趋向和变化,以此为依据向用户提供服务,激发用户的需求意识;其次,培养用户的知识管理和知识转化能力。知识服务机构应该通过各种方式,培养用户有效组织知识的能力,熟练使用知识挖掘工具,将个体生产的知识与外部知识的有机融合;最后,提高用户信息道德,利用先进的技术手段保护科研人员的合法利益,同时积极地倡导学术至上的价值观念,营造宽松包容的学术氛围、开放共享的组织环境,鼓励求异创新的探索精神,建立公平公正的竞争机制来促进诚信信息社会的建立[12][13]。
收稿日期:2009-03-01
标签:科学论文; 语义分析论文; 用户研究论文; 组织环境论文; 数据整合论文; 用户分析论文; 数字化时代论文; 元数据论文;