资源发现系统在科研课题跟踪服务中的应用_元数据论文

资源发现系统在科研课题跟踪服务中的应用,本文主要内容关键词为:科研课题论文,发现论文,系统论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      0 引言

      2004年10月谷歌学术搜索问世,简单易用的功能设计带来学术资源搜索的全新体验。随着图书馆数字资源激增,仅靠资源整合和联邦检索,无法形成对所有馆藏资源的统一管理,传统的OPAC在资源发现上无法满足科研用户需求,用户希望得到简单、快速的图书馆统一检索工具。2009年1月在ALA(American Library Association)年会上,Series Solution公司宣布发布全球第一个网络级资源发现系统——Summon,基于元数据仓储的资源发现系统的面世迅速引起全球图书馆的关注。资源发现系统(Resource Discovery Service)可通过单一但功能强大的搜索引擎向用户提供在本地或远程中心平台的统一检索与服务[1]。国内在资源发现系统方面的研究主要涉及系统的介绍和比较、评估与引进策略、用户体验、系统应用等。在信息服务应用方面,有超星中文发现系统应用介绍[2],但鲜见外文资源发现系统的具体应用。本文研究外文资源发现系统在科研课题信息跟踪服务中的应用,以清华大学基于Primo的水木搜索进行实证研究,为资源发现系统的利用与改进提供参考。

      1 课题跟踪服务中科研用户信息需求特点

      课题跟踪服务是根据科研人员课题实际需要,围绕课题持续而及时地提供文献资料、搜集情报信息、筛选情报数据、评述发展方向等的情报服务[3],是深层次、个性化的学科知识服务。其服务对象对信息资源的需求特点主要表现在五方面。

      (1)准确性。在课题研究中,科研人员的本质需求不是获取大量的信息,而是获取能够解决问题的知识,实时、准确、适度的信息是用户的首要要求。准确性表现在两方面:一是切题,切合课题研究需要;二是准确度高,即信息具有确凿性与权威性[4]。

      (2)及时性。科研创新性原则要求科研用户须跟踪最新研究动态,及时了解最新研究成果。学术信息时效性强,获得信息越及时,利用价值越大。

      (3)资源质量。科研用户希望获得能解决问题的资源内容更丰富、附加值更高,体现在对学术信息资源的权威性、影响力、是否同行评审文章等方面的要求,并希望服务人员给予资源评价与建议。

      (4)全面性。体现在两方面:一是要求信息资源类型全面,除传统文献信息资源外,还有对多媒体信息资源、科学数据资源、实物信息资源、网络信息资源的需求,对文献信息资源的需求不局限于书报刊、专利、标准等正式出版文献,还包括非公开发行的会议文献、内部资料、政府报告、学位论文、科技报告等;二是需求信息涉及的学科广泛,尤其是交叉学科的信息资源,符合当今学科高度综合的特点。

      (5)便捷性。科研用户希望获取信息的途径更简捷,对信息的使用更方便,期望通过“一站式检索工具”,方便、无障碍、无缝地获取广泛的科研信息,希望以最快速的方式直接获取原始文献,同时有获取电子文献的需求,实现随时随地的碎片化阅读。

      2 资源发现系统在科研课题跟踪服务中的应用

      信息的检索、获取和整理是情报研究的基础,情报分析是关键[5]。本文围绕科研用户信息需求特点,基于清华大学水木搜索资源发现系统,从课题跟踪服务中的课题信息检索、获取、整理、分析与动态跟踪方面展开研究。以有关“线性菲涅尔式太阳能热发电技术”的跟踪服务为例,实证研究Primo资源发现系统应用。

      2.1 在课题跟踪服务“信息检索”中的应用

      2.1.1 信息资源覆盖

      资源发现系统对商业电子资源的覆盖率通过期刊级的比对分析[1],也可通过以一流学者发表的学术成果为特例进行验证[6]。水木搜索汇集5亿余条文献信息,基本覆盖清华馆的纸本资源和电子资源。从覆盖的信息资源类型看,水木搜索覆盖的海量数据包括纸本书刊、电子书刊、期刊与会议录文章、学位论文、多媒体、专利、标准等[7]。

      在课题跟踪服务中,图书、学位论文等具有较高的系统性,可用于对某一研究方向全面系统了解;期刊、会议录文章等具有较高新颖性,便于了解国内外最新动态;专利、标准、科技报告、学位论文等特种文献实用性强,便于解决课题中遇到的具体问题、难点;报纸等报道性文章庞杂零散,科研用户对其需求较低。

      对专利与标准,根据对水木搜索的调查研究发现,无论是从快速检索或高级检索中的“文献类型”检索字段,还是在二次检索中的“文献来源”,都没有可以筛选到专利和标准的检索方式。反观西安交通大学的summon与南京大学的EDS Find+,summon,可在“内容类型”中选择专利或标准,Find+可在内容提供者中精炼专利数据库,即USPTO Patent。对于会议录文章,水木搜索中可通过限定文献类型为会议论文获取正式发表的会议上交流的论文,及有关会议报道的文献。对科技报告,可通过限定文献类型为Technical Report获取。

      2.1.2 检索技巧

      (1)快速搜索。水木搜索提供类似于搜索引擎的一框式检索,默认文献类型为文章,还可对其他文献类型进行限定,包括图书、学位论文、多媒体与海量资源。

      (2)高级检索。一个检索条件固定一个检索字段,不同检索条件间默认以AND逻辑连接。限定字段有题名、著者、主题、任意字段、资料类型、语种、起始时间与结束时间。在快速搜索与高级检索中可使用逻辑算符(AND、OR、NOT)、通配符(?、*)、精确匹配符(“”)等,将检索词进行组配,确定检索词之间的概念关系或位置关系。

      (3)检索结果的分面聚类。可通过分面聚类精简检索结果,提高检索结果的切题性,更精确表达信息需求。水木搜索可以从同行评议期刊、本馆馆藏、主题、作者、来源、馆藏地、出版日期、文献类型、语种、出版物等精简检索结果。比较特别的是,在来源数据库中可通过选择“Science Citation Index Expanded”与“Social Sciences Citation Index”查看在web of science中被引的检索结果,并可在检索结果页面的Time Cited中得到引用次数,辅助判断信息资源质量。

      2.1.3 相关度排序

      2006年美国艾瑞网调查数据显示美国搜索引擎用户只浏览1页搜索结果的比例为62%,浏览3页的用户仅10%,这对检索结果第1页的相关性提出较高要求。调查显示,相关度排序功能在资源发现系统功能中被认为是最有价值的功能[8]。科研用户要求文献能按照相关程度排序,节约获取最准确文献的时间。在此方面,Primo申请专利技术Scholar Rank[TM],将用户的身份信息如专业、学历等加以考虑,动态调整检索结果的显示,帮助用户快速找到想要的信息[9]。

      从科研用户需求出发,除准确性外,还要求资源质量高、应用价值高、新颖度高的资源排序靠前,体现在是否同行评议期刊、基金资助机构、出版年、文献类型、被引频次及是否最新热点文献等。水木搜索提供的排序方式有相关性、最新日期、受欢迎度、作者、题名。

      根据发现系统日志分析,用户很少使用发现系统的高级检索和方面检索,也很少改变系统默认设置,这肯定了资源发现系统像搜索引擎一样的搜索体验,检索后直接获得按照相关度排序的文献,不再进行二次限定。基于用户对一框式检索的需求以及对检索结果第1页的关注度最高,将水木搜索与谷歌学术中同一检索表达式的检索结果第1页对比发现,相对于谷歌学术,水木搜索得到的文献新颖度较高,且第1页中同行评议期刊占比大,文章质量高。谷歌学术的搜索结果第1页文章新颖度较差,如果要获取最新文献还需限定时间范围,进行二次检索。但谷歌学术在检索结果页面直接提供文章被引用频次,可以帮助判断文章质量,而水木搜索虽然实现显示来源是Web of Science,但不能在检索结果页面直接显示被引频次,而是显示在Time Cited中,需要二次点击。从信息跟踪服务角度,为满足科研用户准确性的要求,除需要构造保证全面性与准确性的检索表达式,获取第1页最相关资源外,还要进行文献质量及文献类型的分面聚类以满足更精准的科研信息需求,此时资源发现系统更能满足服务需求。

      2.2 在课题跟踪服务“信息获取与整理”中的应用

      2.2.1 全文获取与显示内容

      科研用户有对原始文献的需求,希望能直接获取全文,相对于纸质文献更倾向于获得电子原文。资源发现系统提供了方便的原文获取途径,除提供直接的下载链接外,还提供原文传递、参考咨询、馆际互借等功能,大大缩减了获取全文的时间成本。

      在检索结果显示中,默认显示在检索列表中的内容有标题、作者、来源、是否同行评议期刊、ISSN、DOI、关键词出现在文摘中的位置标记。对课题跟踪服务提供形式,针对部分仅需提供相关目次与原文的科研需求,需提取标题、文摘、作者、来源、时间,并标记出检索词所在位置,水木搜索的检索结果页面即可直接实现这些相关信息的获取,方便服务的开展。

      2.2.2 检索结果选择与导出

      在水木搜索中,保存检索结果或者将检索结果导出,可选择逐个将检索结果添加到电子书架或者保存整页结果到电子书架。电子书架中提供E-mail、打印与推送功能,推送包括推送到EndNote Web、推送到RefWorks、导入RIS。Email功能可直接将相关检索结果直接发电子邮件给科研用户,包括标题、作者、来源、ISSN与DOI。打印功能中显示文献详细信息,增加了描述、语种、来源数据库内容。

      为便于与科研用户共享文献资源且保持格式的统一性,在课题跟踪服务中选择通过EndNote文献管理软件实现历次提供跟踪文献的管理与去重,导入RIS格式可以直接导入到本地EndNote中。

      资源发现系统采用预索引技术实现对数据的合并、去重与丰富,体现在具体映射规则中通常以ISBN、题名、作者、出版社、出版年、页码等指标为依据。水木搜索体现为检索结果页面的“查看全部版本”,将来源于不同出处的同一篇文章作折叠处理。但实证研究发现,在导出的前3页检索结果中依然存在重复问题,30条检索记录中存在3条重复记录,原因是元数据表述规范不统一,一篇文献或一本期刊被多个平台收录和揭示,作者或期刊名称表达规范不同,标题中多一个Report或Research Article标识等,为去重带来很大困难。

      2.3 在课题跟踪服务“信息分析”中的应用

      2.3.1 基于文献计量的课题领域发展分析

      了解课题领域的发展情况可从论文高产国家、主要研究领域、核心期刊、主要论文产出年限、重要研究机构、核心作者等方面展开。水木搜索提供主题、作者、出版日期、出版物的分面聚类功能,可辅助获得主要研究领域、核心作者、主要论文产出年限、核心期刊的分析。但因不同来源数据库元数据规范不统一,存在不能将不同表述的同一期刊、同一作者聚类成唯一的问题,因而得到的分面聚类结果并不精准。

      此外,论文高产国家与重要研究机构的分析需要资源发现系统提供地区与作者机构字段,但水木搜索中并没有,这就要求资源发现系统在统一元数据规范的同时,丰富元数据厚度,提供地区、作者机构等字段,便于就课题领域发展情况展开分析。

      2.3.2 基于关键词共现分析的领域热点分析

      结合资源发现系统,在课题跟踪服务中可通过关键词共现分析法找到研究领域的研究热点,且有可能发现研究热点的转移趋势。水木搜索并没有直接集成关键词共现分析功能,这就需要在课题跟踪服务中导出检索结果,经过数据预处理后利用现有软件分析领域热点。水木搜索的导出功能中并没有提供字段选择及导出到Excel功能,故而可将检索结果导入到EndNote后利用“特定的Output Style”功能将记录按特定格式导出到txt文件[10],再将txt文件根据分隔字符分列导入到Excel中,实现检索结果的预处理以便于下一步共现分析。

      2.3.3 基于关联的以研究主题、学者、机构为中心的知识网络

      通过关联网络分别从研究主题、学者、机构出发为科研用户展示作者机构、作者之间、相关知识点之间的隐形关系,揭示出隐含的有潜在价值的信息和知识。基于关联的研究主题的知识网络中,可以形成主题-相关知识点关系图、主题-作者关系图与主题-机构关系图,把握领域相关知识点、核心作者与核心机构,挖掘潜在的研究方向。基于关联的学者知识网络中,可以形成学者-相关知识点关系图、作者-作者关系图、作者-机构关系图,把握学者研究成果所涉及的研究主题与知识点,合作作者与合作研究领域。基于机构为中心的知识网络中,可形成机构-相关知识点关系图、机构-作者关系图、机构-机构关系图,获得指定机构的研究成果所涉及的研究主题与知识点,机构内部核心作者与机构合作关系。

      水木搜索没有提供该分析功能,但超星中文发现系统提供这样的学术辅助分析工具[2],可视化展示课题需求相关检索结果的知识点网络,根据相关度揭示科研领域的核心作者与机构,领域内的作者合作、机构合作现状,对作者与机构研究情况进行详细分析。资源发现系统可以相互借鉴,增加学术辅助分析工具,为在资源发现系统中实施课题跟踪提供帮助。

      2.4 在课题跟踪服务“动态跟踪”中的应用

      2.4.1 RSS订阅

      水木搜索提供期刊的RSS订阅地址,这些期刊分散在学校订购的各个数据库中。在课题跟踪服务中,可以RSS订阅课题领域核心期刊,动态跟踪期刊发表情况。但对课题研究而言,仅仅订阅期刊的缺陷比较明显,因为随着科研的多学科融合,重要的学术成果未必发布在所订阅的期刊上,需要对检索表达式的RSS订阅,检索表达式可以是课题主题、作者或者机构名称,在检索结果页面以及个人空间中都可以设置订阅,当资源发现系统中出现检索表达式相关的新资源时及时自动推送到RSS阅读器,便于动态跟踪课题相关的最新研究成果。

      2.4.2 电子邮件跟踪

      即Email Alert,可在保存检索历史的基础上对检索表达式进行电子邮件跟踪,系统定期将新的相关检索结果推送到用户电子邮箱,通过电子邮件跟踪实现对主题、期刊目次的动态跟踪。水木搜索并没有添加电子邮件跟踪功能,究其原因,虽然科研用户使用电子邮箱比较广泛,但使用电子邮箱管理大量的订阅很不方便,阅读效率低,且很容易把订阅当作垃圾邮件。

      2.5 实证研究

      线性菲涅尔式太阳能热发电技术课题属于新能源领域。太阳能发电主要包括光伏发电和光热发电两种,光热发电可分为非聚光和聚光两大类。线性菲涅尔式太阳能热发电技术是一种线聚焦式的聚光式热发电技术,通过聚光产生高温热能进而发电,其在大面积镜场安装时,具有结构简单,制作、运行成本低和抗风性能优良等特点。许多西欧和美国公司已开展该技术大型示范工程的研究与建设。该技术仍处在较为初级的阶段,需要从反射镜、集热管、支撑结构、蒸汽参数和储热系统等方面不断提升和发展。

      在Web of Science中检索Concentrating Solar Power(太阳能聚光发电),可知研究方向集中在ENERGY FUELS,将该研究方向中被JCR收录的83个核心期刊与水木搜索收录期刊比较,水木搜索收录率为100%。故在该课题跟踪服务中可以采用水木搜索。

      针对科研课题需求,提取关键词为“Linear Fresnel Reflector”,在水木搜索中实施信息检索,检索日期为2014年11月5日。快速检索“Linear Fresnel Reflector?”相关文章,获得151条记录,检索结果的分面选项如表1所示,表中列出的仅为每一种分面选项的前5位。

      

      从分面聚类可概览关于线性菲涅尔式太阳能热发电技术的研究情况:(1)从显示内容看,有104篇在线全文(占检索结果69%),86篇同行评议期刊(占检索结果57%),同时勾选在线全文和同行评议期刊可直接获取资源质量较高的原始文献;(2)从研究主题看,文献研究主题排名前五位中比较特别的是Mathematical Models,可知相关文献集中在从数学建模方面展开研究;(3)从作者看,研究领域内最高产作者为Manikumar,R;(4)从来源看,被Web of Science收录的相关检索结果有38条,属于质量较高的文献,大部分文献分布在Scopus(Elsevier)与SciVerse Science Direct(Elsevier)数据库;(5)从出版日期看,大部分相关研究出现在2008年以后,说明该研究课题仍处在初级热门阶段:(6)从文献类型看,17篇是会议论文,5篇图书章节,5篇学位论文,还有1篇科技报告。分析这些文献的来源数据库发现,学位论文的来源数据库是NDLTD Union Catalog与EThOS-Electronic Theses Online Service(British Library),科技报告的来源数据库是SciTech Connect(OSTI)。

      为验证该检索结果是否全面,笔者依据“Linear Fresnel Reflector”分别对学位论文常用数据库PQDT和科技报告常用数据库NTIS进行检索,结果为PQDT中有0篇学位论文,NTIS中有1篇相关科技报告,即水木搜索检索到的结果。通过该实证研究,可以得到在不确定相关文献存在于哪个数据库中时,使用资源发现系统可发现相关学术资源,节约依次访问每个数据库时间,为课题跟踪服务提供便利:(1)在信息获取方面,按照相关度排序第1页的10篇文献中,8篇为在线全文,可直接点击检索结果链接到所在数据库中的文章页面下载原文,另外,2篇没有在线全文的文献可以通过由ExLibris的SFX提供原文传递、参考咨询、馆际互借等方式获取全文。(2)在信息整理方面,实证研究中全选前3页的检索结果并选择导入RIS。将结果导入到EndNote后发现文献记录中包含标题、作者、来源期刊、出版年、卷、期、页码、ISBN、DOI、关键词、文摘等基本字段,且显示对应的文献类型,便于跟踪服务中所提供的文献信息产品的管理。(3)在动态跟踪方面,根据基于文献计量的分面聚类结果可订阅期刊Solar Energy,通过RSS阅读器在期刊更新的第一时间获取课题相关信息资源。

      3 关于Primo资源发现系统功能及课题跟踪服务的思考

      3.1 提高信息资源覆盖

      在课题研究中,科研用户对特种文献有着特殊的需求,特别是外文科技报告的需求尤为明显,这源于科技报告的特点,即内容详尽专深,往往涉及尖端学科的最新研究领域,数据完整,能有效避免科研团队的无效重复性工作。因而应尽可能丰富Primo覆盖的信息资源类型,提高对科技报告、学位论文、专利与标准等特种文献的覆盖率。此外,Primo虽然提供被Web of Science收录的来源数据库精炼,但对其他索引类数据库如El、INSPEC、OCLC Firstsearch等覆盖情况不尽理想,比如在El中,可在文献类型中选择Report chapter/Report review对科技报告进行针对性的限制检索[11]。和索引数据库的完美覆盖与融合对辅助判断信息资源质量具有重要的意义,因此,资源发现系统提供商应努力与内容提供商合作,得到元数据和全文索引的合法授权,提高信息资源的覆盖类型与范围。

      3.2 完善信息检索与结果显示功能

      (1)课题跟踪服务中,针对科研用户的信息需求查询往往需要应用高级检索及在全文中检索的功能,增加高级检索中文献类型及检索选项中的全文检索功能。目前的高级检索中资料类型可以限定为图书、文章、期刊、图片、音像资料及全部类型,但并没有针对具体类型的文章,如专利、标准、科技报告、报纸、会议录等的检索选项,无法实现对特定文献类型需求的直接查找。增加全文检索功能,在查找特定方面的课题技术相关文献时,有时相关文献量少,需在全文检索条件下检索,满足课题跟踪需求。

      (2)对不同文献类型没有提供特殊字段,比如针对专利添加专利号、针对图书添加出版社等。此外,系统没有提供智能辅助搜索功能,如同义词自动扩展检索、提供上位词与下位词等主题词等。

      (3)检索结果显示,被Web of Science或Scopus收录的资源的被引次数通过Time Cited查看,这些资源必须通过来源数据库精炼才能识别。直接在检索结果页面显示被引次数,且明显的标记出被Web of Science或Scopus收录更有利于用户在信息检索中判别信息资源的质量。

      (4)增强对检索选项辅助信息资源质量的判断,除是否同行评审期刊外,可增加基金机构、是否领域热门论文的选项。

      (5)除目前提供的按相关性、最新日期、受欢迎度、作者、题名排序外,增加按照被引频次排序。

      (6)在合并功能基础之上加入FRBR[12]的理念,分层次地表现相关作品,使检索结果的显示不再是单一平面的,而是完整立体的。

      3.3 统一规范元数据,提高元数据质量与标引深度

      (1)统一元数据规范。目前一本期刊/一篇文章被多个平台收录和揭示,且不同平台元数据描述规范不统一,同一期刊、同一作者在不同数据库中有多种表达方式,给海量的元数据仓储数据的去重带来很大困难[6]。比如在本文实证研究的核心信息资源的比对中,期刊名称中的&就有三种表达方式,分别为&,and与&&。

      (2)提高元数据质量与索引深度。“发现”基于数据的正确聚集,效果与数据的质量和包含的信息量有直接的关系[2]。元数据有厚薄之分,厚的数据除了揭示文献的外部特征如题名、作者、来源、标识等,还包括更多的内容特征如关键词、摘要等,而更深层的揭示包括主题、分类、全文。只有提高元数据质量与索引深度,才能提供更多的关联分析和信息知识挖掘的内容、角度。此外,索引深度不均会导致重要文献被埋没,使其无法在检索结果中呈现出来[13],故而最佳状态是尽可能多的元数据为厚数据。

      3.4 扩展检索结果的可视化关联与发现

      资源发现系统整合了海量资源,因此检索结果的关联分析和发现对于用户就显得更重要。水木搜索实现了相关论著发文量趋势图、学科研究热点图,但基于检索结果的研究主题、关键词、作者、机构的可视化关联与发现仍有待建设,而此功能的实现仍然要基于厚的元数据,辅助课题跟踪服务中为用户提供领域相关知识点、核心作者、核心研究机构、高产国家、研究热点、作者研究领域、合作作者、合作结构等。由于水木搜索的数据来自不同数据库,因此需要根据自身数据情况设定FRBR规则,决定页面的聚合效果,并进行功能拓展开发。

      3.5 课题跟踪服务的发展

      资源发现系统为一站式获取资源与知识发现提供了方便,但不可忽视的是资源发现系统还难以覆盖所有类型的信息资源,且索引深度不够。由于不同专业学科之间的差异,其存在检索方式上的不同字段等差异,如特殊数据库中提供的特殊字段:化学式,这是资源发现系统短时间无法做到的,因而专业数据库的地位仍不可替代。在信息跟踪服务中仍然要根据科研课题研究领域选择专业数据库,如对Web of Science、EI、专利数据库的利用。在海量资源时代背景下的课题跟踪服务,需要充分了解课题相关核心资源、资源发现系统对核心资源的覆盖程度及其他未能覆盖到的相关学术数据库,在善用资源发现系统的基础上,利用专业数据库作为补充,善用RSS订阅动态跟踪功能,提高服务效率,保证服务的及时性。

      引用本文格式 陈雪,邹小筑,邱彦涛.资源发现系统在科研课题跟踪服务中的应用[J].图书馆论坛,2015(5):68-74,43.

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

资源发现系统在科研课题跟踪服务中的应用_元数据论文
下载Doc文档

猜你喜欢