大科学装置“预期-实际-扩展应用”链式模型及其实证研究-以日本SACLA装置为例论文

大科学装置“预期-实际-扩展应用”链式模型及其实证研究
——以日本SACLA装置为例

郭世杰1,2,王学昭1,韩 涛1,魏 韧1,董 璐1,李宜展1,李泽霞1,2

(1.中国科学院文献情报中心,北京 100190;2.中国科学院大学经济与管理学院图书情报与档案管理系,北京 100049)

摘 要 为揭示大科学装置的潜在应用方向,综合采用自然语言处理、共现聚类技术和文献耦合原理,分别从3类数据源(实验研究提案、科学成果、成果施引文献)入手,提出在3个层次(设想应用情况、实际应用情况、扩展应用情况)上对大科学装置的应用主题进行分析的方法;在此基础上总结了大科学装置“预期-实际-扩展应用”链式分析模型,并以日本硬X射线自由电子激光装置——“SPring-8紧凑型自由电子激光”(SACLA)为例进行了实证研究;对硬X射线自由电子激光装置在不同学科领域的潜在应用方向进行了讨论。

关键词 聚类分析;引文分析;大科学装置;实验提案;SACLA;科学成果

1 引 言

以粒子对撞机、自由电子激光器、大型天文望远镜等为代表的大科学装置在当今基础科学研究中发挥着重要作用,正如我国科技部公告指出的,“大科学装置是突破科学前沿、实现科技进步及解决人类发展面临的诸多严峻挑战的重要保障,大科学装置前沿研究对增强我国科技国际竞争力、实现从科技大国迈向科技强国的目标具有重要意义”[1]。一些大科学装置为许多不同学科领域提供了观测极端条件实验现象的平台,例如,硬X射线自由电子激光装置可为物理、化学、生命科学、材料科学、能源科学等多学科提供高分辨成像、超快过程探索、先进结构解析等尖端研究手段[2]。正因为大科学装置具有跨学科的广泛通用性,许多国家和地区均重视在大科学装置发展的战略规划、路线图中梳理其应用领域,如欧盟理事会成立的欧洲科技基础设施战略论坛(ESFRI)在2016年曾分析了欧洲大科学装置在欧洲能源、环境、健康和食品、自然科学与工程等领域所发挥的作用[3];澳大利亚于2017年发布的国家科技基础设施路线图中对食品、土地和水资源、先进制造、信息安全等领域的大科学装置进行了梳理[4]。但是,这些战略规划或路线图的制定过程大多依赖专家委员会和政府部门的专业知识、经验与智慧,很少从大量文献的计量分析或数据挖掘角度探究大科学装置在“主流应用方向”之外的潜在、交叉、隐含应用方向。

国际上已有很多学者利用文献计量学方法针对大科学装置的科学成果(即利用大科学装置的实验数据所发表的研究论文、所产生的专利等)开展分析,但许多研究只是为了说明科学产出与装置性能、条件之间的关系,例如,Abt[5]于2012年分析了大型地基望远镜的科学成果的被引频次(反映其影响力)与望远镜口径之间的关系,发现口径较小的望远镜也可以产生高影响力的科学成果;Api等[6]于2010年分析了1998—2008年哈勃空间望远镜(HST)的科学产出情况,发现利用HST观测时间越长,所发表的论文被引频次越高。这些研究没有深入论文或专利的内容主题层面,无法对大科学装置的应用领域进行深度解读。

近年来,越来越多的学者开始关注如何从大量文献中识别重要的研究主题/方向,例如,冷伏海等[7]研究了基于科睿唯安的Essential Science Indica‐tors(ESI)数据库对热点前沿和新兴前沿进行遴选的方法;陈超美等[8]研究了采用突破检验算法(burst detection algorithm)和中间中心性测度方法对突破性科研进展进行识别的方法,并在CiteSpace软件中实现了相关功能。采用类似的突破检测算法,Wu等[9]分析了癌症检测领域的新兴趋势和突发主题;胡秀芳等[10]分析了生态安全领域的研究主题演进轨迹和发展趋势。但是,这一类研究仅面向期刊论文、会议论文、专利等“科学成果”(属于“一次文献”),而对大科学装置运行的全生命周期中至关重要的研究提案、实验设计资料等文献则很少覆盖。当前国内外许多科研管理机构已经逐步公开了各种研究项目、实验提案信息,这为更全面地追踪与分析科研活动各个环节的重要研究主题/方向提供了便利条件。

我国目前正处于建设多个大科学装置的重要阶段。2018年4月27日,我国迄今为止投资最大、建设周期最长的国家重大科技基础设施项目——上海“硬X射线自由电子激光装置”启动建设,计划于2025年竣工并投入使用[2]。这既为我国相关研究应用带来了巨大机遇,也为设施的有效利用、争取科研投资回报的最大化提出了挑战。为探索从装置实验提案申请,到装置利用,再到装置的潜在应用方向识别的全链条情报分析流程,也为了更好地支持我国硬X射线自由电子激光装置的管理、设计和应用,本文提出大科学装置的“预期-实际-扩展应用”链式分析模型,并采用文献计量、自然语言处理和共现聚类方法,以目前国际上已建成并运行的同类装置——日本“SPring-8紧凑型自由电子激光”(SACLA)为例进行实证研究,从中探索硬X射线自由电子激光装置在不同学科领域的潜在应用方向,并对这种分析模型的效果和局限性进行归纳总结。

2 分析模型和方法简介

面向大科学装置,可分别从“预期应用目标→实际应用产出→潜在应用”3个方面,分析该装置计划做什么、实际做了什么、可能还可以做什么。对应这3个层次,分析对象可包括实验提案(pro‐posal)、科学产出(publication)、施引论文三种;这3种数据在一定程度上可以分别看成:科学家在利用大科学装置之前的设想研究主题,利用装置开展实验并分析实验数据后得出的实际应用主题,其他科学家受到装置成果“启发”而形成的其他应用主题。因此,可设计大科学装置的“预期-实际-扩展应用”链式分析模型,如图1所示。

图1 大科学装置“预期-实际-扩展应用”链式模型

在3种数据源中,“实验提案”一般应来源于大科学装置的管理运行机构官方发布的信息。不同机构发布的“实验提案”格式、内容均不相同,有的包含在装置实验运行日程表中,有的包含在装置的资助机构的项目申请和提案中标公告中,且一般仅有申请人姓名、申请提案标题信息,少数包含实验时间长度和费用等信息。还有一部分提案与装置的未来建设、升级规划相关,可能是装置上一项新仪器的测试实验申请,等等。

“科学产出”数据则可以从两种途径收集:一种途径来自装置官方公布,另一种是在官方不提供“科学产出”数据的情况下,需要构建文献检索策略自行搜索。检索式的构建可以参考的信息包括装置名称、装置上关键仪器和部件的名称、实验提案申请人姓名、实验提案编码等。但是,如果装置官方所公布的“科学产出”数据在数量上已经足够支撑分析,那么应当尽量只以官方数据为准。

“施引文献”数据从上一步“科学产出”数据而来。与“实验提案”不同,“科学产出”和“施引文献”均属于公开发表的文献,在许多科技文献数据库中已经形成了很好的结构化数据,因此需要以官方公布的简单信息(一般仅包括作者、标题、期刊名、发表日期等)为索引,到专业数据库中检索到相应记录,再下载详细的元数据信息。

3.2.1 工作量太大 在访谈中,医护工作者普遍反映对自身工作比较喜欢,但由于工作量较大而逐渐产生了厌倦情绪。“医生太辛苦,没有节假日,没有休息,还要随传随到,24小时待命”“只要进了医院,就是一辈子辛苦”“我是一名护士,没有周末,还有夜班,三班倒真是受不了,特别累,时间一长就厌烦了,职业倦怠了。”同时,受访的医护工作者表示,工作量大小并不是完全指单位安排的工作量,医护工作的性质就是要终身学习,大部分医护工作者在下班后还要进行医学知识补充,这无形中增加了工作量。因为医学发展非常迅速,只有不断更新知识才能成为一名合格的医务工作者。

结构图式对阅读能力的影响数值:R方为30.5%,调整R方为30.4%。Beta=0.552,t值=16.509,p值=0.001。此结论证明了结构图式在阅读中的重要地位,老师在教学中应该先从宏观上把握篇章的整体结构,让学生有文章框架的概念,才能更快的捕捉重要信息帮助他们理解阅读材料的内容。访谈中,老师们表示,在日常的教学中对于文章体裁基本就是一句话带过,甚至有英语老师认为这应该是语文课应该解决的问题。所以大部分学生缺失了这方面的训练,这对他们阅读能力的提升也造成了一定的阻碍。

2.1 基于词共现的聚类分析方法

“聚类”(clustering)是将数据对象分组为多个类或簇(cluster),在同一个簇中的对象之间具有较高的相似度,而不同的簇中的对象差别较大。与人为主观分类不同,聚类是在事先不知道欲划定的类的情况下对数据进行分析,其目的是根据最大化类内的相似性、最小化类间的相似性这一原则,合理地划分数据集合,把类似的事物组织在一起。

同一个词在两段文本中重复出现的概率,或者两段文本中词的“共现(co-occurrence)关系”可以作为相似度计算的原则之一,基于这种原则实现的聚类可以称之为共现聚类。例如,对于从科睿唯安(Clarivate Analytics)科学引文索引(Web of Sci‐ence,WoS)数据库中下载的两篇论文而言,每篇论文都有一个字段是“WC”,代表WoS学科类别。若A论文的WC字段是“生物大分子,细胞核,时间序列分析”,B论文是“激光飞秒,时间序列分析”,因为A论文和B论文的WC字段里都包括“时间序列分析”,所以A和B论文之间存在共现关系。而如果C论文的WC字段是“激光飞秒,时间序列分析,生物大分子”,那么它和A的WC字段就有2个词相同,因此A与C的关系强于A和B的关系。

2.2 基于文献耦合原理的引文分析方法

科学文献之间的相互引用情况反映了不同科学研究之间的一种“关系”,这种关系可能是一项研究对他人研究成果的参考、借鉴、反驳、验证或评论等。利用这种关系对科学文献的分析可称之为引文分析。

总而言之,在道路桥梁施工过程中,应用钢纤维混凝土技术能切实提高整体道路桥梁的刚度、承载力。但是,钢纤维材料在应用阶段中,投入的成本比较大,因此,在后续的研究中,需要将重点放在如何降低施工成本范围上,并且还需要对施工工艺进行优化研究,从而能够从技术、成本上提高钢纤维混凝土技术的应用水平。

引文分析中有“共被引”和“耦合”的概念。例如,如果论文A将论文B作为参考文献,则A称为B的施引文献(citation),B称为A的参考文献(reference)。如果论文A还引用了论文C,那么B和C共同被A所引用,因此B、C之间存在“共被引”的关系。如果D论文也引用了论文B,那么A和D拥有一篇共同的参考文献,A、D之间存在“文献耦合”的关系,如图2所示。

图2 两篇论文之间的耦合关系和共被引关系

题目 已知抛物线C:y2=2px过点P(1,1).过点作直线l与抛物线C交于不同的两点M,N,过点M作x轴的垂线分别与直线OP,ON交于点A,B,其中O为原点.

因此,结合前述“基于词共现的聚类分析方法”,对CR字段中的所有论文的数字对象识别号(DOI)进行共现聚类,即可实现对大量论文的合理分类,分类结果体现了不同论文之间的耦合强度高低。

2.3 基于共现聚类的知识图谱可视化方法

知识图谱可以看成是一张巨大的图,图中的节点表示实体或概念,而图中的边则由关系构成。在采用如前所述的方法得到不同论文之间耦合强度之后,以连线颜色深浅代表论文之间耦合强度的大小,以节点大小代表一篇论文与其他论文耦合数量的高低,即可作出论文耦合的可视化图谱。

作为SACLA的建设国和所有者,日本提案数量远超其他国家,为264项,占提案总量的75.2%,如图4所示。此外,SACLA为12个国家的用户提供服务,包括美国(31项)、德国(14项)、韩国(10项)、瑞士(10项)等。中国科学院上海应用物理研究所有2项提案获批,均为2012年申请,内容涉及G蛋白偶联受体的纳米晶体学和微生物的全细胞成像研究。

在制作聚类图谱时可以应用的软件有VOSview‐er、Derwent Data Analyzer(DDA)、gephi等。在利用VOSviewer或gephi软件生成聚类图谱前,首先可用DDA软件对文本进行切词,清洗和剔除无意义的词后,由VOSviewer或gephi软件自动计算词之间的“相似度”。相似度是使用余弦值计算所得,通过将词转化为词向量,进行计算,

若生成以论文为节点的聚类图谱,则软件将每篇论文看成一个节点,对所有节点进行一次N×N的相似度计算,然后设置阈值,将低于阈值的部分过滤;一般可令节点的大小代表出入度(也就是该点与其他点的连线个数),度数越大,说明该点与其他点的耦合性越大;线的颜色以及粗细表示相似度大小,颜色越深、线越粗,表示该连线的两个节点的相似度越大。如果待分析的论文数量较多,为了降低相似度计算的工作量,需要先对论文进行初步粗糙分类,这是应用“潜在狄利克雷分部”(LDA)模型实现的。LDA是一种文档主题生成模型,包含词、主题和文档三层结构,其主要功能是通过将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息[11]。该模型由Blei等[12]在2003年提出,属于三层贝叶斯主题模型,可通过无监督的机器学习方法发现文本中隐含的主题信息,目前已获得大量应用,其C程序、Python实现代码在网络上有开源信息,非常方便查询和使用[13]

3 日本SACLA装置分析

日本SACLA装置是世界最为先进的硬X射线自由电子激光装置之一,位于日本兵库县播磨科学园区,于2011年3月底建成,2012年正式投入使用,装置全长700 m,能发射出0.08 nm的X射线激光,建造总费用约390亿日元,由日本理化学研究所(RIKEN)负责运行管理。

按照图1所示的分析模型,首先从SACLA装置官方网站[14]获取SACLA装置研究提案351项(下载时间:2018年1月15日)、装置成果文献273篇(下载时间:2018年1月30日);然后根据装置成果文献信息,在WoS数据库中获取成果文献的全部施引文献1542篇(检索及下载时间:2018年3月20日)。

3.1 实验提案分析

3.加强习近平共享发展理念的实践路径研究。坚持理论与实践相结合,实事求是是我党的执政优势。习近平共享发展理念作为新时期中国特色社会主义建设的重要发展理论,更是要做到理论与中国的实践相结合,提高共享发展理念对于中国特色社会主义实践的指导作用。加强习近平共享发展理念的实践路径,不仅有利于维护社会的公平正义、促进经济社会的奋斗目标,也能为全面建成小康社会提供必要的理论保障。学术界和理论界作为新时期社会主义学者,更要坚守初心,坚持理论为人民服务的本质,在研究习近平共享发展理念的同时,加强实践路径的研究,更好地让习近平共享发展理念为社会主义建设服务。

图3 SACLA实验提案2012—2017年数量

图书馆与用户之间的关系实质是供给与需求的关系,用户有所需要时,图书馆为用户提供相关的信息服务[3]。其一作为公共图书馆,其主要任务便是满足用户的信息需求,为保障用户获取相关服务的权益,获取用户对图书馆的评价或建议,图书馆评价体系构建是必要的。其二图书馆服务对象遍布各个年龄层,不仅包括成年还有儿童、老人等弱势群体,为保障这些人群的权益,更应该构建评价体系。

图4 SACLA实验提案负责人的国别分布

从实验提案标题中提取的叙词信息来看,标题文本一般包括研究使用的装置、采用的方法、观察的对象和过程,还有极少数标题涉及设施参数。对2012—2017年的研究提案标题文本进行聚类,并参照X射线自由电子激光器的科学用途[15],对聚类结果进行判读,结果如图5所示。

得到以上3种数据后,再综合应用文献计量、聚类分析方法,在3个层次上分别得出研究主题的聚类图谱;对比3个层次上主题图谱之间的延续、扩展情况,即可揭示大科学装置在“预期-实际-潜在扩展”应用方面的扩展情况。在分析中应用的方法和原理包括以下三个方面。

为反映SACLA装置实验主题随时间的变化情况,分别对2012—2014年、2015—2017年的研究提案标题进行聚类,结果如图6和图7所示。

从图6和图7可以看出,在相同聚类词频(反映聚类结果显示的细粒程度)条件下,2015—2017年聚类结果比2012—2014年更加丰富、结构更复杂,反映了随着时间推移,SACLA上开展的实验数量增多、领域扩展,并且形成了一些新的聚类热点,如“串行飞秒”(serial femtoseconds)、“细胞色素C氧化酶”(cytochrome c oxidase)等。

为反映不同国家研究提案聚类结果的区别,分别对日本(264项)、其他国家(87项)的研究提案标题进行聚类,如图8和图9所示。为反映更加细致的聚类领域分布情况,选择聚类词频为1(高于图6和图7中的显示细粒度)。

从图8和图9可见,在相同词频条件下,日本的聚类结果更复杂和丰富,聚类主题基本涵盖全部应用方向。但其他国家有一些特有的聚类方向,如美国科学家提出的“在从高到低pH条件下测定室温下流感M2蛋白药物结合位点”系列提案,在图9中形成了“室温”(room temperature)、“药物结合位点”(drug-binding pore)、“低pH”(low pH) 等聚类,而这些在日本的聚类结果中没有出现。

3.2 装置成果分析

1999—2008年,SACLA尚在研发建设阶段,年发文量为1~2篇。2009年后呈现振荡上升态势,年发文量从15篇上升到2016年的48篇,年均增长率为36.3%,如图10所示。

在SACLA建设和运行期间,日本发表论文258篇,占成果论文总量的94.5%;德国、美国分别以45篇和43篇位列第2位和第3位,占比分别为16.5%和15.8%;法国、韩国跻身前5位,但占比不足10%;我国共发表17篇论文,占比为6.2%,与俄罗斯并列第6位,如图11所示。

样品的采集是全部分析工作的基础,实践证明,采样误差常常大于分析误差。选择适当方法采集样品,并进行科学处理和保存,是保证监测质量的重要环节。

对SACLA装置的274篇成果论文,共尝试采用4个字段(引文、关键词、标题、学科)进行共现聚类,绘制出4张聚类图;经过对比后,认为基于引文字段(CR)的效果最好,可能与这种字段的聚类结果体现了文献耦合原理有关。进行可视化处理之前,使用LDA模型对论文标题进行分析,得到10个主题,其主要内容如表1所示(这里的主题数量需要人为干预和参数调试① LDA中topic个数的确定是一个困难的问题,我们尝试了10、15、20、25、30这几种topic数量,初步认为10种是最合理的划分结果。 )。

综上,本区绝大部分调查面积的土壤,其环境质量处于清洁状态,仅局部地段土壤环境质量为轻微污染,主要为Cd轻微超标。

在此基础上,应用gephi软件生成SACLA装置成果论文聚类图谱,如图12所示。图中每个节点代表一篇论文,节点上的数字对应于论文编号。节点的颜色深浅对应于LDA模型的不同主题。

从图12可以看出,不同的簇大致揭示了不同的研究主题,例如,某个簇对稀有气体的分析较多,某个簇关注镜片、光学系统、定时系统等装置子系统较多,某些簇主要关注激光器本身的性质和激光产生的原理,还有的簇则具有面向共同分析对象(等离子体、蛋白质、水)的特征。

图5 2012—2017年SACLA研究提案标题聚类结果

图6 2012—2014年SACLA研究提案标题聚类结果

图7 2015—2017年SACLA研究提案标题聚类结果

图8 SACLA日本研究提案标题聚类结果

图9 SACLA其他国家研究提案标题聚类结果

图10 SACLA成果论文数量变化趋势

图11 SACLA成果论文国别分布

3.3 装置成果施引文献分析

从时间趋势来看,SACLA研究成果的施引文献数量呈现快速上升态势,从2005年的1篇提升到2016年的423篇,年均增长率达到为82.0%,如图13所示。

在施引论文的国家分布中,美国、德国、日本分别以492篇、470篇和463篇位居前3位,占比均超过30%,构成施引论文产出国第一梯队。中国、法国、俄罗斯、英国、意大利的施引论文为100~160篇,与第一梯队有较大差距,如图14所示。

从2012年启用截至2017年底,SACLA装置共批准进行了351项实验提案(proposal)。2012—2016年,获批提案数量呈现增长态势,2016年达到峰值77项,但2017年提案数量降低到43项,低于2012年水平,如图3所示。

对SACLA装置成果的全部施引文献1542篇进行聚类分析,得到的结果如图15所示。

图15中10个簇的主题如下:

0簇有230篇论文,论文“766”和论文“28”占据该簇中心位置,该簇研究主要集中在:自由电子激光装置组成器件,涉及激光摆动器、波荡器、增益放大器等;极紫外自由电子激光装置;脉冲能量稳定性。其中论文“766”研究了低温波荡器,论文“28”对多色自由电子激光进行了研究。

两篇论文之间如存在“耦合关系”,则代表它们共同引用或参考了1篇或多篇文章,反映出这两项研究也许拥有共同的理论基础,或采用了同一种装置开展实验,或者受之前同一项研究结论的启发,或者将同一种研究方法应用到了两个不同的学科领域。因此,应用这种关系,可以进行“非相关文献知识发现”,揭示隐含、交叉、原本可能未知的信息。从WoS数据库中下载的论文数据中包括“CR”字段,代表该论文的所有参考文献,若两篇论文的CR字段中存在共现关系,则说明这两篇论文存在“文献耦合”关系。

1簇有146篇论文,研究主要集中在:晶体学,涉及序列飞秒晶体学、蛋白质纳米结晶学、生物大分子晶体学、电子晶体学、低温晶体学、结晶学、晶体结构分析;蛋白质结构测定,涉及蛋白偶联受体、P型ATP酶、金属蛋白、组织蛋白酶等。

表1 基于LDA模型对274篇SACLA装置成果论文的分类

图12 SACLA装置成果论文聚类图谱

图13 SACLA成果的施引论文数量变化趋势

图14 SACLA成果的施引论文国别分布

图15 SACLA装置成果施引文献聚类分析

2簇有153篇论文,研究主要集中在:高次谐波的产生;多光子非线性和超快电子原子分子的反应动力学及控制,涉及光电离能谱、光电子成像、电磁诱导透明性现象等;X射线量子光学,涉及量子纠缠、量子动力学、量子控制等。

3簇有109篇论文,研究主要集中在:X射线光子散射,涉及瑞利散射、康普顿散射、德尔布吕克散射;X射线吸收光频谱;X射线成像检测器;人类胚胎干细胞和多能干细胞的诱导。其中,论文“1537”占据该簇中心位置,以城市生活垃圾为研究对象,对X射线光谱测定进行了研究。

4簇有78篇论文,研究主要集中在:极紫外自由电子激光场中光子电离,涉及双光子双电离、单光子电离、多光子电离等;纳米粒子的X射线散射特征,涉及金属纳米粒子、聚合物接枝纳米颗粒、磁性纳米粒子等。

控制孕妈妈的体重增加速度首先控制饮食,也就是控制营养的摄入。说到营养,首先要控制的就是能量摄入,能量不是营养素,但营养素为人体提供能量,所以控制住总能量就等于控制住了总营养素。但是能量是看不见摸不着的东西,怎么才能知道能量是不是够呢?其实很简单:看体重!

5簇有66篇论文,研究主要集中在:光合作用、光合系统结构与反应机制。

6簇有159篇论文,研究主要集中在:X射线衍射成像,涉及多焦散射相干衍射成像、布拉格相干衍射成像、低温相干X射线衍射成像、多变量分析的相干X射线衍射成像等;X射线显微镜,涉及衍射显微镜、扫描透射软X射线显微镜、X射线解卷积显微镜等;X射线全息图。

7簇有257篇论文,研究主要集中在:光子原子电离动力学,涉及非弹性电子碰撞、角度分布、俄歇过程等;X射线自由电子激光辐射功率和脉冲能量的测量。

8簇有237篇论文,研究主要集中在:X射线自由电子激光器综述和未来发展规划或趋势;X射线自由电子激光器相关器件,涉及光束反射镜、单色器、表面轮廓仪、位置检测器等;X射线拉曼散射;二次谐波的产生;泵浦探针。

随着同步辐射光源和自由电子激光的发展,X射线量子光学得到越来越多的关注。施引文献聚类结果的第2簇中出现了多篇“X射线量子光学”相关论文,涉及量子纠缠、量子动力学、量子控制等。这些论文大多引用了1篇SACLA装置成果,即2013年发表在Journal of Modern Optics上的综述论文《X射线量子光学》[19]

3.4 装置在“预期-实际-扩展应用”链条的扩展情况

对比SACLA装置在3个层次的聚类图谱,可得到SACLA装置在3个层次上的应用主题,如表2所示。表2中部分应用主题在3个层次中反复出现,以“*”标记;部分主题属于上一个层次没有出现的新主题,以加粗格式标记。

北张店流域位于山西省长治市中西部,屯留县与沁县的交界处,地理位置为东经112°26′~112°37′,北纬36°15′~36°32′,最高海拔1 544 m,最低海拔976 m,平均海拔1 276.5 m,流域总面积270 km2。区域内地势北西南三面高、东部及中部低,水流由北西南向中部汇集,向东出境[12]。

表2 SACLA装置在3个层次上的应用主题对比

为进一步分析硬X射线自由电子激光的潜在应用方向,通过聚类图谱中的节点编号,找到对应的施引文献和装置成果论文,通过人工阅读方式,归纳出3种潜在应用主题,具体阐述如下。

3.4.1 人类胚胎干细胞和多能干细胞的诱导

在施引文献聚类结果(图15)的第3簇中出现了对人类胚胎干细胞和多能干细胞的诱导研究情况。其中,2013年美国加利福尼亚大学Chen等[16]研究证明了激光光散射法可以用于测定人类胚胎干细胞集落的质量。

经过对比原始数据集,发现该聚类结果对应2016年发表在期刊DNA Repair上的1篇论文:《XPA:人核苷酸切除修复的关键支架》[17],该论文总结目前对一种关键NER蛋白XPA结构和疾病相关突变的理解。但是,该论文全文并未出现对硬X射线自由电子激光相关的文本,而是引用了SACLA装置2014年的一篇装置成果《通过带Xe簇的太赫兹条纹相机在SACLA进行高精度X射线FEL脉冲到达时间测量》,该论文于2014年发表在期刊Optics Express上[18]。引用目的是说明过去近10年间X射线晶体学已经实现了许多关键的发展,可测定复杂结构蛋白如XPA和多蛋白复合物如NER切口复合物等。

3.4.2 X射线量子光学

对照组:常规术前检查、对症治疗、术后准备好各种抢救用品,为清醒患者适当抬高床头,观察患者意识改变、血压、脉搏等体征变化,监测切口引流液性质,一旦发现异常及时向医生反馈,及时处理。术后一周内是脑水肿高发期,遵医嘱为患者提供脱水治疗,密切关注患者体温变化。

9簇有107篇论文,研究主要集中在:光诱导结构变化动力学特性;相变材料电子激发运动特性;射频枪等。

值得指出的是,这篇论文的编号“204”在装置成果聚类图(图12)上也非常明显,是一个核心节点。硬X射线的自由电子激光使得高能光子的相干性有了质的飞跃,导致更加丰富的物理现象出现,如X射线集体自发辐射抑制(亚辐射)和降低系统的退相干、多光子所导致的量子纠缠、集体辐射(超辐射和亚辐射)、受激辐射、电磁诱导透明和鬼成像等;还可以探索高能光子的非经典表现,如压缩光、光子聚群与反聚群、退相干等现象和性质。位于施引结果聚类图(图15)的第2簇的论文“222”、“615”和“633”等对电磁诱导透明进行了相关研究。

其次,水利施工企业也要和市场经济接轨,对于工作成绩突出、业务能力强或管理能力强的人才,要不拘一格破格任用,同时要提高待遇,给他们提供施展才华的舞台,只有这样才能更好的吸引人才、留住人才,才能使企业的发展更稳更快。

“两高”《关于涉以压缩气体为动力的枪支、气枪铅弹刑事案件定罪量刑问题的批复》,要求需要结合枪支的致伤力大小、行为人的主观认知、动机等主客观因素,确保罪责刑相适应。可以说,这种规定既是回应、回归一般公众认知,也是对法益认识的转向。

3.4.3 城市生活垃圾的X射线光谱测定

施引论文聚类结果(图15)中,论文“1537”占据该簇中心位置,以城市生活垃圾为研究对象,对X射线光谱测定进行了研究。2008年,日本大阪市立大学[20]对X射线荧光光谱分析进行了综述,在应用部分提及瑞典EKA Chemical公司[21]使用同步辐射微区X射线荧光光谱法原位分析含镉相城市固体废物(MSW)和生物质飞灰中镉的分布。目前中国已开展了相关研究。中国科学院上海应用物理研究所[22]利用XANES技术分析了原生垃圾(厨余)、焚烧产物飞灰和炉渣、焚烧厂烟气排放沉降点的大气颗粒物中的S、Cl等的化学形态,利用SRXRF和ICP-MS等技术分析元素的浓度。

4 研究结论

本文以日本SACLA装置为例,在实验提案、科学成果、成果施引论文3个层面上进行主题聚类分析,发现硬X射线自由电子激光装置在“预期-实际-潜在扩展”3个层次上,应用主题既有延续性,又在每两个层次之间有所扩展。因此,本文提出的大科学装置“预期-实际-扩展应用”链式模型能够在一定程度上用于揭示大科学装置的未知、潜在应用方向。

此外,根据对SACLA装置的分析,还可以得出以下关于大科学装置管理运行、成果转化等的结论。

第一,SACLA的实验提案中,绝大多数来自日本(特别是其管理运行机构日本理化研究所)。因此有理由相信,大科学装置的管理运行国家和机构在装置的利用上占据优势地位。

第二,SACLA的科学提案聚类结果和成果论文的聚类结果在主题上具有一致性,但成果论文的聚类主题更加丰富。因此有理由相信,大科学装置的实验提案可以在一定程度上影响科研产出的主题;另一方面,科学家利用大科学装置做出的研究成果,可能有一部分是出乎最初实验设计的预料外的。对比两类数据的聚类图,可以直观呈现和分析这些“预料之外”的应用主题。

第三,SACLA科学成果的施引论文的聚类结果呈现了比装置成果论文聚类结果更加丰富的主题。许多研究主题属于对装置应用领域的扩展,或属于从基础研究向产业、社会经济的应用转移转化,例如将X射线光谱测定手段用于城市垃圾研究等。这也可以对我国硬X射线自由电子激光装置的未来运行管理者、利用装置开展实验的科学家,乃至更多其他原本并不关注硬X射线自由电子激光装置的研究者和产业界人员提供参考。

5 研究局限性与不足

首先,本文中的聚类图谱仅能作为一种索引,提示那些可能与其他论文耦合度较强的“中心节点”型论文,但这些论文是否真正揭示了隐含、交叉、潜在的装置应用方向,还需要结合底层数据进行详细分析。

其次,本文基于CR字段的共现聚类方法严重受到论文数量的限制。当论文数量较少时,论文字段之间的相关性较弱,难以通过图示方法得到有意义的聚类图,因此对于LCLS装置的7个仪器成果并未进行分别聚类,而是将7个仪器的全部983篇论文在一起进行聚类分析。当论文数量较多时,N*N的相似度计算工作量呈2次方增大,且图谱的显示过于密集,难以进行有意义的展示和解读。

最后,无论是在利用DDA软件进行文献计量分析,还是根据CR字段的共现聚类生成图谱时,都面临从WoS数据库及装置官网上下载的论文字段存在缺失的情况,而且应用不同软件分析时字段缺失的部分并不完全一致,需要进行分别数据清洗和剔除。因此,本文的文献计量分析与聚类分析两部分分析中,存在论文总数不一致的问题。

致谢 本文作者向中国科学院文献情报中心张晓林研究员在方案设计、数据分析过程中给予的指导表示衷心感谢!

参考文献

[1] 中国科技部.大科学装置前沿研究重点专项正式启动实施[EB/OL].[2016-11-23].http://www.most.gov.cn/kjbgz/201611/t20161123_129092.htm.

[2] 黄辛.硬X射线自由电子激光装置启动建设[N/OL].中国科学报.(2017-12-19)[2019-02-10].http://news.sciencenet.cn/htmlnews/2017/12/397520.shtm.

[3] European Strategy Forum on Research Infrastructures.Strategy report on research infrastructures roadmap 2016[EB/OL].[2016-03-24].https://www.esfri.eu/roadmap-2016.

[4] Australian Government.2016nationalresearch infrastructure roadmap[EB/OL].[2017-02-21].https://docs.education.gov.au/system/files/doc/other/ed16-0269_national_research_infrastructure_roadmap_report_internals_acc.pdf.

[5] Abt H A.Scientific efficiency of ground-based telescopes[J].The Astronomical Journal,2012,144(4):91.

[6] Apai D,Lagerstrom J,Reid I N,et al.Lessons from a high-im‐pact observatory:The hubble space telescope's science productiv‐ity between 1998 and 2008[J].Publications of the Astronomical Society of the Pacific,2010,122(893):808-826.

[7] 冷伏海,赵庆峰,周秋菊.中美科研实力比较研究:基于《2016研究前沿》的分析[J].中国科学基金,2017,31(1):48-65.

[8] 陈超美,陈悦,侯剑华,等.CiteSpaceⅡ:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009,28(3):401-421.

[9] Wu Q Q,Zhang H B,Lan J.K-State automaton burst detection model based on KOS:Emerging trends in cancer field[J].Journal of Information Science,2015,41(1):16-26.

[10] 胡秀芳,赵军,查书平,等.生态安全研究的主题漂移与趋势分析[J].生态学报,2015,35(21):6934-6946.

[11] 杨超,朱东华,汪雪锋,等.专利技术主题分析:基于SAO结构的LDA主题模型方法[J].图书情报工作,2017,61(3):86-96.

[12] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[13]wind_blast.LDA主题模型原理解析与python实现[EB/OL].[2016-12-22].https://blog.csdn.net/wind_blast/article/details/53815757.

[14]RIKEN SPring-8 Center.SACLA homepage[EB/OL].[2019-01-31].http://xfel.riken.jp/eng/.

[15]本刊编辑部.X射线自由电子激光试验装置[J].中国科学院院刊,2015,30(Z2):94-103.

[16]Chen C S,Biasca M,Le C,et al.Determine the quality of human embryonic stem colonies with laser light scattering patterns[J].Biological Procedures Online,2013,15(1):2.

[17]Sugitani N,Sivley R M,Perry K E,et al.XPA:A key scaffold for human nucleotide excision repair[J].DNA Repair,2016,44:123-135.

[18] Juranić P N,Stepanov A,Ischebeck R,et al.High-precision X-ray FEL pulse arrival time measurements at SACLA by a THz streak camera with Xe clusters[J].Optics Express,2014,22(24):30004.

[19]Adams B W,Buth C,Cavaletto S M,et al.X-ray quantum optics[J].Journal of Modern Optics,2013,60(1):2-21.

[20]Tsuji K,Nakano K,Hayashi H,et al.X-ray spectrometry[J].Ana‐lytical Chemistry,2008,80(12):4421-4454.

[21]Camerani M C,Somogyi A,Vekemans B,et al.Determination of the Cd-bearing phases in municipal solid waste and biomass sin‐gle fly ash particles using SR-μXRF Spectroscopy[J].Analytical Chemistry,2007,79(17):6496-6506.

[22]曹玲玲.基于同步辐射技术研究城市生活垃圾焚烧中元素的迁移转化及其对环境的影响[D].上海:中国科学院研究生院(上海应用物理研究所),2015.

The“Expected-Actual-Extended Application”Chain Model,and an Empirical Study of Large Scientific Facilities,Taking SACLA as an Example

Guo Shijie1,2,Wang Xuezhao1,Han Tao1,Wei Ren1,Dong Lu1,Li Yizhan1and Li Zexia1,2
(1.National Science Library,Chinese Academy of Sciences,Beijing 100190;2.Department of Library,Information and Archives Management,School of Economics and Management,University of Chinese Academy of Sciences,Beijing 100049)

Abstract: To reveal the potential applications of large scientific facilities,topic analyses on three levels(conceived appli‐cation,actual application,and extended application)are proposed,using three kinds of data(experimental research propos‐als,scientific results,and citations in papers),with the analysis process including natural language processing,co-occur‐rence clustering,and bibliographic coupling.On this basis,an“expected-actual-extended application”chain model of large scientific facilities is summarized.The Spring-8 Compact Free Electron Laser(SACLA),a Japanese hard X-ray free electron laser,is studied as an example.The potential applications of SACLA in various scientific and technical fields are then discussed.

Key words: cluster analysis;citation analysis;large scientific facility;experimental proposal;SACLA;scientific out‐comes

DOI: 10.3772/j.issn.1000-0135.2019.11.007

收稿日期: 2019-05-07;

修回日期: 2019-09-13

基金项目: 中国科学院文献情报能力建设专项“科技领域战略情报研究与决策咨询体系建设——重大科技基础设施”(Y8C0381005-03);中国科学院文献情报中心青年人才创新团队项目“科研设施信息抽取”(G180141001)。

作者简介: 郭世杰,男,1989年生,博士研究生,助理研究员,主要研究领域为光电空间科技情报;王学昭,女,1978年生,博士,副研究员,硕士生导师,主要研究领域为知识产权情报;韩涛,男,1980年生,博士,研究员,硕士生导师,主要研究领域为智能情报方法与技术;魏韧,男,1979年生,硕士,助理研究员,主要研究领域为天文学领域科技情报;董璐,女,1988年生,硕士,助理研究员,主要研究领域为科研仪器情报;李宜展,女,1988年生,博士,助理研究员,主要研究领域为空间光电与重大科研设施情报;李泽霞,女,1977年生,博士,副研究员,硕士生导师,主要研究领域为重大科技基础设施领域情报,E-mail:lizexia@mail.las.ac.cn。

(责任编辑 魏瑞斌)

标签:;  ;  ;  ;  ;  ;  ;  ;  

大科学装置“预期-实际-扩展应用”链式模型及其实证研究-以日本SACLA装置为例论文
下载Doc文档

猜你喜欢