基于时间序列分析法的ESI前1%学科入围时间预测模型论文

基于时间序列分析法的ESI前1%学科入围时间预测模型

朱文佳,朱 莉

(复旦大学图书馆,上海 200433)

摘 要: [目的/意义]预测ESI前1%学科入围时间对于各个研究型机构把握学科发展全局有很高的价值,也是高校图书馆非常重要的学科服务内容。文章介绍了一种预测模型,先用误差修正因子消除不同数据库被引频次的差异,然后分别对机构被引频次时间序列和ESI入围阈值时间序列进行预测,得到两条时间序列及其预测值曲线的交点,交点之后的第一个ESI更新时间即为入围时间。[方法/过程]文章采用时间序列分析法,用ARIMA模型拟合目标机构ESI被引频次预估值时间序列,用温特斯季节指数平滑模型拟合ESI入围阈值时间序列。[结果/结论]以复旦大学经济与商学为例进行实证研究,结果预测模型在两个时间序列上都有较高的拟合度,得出的入围时间预测值可信度较高。

关键词: ESI;时间序列;潜力学科;InCites;Web of Science;预测模型

ESI数据库是科睿唯安出品,基于SCI和SSCI建立的计量分析数据库,共分为22个学科领域,每篇论文唯一分配到一个学科。ESI数据库根据某学科发文的总被引频次对机构进行排名,排在前1%则代表该机构在该学科上进入了排名,即ESI学科入围。目前国内有27所机构ESI入围学科数量达到10个。进入ESI前1%甚至达到更靠前的排名,对各个研究型机构来说都是学科发展的重要目标。不少高校将ESI学科入榜数量写入学科发展计划。如果能根据高校某学科发文被引频次的增长速度来预测其ESI前1%入围时间,对于高校把握学科发展全局并合理分配资源有很高的价值。

1 研究背景

由于ESI数据库只提供入围机构的发文量与被引频次等信息,未入围机构在ESI数据库中的相关数据是无法直接获取的,预测未入围机构的学科入围时间,首先要攻克这个难题。目前只能通过未入围机构在InCites数据库或者WoS数据库中同样时间段内的总被引频次,来预估该机构在ESI数据库中的被引频次,然后与最末位入围机构(阈值机构)的被引频次比较,获得入围差距。通过历史入围差距序列,预测未来的入围差距,入围差距缩小到0的时间,即为ESI前1%学科入围时间,这是本研究所阐述的预测模型的基本思路。

1 .1 ESI 数据库、InCites 数据库与WoS 数据库中被引频次存在差异的原因及修正方法

ESI数据库并不是实时更新的,并且与InCites数据库以及WoS数据库的更新时间存在一定差距。尽管科睿唯安公司一直在努力缩小ESI数据库和InCites数据库更新时间上的差异,但一般情况下InCites的数据更新时间比ESI晚一些,覆盖的数据范围更近一些,一般近1~2个月[1]。ESI数据库2个月更新1次,截至本研究采集数据的时间(2019年1月24日),ESI数据库已更新到2019年1月,而InCites只更新至前一年的被引频次[2]

除了更新时间不同以外,被引数据的范围也是导致不同数据库被引频次差异的一个重要原因:ESI数据库论文数来自于SCI-E和SSCI,被引数据来自于SCI-E,SSCI和A&HCI三个数据库被引次数之和[1];InCites数据库的论文数和被引数据库均来自于SCI-E,SSCI,A&HCI,CPCI-S,CPCI-SS&H,BKCI-S,BKCISSH 7个数据库索引[1];WoS数据库的被引数据库范围更广,数据更新时间相较于其他两个数据库也更为及时,被引频次一般要大于ESI数据库及InCites数据库。

杨武亮等[11]对金缕梅科的半枫荷进行了原植物考证、植物形态、生药性状、显微特征及化学成分预试等方面的研究,同年彭余开等[12]也对半枫荷的根、茎、叶的性状特征及显微组织、粉末特征进行了详细描述,这些研究为半枫荷的品种鉴别、资源开发利用和临床用药提供了科学依据。

2.2.1 ARIMA预测模型 时间序列模型最早是在博克斯与詹金斯所著的《时间序列分析:预测与控制》中被提出的[15]。常用的时间序列模型有4种:自回归模型AR(p )、移动平均模型MA(q )、自回归移动平均模型ARMA(p ,q )、自回归差分移动平均模型ARIMA(p ,d ,q ),可以说前三种都是ARIMA(p ,d ,q )模型的特殊形式[16]

从图4中可以明显看出,随着毛鸡只重的不断增加,肉鸡主产品出成在不断增加。毛鸡重量自4.31×500g增加到5.91×500g的过程中,主产品出成增加了0.09%,即:一只4.31×500g的毛鸡要比一只5.91×500g的毛鸡少出0.61kg主产品。

对于如何修正ESI数据库、InCites数据库与WoS数据库之间的差异,已有不少研究提出了一些方法。顾东蕾等(2014)使用WoS数据库的数据,用SPSS对目标机构在某学科的各年被引频次以及该学科入围机构排名最后一位的各年被引频次进行成对样本检验,观察其显著性差异,避免使用不同数据库的数据而产生误差[2]。秦萍等(2015)认为InCites可以获取整10年的数据,而ESI的统计范围一般为10.5年,因此用公式ESI门槛值(修正)=ESI门槛值*10/10.5来修正ESI入围最低被引频次[4]。侯志江(2018)通过“排名转换系数”直接从InCites数据库中得到学科的ESI模拟排名,并发现排名转换系数的分布近似正态分布,同时呈现较强的中心聚集度,因此取样本平均值具有较好的总体代表性,可以在一定程度上揭示ESI排名和InCites排名之间的转换关系[3]。程建萍等(2018)针对22个学科在ESI数据库和InCites数据库的数据偏差进行统计分析,选取了22个学科入围ESI数据库被引次数最低的100家机构作为样本,计算出22个学科误差修正因子[1]

这一瞬间,宴姝似乎触碰到了现代与过去、渺小与伟大之间一条淡淡光影。也许,伟大的建筑庇荫过一个个王朝,也经历过更迭、兴衰和破败。但无论历史的晨钟暮鼓带来多少斑驳沧桑,在每个渺小个体的守护之下,它们终能一如初见、一如往常。

根据这些研究可以认为:只要有一定数量的样本,使用转换系数或者修正因子的平均值,来推测未入围机构的ESI数据,是具有一定准确性的。本研究定义两类修正因子:

ESI/InCites修正因子i 平均值=

(1)

ESI/WoS修正因子i 平均值=

(2)

1 .2 ESI 学科预测相关研究及存在的问题

ESI学科预测相关研究主要分为两个部分,一部分研究致力于识别机构的潜力学科以及衡量潜力学科上目标机构与入围机构之间的差距大小:陈仕吉等(2012)提出学科欠缺度指标P ,即某学科论文被引频次与ESI入围机构最低被引频次的差除以本学科被引频次。这个指标衡量了机构在某个学科与ESI引文排名中引文指标的差距,P 值越小则说明进入ESI排名的可能性就越大[5]。董政娥等(2013)提出学科比重指标Q ,该指标被定义为某学科论文InCites被引频次与跟踪采集的ESI数据库引文分析部分Baselines (基准线)中Field Rankings功能下22个学科的总被引频次的比值。学科比重Q 值越大则表示该学科进入ESI世界前1%的可能性越高[6]。秦萍等(2015)通过InCites数据库统计相关学科近10年的论文数量及总被引频次,并与ESI入围机构最低被引频次进行比较,计算出相关学科与世界前1%科研机构的相对差距,从中选取具有代表性的潜力学科[4]。韩丽等(2017)提出学科潜力值指标,即通过计算某一机构在某一学科的实际被引频次与ESI阈值之间的比值,来判断其未来的潜力值[7]。汪莉(2017)指出之前这些指标只考虑了对象被引频次是否接近入围阈值,但是文献获得的引用不单是数量积累,还包括引用数量在空间上的分布频度,因此引入学科EV值指标和相对引用指标将学科被引频次的空间分布特征纳入算法体系[8]

以上这些研究都没有对ESI与InCites之间的统计差距进行修正,在同等条件下比较不同未入围机构的入围潜力没有问题,但是要预测具体的入围时间,不同数据库之间的统计差异就会带来很大的影响。

另一些研究对可能入围的ESI学科进行了预测:董政娥等(2013)根据学科比重Q ,将东华大学的学科划分为5个区间,同时考虑各学科高被引论文及热点论文的分布,对东华大学学科进入ESI学科排名世界前1% 的大致先后顺序进行了预测[6]。顾东蕾等(2014)通过统计学方法验证中国药科大学临床医学学科与该学科入围倒数第一到倒数第17位的机构的被引频次并无差异,从而可以判断该学科马上能入围[2]。秦萍等(2015)用灰色系统预测方法对发文量时间序列进行预测,然后乘以篇均引用次数,得到总被引频次,再与ESI门阈值(假设其不变的情况下)进行比较,对南京航空航天大学的潜力学科入围时间进行了预测[4]。管翠中等(2016)首次提出了一个具体入围时间的预测模型,给出一种基于曲线拟合的方法,比较清华大学药理学与毒理学总被引频次的变化曲线与该学科最末10位入围机构的平均值曲线,两条曲线交点对应的时间即为入围时间[9]。汪莉(2017)根据相对引用指标的大小对南京师范大学的潜力学科入围快慢进行了预测[8]

以上这些研究在算法或模型中都没有考虑入围机构数量以及入围阈值的变化情况。赵庆华(2018)也对目前ESI前1%学科入围时间预测相关研究存在的问题作了总结,提出了入围机构数量变动、入围阈值变动、入围竞争者变化、预测误差产生原因(选取的入围末位机构数量大小、ESI学科归属错误、作者单位不规范等问题)等因素,都会降低预测结果的准确度[10]。以上这些研究,大部分只预测了潜力学科入围的快慢,只有管翠中等的研究预测了具体的入围时间。根据赵庆华的文献检索和总结,很多相关学者(包括党亚茹[11]、吴志红[12]、左文革[13]等)讨论了ESI学科的评价问题,但是没有涉及ESI前1%学科入围时间预测的话题,并且根据其检索结果,2017年2月前没有外文文献讨论ESI前1%学科入围时间预测问题[10]。笔者以ESI入围时间或ESI预测等关键词进行深入检索并查看了相关文献的参考文献及引证文献,截至目前,预测具体入围时间的文献仍旧较少。

因此还需进行如下步骤:将出版年在2008—2018之间的论文WoS入藏号用OR连接,进入WoS数据库核心合集检索,再使用引文分析功能得到这批论文在2018年底之前获得的被引频次,用同样方法可以得到2007—2017、2006—2016、…、1998—2008年间出版的论文在2017年底、2016年底、…、2008年底获得的被引频次。复旦大学经济与商学学科在1998年前的SCI/SSCI发文量极少,因此本研究的数据统计只追溯到1998年。然后将这个序列乘以0.7242(复旦大学经济与商学的ESI/WoS修正因子),得到复旦大学经济与商学ESI被引频次预估值时间序列,如表5所示。

2 建立ESI 学科入围时间预测模型

2 .1 数据采集方法及时间序列的建立

ESI数据来自笔者定期采集的历史数据,这里使用2015—2019年更新的25期数据作为历史样本。ESI数据库最新一次更新时间为2019年1月18日,数据覆盖的时间范围为2008年1月1日至2018年10月31日,将近11年。ESI每年5月更新的数据会剔除最早一年的发文,数据覆盖的时间范围回到10年,如此循环往复,ESI数据库的数据覆盖范围会在10~11年间波动。一般年底与年初更新的数据覆盖范围都接近11年,本研究将每年年底作为时间序列的关键时间节点,因此为保持一致,InCites与WoS采集的数据时间范围也设定为近11年。ESI数据库每年更新6次,这次是2018年数据的第5次更新。其中最新一期的ESI被引频次作为修正因子的计算依据,各学科25个历史时间节点的入围机构最低被引频次(定义为入围阈值)形成的时间序列,将作为预测未来入围阈值的依据。

InCites数据库只能获得一个论文集合截至目前的总被引频次,无法获取它们在某历史时间节点的总被引频次,因此采集InCites数据不用考虑历史数据,时间范围只要与最新一期ESI保持一致即可,选定ESI学科分类,限定时间周期为2008—2018年,文献类型限定为Article和Review。InCites数据中的被引频次仅作为修正因子的计算依据。

对最新一期(2019年1月更新)ESI数据中的机构名与InCites的机构名进行规范化并匹配。目前ESI数据库的机构名大部分与InCites保持一致,还有一部分ESI机构名由多个有从属关系的机构组成,中间用逗号分隔,将这部分机构名进行分割后取层级最低的机构与InCites进行匹配。各ESI学科匹配上的机构占比见表1,可以发现所有ESI学科的可用机构占比(除临床医学以外)都超过96%,样本量都足够大。临床医学的可用机构占比低,是由于两个数据库的医院或者医学院的机构规范方式差异较大,还有部分医院或者医学院在InCites中没有相关数据。对于这些匹配上的机构,计算ESI/InCites修正因子。以经济与商学学科为例,用最新一期所有机构的ESI/InCites修正因子建立箱型图,如图1所示,可以看到大部分修正因子都集中在0.9附近。可对每个学科分别使用箱型图异常值检测法[14],四分位距(IQR)=上四分位数(Q3)-下四分位数(Q1),将ESI/InCites修正因子高于上限(Q3+1.5*IQR)或低于下限(Q1-1.5*IQR)的数据视为异常值。如果一个机构在某个学科的ESI与InCites被引频次差距太大,可能是由于两个数据库的规范机构名不同而导致的数据统计错误。

通过WoS数据库中的引文分析功能,可以得到一篇论文或者一个论文集合每年获得的引用次数(按照引证文献的出版年来统计),这里区别于其他数据库给出的被引频次分年统计数据(按照论文本身的出版年来统计),可以帮助我们推算过去某个时间节点的近11年发文总被引频次,并使用这些历史数据预测未来某个时间节点的近11年发文总被引频次。

WoS数据库不提供ESI学科分类,要通过InCites数据库确定论文的ESI学科归属。以2018年底这个时间节点为例,从InCites数据库中获得某机构在某ESI学科2008—2018年发表的论文的WoS入藏号集合,用运算符OR连接这些入藏号,在WoS核心合集中选择入藏号检索,再使用WoS的引文分析功能,得到这个论文集合2008—2018每年获得的WoS被引频次,加总得到2018年底时的近11年WoS总被引频次,再乘以ESI/WoS修正因子,得到2018年底时的近11年ESI总被引频次的预估值。使用上述方法,可得到2017年底、2016年底、2015年底……的近11年ESI总被引频次的预估值并建立时间序列,从而预测目标机构2019年底时的近11年ESI总被引频次,再与2019年底(一般2020年初更新)ESI入围机构最低被引频次(入围阈值)的预测值作比较,前者大于后者,则2020年初ESI数据库更新时该机构能够入围,反之则仍旧无法入围。

表1 ESI数据库最新一期(2019年1月更新)数据中的有效数据情况

注:可用机构指ESI排名中规范化后能在InCites中查询到的机构,即两个数据库中机构规范名一致的机构。异常值指使用箱型图异常值检测法检测出的ESI/InCites修正因子异常值。可用机构中剔除异常值的数据为有效数据。

图1 经济与商学的ESI/InCites修正因子箱型图

如果使用上述方法获取所有ESI数据库中的机构的WoS被引频次(2008—2018年),工作量十分庞大。笔者在实证分析中使用倒数15位入围可用机构的ESI/WoS修正因子平均值,与通过ESI/InCites修正因子平均值推算得到的ESI/WoS修正因子进行对比,验证了后者具有一定准确度,这样就可以避免使用所有可用机构的ESI/WoS修正因子平均值来推算未入围机构的ESI被引频次。本研究使用的目标机构学科i 的ESI/WoS修正因子推算公式如下:

目标机构的ESI/WoS修正因子i =

目标机构InCites被引频次(2008—2018)×

最新一期ESI/InCites修正因子i 平均值÷

目标机构WoS被引频次(2008—2018)

(3)

2 .2 时间序列预测法

另外不同数据库对于机构名的规范方法也不同:ESI直接从文献中提取机构名称,通常采用缩写的形式,对于大学系统、政府机构和企业的名称规范性较差[1]。而InCites和WoS使用一个人工规范化后的“统一机构名”集合(在WoS中称为机构扩展),不在该集合内的机构不作统计,因此偶尔会出现在ESI排名中的机构在InCites或WoS中查询不到的情况[3]。这里笔者将ESI排名中规范化后能在InCites中查询到的机构,定义为可用机构,即在这两个数据库中规范机构名一样的机构。

将复旦大学作为目标机构,经济与商学作为目标学科,ESI入围倒数15位可用机构的修正因子计算结果如表4所示。

X t =c +φ 1X t-1 +φ 2X t-2 +…+φ p X t-p +

u t1u t-1 +θ 2u t-2 +…+θ q u t-q

(4)

式中,参数c 是常数;u t ,u t-1 ,u t-q …是X t 的随机误差项,是均值为0、方差为σ 2的白噪声序列;p 为自回归模型阶数,q 为移动平均模型阶数[17]

有些有机溶剂具有强极性,对纤维素具有润胀作用,能够促进纤维素的溶解。在纤维素催化转化制备5-HMF的反应中,使用有机溶剂体系时无需加入无机酸,反应周期较短,产物便于处理,因此有机溶剂体系可作为制备5-HMF的溶剂体系。

交互式教学法是在支架式教学理论的基础上发展起来的一种教学模式。随着虚拟现实技术的发展,VR技术等已经具备运用到导游讲解课堂上的条件。虚拟现实技术的主要特点是其超文本性和交互性,这就为交互式教学法拓宽了新的领域,使其得到进一步的发展和创新。

ARIMA预测模型的建立可分为以下几个步骤:①时间序列平稳性检验,若不平稳则需确定差分阶数d 。②确定自回归阶数p 和移动平均阶数q ,一般观察时间序列的自相关图(ACF)和偏相关图(PACF),根据表2[16]初步判断模型的p 和q 。③模型检验与预测。模型检验包括:检验模型参数的估计值是否显著,检验残差序列是否为白噪声序列。然后根据拟合效果的指标平均误差率(MER)来判断模型的拟合度,误差率=(预测值-实际值)/实际值,如果观测值均在拟合值95%可信区间范围内,则表示预测效果较好[19]

表2 ARMA(p ,q )模型选择原则

2.2.2 温特斯季节指数平滑模型 另外一种时间序列模型是温特斯季节指数平滑模型,是由P.R.温特斯把具有季节变动、线性趋势和不规则变动的时间序列进行因素分解而提出的[20]。这是一种考虑季节变动因素的指数平滑法,温特斯季节指数平滑模型的三个基本公式为:

(5)

T t =γ (S t -S t-1 )+(1-γ )T t-1

(6)

(7)

式中,S t 是不含季节变化的时间序列指数平滑平均数;α 为水平参数;T t 是时间序列变化趋势的指数平滑平均数,反映了平滑时间序列的变化趋势;γ 为趋势参数;I t 是季节因子的指数平滑平均数;δ 为季节参数;L 指同一季节相隔的长度,当以月为单位时L =12。α 、γ 、δ 这三个参数都是介于0~1之间,对这三个参数进行参数估计以后,就可以用以下的预测公式来计算预测值:

“养成性的实践教学”对职前、职后一体化的教师教育具有多方面的启示。例如,无论是师范生学习还是教师在职培训,都需要培养教师关键素质中的情智结构:促进师生和谐交流的心理品质——“热情和同情心”;在充满心理冲突与情感碰撞的教育情境中,摆脱失败的阴影,淡化成功与荣耀的虚妄,保持平和朴实的职业心境的自我力量——“情感成熟品性”;互换心理位置,敞开心扉走进学生心理世界的移情能力;衣着得体、语言健康幽默、举止文明礼貌的仪表仪容等。这些品性,是支撑优质教学的重要基础,需要教师用一生去涵养。

F t+m =(S t +mT t )I t-L +m

(8)

式中,m 为预测的时间距离现在时间的间隔。

2 .3 预测模型建立流程

经过数据采集,ESI数据被用来计算修正因子以及构建ESI入围机构最低被引频次(入围阈值)时间序列,InCites数据被用来计算修正因子以及识别论文所属学科,WoS数据乘以修正因子后得到ESI被引频次预估值时间序列,具体预测模型的建立流程如图2所示。

在古西域,“五铢”钱的流出不仅成为了古西域地区流通使用的主要通货,其本身所蕴含的中原文化信息——文字、形制、名称、币材等,很快被西域各族及中亚、南亚各国人民所熟识、欣赏和模仿,自觉、不自觉地被吸收融入到他们各自的货币文化体系中,促进了西域地区货币文化的融合发展,使货币中蕴含的文化因素呈现出更加多样性。最明显的例子是西域、中亚等地铸造的带有明显东西方货币文化交融特点的货币。比如古于阗国铸造的汉佉二体钱(和田马钱)、汉文钱,古龟兹国铸造的汉龟二体钱,中亚粟特地区发现的汉粟二体钱等等。

图2 基于时间序列分析法的ESI前1%学科入围时间预测模型

3 实证分析

3 .1 修正因子的计算

用最新一期(2019年1月更新)的ESI被引频次以及同一时间获取的InCites数据库中的2008—2018年总被引频次,计算得到所有可用机构(剔除异常值)的ESI/InCites修正因子平均值,以及倒数15位入围可用机构(剔除异常值)的ESI/InCites修正因子平均值,如表3所示。对比可以发现,几乎所有学科中两者差距都不大。

春小麦新品系丰产性及增产途径分析……………………………… 崔国惠,叶 君,吴晓华,王小兵,于美玲,付雅琼,李元清(1)

其中修正因子<0.9的学科共有3个,分别为工程学、计算机科学和物理,这个结果,与程建萍等(2018)的研究中每个学科使用排名倒数的100个机构计算的结果比较相符,该研究认为导致这些学科误差修正因子小于0.9的主要原因是:这些学科的论文被引数据来自于CPCI-S,CPCI-SS&H,BKCI-S,BKCI-SSH相对较多,其中计算机学科的会议论文较多,且被引数据来自于CPCI-S也相对较多[1]。经济与商学在程建萍等的研究结果中修正因子也小于0.9,而在本研究中略大于0.9,这可能是由于两者数据的时间范围不同,程建萍等的研究中最新一期ESI数据覆盖范围是10年零4个月,本研究中是10年零10个月,两个研究使用的InCites数据覆盖范围都是11年,因此本研究中的ESI数据与InCites数据的比值会大一些。

2.2.3 协助患者体位变化与指导 ①首先置患者于舒适去枕平卧位,并于穿刺时指导患者腹式呼吸和呼气末屏气,切勿用力咳嗽、深呼吸及摆动身体等,以防穿刺针误入肺脏和/或锁骨下动脉,造成气胸或血气胸。②电极植入心腔后,护士应协助医师用起搏系统分析仪认真测试各项起搏参数,帮助患者翻身,嘱患者用力咳嗽、深呼吸等动作,以检验电极嵌顿的牢固性,防止电极脱位,证实参数不变后,方可固定电极。

表3 各ESI学科ESI/InCites修正因子

ARMA(p ,q )的通式为:

从表4可以看到,ESI与InCites在排名以及论文数上差距不大,被引频次的差异还是主要来自于被引数据的统计范围不同、统计的时间范围不同以及论文机构规范名设定方法存在差别。计算得到倒数15位入围可用机构的ESI/InCites修正因子的平均值为0.9041。通过机构名在InCites数据库中查询到它们在经济与商学学科发表的论文的具体WoS入藏号,将出版年在2008—2018年的入藏号用OR连接起来,进入WoS核心合集检索,使用WoS的引文分析功能得到这些论文在2008—2018年的WoS总被引频次,然后计算得到倒数15位入围可用机构的ESI/WoS修正因子的平均值为0.7205。

表4 经济与商学学科修正因子(基于倒数15位可用机构)

目标机构复旦大学在经济与商学的InCites被引频次(2008—2018)为4477,WoS被引频次(2008—2018)为5612,使用ESI/InCites修正因子推算可得复旦大学经济与商学的最新ESI被引频次为4477*0.9041=4048。使用公式(3)可以推算复旦大学经济与商学的ESI/WoS修正因子为4048/5612=0.7213,这个数值与倒数15位入围可用机构的ESI/WoS修正因子平均值0.7205差距很小。因此使用公式(3)计算得到的复旦大学经济与商学的ESI/WoS修正因子可以替代所有入围可用机构的ESI/WoS修正因子平均值,后者在数据获取上工作量十分庞大。

可以用ARIMA模型拟合的时间序列必须是平稳的,否则要通过差分等方式先将序列平稳化[18]。假设y t 是d 阶单整序列,记作I (d )。如果时间序列{y t }经过d 次差分后成为一个平稳序列,则称原时间序列是一个p 阶自回归、d 阶求整、q 阶移动平均过程,记作ARIMA(p ,d ,q ),d 代表差分的次数[16]

大部分学科的时间序列都带有明显的季节周期性特性,这是由于每年5月ESI数据库更新时会剔除最早一年的发文,例如2018年3月更新的数据覆盖范围为2007年1月1日到2017年12月31日,到了2018年5月更新时数据覆盖范围变为2008年1月1日到2018年2月28日,数据起始日期差了一年,结束日期仅差了两个月,覆盖时间范围大幅度缩小,总被引频次都会明显下降。

3 .2 复旦大学经济与商学ESI 被引频次预估值时间序列及预测结果

使用InCites数据库下载1980—2018年复旦大学经济与商学学科的论文,论文类型限定在Article和Review。然而InCites数据库中这些论文的被引频次不是笔者需要的数据,只有WoS数据库的引文分析功能可以给出论文每年获得的被引频次,而InCites只提供论文到目前的总被引频次。本研究需要获得过去某个时间节点的被引频次,这个数据才是与未来某个时间节点的被引频次在同等条件下产生的,都是当年年底的近11年总被引频次,符合ESI数据库的统计范围。

总结而言,这些问题最终都可以归结为——未来入围机构最低被引频次(入围阈值)存在很大的不确定性。笔者认为只要有入围阈值的历史数据,就可以直接使用统计学的预测方法来预测未来的入围阈值,不管入围机构数量以及竞争者数量如何变化,最终决定目标机构是否能入围的是目标学科的入围阈值,只要预测未来某个时间节点目标机构在目标学科上的被引频次以及目标学科的入围阈值,比较两者,就可以判断目标机构在这个时间节点是否能入围。而通过修正因子,把WoS被引频次转化为ESI被引频次预估值,就可以解决不同数据库之间存在差异的问题。

使用SPSS 20.0版本,录入复旦大学经济与商学ESI被引频次预估值时间序列以后,使用时间序列预测中的专家建模器功能,得到最优的预测模型为ARIMA(0,2,0),并计算出预测值、置信区间下限(LCL)和置信区间上限(UCL)。从表5可以看到,除了2010年底的预测值与实际值之间的误差率较高以外,之后的误差率都较小,尤其近几年,实际值均在预测值95%可信区间范围内。该预测模型的拟合统计值:平稳R 2=9.992E-16;R 2=0.995,说明模型的拟合度较好。拟合曲线见图3。

表5 复旦大学经济与商学ESI被引频次预估值时间序列及预测结果

图3 复旦大学经济与商学ESI被引频次预估值时间序列预测模型拟合曲线

3 .3 经济与商学ESI 入围机构最低被引频次(入围阈值)时间序列及预测结果

笔者定期收集了每次ESI数据库更新的历史数据,更新时间范围从2015年1月到2019年1月,形成各学科ESI入围机构最低被引频次(入围阈值)的时间序列。

将经济与商学学科倒数15位入围可用机构的ESI/InCites修正因子平均值0.9041替换为所有可用机构的ESI/InCites修正因子平均值0.9077,再次使用公式(3)得到复旦大学经济与商学的ESI/WoS修正因子为4477*0.9077/5612=0.7242。之后的计算将使用0.7242作为复旦大学经济与商学WoS被引频次与ESI被引频次之间的转换系数。

易非叹了一口气,只好上班去了,她在这儿住了差不多三年,三年,就搬了三次家。第一次是房子里闹老鼠,总把易非的工作服咬了,到了春天时,还到处爬。易非赶紧搬家了,但搬了家之后,才明白,这块儿的房子家家都闹老鼠,因为紧靠菜地,田老鼠多,而菜农们自建的私房密封又不好,老鼠们稍稍耍耍锁骨大功就可以四处畅通无阻。易非只好认了,在但凡有洞的地方,都用砖头或胶布封起来,这才消停了。可第二家还是没住多久,因为房东的儿子要结婚,要把整个三楼都腾出来做新房,易非只好又搬了。第三回,又遇到了这十年难遇的雨季。

其中空间科学、物理、分子生物学与遗传学、化学、跨学科与工程学这6个学科的入围阈值时间序列没有明显的季节性波动。空间科学与跨学科的入围机构数量很少,入围阈值没有明显的变化规律。跨学科在2015年底被引频次大幅度下降,是因为论文学科分配方式变动,之前基本上是按照期刊的学科归属来给论文分配学科,之后跨学科改为了根据论文本身研究方向来决定其学科归属,而其他学科仍旧按照期刊学科来分配。

经济与商学学科ESI入围机构最低被引频次(入围阈值)时间序列是具有明显季节性波动的时间序列,具有较强的可预测性。

新体制激发新活力。资本的多元化、人才队伍结构的优化与实力的提升、新技术新方法的大规模应用汇成推动新闻出版业大发展大繁荣的三大动能。新的动能为我国新闻出版业注入了强大的发展活力。40年来,我国新闻出版业在市场体系与要素市场建设、市场主体建设和新业态发展方面展现出全新的活力。

表6 经济与商学ESI入围机构最低被引频次(入围阈值)时间序列及预测结果

使用SPSS 20.0版本,录入经济与商学ESI入围机构最低被引频次(入围阈值)时间序列,使用时间序列预测中的专家建模器功能,得到最优的预测模型为温特斯加性,α 、γ 、δ 这三个参数的估计值分别为0.001、0.001、2.636E-5,并计算出预测值、置信区间下限(LCL)和置信区间上限(UCL)。从表6可以看到,所有预测值与实际值之间的误差率都在±2%以内,实际值均在预测值95%可信区间范围内。该预测模型的拟合统计值:平稳R 2=0.784;R 2=0.99,说明模型的拟合度较好。拟合曲线见图4。

天道酬勤,只要你能坚定信念,不屈不挠,上天总会给你应有的报偿。当然毅力不是盲目的一厢情愿,也必须搭配高尚的目标、合理的资源及不断的反省与学习,才有机会在适当的时候展现结果。

图4 经济与商学ESI入围机构最低被引频次(入围阈值)时间序列预测模型拟合曲线

3 .4 通过两个时间序列及预测值曲线的交点得出预测的入围时间

将复旦大学经济与商学ESI被引频次预估值时间序列及预测值曲线、经济与商学ESI入围机构最低被引频次(入围阈值)时间序列及预测值曲线,放到一张图中(见图5)。由于复旦大学经济与商学ESI/WoS修正因子是根据2019年1月更新的ESI数据以及2018年底的WoS近11年总被引频次计算得来,修正后的2018年底复旦大学经济与商学ESI被引频次预估值应该与2019年1月更新的ESI入门阈值对应。

图5 复旦大学经济与商学ESI前1%入围时间预测模型

从图5中可以看到,两条曲线的交点刚好在2019年3月,实际入围时间可能会略晚于曲线交点时间。因此根据本研究的预测模型,可预测复旦大学经济与商学的入围时间在2019年3月到2019年5月。

4 结论与不足

目前针对学术机构学科进入ESI前1%时间预测的研究较少。笔者在相关研究的基础上提出了一个预测模型:在考虑到ESI,InCites,WoS数据库之间被引频次存在差异的情况下,用修正因子去除差距,使不同数据库中获得的被引频次数据具有可比性,然后分别预测学术机构学科被引频次和ESI入围阈值,找到学术机构被引频次超过ESI入围阈值的时间点,即预测的入围时间。

笔者用复旦大学即将入围的经济与商学学科作为实证目标学科,数据结果表明,ARIMA模型和温特斯季节指数平滑模型分别在复旦大学经济与商学ESI被引频次预估值时间序列和经济与商学ESI入围阈值时间序列上都有很高的拟合度,可以得出结论:复旦大学经济与商学ESI被引频次预估值超过ESI入围阈值的时间在2019年3月到5月(ESI数据库更新时间)。

这个预测模型既解决了不同数据库被引频次存在差异的问题,也考虑到了入围机构数量变化或竞争者情况变化导致的ESI入围阈值不断改变的问题。并且这个预测模型可操作性较强,预测结果的可信度从统计学角度来看也较高。当然该模型仍旧有以下几点不足之处:①ESI数据库大致是两个月更新一次,ESI入围阈值时间序列是一个时间间隔为两个月的时间序列,而历史时间节点的目标机构ESI被引频次预估值在没有历史数据存档的情况下只能通过WoS数据库引文分析功能计算,这样就只能以年为时间间隔。两个时间序列的时间间隔差距很大,只能预测每年年底时的目标机构ESI被引频次预估值,而年中的数据无法预测,这时预测精度要达到ESI数据库更新时间的时间间隔就比较困难。②修正因子是根据ESI数据库最新一期更新的数据以及InCites同一时间查询的数据计算求得,要用这个修正因子来修正其他历史时间节点的数据并当作未来数据的修正系数,还是存在一定问题,每个ESI更新时间的修正因子都不同,修正因子的变化情况目前缺乏数据来描绘和验证。③该预测模型对于入围阈值时间序列季节性特征较明显的ESI学科比较适用,但是对于季节性特征不明显的ESI学科则需要其他预测模型来拟合,对于目标机构目标学科的被引频次预测也有类似的情况,如果增减起伏大并且没有明显规律的情况下,目前的预测模型可能达不到较高的拟合度。④如果要使用该预测模型预测学科长期发展,需要更大量的历史数据支持,目前笔者实证研究所用的数据积累量还不够,并且很多机构的潜力学科早期SCI/SSCI发文量很少,这样也会导致历史数据量不足以支持长期预测。

以上这些问题还有待未来的研究逐一解决,并且这个模型同样可以用于ESI前1‰学科入围时间的预测,这需要更多的实证研究来验证其有效性。□

参考文献

[1] 程建萍,刘建辉,叶玫.基于ESI的潜力学科预测模型修正和实证分析[J].情报科学,2018,36(12):22-24,40.

[2] 顾东蕾,武莹,邱家学,李佳佳,孟媛.基于WOS的学科发展预测研究[J].现代情报,2014,34(6):32-40.

[3] 侯志江.基于InCites预测高校学科入围ESI前1%时间的方法研究[J].图书馆工作与研究,2018(4):37-45.

[4] 秦萍,李雪琛,梅秀秀.高校潜力学科发展预测研究[J].情报杂志,2015,34(1):88-91.

[5] 陈仕吉,史丽文,左文革.科研机构潜势学科的识别方法与实证分析——以中国农业大学为例[J].情报杂志,2012,31(2):43-47.

[6] 董政娥,陈惠兰.基于ESI和InCites数据库的东华大学学科发展预测[J].东华大学学报:自然科学版,2013,39(5):689-694.

[7] 韩丽,郭丽然,康冬梅.基于ESI和InCites的潜力学科分析与预测——以北京师范大学为例[J].情报探索,2017(2):27-35.

[8] 汪莉.基于ESI和InCites的高校潜力学科发展预测[J].情报杂志,2017,36(2):53-58.

[9] 管翠中,范爱红,贺维平,赵杰,孟颖.学术机构入围ESI前1%学科时间的曲线拟合预测方法研究——以清华大学为例[J].图书情报工作,2016,60(22):88-93.

[10] 赵庆华.关于ESI前1%学科入围时间预测的思考[J].科技创新导报,2018,15(13):252-254.

[11] 党亚茹.基于ESI的科学影响力分析[M].北京:科学技术文献出版社,2008.

[12] 吴志红.大数据时代高校学科发展分析评价研究[M].郑州:郑州大学出版社,2015.

[13] 左文革.基于ESI的中国农业大学学科发展研究[M].北京:中国农业大学出版社,2016.

[14] 赵超.偏态抗差箱形图函数分析[J].武汉大学学报:工学版,2015,48(6):778-781.

[15] BOX G E P,JENKINS G M.时间序列分析:预测与控制[M].顾岚,译.北京:中国统计出版社,1997.

[16] 李辰飞,常婕,沈燕.ARIMA模型在湖北省GDP预测中的应用[J].湖北师范学院学报:哲学社会科学版,2015,35(4):62-66.

[17] 李子奈.计量经济学[M].北京:高等教育出版社,2000:135-158.

[18] 王妍婷.ARIMA模型在湖北省城镇居民人均消费预测中的应用[J].湖北工业职业技术学院学报,2017,30(3):67-70.

[19] 李家琦,王雷,宋媛媛,熊甜,胡樱.ARIMA模型在湖北省肺结核发病数预测中的应用[J].公共卫生与预防医学,2018,29(5):37-40.

[20] 吴奕.温特斯季节指数平滑模型预测电力峰荷的方法[J].硅谷,2011(23):180,190.

The Model of the Time Prediction of Academic Institutions Entering the World Top 1 %Disciplines Ranked by ESI Based on Time Series Analysis

Abstract : [Purpose/significance]Predicting the time of academic institutions entering the world top 1% disciplines ranked by ESI has high value for grasping the overall development of the subjects in various academic institutions,and it is also a very important subject service content of university libraries.The paper introduces a prediction model.Firstly,error correction factor is used to eliminate the difference between the citations of different databases.Secondly,the time series of citations of the target institution and the time series of ESI entrance threshold are predicted separately.Then,the curves of two time series and their predicted values are obtained.The first ESI update time after the intersection is the predicted entry time.[Method/process]In this paper,ARIMA model is used to fit the time series of citations of the target institution,and Winters’ seasonal exponential smoothing model is used to fit the time series of ESI entry threshold.[Result/conclusion]The empirical study was conducted with the economics and business subject of Fudan University as an example.The results show that the prediction model has a high degree of fitness in both time series,and the predicted value of the entry time is highly reliable.

Keywords : ESI;time series;potential discipline;InCites;Web of Science;prediction model

DOI: 10.16353/j.cnki.1000-7490.2019.10.021

作者简介: 朱文佳 ,女,1986年生,博士,馆员。研究方向:文献计量学及学科评价。朱莉 (通讯作者),女,1977年生,硕士,馆员。研究方向:学科评价及图书馆用户行为分析。

作者贡献声明: 朱文佳,论文选题,数据采集,模型建立与数据处理,论文撰写与修改。朱莉 ,文献与资料收集,论文修改。

录用日期: 2019-04-30

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于时间序列分析法的ESI前1%学科入围时间预测模型论文
下载Doc文档

猜你喜欢