基于GBDT的学术会议替代计量学评价模型研究论文

基于GBDT的学术会议替代计量学评价模型研究

张洋，叶月，张宗翔，佘芳，陈析宇

（中山大学资讯管理学院，广州 510006）

摘要学术会议作为科学评价的重要研究对象，同时也是传播学术成果的重要载体，它是某个学科发展到一定阶段的必然产物。在某些学科领域，学术会议因其知识传播的时效性，得到了众多学者的青睐。本文收集替代计量学指标Altmetrics.com和PlumX关于人工智能领域国际会议2007—2014年的相关数据，借助描述性统计与梯度提升决策树。通过指标筛选、数据不平衡问题处理、模型优化等步骤，形成一个基于梯度提升决策树的会议评价模型。本文使用新兴的替代计量学指标作为评价指标，同时结合当前热门的机器学习模型，有效地弥补传统文献计量学指标的不足，提升会议评价模型的准确率，丰富会议评价体系的相关研究并可作为后续研究的参考。

关键词替代计量学；机器学习；梯度提升决策树；会议评价

随着互联网的迅速发展以及Web 2.0时代的到来，国际学术交流越来越多，而学术会议就是学术交流活动的主要形式之一，在传播科研成果、活跃学术思想、推广先进技术、促进学科发展、催生新的学科、发现和培养科学人才等方面起着重要作用。对这些会议的质量和影响力进行评价，进而确定某一学科领域的高水平学术会议显得非常重要。而近年来随着机器学习和人工智能学科的飞速发展，越来越多的学科开始采用与机器学习模型和理论相结合的方式进行相关研究。在会议评价领域，一些国外学者已经尝试将传统引文指标与机器学习模型相结合进行研究并取得一定成果。

1.流行的时代性。流行音乐发展更新的速度非常快，“90后”和“00后”喜欢的流行音乐形式以及流行歌手会大不相同。这就要求音乐教师要与时俱进，了解新生的流行音乐以及流行歌手，把握学生的喜好，这样才能更好地发挥流行音乐在促进学生审美提高中的作用。

在这种背景下，本文对一系列引文指标和机器学习模型进行研究评估后，创新地使用新兴的替代计量学指标作为评价指标并结合当前热门的机器学习方法构建了一个会议评价模型，有效地弥补传统引文指标用于评价会议的不足，提升评价模型的准确率，为会议评价乃至科研成果评价提供新思路，丰富会议评价体系的相关研究并可作为以后类似研究的参考。

1 文献回顾

1.1 会议评价指标研究进展

会议评价是科学评价领域的一项重要研究问题，国内外学者都进行了相关研究，其中大部分主要借助传统引文指标，如H指数、G指数、SCI引文指数等构建会议评价模型。国外的研究中，Zhuang等^[1]提出了使用会议主席团成员的人数、平均发文量、平均共同作者数量和成员间的接近中心性和中介中心性等作为评价指标并分别使用贝叶斯模型、支持向量机和决策树等机器学习模型构建了会议评价模型；Martins等^[2]提出会议录取率（AR）的概念，并认为会议录取率可以作为评价会议的重要指标，它主要考虑会议接受论文投稿程度对引文数的影响，从而反过来影响到对会议整体的评价，并提出了几个新的用于评价国际学术会议的指标：会议影响因子CIF、会议引文影响CCI、组合会议因子CCF、会议因子C-Factors。Nelakuditi等^[3]采用PR（peer reputation）来评价会议，利用学校的排名和每篇论文的第一作者的所属机构来确定会议的质量，它用数组，如＜1/3,20＞（表示1/3的文章来自于前20位的大学）来表示一个会议的质量。Loizides等^[4]采用改进的PR值、影响因子、H指数来评价会议，但其数据集偏小，并不具有普遍性。

国内的研究中，相关研究则相对较少，王倩^[5]提出借助H指数及其衍生指标的方法对会议进行评价。肖建华等^[6]则提出了基于平衡计分卡的会议评价体系。总的来说，国内外对于会议评价的研究主要还是借助传统的引文指标以及数据分析方法，张坤等^[7]指出目前通过对相关文献的梳理与归纳，得出当前图书情报领域关于机器学习的热点主题主要集中在个性化推荐服务、智能信息检索和自动文本分类研究三个方面，在会议评价方面还没有涉及。总的来说，将替代计量学指标和机器学习模型用于会议评价的研究还比较少。

1.2 Altmetrics相关研究进展

替代计量学（Altmetrics）最早是由J.Priem于2010年在自己的Twitter里提出的，他将Altmetrics定义为“基于社会网络的新计量指标的建立和研究，旨在分析和全面衡量学术”^[8]。相比于传统引文指标，替代计量学有许多优点如广泛性、多样性、传播快、公开性^[2]以及能够精确地理解影响力，及时计量影响力，对数字学术成果进行计量和计量不同来源的影响力^[9]。邱均平等^[10]指出，替代计量学的规模化操控风险完全可以规避，并且替代计量学指标的生成消耗时间成本、精力成本和声誉成本，反映使用者的价值判断，因此替代计量学有相当高的可信度。替代计量学还可以反映可见度、知名度和社会影响力。

在文献数据库研究中，计算机科学是一个分支学科，研究人员通常倾向于在有声望的会议上发表他们的作品，而不是在主要的数据库期刊上发表。解释这一现象的原因之一是该领域发展迅速，需要缩短传播周期^[13]。Eckmann等^[14]发现，在计算机视觉领域中，具有先导性的期刊论文被引用次数超过没有先导性的期刊论文，先导性论文指在扩展的期刊版本之前发表的会议论文。这一事实很好地反映计算机科学中常见的出版模式：首先在会议记录中发表论文的最初版本，随后是扩展的期刊版本^[15]。本文所采用的研究样本来自于计算机领域的研究热点——人工智能，由中国计算机学会在2015年公布的《中国计算机学会推荐国际学术会议和期刊目录》中的39个国际顶级会议在2007—2014年的数据，这些会议分为3个等级：A类、B类和C类。A类指国际上极少数的顶级会议，鼓励我国学者突破；B级指国际上知名和非常重要的会议，有重要学术影响，鼓励国内同行投稿；C级指国际学术界认可的重要会议。

（iii）依据评价值（j=1，2，…，n）对方案aj（j=1，2，…，n）进行排序，然后，选择最优方案。

1.3 机器学习与GBDT模型

（2）采用正交法对中间体合成条件研究得出了最佳实验条件为:n(芥酸)：n(N,N-二甲基丙二胺)=1∶1.5，合成反应温度为135℃，反应时间8h，催化剂用量为0.25%，搅拌速率为 50 r·min-1。

GBDT模型应用领域比较广泛，几乎可以解决所有回归问题，同样适合用于二分类问题以及排序问题。GBDT模型的优点主要有：①既可以处理离散值又可以处理连续值；②参数调整优化时间短，相对于SVM等其他机器学习模型具有明显优势；③预测准确率相对较高；④损失函数较多，对异常值的鲁棒性较强。上述优点使得GBDT模型适用于会议评价异常值多的情况，故选择GBDT作为会议等级预测的工具。

本文通过收集Altmetrics.com和PlumX两大替代计量学数据源中2007—2014年人工智能国际会议收录论文的数据，经过数据预处理和不平衡分类问题处理，借助梯度提升决策树模型并通过后期参数调整得到一个会议评价模型。该模型具有较好的准确率和召回率以及泛化能力。本文使用新兴的网络替代计量学指标作为评价指标，同时结合当前热门的机器学习模型，有效地弥补传统引文计量指标的不足，提升会议评价模型的准确率，丰富会议评价体系的相关研究并可作为后续工作的参考。

2 数据获取与预处理

2.1 研究样本选择

然而由于它提出时间较短，学术界仍在不断探究，因此它也存在一些争议，如商业性对数据公正性的不利影响以及评价对象究竟是文献关注度和影响力还是科学研究质量，替代计量学指标在某些方面还需要深入评估以理解其含义^[11]。但总的来说，替代计量学指标仍是科学研究网络化和在线化这一发展趋势下具有重要影响和研究价值的计量指标，在科学计量等领域尤其是科研成果评价方面的作用已经非常明显，而且随着互联网和其本身的发展必将产生更大的影响，使用其作为会议评价指标对推动会议评价研究具有积极意义。

2.2 指标数据获取

目前替代计量学领域主流的指标主要有Altmet‐rics、PlumX、Impactstory、PLOS等。本文选择Alt‐metrics和PlumX作为模型的评价指标。Altmetrics将不同来源的数据聚合为一个数值同时采用多种方式嵌入用户环境。PlumX则具有计量数据来源广泛、计量对象广泛的优点。这两种指标都可以通过API方便地获取数据。而PLOS ALMs和Impactstory虽然也是绝佳的替代计量工具，但是由于数据来源较单一、国内无法获得以及需要交纳高昂的使用费等原因，本文暂时没有使用。

由根号的±条件可知，方程(18)有2个根，根一般为不相等的实根，即对某一变量角θ2的值解得2个对应的θ4根。这两个解对应机构的2个位形，即机构的交叉和开式2个位形。解得θ4的负解对应开式位形，解得θ4的正解对应交叉位形。

2.2.1 Altmetrics指标获取

Altmetric.com由Postgenomic.com公司成员E.Adie在伦敦创办，专门收集论文层面的评价数据。目前，Altmetric已开发四款产品，分别为Alt‐metric Explorer、 Altmetric Bookmarklet、 Altmetric API和 Altmetric Badges。Altmetric Explorer是搜索、追踪论文在线影响力数据的Web应用，包括Explorer for Publishers（帮助出版者查看发布内容的所有注意事项）、Explorer for Institutions（浏览、筛选和报告机构在作者、组和部门级别上发布的研究）和Explorer for Funders（跟踪和报告投资者所支持的项目的影响力，确定新的兴趣领域和关键研究人员）。Altmetric Bookmarklet是论文在线影响力数据的浏览工具，用户可以通过它来阅读论文、添加书签，并只需拖拽“Altmetric it!”标志按钮到论文页面即可得到该论文的评价数据。Altmetric API按照用户的选择显示和使用数据，并支持访问Altmetric的应用程序编程界面。Altmetric Badges用即刻可识别的可嵌入徽章展示用户发布内容的覆盖面。Altmetric秉着相关、可靠、透明的标准，跟踪一系列的在线资源以捕捉和研究成果相关的对话内容。其跟踪数据源如表1所示。

机器学习是人工智能研究发展到一定阶段的产物，同时也是人工智能的核心。目前机器学习在计算机、生物信息、信息检索、图像识别、天气预报甚至政治活动中发挥着重要作用。近年来，在图书情报领域，机器学习模型和方法也有不少应用。本文引入的机器学习模型-梯度提升决策树模型（gra‐dient boosted decision trees，GBDT）是由Fridman^[12]提出的，是一种迭代的决策树算法，该算法由多棵决策树组成，通常都是上百棵树，而且每棵树规模都较小（即树的深度会比较浅，通常为4～6）。模型预测的时候遍历每一棵决策树，每棵树都会对预测值进行调整和修正，最终的结果是将每一棵决策树的结果进行累加得到最后预测的结果。

Altmetrics.com用关注度分数作为研究受到的关注的指标。这个得分来源于一个自动化的算法，代表了研究成果所获得的关注量的加权计数。加权时因为不同的来源推广研究成果的能力不同，如报纸比推特更容易引起对研究成果的关注。有些社交媒体里对研究成果的提及不会被纳入分数，如Mende‐ley和CiteULike读者，因为无法显示实际的配置文件，数据不可以被审计。一个来源对研究成果最初的提及才能被算进分数，如一个新闻来源发布了多个报道，那么只有第一个会为该特定的研究成果提供Altmetric关注度分数^[16]。Altmetrics权重和指标说明见表2和表3。

利用Altmetrics提供的API，结合Python编写的爬虫收集2007—2014年由中国计算机学会（CCF）提供的《重要国际会议目录》人工智能领域39个会议论文数据，得到622篇论文组成的92个会议样本，而描述样本的指标共有61个。该数据集的部分指标的解释如下：averagescore为某会议在某一年发表论文的Altmetrics得分总数除以这个会议这一年发表的论文总数；而normalscore为某会议在某一年发表论文的Altmetrics得分总数除以这一年所有人工智能领域的会议的论文得分总数。为了精确，我们均保留五位小数。得到的部分数据如图1所示。

表1 Altmetrics数据源

表2 Altmetrics各指标权重表

表3 Altmetrics指标说明

2.2.2 PlumX指标获取

如图2所示，在92个会议样本中，有A类会议13个，占14.13%；B类会议17个，占18.48%；C类会议62个，占67.39%。

2.3 数据预处理

对以上得到的数据集进行基本的统计分析。会议的基本分布情况如图2所示。

PlumX是由Plum TM Analytics公司推出的一款工具，PlumX追踪统计科研成果在世界范围内的在线利用、讨论、交互等数据。Plum Analytics依据数据源与计量指标的不同将评价数据分为5类呈现给用户，这5类指标为：使用（Usage）、获取（Cap‐ture）、引用（Citation）、提及（Mention）、社交媒体（SocialMedia）。PlumX分别从文章被使用或者研究被使用情况、对研究成果未来发展的评价、对新研究或博客的评价，研究在社交媒体上的受关注程度以及传统引文指标^[17]。可见PlumX覆盖数据源较广，既考虑新兴的替代计量指标，也使用了传统的引文指标；既使用严格的学术指标，也考虑社交媒体引用的影响；既克服了“被引”时滞过长的局限，也拓宽了科研成果的类型，专利、数据库、代码、软件等均可作为学术成果来衡量影响力^[18]。因此PlumX^[19]能够较好地覆盖目前网络上利用学术成果的各种情形，并且每个分类下的计量指标分布比较广泛，数据来源渠道也较多，能够综合地诠释学术研究在网络环境下的影响力^[20]。表4^[21]列出了PlumX的计量指标和数据来源。

进一步观察样本以及分析指标的性质，发现有部分指标在大量样本中取值都为0，由于分数全为0的指标可能是因为Altmetrcis.com和PlumX没有采用这个指标的值或者未能收集到该数据，因此在最后的评价体系中这些指标贡献不大，可能会误导后期的数据分析。因此，这些指标先剔除，这些剔除的指标分别是connotea、cited_by_rh_count、cited_by_qs_count、cited_by_pinners_count、cited_by_forum_count、cited by delicious count。剔除后的指标剩余21个。

第一类：“脱离家庭环境的儿童”。指暂时或永久性脱离家庭环境的儿童，或为其最大利益不能在家庭环境下继续生活的儿童。这包括被遗弃儿童，被拐卖儿童，孤儿，父母被剥夺监护权的儿童和流浪儿童。

进一步观察剩余的指标，可以发现一些指标之间存在相关性甚至重复，如capture_READER_COUNT_Mendeley和Mendeley，这可能会影响建立模型的合理性以及稳健性，因此再采取主成分分析^[22]（PCA）进一步筛选指标^[23]。

图1 Altmetrics得分数据处理部分结果

表4 PlumX的计量指标和数据来源

图2 会议等级分布

图3 每个指标的特征值碎石图

由图3可以明显看出，在第6个因子后，碎石图趋于平缓，表明前6个因子是贡献较大的指标，可以考虑提取这6个因子作为解释变量。经过上述处理后，数据集的相应指标已经高度浓缩，可以很好地表征相关样本，这也是后续建立稳健高效机器学习模型的基础。

3 机器学习模型构建

接着将学习器权重缩减系数分别固定为0.3、0.75和0.8，然后采取同样的方式，将n_estimators控制在50～200内，使其以10为步长逐步变化，准确率的变化如图6～图8所示。

3.1 数据集不平衡问题的处理

在前文的分析中，可以发现在92个会议样本中，C类会议比重较大，样本数量不够均衡。由于建立的是分类模型，直接使用这些数据建立模型可能会导致较大的误差。处理这类问题的方法主要有少量样本的过采样，过量样本的欠采样以及SMOTE算法^[24]等，由于过采样和欠采样分别会导致样本重复或者样本信息丢失等问题，因此在本研究中采用SMOTE算法处理数据集。SMOTE算法是一种特殊的过采样方法，与普通过采样方法简单随机重复已有样本不同，其原理是通过对训练集中的小类数据进行插值来产生额外的小类样本数据。产生的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选取一点作为新合成的少数类样本。

借助Github上实现SMOTE算法的Python第三方库imbalance^[25]，使用SMOTE算法对样本数据集进行预处理，将样本量由92个扩充至133个，扩充前后的样本数据集的分布饼状图如图4所示。

可以发现，当学习器缩减权重系数在0.4和0.8左右时，准确率得分最高，超过94%。而最优值的局部图则表明，最优的学习器权重缩减系数为0.3或0.75或0.8。

通过图4可以发现，经过SMOTE算法处理后，A类和B类会议的比例显著上升，数据集的样本组成相对均衡，这是后续建立模型的重要基础。

图4 SMOTE算法处理前后的样本分布

3.2 使用GBDT模型训练数据集

在模型选择方面，通过阅读以往的会议评价相关的文献，使用的机器学习模型主要是借助聚类、K近邻和逻辑斯谛回归等。从机器学习方法的角度来看，各类新型模型和算法正在蓬勃发展并发挥重要作用，例如，梯度提升决策树（GBDT）就是数据挖掘领域中性能非常出众的分类算法，它是2001年Friedman^[12]提出的一种boosting算法，在个性化推荐、金融预测等领域都表现出良好性能。因此本研究将梯度提升决策树模型应用于会议评价与分类中。

借助由Google开发的Python机器学习库scikitlearn，首先按7∶3将数据分为训练集和测试集，接着使用GBDT模型对SMOTE算法处理后的数据集进行学习。对于模型的学习表现，本文主要使用准确率、召回率、准确率和召回率的调和均值F1和模型的泛化能力4个指标进行评价和调整。直接采取默认的GBDT模型对数据进行训练，得到的准确率、召回率和F1值如表5所示。

表5 默认GDBT模型的训练结果

由表5可见，总体来看，准确率、召回率和F1值较为理想。除A类会议以外，B类会议和C类会议的各项指标都还有提升空间。因此，调整GBDT模型的一些关键参数，进一步提升模型的相关指标。

3.3 模型优化处理

为了使模型达到最好效果，弱学习器最大迭代次数n_estimators和每个学习器的权重缩减系数learning_rate是GBDT模型中非常重要的两个参数，而且这两个参数存在相互影响，因此优先对这两个参数进行调整。首先，将learning_rate控制在0.1～1.0内，从0.1开始，使其以0.05为步长逐步变化，准确率的变化如图5所示。

在较宽的马路或市场两侧，相对宽广的街道尺度使人行路径被暴露在毒热的阳光下，人们不得不采用新的方法以避免太阳的直射，一种方法是将二层的建筑凸出于道路上方，形成屋檐下的遮阳空间，另一种方法是在一层空间加建拱形券廊。

机器学习模型的构建主要包括进一步处理和优化数据结构，选取合适的机器学习模型，然后进行模型训练，参数调优以及过拟合程度的检验。首先为了数据组成和结构对模型的影响，使模型更加稳健可靠，对上文预处理过程中发现的数据集不平衡问题使用SMOTE算法进行处理，接着对数据使用不同机器学习模型如K近邻，逻辑斯谛回归和梯度提升决策树进行拟合并对比模型效果，在确定选择梯度提升决策树模型之后对模型的关键参数弱学习器最大迭代次数n_estimators和每个学习器的权重缩减系数learning_rate进行参数调整和优化并对模型的过拟合程度进行检测。

可以发现，当学习率为0.3时，弱学习器最大迭代次数约为70时，准确率最高，接近80%；最优值的局部图则表明，最优的弱学习器最大迭代次数为70时，准确率得分最高。当学习率为0.75时，弱学习器最大迭代次数约为60时，准确率最高，接近75%；最优值的局部图则表明，最优的弱学习器最大迭代次数为60时，准确率得分最高。当学习率为0.8时，弱学习器最大迭代次数约为50时，准确率最高，接近74%；最优值的局部图则表明，最优的弱学习器最大迭代次数为50时，准确率得分最高。

因此，目前弱学习器最大迭代次数n_estimators和每个学习器权重缩减系数learning_rate有三组最优组合，分别为70和0.3、60和0.75以及50和0.8。这三组参数组合下GBDT模型的详细指标如表6～表8所示。

图5 准确率随学习器权重缩减系数的变化

图6 学习器权重缩减系数为0.3时，准确率随弱学习器最大迭代次数的变化

图7 学习器权重缩减系数为0.75时，准确率随弱学习器最大迭代次数的变化

图8 学习器权重缩减系数为0.8时，准确率随弱学习器最大迭代次数的变化

表6 n_estimators=70、learning_rate=0.3的GDBT模型的训练结果

表7 n_estimators=60、learning_rate=0.75的GDBT模型的训练结果

表8 n_estimators=50、learning_rate=0.8的GDBT模型的训练结果

根据表 6～表 8，n_estimators=70、learning_rate=0.3的GBDT模型相比于原模型，相关指标略有提高；而n_estimators=60、learning_rate=0.75的GBDT模型和n_estimators=50、learning_rate=0.8的GBDT模型的相关指标相比于原指标则有所下降。因此，n_estimators=70、learning_rate=0.3的GBDT模型是目前最优的选择。

在明初文人曲学系统中，以朱权《太和正音谱》、贾仲明《续录鬼簿》为代表，都对元曲的艺术成就和雅文化属性进行了总结和定性，呈现出鲜明的推尊元曲为曲学标杆的倾向。

为了进一步确认组合是否最佳，采用网格搜索法确定最优的弱学习器最大迭代次数n_estimators和学习器权重缩减系数learning_rate组合。网格搜索法的基本原理是让c和g在一定的范围划分网络并遍历网格内所有点进行取值，对于取定的c和g利用K-CV方法得到此组c和g下训练集验证分类准确率，最终取使得训练集验证分类准确率最高的那组c和g作为最佳的参数^[26]。借助scikit-learn中的Grid‐SearchCV工具可以筛选出最佳的参数组合，筛选的弱学习器最大迭代次数n_estimators和学习器权重缩减系数learning_rate组合为n_estimators=60、learn‐ing_rate=0.05，对应的指标如表9所示。

表9 n_estimators=60、learning_rate=0.05的GDBT模型的训练结果

由表9可以发现，相应指标并非最优，说明网格搜索的结果并非最优。因此n_estimators=70、learning_rate=0.3的GBDT模型是目前最优的选择。

3.4 模型泛化能力检测

在确定模型参数后，需要进一步测试模型的泛化能力，计算方法为

其中，v_rmse代表泛化能力；y_predict代表模型预测的y值；y_true代表测试集中y真实值；num_ytest代表测试集中y值的数量。显然该值越接近1，则预测值与测试值间差异就越小，说明拟合越好，模型泛化能力越好。

使用公式(1)计算得n_estimators=70、learning_rate=0.3的GBDT模型的泛化能力指标为0.934，接近于1，表明该模型具有较良好的泛化能力，模型没有出现严重的过拟合现象。

第一，从企业中融资的角度进行分析。因为一般企业中融资的来源一般是企业中自有的资产或者是一些外部融资，因此该演变过程中就可以看作该结构的基本更替。在企业建立之初主要是根据自己的资产以及相关的投资获得融资，等到企业成长到一定程度其融资方式就会变成银行贷款，也就是间接融资。等到企业强大到一定程度的时候企业中的融资方式就会变为直接融资。由此企业融资结构的演变也就是从间接融资转变为直接融资的一种过程。

硫磺回收装置中产生的有机硫主要是COS和CS2，主要来自于燃烧炉中发生的副反应，见式(1)～式(9)。

在此背景下，本文提出一种综合多种检测技术的Android应用安全性检测模型。此模型基于现有的检测技术进行改进，并通过不同检测方案间的互补性来设计检测流程，一方面可以提高检测的精度，另一方面则可以扩展应用安全性的评估面。此外，本系统针对root手机的特点，在应用安全性评估模型中还着重实现了动态的风险评估和危险行为拦截，具有全面性、精确性、高效性。

4 总结与展望

目前关于学术会议评价的研究还相对较少，学术会议是承载学术研究的重要载体之一，对其的评价不仅可以为学者投稿做参考，同时为科研评价、权力机关决策提供帮助。本文通过收集人工智能领域2007—2014年的会议数据，采用Altmetrics和PlumX两种替代计量学指标作为数据源，结合机器学习中的梯度提升决策树模型，构建了一个会议评价体系。通过对模型的两个重要参数最大迭代次数和权重缩减系数的调整，发现当最大迭代次数为70、权重缩减系数为0.3时，其训练结果最好，即预测效果最好，ABC类会议的准确率、召回率、F1的平均值分别为0.89、0.88、0.88。该模型借助梯度提升决策树较强的分类能力，能以较高的准确率对会议进行分类且具有较好的泛化能力，说明其可以用来对会议进行评价。

在模型构建与研究拓展方面，网络上对于梯度提升决策树的研究已经比较成熟，且网络上可以提供免费的第三方库如Python的scikit-learn，因此构建这一模型并投入科研评价中使用是非常方便快捷的。根据上文的分析，将机器学习应用到计算机领域的会议评价可行且效果可观，接下来的工作会考虑将本研究应用到其他学科领域，尝试形成一个适用于多学科、多领域的学术会议评价体系。

护理部主任李龙倜向《中国医院院长》杂志记者补充道：“‘星星急救’旨在为广大群众培训常见意外情况的处理，以及自救、互救等知识技能，希望通过规范专业的培训，不断提升民众自救和互救技能，达到人人参与急救、人人精于急救、人人能够挽救患者生命。”

参考文献

[1] Zhuang Z M,Elmacioglu E,Lee D,et al.Measuring conference quality by mining program committee characteristics[C]//Pro‐ceedings of the ACM International Conference on Digital Librar‐ies.New York:ACM Press,2007:225-234.

[2] Martins W S,Gonçalves M A,Laender A H F,et al.Assessing the quality of scientific conferences based on bibliographic citations[J].Scientometrics,2010,83(1):133-155.

[3] Nelakuditi S,Gray C,Choudhury R R.Snap judgement of publi‐cation quality[J].ACM SIGMOBILE Mobile Computing and Communications Review,2011,15(2):20-23.

[4] Loizides O S,Koutsakis P.On evaluating the quality of a comput‐er science/computer engineering conference[J].Journal of Infor‐metrics,2017,11(2):541-552.

[5] 王倩.h指数及其衍生指数在评价学术会议中的应用研究[J].科技情报开发与经济,2015(15):135-139.

[6] 肖建华,霍国庆,董帅,等.基于平衡计分卡的学术会议效果评价指标体系研究[J].科学学与科学技术管理,2009,30(12):48-54.

[7] 张坤,王文韬,谢阳群.机器学习在图书情报领域的应用研究[J].图书馆学研究,2018(1):47-52.

[8] Bornmann L.Do altmetrics point to the broader impact of re‐search?An overview of benefits and disadvantages of altmetrics[J].Journal of Informetrics,2014,8(4):895-903.

[9] 刘恩涛,李国俊,邱小花,等.Altmetrics工具比较研究[J].图书馆杂志,2015,34(8):85-92.

[10]邱均平,余厚强.论推动替代计量学发展的若干基本问题[J].中国图书馆学报,2015,41(1):4-15.

[11] Meschede C,Siebenlist T.Cross-metric compatability and incon‐sistencies of altmetrics[J].Scientometrics,2018,115(1):283-297.

[12]Friedman J H.Greedy function approximation:A gradient boost‐ing machine[J].Annals of Statistics,2001,29(5):1189-1232.

[13] Sakr S,Alomari M.A decade of database conferences:A look in‐side the program committees[J].Scientometrics,2012,91(1):173-184.

[14]Eckmann M,Rocha A,Wainer J.Relationship between high-qual‐ity journals and conferences in computer vision[J].Scientomet‐rics,2012,90(2):617-630.

[15]张洋,叶月.基于多指标的学术会议动态评价研究[J].数字图书馆论坛,2018(7):37-44.

[16]Altmetrics.com[EB/OL].https://www.altmetric.com/.

[17]Plum analytics[EB/OL].https://plumanalytics.com/learn/aboutmetrics/.

[18]邱均平,余厚强.论推动替代计量学发展的若干基本问题[J].中国图书馆学报,2015,41(1):4-15.

[19] 刘恩涛,李国俊,邱小花,等.Altmetrics工具比较研究[J].图书馆杂志,2015,34(8):85-92.

[20]刘春丽.altmetrics工具与机构知识库的整合与效果——以PlumX为例[J].图书情报工作,2015,59(24):39-46.

[21]杨柳,陈铭.常用替代计量学工具之比较研究[J].情报理论与实践,2015,38(9):114-119,144.

[22]俞立平,刘爱军.主成分与因子分析在期刊评价中的改进研究[J].情报杂志,2014,33(12):94-98.

[23]董敏红.基于主成分分析的图书情报类核心期刊评价指标有效性研究[J].情报科学,2010,28(11):1670-1672,1678.

[24]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:Synthetic minority over-sampling technique[J].Journal of Artificial Intelli‐gence Research,2002,16:321-357.

[25]imbalanced-learn[CP/OL].https://github.com/scikit-learn-contrib/imbalanced-learn.

[26]张公让,万飞.基于网格搜索的SVM在入侵检测中的应用[J].计算机技术与发展,2016,26(1):97-100.

Research on Altmetrics Evaluation Model of Academic Conference Based on GBDT

Zhang Yang,Ye Yue,Zhang Zongxiang,She Fang and Chen Xiyu
(School of Information Management,Sun Yat-sen University,Guangzhou 510006)

Abstract： In order to spread and share academic achievements in a certain field,academic conferences serve as an inevitable and important part in the development of that subject field.In certain cases,academic conferences are favored by researchers because of their timely dissemination of knowledge.This paper collects relevant data from altmetrics indicators—Altmetrics.com and PlumX—on the international conferences on artificial intelligence from 2007 to 2014,with the help of descriptive statistics and gradient lifting decision tree.Using indicators screening,data imbalance processing,and model optimization,a meeting evaluation model based on the gradient lifting decision tree was formed.This model combines popular machine learning models with latest altmetrics indexes.It can effectively cover the deficiencies of traditional informetrics indicators and improve the accuracy of the conference evaluation model,which can enrich related research on conference evaluation and become a reference for future research.

Key words： Altmetrics；machine learning；GBDT；conference evaluation

DOI: 10.3772/j.issn.1000-0135.2019.11.003

收稿日期： 2018-11-28；

修回日期： 2019-06-03

基金项目：国家社会科学基金项目“新型网络环境下学术期刊影响力的计量分析与评价研究”（14BTQ067）；广东省软科学研究计划项目“面向粤港澳大湾区的科技评价机制、方法与应用研究”（2018A070712016）。

作者简介：张洋，男，1975年生，博士，教授，博士生导师，研究领域为网络信息计量学、科学评价；叶月，男，1991年生，硕士研究生，研究领域为网络信息计量学、会议评价，E-mail：yy0455@126.com；张宗翔，男，1996年生，本科生；佘芳，女，1997年生，本科生；陈析宇，女，1997年生，本科生。

（责任编辑马兰）

标签：替代计量学论文; 机器学习论文; 梯度提升决策树论文; 会议评价论文; 中山大学资讯管理学院论文;