人工智能研究前沿识别与分析:基于高产作者多属性综合研究视角*
● 邹本涛1,王曰芬1,2,曹嘉君1,余厚强1
(1.南京理工大学经济管理学院,江苏 南京 210094;2.江苏省社会公共安全科技协同创新中心,江苏 南京 210094)
摘 要: [目的/意义]从作者出发探测微观层面上人工智能领域研究前沿,并结合相关信息对前沿进行深入解读,以把握作者在整体中的研究态势、所处位置与特色,并发现基于不同属性识别出的研究前沿的类型与状态。[方法/过程]利用CiteSpace中的突变检测算法实现对高产作者突变术语的检测,再根据突变术语的原始来源论文抽取出对应突变术语的多种属性特征,进而依据属性从突变术语中提炼出研究前沿。[结果/结论]依据突变术语所属论文的题录属性,界定出作者层面的50个热点研究前沿、14个新兴研究前沿、34个成长研究前沿。高产作者的热点研究前沿代表领域内的研究热点与研究趋势,新兴研究前沿反映最近几年领域内比较新颖的研究技术或研究方法,成长研究前沿反映从新兴研究前沿到热点研究前沿的过渡状态。[局限]实验所涉及的高产作者数量受限,实验结论的普适性有待进一步验证;CiteSpace中突变检测的参数设置范围受软件本身所限制,无法灵活调整模型参数。
关键词: 人工智能;研究前沿;突变术语;CiteSpace;突变检测;高产作者
作者是科学研究的主导者,一方面基于学识、经历与洞察力等探求着科学技术发展的趋向,进而产生可能引导学科领域发展的研究成果;另一方面受到正在兴起的研究领域或者方向的影响,追随着已有的研究而创造新的产出。由此,科学研究在作者的主导下不断地发展与变化。所以,在研究前沿中,围绕着作者及其关联的多种属性特征进行综合研究,不仅可以从微观层面识别研究前沿,而且可以更加细粒度地发现科学研究发展与变化的特征。
在人工智能领域,发表的相关论文大多侧重于对整个领域的研究前沿进行分析和阐述。如张振刚等[1]利用专利数据对人工智能领域进行计量分析时,将所有专利数据作为输入来进行突变术语检测,进而将检测到的突变术语作为研究前沿来解读;彭丽等[2]从突变权重、突变持续时间等方面对检测到的突变术语进行分类解读,概括性地总结出人工智能整体领域上的研究前沿;余厚强等[3]从关键词节点指标、网络指标和聚类分析等多个角度识别国际人工智能的研究前沿,并从聚类关键词构成、互信息词和核心文献三方面对研究前沿进行示例解读;还有一些学者也是选择从整体领域层面切入,对人工智能研究前沿进行相关可视化探析[4-5]。而关于研究前沿的识别方法,主要有基于引文关系和基于文本内容两个维度[6],前者将施引或共被引文献簇作为研究前沿[7-8],后者常通过题目、摘要等字段提取关键词来表征研究前沿[9]。
由上,本文的研究思路是:从作者这一层面出发,选取部分高产作者作为研究对象,采用突变术语检测算法分别探测出各个高产作者的突变术语,借助于内容分析法通过对突变术语关联的不同属性进行归纳得出热点研究前沿、新兴研究前沿和成长研究前沿等三类前沿,对其进行分类解读,以期实现前面所阐述的研究目的。
1 数据来源、研究方法与研究设计
1 .1 数据来源与处理
在数据来源上,本文选取Web of Science核心数据库,采用CiteSpace内嵌软件WoSDownload.exe作为下载工具,以“WC=Computer Science,Artificial Intelligence”作为检索式,将时间限定为1996—2017年(WoS核心集在这类别的最早收录时间为1996年),检索时间为2018年5月,共检索到726597条结果(包括论文、书籍等类型)。
在数据处理上,将检索结果的题录信息下载下来后,制定相关的作者人名清洗规则,通过Python编程来进行半自动化的作者人名消歧工作。消歧过程主要依据原始数据中的“作者地址(C1)”和“作者全称(AF)”字段,AF字段包含一篇文章的所有作者,即包含着作者的合作者信息,C1字段或对应于这些作者的共同地址,或对应于各个作者的地址。清洗的标准是:①当两个相同名字的作者有相同的合作者时,认为这两个名字对应于同一个作者(同一个作者的多种名字形式问题,本文采取相似度计算和排序的方式,对其进行区分或合并);②当两个相同名字的作者有相同的地址时(具体到院系),认为这两个名字对应于同一个作者实体。
中国是全世界陶瓷工艺最先进的国家,也是陶瓷艺术体系最庞大的国家,中国人生活的时时处处都有陶瓷,除了日常应用之外,陶瓷的质地、颜色、图案以及陶瓷本身代表的社会文化,也是人们选择陶瓷的主要原因,因此,陶瓷作为用品同时也作为装饰生活的艺术品存在着。随着全球经济和文化的交流互融,陶瓷作为装饰品的艺术价值在全球范围内被认可,国外艺术家和手工业者也在进行陶瓷艺术作品创作,例如日本和英国等具有较为悠久的陶瓷制作工艺历史的国家,但是,陶瓷装饰艺术发展的核心始终在中国,从仰韶文化开始的陶瓷艺术,在当代装饰艺术领域有着不可替代的位置,中国陶瓷的传统用料与现代手工艺术创作的结合,使陶瓷装饰艺术的影响力进一步扩散。
在数据选取上,对数据进行清洗之后,得到1085个发文量在50篇以上的作者,这些作者的总发文量为105916篇,本文将这些作者定义为高产作者。最后,考虑到若对全部高产作者进行突变检测,需重复1085次实验,这对时间和人力成本是一个重大挑战。因此,我们结合国家(地区)属性,选取了包含高产作者数最多的14个国家(地区)中的70位作者作为实验样本(为便于比较,每个国家或地区选取发文量前5的作者)。同时,突变检测更多的是反映领域的新趋势和新动态,并与其他研究论文形成呼应,本文仅选取这些作者在2008—2017年间的文章题录数据(总共435276条记录)作为突变检测的输入,选取的作者列举在表1中,其中的“国家/地区”指作者发文所依附机构的所在地,在多个机构发文的取发文量最高的。
表1 数据选取说明
1 .2 方法与工具选择
2.2.2 新兴研究前沿 新兴研究前沿由该突变术语出现的最早年份来界定,本文将最早研究年份在2010年及之后的突变术语归入新兴研究前沿一类,最终得到14个新兴研究前沿,如表5所示。
在工具的选择上,目前,Kleinberg突变检测算法已被成熟应用在陈超美教授开发的CiteSpace软件中[11],而该软件附带的其他功能亦与本文研究目的相契合,因此,本文使用CiteSpace 5.2.R2版本进行高产作者突变术语的检测实验。将选取的每位作者的题录数据按输入格式提取出来后,依次对每位作者进行突变检测实验,每一次实验的参数设置保持如下:Time Slicing中时间段为2008—2017年,时间片设置为1,Term Source选择Title+Abstract+Author Keywords(DE)+Keywords Plus(ID),Term Type选择名词短语(Noun Phrase),Node Types选择Term,阈值设置为TOP50。
1 .3 研究设计与流程
结合原始数据与研究目的,本文从“数据获取—数据清洗与分析准备—数据分析”的角度设计研究方案,如图1所示。
高中体育教师还应该以休闲体育为目的,丰富体育教学内容,增加体育学科的休闲色彩和运动色彩。当前的高中体育教学项目,比较集中在短跑、篮球、中长跑、足球等运动项目上,难以满足学生对休闲体育运动的心理需要和运动需要。为此,教师可以开展武术、健美操、轮滑等课程,或者花式跳绳、踢毽子等运动项目,增加体育教学的休闲性、生活性、有趣性。
图1 研究流程设计
高产作者的热点研究前沿实际上反映了整个领域内的研究热点或研究趋势,不同的作者在领域研究中扮演着不同的角色,有些作者作为领军人物,引领着研究前沿;而另一些作者则作为“追随者”,跟随研究前沿去开展自己的研究。当作者研究方向发生转变时,体现在论文当中的是一些术语频次的突然增加,即通过突变检测得到的突变术语。表4中这些热点研究前沿囊括了人工智能领域的一些基本术语和方法理论,如神经网络(Neural Network)、学习算法(Learning Algorithm)、支持向量机(Support Vector Machine)、稀疏表示(Sparse Representation)、目标检测(Object Detection)和图像分类(Image Classification),等等。从涉及的高产作者数来看,最少的有涉及287个高产作者,对应的热点研究前沿是面部表情(Facial Expression)。最多是神经网络(Neural Network),涉及877个高产作者;从涉及的文章篇均被引量来看,大多数热点研究前沿的篇均被引在10次以上,仅卷积神经网络(Convolutional Neural Network)的篇均被引低于10次(6次),而最多的篇均被引达到了28次,对应于稀疏表示(Sparse Representation)这一热点研究前沿。
(1)
式中,A 表示最近研究中包含该突变术语的作者数;a 表示最早研究中包含该突变术语的作者数;Y 表示最近研究的年份;y 表示最早的研究年份。最终选取R 值大于2的突变术语表示成长研究前沿。
表2 突变术语属性提取示例
此外,本研究还借助了第三方网站的资源来进行辅助分析,包括作者的个人主页、AMiner等。其中,AMiner是清华大学唐杰教授所带领的团队建立的一个学术开放平台,这一平台着力于构建研究者之间的学术社交网络,通过集成多种资源,该平台提供专家发现、会议分析、学术排名等多种功能[12]。本文在验证高产作者的突变检测结果时,部分借鉴了该平台上的作者信息。
2 研究结果和综合分析
2 .1 突变术语与持续期间检测
儿童呼吸病房空气菌落数与床位数的相关性研究 … …………………………… 杨芬兰,等(6):674婴幼儿过敏性胃肠炎临床、消化内镜特点及胃、肠病理改变 … ………………… 龙 梅,等(8):970
基于设计的研究方法与流程,对上述70位作者进行突变检测实验,结果显示,其中有9位作者未检测到突变术语(分别是:T.Fukuda,H.Ishiguro,N.Navab,D.G.Caldwell,V.Loia,I.S.Kweon,K.Jo,W.Philips和J.M.Ogier)。受篇幅所限,表3仅展示各国家/地区中发文量最多者的检测结果(完整表可联系通讯作者,下同)。
表3 高产作者及其突变术语(部分)
从描述粒度上来看,新兴研究前沿属于更细粒度的层面,如蝙蝠算法(Bat Algorithm)是一种求解全局最优解的算法、高效用集(High Utility Item Set)是模式挖掘(Pattern Mining)中一个具体的研究方向、对抗设置(Adversarial Settings)涉及的是深度学习中的对抗问题、多部件机器人系统(Multi-component Robotic System)是机器人系统中的子研究方向。这些术语所描述的,或是面向于具体的研究方向,或是面向于具体的应用场景。总体来说,这些新兴研究前沿有着关注量少(最早作者数均低于5个,最近作者是数均低于7个)、篇均被引较低(篇均被引大多在10以下)的特点。而这也表征着新兴研究前沿之后的两个演化方向:其中的一部分可能发展为热点研究前沿,其余部分则可能逐渐消失。
2 .2 研究前沿分类剖析
获得高产作者的突变术语之后,依据前述研究设计中提到的分类标准,最终得到热点研究前沿、新兴研究前沿和成长研究前沿三大类研究前沿。下文将结合所提取的属性,来阐述各个类别的研究前沿的特征与作用。
2.2.1 热点研究前沿 选取突变术语总数的前20%(248*20%≈50个)作为热点研究前沿,筛选结果如表4所示,受篇幅限制,仅展示涉及高产作者数最多的前10个研究前沿。
首先,是前期的数据获取与数据清洗工作,将突变检测结果中的突变术语与原文题录(包括标题、摘要、作者关键词和扩展关键词)进行匹配,为了找寻出突变术语可能的最早研究/出现时间,匹配的是所有1085位高产作者所有年份(1996—2017年)的文章数据;其次,针对每一个突变术语,当一篇文章的标题、摘要、作者关键词、扩展关键词中任一字段包含该突变术语时,便认为二者匹配成功。遍历这些作者的所有文章,对每一个突变术语,形成了“作者数”(涉及的高产作者数量)、“文章数”(涉及的文章数量)、“文章总被引数”(涉及的文章总被引量)、“最早作者数”(最早年份的文章的高产作者数量)、“最早年份”(最早包含该突变术语的文章发表年份)、“平均年份”(每篇文章的年份加总后除以文章数,向下取整)等多个属性字段,选取涉及文章数最多的前10个突变术语作为示例(见表2);最后,依据不同的属性,本文从上述突变术语中界定出热点研究前沿、新兴研究前沿和成长研究前沿这几类,其中,将涉及的高产作者数量最多的前20%的突变术语定义为热点研究前沿;根据数据集中总体研究年份的分布,将最早研究年份在2010年及之后的突变术语定义为新兴研究前沿;成长研究前沿通过术语平均每年增长的作者数来界定,将其用成长度R 来描述,数学公式表达为:
总体来看,这些代表人工智能领域基础理论和方法的术语,是任何作者转向人工智能领域进行研究的根基。因而,从单个作者的角度来看,这些突变术语是其研究兴趣或研究方向转变的体现,而从领域整体来看,这些研究前沿代表着领域内的研究热点和研究趋势。
本文选择将突变检测与文本内容分析相结合的研究方法。采用Kleinberg于2002年提出的突变检测算法[10],来探测高产作者近10年的突变术语。检测到的突变术语是仅从词频角度来进行界定,但如果只选定这一个特征维度来进行分析,将不利于全面、深入地对基于突变术语的研究前沿进行解读。因此,选择将文本内容分析相结合的方法进行具体研究与分析。
新兴研究前沿与热点研究前沿有较大的差异,新兴研究前沿仅从时间维度来进行界定。本节中的14个新兴研究前沿中,仅深度学习(Deep Learning)出现在上节当中的热点研究前沿中,从领域背景知识来看,深度学习最近几年才兴起,然后在短时间内得到广泛关注,其同时具备了新兴研究前沿的时效性和热点研究前沿的高关注度。
对比膝关节损伤患者2种检查方式损伤检出情况(见表),2种检查方式在膝关节积液、韧带损伤、骨质损伤检出方面未见显著差异(P>0.05),MRI检查半月板损伤检出率(27.50%)高于CT检查(10.00%),且与CT检查(77.50%)相比,MRI检查膝关节损伤总检出率(100.00%)较高,两者差异明显(P<0.05)。
表4 热点研究前沿(部分)
表5 新兴研究前沿
识别出的突变术语共计299个,由于作者之间的研究可能存在交叉,所以有些突变术语是重复出现的,去重后有248个突变术语。值得提出的是,与核心机构进行突变检测的结果相比,高产作者层面上检测到的248个突变术语,其中有一半以上(146个)未出现在核心机构的突变检测结果中。究其原因,一方面是输入数据在体量上存在差异,机构的输入远多于作者;另一方面,是选取的研究视角不一致,作者层面的研究是更加细粒度的。同时也说明,这一差异从侧面体现出从不同层面进行突变检测分析的重要意义。
随着佟老板锒铛入狱,皮副乡长和李顺也因收受贿赂(他们在二期开发工程中各得了一套一百二十平米外带车库的楼房,市价六十一万)被立案调查。
2.2.3 成长研究前沿 通过公式(1)将所有突变术语的成长度计算出来后,根据总体的分布情况,将突变度大于2的术语界定为成长研究前沿,部分结果如表6所示。
表6 成长研究前沿(部分)
成长研究前沿在一定程度上描述了从新兴研究前沿到热点研究前沿的过渡状态。被界定为成长研究前沿的术语在当前研究时期正处于成长阶段,往往有可能继续演变为热点研究前沿。通过对比成长研究前沿和热点研究前沿,我们发现:成长研究前沿中除大数据(Big Data)、行为识别(Action Recognition)、微分进化(Differential Evolution)、极限学习机(Extreme Learning Machine)、最优方法(Art Performance)这5个突变术语外,其余的均包含在热点研究前沿中。这反映出大多数的成长研究前沿都成功演化成热点研究前沿,只是在关注热度上存在一些差异,如成长度前10的研究前沿中,深度学习(Deep Learning)、卷积神经网络(Convolutional Neural Network)和大数据(Big Data)涉及的作者数均在300以下,处于关注热度较低的水平。
因此,遵循职业院校自身的教学原则,加强学生实习过程管理,建立系统、科学、可操作的质量评价体系,引导学校进行动态评价,并根据评价结果,采取有效措施加以控制,确保人才培养质量,已成为职业院校亟待解决的主要问题。
3 总结与展望
通过对实验结果的综合分析,本文的主要贡献在于:
1)检测出来自14个国家和地区的高产作者研究前沿。
2)通过将突变术语回溯到原文题录中标题、摘要、作者关键词或扩展关键词中,匹配相对应的论文信息以抽取多种属性特征,进而提炼出作者层面的三类研究前沿。①热点研究前沿:反映了整个人工智能领域内的研究热点或研究趋势,如神经网络(Neural Network)、最优化问题(Optimization Problem)、特征抽取(Feature Extraction)等;②新兴研究前沿:反映了最近几年领域内比较新颖的研究技术或研究方法,但这类研究前沿在当前获得的关注度较低,如蝙蝠算法(Bat Algorithm)、高效用项集(High-utility Itemset)、犹豫模糊语言术语集(Hesitant Fuzzy Linguistic Term Set)等;③成长研究前沿:反映了从新兴研究前沿到热点研究前沿的过渡状态,这类前沿在当前所获得的关注度较高,极有可能在之后演化成热点研究前沿,如支持向量机(Support Vector Machine)、计算机视觉(Computer Vision)、计算复杂性(Computational Complexity)等。
总体来看,本文从作者层面出发,检测出高产作者的突变术语,并提炼出三类基于作者的研究前沿,提供一个细粒度解析研究前沿的视角。相应的,由于选择视角的特殊性,本文的局限性体现在:①进行突变检测的数据量偏少,后续可研究更多高产作者的突变术语,以增强结论的说服力;②CiteSpace中突变检测的参数设置范围受软件本身所限制,后续研究可考虑编程实现突变检测算法,以更灵活地调整模型参数。
【文化说明】turkey cock可喻指“自负的人”“妄自尊大的人”,因为它走路的样子显得趾高气扬,非常傲慢
参考文献
[1] 张振刚,黄洁明,陈一华.基于专利计量的人工智能技术前沿识别及趋势分析[J].科技管理研究,2018(5):36-42.
[2] 彭丽,叶充,岑慧连.1991—2013年人工智能知识图谱研究[J].情报探索,2015(3):17-21.
[3] 余厚强,曹嘉君,王曰芬.情报学视角下的国际人工智能研究前沿分析[J].情报杂志,2018,37(9):21-26.
[4] 张春博,丁堃,贾龙飞.国际人工智能领域计量与可视化研究——基于AAAI年会论文的分析[J].图书情报工作,2012,56(22):69-76.
[5] ZHAO Yupeng,HOU Jian,LAI Junfeng.The investigation about the research front of artificial intelligence that based on the mapping knowledge domain[C]//Proceedings fo the 38th International Conference on Computers and Industrial Engineering.北京:电子工业出版社,2008:2688-2697.
[6] 郑彦宁,许晓阳,刘志辉.基于关键词共现的研究前沿识别方法研究[J].图书情报工作,2016(4):85-92.
[7] MORRIS S A,YEN G,WU Z,et al.Time line visualization of research fronts[J].Journal of the Association for Information Science & Technology,2003,54(5):413-422.
[8] GARFIELD E.Scientography:mapping the tracks of science[J].Current Contents Social & Behavioural Sciences,1994,7(45):5-10.
[9] 姜婷婷,范水香,陆伟,等.基于NEViewer的国内外图书情报领域研究热点对比分析[J].情报科学,2016 (2):154-160.
[10] KLEINBERG J.Bursty and hierarchical structure in streams[J].Data Mining & Knowledge Discovery,2003(4):373-397.
[11] 郑乐丹.基于突变检测的学科领域新兴研究趋势探测分析[J].情报杂志,2012,31(9):50-53.
[12] TANG J.AMiner:mining deep knowledge from big scholar data[C]//International Conference Companion on World Wide Web,2016.
Identification and Analysis of Research Front in Artificial Intelligence :A Perspective Based on Multi -attribute Comprehensive Study of Highly Productive Authors
Abstract : [Purpose/significance] To explore micro-level research frontiers in artificial intelligence from author-level,and combine related information for further interpretations.To grasp the author's research situation,position and characteristics in the whole field.Also,to find types and states of research frontiers identified based on different attributes.[Method/process] We use the burst detection algorithm in CiteSpace to find burst terms of high yield authors,then extract various attributes according to original sources of burst terms.Finally,research frontiers are concluded from burst terms based on those attributes.[Result/conclusions] According to the bibliographic attributes of the papers of burst terms,50 hot research frontiers,14 emerging research frontiers and 34 growth research frontiers are defined at the author level.Hot burst terms represent research hotspots and research trends.Growing burst terms can predict research focus or research trends while emerging burst terms correspond to more granular research directions or technical means in a field.[Limitations] Limited by the relatively small number of high yield authors,the universality of the experimental conclusion needs to be further verified.The parameter setting range of burst detection in CiteSpace is limited by the software itself and cannot be adjusted flexibly.
Keywords : artificial intelligence;research front;burst term;CiteSpace;burst detection;high yield authors
DOI: 10.16353/j.cnki.1000-7490.2019.09.004
*本文为国家社会科学基金重大项目“面向知识创新服务的数据科学理论与方法研究”(项目编号:16ZDA224)和江苏省研究生科研与实践创新计划项目“面向知识创新服务的数据清洗实现模式研究”(项目编号:SJCX18_0135)的成果之一。
作者简介: 邹本涛 ,男,1994年生,博士生。研究方向:数据科学,知识挖掘。王曰芬 (ORCID:0000-0002-7143-7766,通讯作者,Email:yuefen163@163.com),女,1963年生,教授,博士生导师。研究方向:知识服务,数据挖掘。曹嘉君 ,女,1995年生,博士生。研究方向:数据科学,知识服务。余厚强 ,男,1990年生,副教授,硕士生导师。研究方向:科学计量,知识服务。
作者贡献声明:邹本涛 ,提出研究思路,设计研究方案,采集、清洗和分析数据,进行实验,论文起草。王曰芬 ,提出研究思路,设计研究方案,论文最终版本修订。曹嘉君 ,采集、清洗和分析数据。余厚强 ,论文最终版本修订。
录用日期: 2019-03-27
标签:人工智能论文; 研究前沿论文; 突变术语论文; citespace论文; 突变检测论文; 高产作者论文; 南京理工大学经济管理学院论文; 江苏省社会公共安全科技协同创新中心论文;