人工智能研究前沿识别与分析:基于领域全局演化研究视角论文

专题序:多元研究视角下人工智能研究前沿识别与分析

研究前沿的概念是1965年由De S.Price在“Science”上发表的论文“Networks of scientific papers”中提出来的。在该文中,Price通过对科学论文的引用网络、表现形式与潜在属性进行分析后发现,在科学论文的引文网络中只有极小部分论文即被新发表论文频繁引用又因引用关系集聚在一起,由此他将这一小部分论文的研究看作是一种生长的尖端或者表皮层,即一种活跃的研究前沿,并将研究前沿定义为最近发表的被科学家积极引用的彼此密切聚集的一组论文所表征的研究领域。之后,研究前沿进入科学计量学、情报学、科学学与科技管理等研究领域,Small,Garfield,Persson等知名学者陆续从不同角度研究和阐释它的内涵,形成了研究前沿是新兴主题、正在兴起而不是衰落且区别于经典术语、持续性发展等不同的解读;并创建了基于定性分析或定量分析的多种研究方法,促使相关理论与方法的研究不断地受到许多学者的关注,而且应用研究的范围辐射到自然科学、社会科学与工程技术的各个范畴。

如今,随着科学技术在社会经济增长中作用的日渐突出,准确识别与判断科学技术的前沿,既是国家战略发展规划制定的宏观需求,又是科学工作者把握研发方向的微观需要。同时,伴随着每个领域更加专业细分化和各个领域研究内容之间更加交融化的发展,识别研究前沿的任务变得相当困难。因此,如何创新与完善原有的理论和方法,是研究前沿研究面临的新挑战。

从表征学术文献特征角度看,一方面,论文主体特征可以被划分为国家、机构与作者三个层次。其中,作者是论文主体层次中的最小单元,也是组成机构和国家的基础单元。作者主导着研究的领域、方向与发展态势等,同属于一个机构的多位作者研究的汇集形成机构研究状态,同属于一个国家或者地区的多个机构研究的汇集形成国家研究状态。而众多的不同作者、不同机构、不同国家或者地区研究的汇集形成不同领域的整体研究状态。另一方面,在各种数据库与算法的支撑下,多种文献特征之间都可以建立起关联,使得研究前沿的识别深入到微观层次成为可能。因此,将文献特征结合从不同角度研讨技术领域的研究前沿,可以对技术研究态势及其发展等进行更加系统而细致的挖掘与解读,以为技术研究者与政策制定者提供不同视角的决策数据支撑。

国民政府对抗战时期小学教育的重视,在一定程度上引发了福建知识分子对小学教育的讨论,他们纷纷著书立说,为战时福建的小学教育建言献策。抗战时期国统区出版了大量期刊、报纸,刊载了政府及民众为挽救民族危亡所提出的政策和建议,福建出版的《抗战与教育》《战时小学教育》等期刊见证了知识分子为促进战时小学教育的发展所做出的努力。

本专题论文在国家社会科学基金重大招标项目和国家自然科学基金应急管理项目支持下,尝试从多元研究视角并结合多种数据特征,对人工智能领域研究前沿识别进行综合性的阐释与分析,以为广泛而深入地展开相关研究提供参考和借鉴。

王曰芬

人工智能研究前沿识别与分析:基于领域全局演化研究视角*

● 王曰芬1,2,曹嘉君1,余厚强1,2,邹本涛1

(1.南京理工大学经济管理学院,江苏 南京 210094;2.江苏省社会公共安全科技协同创新中心,江苏 南京 210094)

摘 要: [目的/意义]在人工智能持续快速发展的背景下,借助于数据分析进行人工智能领域突变术语的识别,揭示人工智能领域的研究前沿及其态势的演变状况,以为科学研究与政策制定提供数据支撑和决策参考。[方法/过程]在对研究前沿综述的基础上,以WoS核心合集为数据源,采集与处理人工智能研究的文献数据,利用突变检测算法识别出突变术语,从整体内容、突变持续区间、突变初始年限以及突变时间和词频相结合的角度进行研究前沿的识别与具体演进分析。[结果/结论]人工智能研究前沿由理论研究向技术方法和算法研究演变,整体上处于持续稳定的发展状态中;在学习模型和算法上出现新的发展思路,以智能应用为目标;同时,移动设备、能源消耗以及标准测试数据等研究发展得较快。[局限]主题术语可能存在分词误差,需追踪到实际文献中的主题词进行修正。

关键词: 人工智能;研究前沿;突变检测;突变术语;前沿演进

1 研究背景

研究前沿概念最早由Price[1]提出,他认为研究前沿是基于新近研究成果,由频繁被引用的近期文章所组成的聚类。然而迄今为止,研究前沿尚未形成统一定义,许多学者在Price所给定义的基础上提出了不同的阐述。如陈超美认为研究前沿是正在兴起的理论趋势和新主题的涌现,可理解为一组突变的概念及其基本概念问题[2];一般认为研究前沿是科学研究中最先进、最新、最有发展潜力的研究主题或研究领域[3]。本文结合陈超美对研究前沿的定义,将研究前沿理解为研究领域内最新的研究趋向,是最近出现且有增长趋势的研究主题,表现为主题词具有突然增长的特性。与研究前沿不同,相关术语研究热点是指关注度较高的研究主题,在主题词上表现为词频数较高;而经典术语则是指稳定发展趋于成熟的研究主题,在主题词上表现为突变度的持续但与词频变化无关。

研究前沿的计算模型、方法与工具是应用的关键,早期的应用由于技术上的限制,主要依据学科专家人工进行识别和判读。随着有关研究前沿的研究不断深入,其识别模型与方法逐渐丰富,并形成两种不同的研究角度。第一种角度是基于文献计量学角度,研究前沿的探测方法主要为基于引用关系的方法、基于内容词的方法以及二者混合使用的方法[4-6]。例如,高楠等[7]基于共被引分析法和耦合分析法,创新性地利用Zscore概率融合模型对共被引相似度矩阵和耦合相似度矩阵进行融合,利用融合矩阵对专利数据源进行研究前沿识别;郑彦宁等[8]提出两个指标为研究主题年龄和研究主题关注作者数量,构建基于关键词共现的研究前沿识别方法,并应用在LED领域进行;陈超美[2]开发CiteSpace软件将引文与词检测相结合,用突变术语、引文聚类图、关键文献发掘和时区视图等揭示研究前沿。第二种角度是基于计算机全自动或半自动化角度,通常采用文本挖掘对文献中前沿话题进行识别。例如,冯佳等[9]通过LDA模型抽取研究主题,采用主题强度和主题新颖度两个指标来识别科学前沿主题;徐路路等提出一种基于TDT模型融合多要素分析及归一化处理的思想识别科学研究前沿的方法,并以美国国家科学基金会的基金项目数据中有关石墨烯研究前沿为例进行实证分析[10]

突变术语是指一个学科内突然发生变化的专业术语,表现为在某些年份发表文献中骤增,可用来表征研究前沿[15]。突变术语的检测常用Kleinberg[16]提出的突变检测(Burst Detection)算法,该算法关注相对增长率突然增长的词,基于概率机对不同时间段上词出现的频率进行建模。Kleinberg指出特定领域发表的文献在一段时间内,随着主题的出现某些特征的频率急剧上升,并提出基于无限状态自动机对流进行建模的方法,将突发表现为状态转换,将突发权重指数表示为从非突发状态跃迁到突发状态的成本。从某种意义上,突发权重越大,突发的可信度越高[17]。因此,利用Kleinberg的突变检测算法可检测突变术语,基于突变术语的突变权重等特征可分析判断出领域的研究前沿。

在人工智能领域,已有研究者采用CiteSpace探析研究前沿。例如,张振刚等[12]以专利为数据源,利用CiteSpace绘制共词图谱并识别出专利突变术语,以此分析人工智能技术的研究前沿;张春博等[13]以AIII年会论文为数据源,运用Bibexcel和CiteSpace软件分别形成高频关键词和突变术语,并将二者结合来分析国际人工智能领域研究前沿;彭丽等[14]选取Web of Science中人工智能领域的论文数据,对检测到的术语进行分类研究,分析了人工智能前沿主题的演进过程。

4)中期稳定型。在领域研究过程中某段时间内具有突变度,突变持续时间内词频波动较小。人工智能领域中期稳定性的突变术语为图像分割。该类型的术语可能为过去某段时间持续的研究主题,是在其突变持续时间内术语领域内的研究前沿,其发展是长期积累的结果,在领域长期的研究过程中可能为突变时间内研究主题的再次衍生,已转变为经典术语。

2 数据来源与研究方法

2 .1 数据来源与处理

本研究以Web of Science核心集作为检索库,选择Web of Science分类下的计算机科学以及人工智能,形成逻辑检索式WC=“Computer Science,Artificial Intelligence”。根据研究前沿的界定并综合已有研究,设置检索年份为2008—2017年共10年,检索时间为2018年5月,共检索到435276条数据。通过数据导出与处理,将下载下来的文献记录转换成CiteSpace能识别的Wos输出格式。本文不考虑论文本身的质量,将下载的所有文献数据作为分析对象,从全局性视角探究人工智能研究前沿。主要有两方面的原因,其一,论文质量的评价暂无规范性的标准;其二,所有论文都是该领域科学研究的承载体,其研究内容代表的研究前沿均能体现该领域的研究。

搭配指的是一系列相关的词项在篇章中的共现,它强调的是这一系列词语共现的潜在联想性。分析上面的一段话可以发现,cat和mouse以及feed同时出现时,会使人产生对猫吃老鼠的一系列动作联想,紧接着例子中提到的stalk,catch,kill和eat与cat,mouse,feed构成一个语义场,使语句之间紧密结合。

2 .2 方法与工具选择

自然进化所造就的智能,称为自然智能。与此对应,人工智能就是指由人类所制造的智能,也就是机器的智能。人工智能的研究目的,是要在理解自然智能(特别是人类智能)基础上创制具有一定智能水平的智能机[11]。在1956年,世界上“人工智能”(Artificial Intelligence)术语正式被提出,到现在已有60多年的历史。其研究受到软硬件技术发展的局限而几经波折。随着物联网、大规模并行计算、大数据、深度学习算法等的兴起与快速进步,使得人工智能发展的瓶颈逐渐得到突破,促使人工智能的科学研究与产业化又掀起了新一轮的热潮,并对社会与经济发展的方方面面产生着深刻影响。因此,在全社会日益关注人工智能发展的背景下,为了解该领域学科发展的最新研究或动向,从数据分析与情报研究角度出发,识别与分析人工智能研究前沿及其演化具有前瞻性指导意义。

支持突变检测的工具是CiteSpace软件,其自带的Burst Detection功能使用Kleinberg算法进行突变检测,以检测一个学科内研究兴趣的突然增长。本文的操作流程为:以计量学方法为主体,借鉴突变检测方法,使用CiteSpace5.2.R2版本,对数据进行处理、制图和分析。研究的主要内容包括:利用CiteSpace构建突变术语共现网络;从大量专业术语中检测出突变术语;依据突变术语的权重进行排序;结合多种特征探究人工智能领域研究前沿及演进轨迹。

综合考虑突变性质、突变频次及持续时间,经研究在整体时间段内将人工智能领域突变术语划分成以下几种类型:

3 研究结果与综合分析

3 .1 国际人工智能领域整体研究前沿的检测与变化判别

通过对2008—2017年期间的突变术语进行检测,模型参数为默认值,共检测到29个突变术语。将检测到的29个突变术语按照突变的年限进行排序,形成主题词突变演化表如表1所示。2008—2017年期间,具有突变度的术语不断发生变化。突变度排序前五的突变术语分别为大数据(Big Data)、最先进的方法(the-art Method,实际文献中主题词为State-of-the-art Method)、移动设备(Mobile Devices)、能源消耗(Energy Consumption)和标准测试数据集(Benchmark Dataset)。

茄子幼苗度过缓苗期后会逐渐步入到快速生长期,这个时期温室大棚白天温度控制在30℃以下,温度太高会造成花器发育不良,影响茄子结实。夜间温度控制在15℃以内。当茄子进入开花坐果期后,可以选择晴朗天气,在早晨使用30 ppm的2,4-D或者防落素对番茄花和植株进行处理,增强植株开花坐果能力,促进果实快速膨大,提高茄子产量。

科技企业要加大自主研发投入,加快融入全球研发创新体系,增强整合创新资源能力,加快提升自主创新能力和核心竞争力,在相关领域积极抢占主导地位,建立领跑优势。各地要围绕强化企业技术创新主体地位,推动创新政策、创新资源、创新人才、创新服务向企业集聚,大力培育创新型领军企业和高新技术企业,重点培育一批瞪羚企业、独角兽企业、平台型企业,形成更具规模的创新型企业集群。

依据突变术语的突变年限,可将近10年人工智能研究前沿的发展划分成三个阶段。前期阶段,年限为2008—2011年,研究前沿以系统、算法以及逻辑等方面的研究为主,该时期突变术语在研究时间段内表现为前期持续具有突变度,主要有移动机器人群(Mobile Robots)、模糊集(Fuzzy Set)、模糊逻辑(Fuzzy Logic)、多智能系统(Multi-agent System)、支持向量机(Support Vector Machines)等;中期阶段,年限为2012—2014年,研究前沿以算法优化以及计算性能提升的研究为主,同时硬件设备的发展也促使人工智能进入大数据挖掘时代,该时期突变术语在研究时间段的中间过程中持续具有突变度,主要有增强学习(Reinforcement Learning)、人工智能(Artificial Intelligence)、搜索空间(Search Space)、图像分割(Image Segmentation)等;近期阶段,年限为2015—2017年,人工智能的研究涉及层面广泛,并呈现出关注新问题和受到新技术方法影响的特点,该时期突变术语在最近几年内持续具有突变度,主要包括能源消耗(Energy Consumption)、大数据(Big Data)、最新的途径(the-art Approach)、学习过程(Learning Process)、高性能(Superior Performance)、标准测试数据(Benchmark Dataset)和最新的方法(the-art Method)。此外,还有在中期开始并持续研究的具有较高突变权重的术语,如云计算(Cloud Computing)、最新的算法(the-art Algorithm)和移动设备(Mobile Devices)。

对于CS架构的业务系统,需要业务系统进行改造,通过JSP页面获取到登录信息后,可以实现从JSP页面启动CS客户端,并跟进获取到登录信息登录至CS系统中。

进而,将突变检测到的突变术语按初始突变年份进行整合对比,对相应的文献进行研读,从内容角度分析研究前沿的演进情况。2008年起始突变的突变术语涉及人工智能的理论研究、方法技术研究以及实践应用研究。理论研究为理论分析(Theoretical Analysis);方法技术类研究有模糊集(Fuzzy Set)、模糊逻辑(Fuzzy Logic)和支持向量机(Support Vector Machines);实践应用研究主要为多智能系统、控制系统以及机器人研究。2009年人工智能领域对决策树(Decision Tree)的研究较为突出,注重算法的优化、改进以及应用研究[18-19],并与分类[20]研究相关。2010年人工智能研究关注机器学习领域中的增强学习(Reinforcement Learning),而有关搜索空间(Search Space)的研究多为对其缩减与修剪以应用于具体问题[21-23]。2011年人工智能研究中对隐马尔可夫模型(Hidden Markov Model)的优化以及应用较多,同时,在图像处理领域的研究主要以图像分割(Image Segmentation)较突出。2012年人工智能领域突出分类性能(Classification Performance)研究,涉及多个方面,包括利用算法提高分类性能[24]以及对特定案例中分类性能的影响因素的探究[25]等。2013年人工智能研究关注于计算机计算的相关研究,数据量的增多促使计算机需求的增加,同时需考虑研究中计算机的计算成本(Computational Cost)以及效率,硬件设备的发展也为云计算提供了基础支撑,此外时间序列(Time Series)和提出的系统(Proposed System)均在此环境下得到发展。2014年人工智能向移动设备发展,同时不断进行先进算法(the-art Algorithm)探究以及实验评价(Experimental Evaluation)研究。2015年突变术语增多,大数据发展的同时,人工智能领域中特征识别的研究需要标准测试数据(Benchmark Dataset),主要用于图像识别[26]、行为检测[27]等;研究人员在人工智能方法研究上不断寻求新的突破,对文献进行研读得知学习方法(Learning Method)指机器学习方法的研究;有关性能的研究表现为技术层面的性能提升,研读文献得知高性能(Superior Performance)涉及多个方面,如在移动设备等硬件中技术性能的提升以及计算机视觉图像分割领域的聚类方法性能的提升;此外,人工智能在智能家居、智能车辆等领域的应用中注重能源消耗(Energy Consumption)的研究。2016年和2017年无初始突变的突变术语,之前检测到的部分术语在这两年内持续突变。

表1 国际人工智能研究主题词突变演化表

值得说明的是,在术语的提取上,由于软件运行时形成的主题术语会存在一定分词误差,所以在研究中,将分词误差产生的主题术语追踪到原文献进行修正,并通过相关文献研读对主题术语进行阐释;在时间片段的设置上,由于时间片段的长短,对突变检测算法的计算有影响,算法识别出的突变术语只代表时间内的研究术语。设置的时间阶段不同,识别出的突变术语也会不同。由此在研究中,选择以1年作为时间片段的区别,以得到更细粒度的时间区间。

值得注意的是,其中有关机器人的研究包含对机器人性能的研究和机器人群的研究,因而本研究没有将词语的单复数进行统一,由此产生移动机器人群(Mobile Robots)和移动机器人(Mobile Robot)两个主题词;此外,对于最新的途径以及最新的方法,由于考虑到词语含义的多样性,且暂时不能明确区分两种表达意思的文献数量,本研究将这两个短语作为分别独立的主题词。

3 .2 突变术语排序及持续演化状态分析

为进一步探测识别出的研究前沿能否吸引科学研究者进行研究,以及是否具有一定的频次增长速度,从而探究人工智能研究前沿持续得状态及其演进。本节在上文识别出的突变术语的基础上,从持续时间与突变频次相结合的角度进行突变术语变化趋势描述以及研究前沿的内容阐述分析。基于上述突变术语的识别与分析,发现研究前沿具有瞬时性和动态性,每个时间片段下的突变术语均表征一定的研究前沿。而最近的研究前沿能展现领域内的研究发展,因此,从整体研究的10年时间段来看,生成突变术语突变度排序和频次持续状况表,如表2所示。表中标注词频数值的年份表示突变术语突变持续的年份。

表2 2008—2017年突变术语突变度排序与频次持续状况表

软件的操作与参数的设置如下:将处理后的数据导入CiteSpace软件中,在CiteSpace中,进行条件、计算和展示三个方面的设置。首先,条件设置是对时间片以及分析单元等的设置,Time Slicing中时间段为2008—2017年,时间片设置为1,Term Source选择Title+Abstract+Author Keywords(DE)+Keywords Plus(ID),Term Type选择名词短语(Noun Phrase),Node Types选择Term,阈值设置为TOP50;其次,计算方式设置主要为网络模型优化方式设置,剪切方式(Pruning)选择路径发现(Pathfinder)和修剪合并网络(Pruning the Merged Network);最后,结果展示方式设置为对可视化方式的选择,可视化方式(Visualization)选择静态聚类视图(Cluster View-static)和显示合并网络(Show Merged Network)。运行后得到共词网络图谱,使用“citation burst history”进行突变检测。

1)前期稳定型。人工智能领域的突变术语中主要表现为前期先下降后稳定,检索到的突变术语的词频在前期词频先下降后持续处于稳定状态。突变术语的突变持续期间在之前的某个时间截止,其突变度演变规律为波动性发展后趋于稳定。该类型的术语主要有决策树、移动机器人、理论分析和模糊逻辑。该类型研究可能为开始时频次较高,随后逐渐下降趋于稳定发展,表示相对成熟的研究主题,具有较高的突变度,是过去一段时间内的研究前沿。

2)持续下降型。突变术语的词频从产生开始持续处于下降趋势。该类型突变术语有移动机器人群、多智能系统、模糊集、支持向量机和控制系统。这些突变术语在突变开始时均具有一定的突变度,在突变期间的词频逐渐降低,没有增长的趋势,这类研究主题表示逐渐过时的研究主题,一般表示为曾经某时期具有发展成为研究前沿的趋势,但之后发展趋势消失。

3)昙花一现型。突然出现的研究主题,在技术领域研究发展过程中突然产生的突变术语,且突变持续时间不超过三年。突变持续期间词频较低且词频变化不大。人工智能领域突然出现型的突变术语有试验评价、计算成本、增强学习、分类性能、时间序列、隐马尔科夫模型、人工智能和搜索空间等。这些突变术语突变度持续时间较短且没有持续到近期。该类型的突变术语可能在过去的某段时间内有成为研究前沿的可能性,但从整体来看不属于近期研究领域内的研究前沿。

符号学诗评经过半个多世纪的发展,由前人不断进行补充和完善,如今已经作为一种比较成熟的分析方式进入了大学教学当中,在法国和中国的许多高校中都开设了相关课程。但是我们仍应看到,这种形式主义的分析评论仍存在一些局限:纯粹形式主义的批评,不去解释作品产生的社会背景和历史原因,也不剖析作者创作的意图,只能作为一种辅助的方法,而不能取代全面的诗歌评论;而从读者的角度来说,他们对于诗歌的解读多数是一种阅读过程中获得的感性认识,因此对形式主义的批评接受、理解程度仍不够;再者,形式主义的批评同样也无法指导诗歌的创作,这是其另一局限性。

综上所述,无论是研究前沿的研究还是人工智能等方面的应用,都受到了学者们的关注,而且通过突变术语检测来识别研究前沿这一方法已经得到认可。但是利用突变检测进行人工智能研究前沿识别的现有研究仅选取部分领域数据对突变术语进行识别,对检测出的突变术语进行深入分析并解读的研究较少。对文献数据进行突变检测能够从科学研究的角度,揭示人工智能研究时间序列上的变化。因此,本研究的设计与意义将体现在:从领域全局演化细分视角出发,首先,利用突变检测技术,识别出人工智能领域突变术语;然后,将时间与词频等数据特征结合,从研究内容角度综合分析术语的持续区间以及词频变化态势,以深入解读人工智能研究前沿及其演化。进而促使相关科学研究者与政策制定者把握研究现状并进一步明确发展趋向,获得相关决策的数据支撑与方案参考。

可以看出,陈、张两位先生对借代辞格的类型划分大体上是一致的。只是借代的小类名称和数量略有不同:《发凡》中的“事物和事物的作家相代”,《修辞学》中没有涉及;《修辞学》中的“以特征的喻体代本体(可以看成比喻兼借代)”在《发凡》中没有提及。

5)近期震荡型。突变术语词频呈现波动变化,升降不稳定。人工智能领域该类型的突变术语有移动设备。该类型突变术语为波动的持续的研究,但是否能成长为近期研究前沿还需要时间的进一步验证。

6)近期稳定型。包括先下降后稳定和持续稳定。突变度持续到最近,稳定阶段的词频波动较小。人工智能领域该类型的突变术语有能源消耗、标准测试数据、先进算法、先进方法、云计算、高性能和学习过程。该类型术语突变度具有持续性且为最近产生的突变术语,属于持续性发展的研究前沿主题。

7)近期上升型。包括先降后升和持续上升。突变术语在近几年具有突变度且持续到现在,同时突变术语的词频在后段时间内处于上升状态。人工智能领域该类型的突变术语有大数据、最先进的方法和提出的系统。持续上升的研究主题在突变度持续期间词频不断增长,符合的研究前沿主题的特征。先降后升的研究主题在产生突变度时具有很高的频次,随后频次下降,之后呈现上升的情况,研究主题在突变开始时便是人工智能领域的研究热点,热度减退后,进入稳定上升发展状态,增长持续到现在。因此,该类型的突变术语可以视为近期的研究前沿。

工作中,我用真诚、坦率的处事风格和扎实、厚重的业务功底,赢得了领导和同事的认可。1986年,机会再次降临到我的头上,通过筛选,我被海淀区教委选派到北京教育学院脱产学习两年,专业是教育管理。

4 结论与展望

4 .1 主要结论

本文在利用突变术语检测方法识别出近10年国际上人工智能研究前沿的基础上,从突变时间和词频变化相结合的角度对人工智能研究前沿及其演化进行分析,并依据主题词与对应的论文进行整体内容解读,得出的主要研究结论如下:①从整体看,人工智能研究主要包括理论基础研究、技术方法研究以及实践应用研究这三个方面。这些研究中,突变度较高的有大数据、最先进的方法、移动设备、能源消耗以及标准测试数据。②从突变时间角度看,通过对每年起始突变的突变术语进行分析,可将人工智能研究前沿归类为三个阶段,前期阶段,突变术语较多,涉及系统、算法、模型等多个方向的研究;中期阶段,硬件设备的发展促使数据运算的需求提高,研究以算法和计算性能的研究为主;近期阶段,人工智能研究涉及不同层面,并在硬件设备与数据分析研究循环促进的作用下,逐渐进入稳定持续发展阶段。③从突变时间和词频结合的角度,分析所检测出的突变术语在突变期间词频的变化与呈现出的特点,可将研究前沿变化的状态划归为前期稳定型、持续下降型、昙花一现型、中期稳定型、近期震荡型、近期稳定型和近期上升型7种类型。识别出近期上升型的突变术语,如大数据、最先进的方法和提出的系统等。

阔叶树种,在京城及周边木材市场上进入4季度销路仍然畅通。与针叶原木市场相同的是,在京城以及周边木材市场上经营东北原木的商家普遍认同的仍是俄产木材。这一块阔叶原木由于需求不减,资源品质有保证,价格水平下行机会几乎全无。另外,从俄方进口的北洋阔叶树种原木像榆木、楸木、桦木、杨木、柞木、椴木和水曲柳,不仅需求仍然保持着前两个月的强劲势头,其销售价位也继续坚挺上扬,例如北方市场最认可的水曲柳大径级优质新材售价最强能够冲高到5 000元/m3以上,一般材也就能卖到4 500元/m3左右。

4 .2 研究展望

区别于以往研究前沿的相关研究,本研究将突变术语的内容、突变时间起止、突变时间持续阶段和突变频次相互结合,从多个角度进行研究前沿及其演进的识别、阐述以及解析,并对识别出的研究前沿进行细化。本文的研究思路可为各学科领域研究前沿的研究提供参考,所得到的研究结论可用于深入解读人工智能的前沿变化并发现其中的特点。

而本研究仍然存在一定的局限性,主要有两点:其一是软件运行形成的主题术语存在部分分词误差,促使研究中采用追踪到原文献进行修正的方法,但结果难免会受到主观判断的影响;其二是时间片段设置的不同会导致识别出阶段性的主题术语不完全相同,促使研究中采用将时间片段划分为一年以识别出细粒度阶段性的主题术语,但结果仍然会存在同一阶段中不同时间片段上的主题差异。因此,如何对软件运行后形成的主题术语进行分词检验并在后期处理中提高识别效果与效率,如何根据研究的变化周期动态地设置时间片段来识别突变术语,如何融合多个视角探索技术领域的前沿,将是今后值得深入研究的。

参考文献

[1] PRICE D.Networks of scientific papers[J].Science,1965,149(3683):510-515.

[2] 陈超美,陈悦,侯剑华,等.CiteSpaceⅡ:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009,28(3):401-421.

[3] 陈仕吉.科学研究前沿探测方法综述[J].现代图书情报技术,2009,25(9):28-33.

[4] 王立学,冷伏海.简论研究前沿及其文献计量识别方法[J].情报理论与实践,2010,33(3):54-58.

[5] 余厚强,曹嘉君,王曰芬.情报学视角下的国际人工智能研究前沿分析[J].情报杂志,2018(9):21-26.

[6] 许晓阳,郑彦宁,赵筱媛,等.研究前沿识别方法的研究进展[J].情报理论与实践,2014,37(6):139-144.

[7] 高楠,傅俊英,赵蕴华.融合专利共被引和耦合方法的研究前沿识别——以脑机接口领域为例[J].情报学报,2016,35(9):971-979.

[8] 郑彦宁,许晓阳,刘志辉.基于关键词共现的研究前沿识别方法研究[J].图书情报工作,2016,60(4):85-92.

[9] 冯佳,张云秋.基于LDA和本体的科学前沿识别与分析方法研究[J].情报理论与实践,2017,40(8):49-54.

[10] 徐路路,王效岳,白如江.一种基于TDT模型的基金项目科学研究前沿识别方法研究[J].情报理论与实践,2018,41(8):72-78.

[11] 钟义信.人工智能:概念、方法、机遇[J].科学通报,2017(22):2473-2479.

[12] 张振刚,黄洁明,陈一华.基于专利计量的人工智能技术前沿识别及趋势分析[J].科技管理研究,2018(5):36-42.

[13] 张春博,丁堃,贾龙飞.国际人工智能领域计量与可视化研究——基于AAAI年会论文的分析[J].图书情报工作,2012,56(22):69-76.

[14] 彭丽,叶充,岑慧连.1991—2013年人工智能知识图谱研究[J].情报探索,2015(3):17-21.

[15] CHEN C,MORRIS S.Visualizing evolving networks:minimum spanning trees versus pathfinder networks[C]//IEEE Conference on Information Visualization.IEEE Computer Society,2003:67-74.

[16] KLEINBERG J.Bursty and hierarchical structure in streams[J].Data Mining & Knowledge Discovery,2003,7(4):373-397.

[17] 张建东.基于知识图谱的国内外知识管理研究领域对比分析[D].沈阳:东北大学,2011.

[18] DUMAN F,ERDAMAR A,EROGUL O,et al.Efficient sleep spindle detection algorithm with decision tree[J].Expert Systems with Applications,2009,36(6):9980-9985.

[19] GARCA S,FERNNDEZ A,HERRERA F.Enhancing the effectiveness and interpretability of decision tree and rule induction classifiers with evolutionary training set selection over imbalanced problems[J].Applied Soft Computing Journal,2009,9(4):1304-1314.

[20] HASHEMI S,YANG Y.Flexible decision tree for data stream classification in the presence of concept change,noise and missing values[J].Data Mining & Knowledge Discovery,2009,19(1):95-131.

[21] DÉHARBE D,FONTAINE P,MERZ S,et al.Exploiting symmetry in SMT problems[M]// Automated Deduction—CADE-23.Springer Berlin Heidelberg,2011:222-236.

[22] WARSOP T,SINGH S.Unsupervised learning for temporal search space reduction in three-dimensional scene pecovery[C]//Visapp-Sixth International Conference on Computer Vision Theory & Applications.DBLP,2011.

[23] NAIR N,GOVINDAN A,JAYARAMAN C,et al.Pruning search space for weighted first order horn clause satisfiability[M]//Inductive Logic Programming.Springer Berlin Heidelberg,2011:171-180.

[24] JEATRAKUL P,WONG K W.Enhancing classification performance of multi-class imbalanced data using the OAA-DB algorithm[C]//International Joint Conference on Neural Networks.IEEE,2012:1-8.

[25] FITKOV-NORRIS E,VAHID S,HAND C.Evaluating the impact of categorical data encoding and scaling on neural network classification performance:the case of repeat consumption of identical cultural goods[M]//Engineering Applications of Neural Networks.Springer Berlin Heidelberg,2012:343-352.

[26] RUSSAKOVSKY O,DENG J,SU H,et al.ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.

[27] CAI J X,SUN G F.Human action recognition in the fractional Fourier domain[C]//Pattern Recognition.IEEE,2016:660-664.

Identification and Analysis of Research Fronts in Artificial Intelligence :A Perspective Based on Global Evolution Study of the Domain

Abstract : [Purpose/significance] In the context of the sustained and rapid development of artificial intelligence,this paper aims to identify the burst terms in this field,reveal the research frontier and its evolution,in order to provide data support and decision-making reference for scientific research and policy-making.[Method/process] Based on the review of research frontiers,it used WoS core collections as data source.After collecting and processing the literature data,burst terms were detected by algorithm.The identification and specific evaluation analysis of the research frontier were carried out from the perspective of the overall content,the duration of the mutation,the initial time,and the combination of the mutation time and word frequency.[Result/conclusion] The frontier of AI research has developed from theoretical research to technical methods and algorithms research,and it was in a steady state of development overall.New ideas have emerged in learning models and algorithms,and AI research developed with the application of intelligent applications,at the same time,the research on mobile devices,energy consumption and standard test data has developed rapidly.[Limitations] The topic terms may have some word segmentation errors,which need to be tracked to the subject words in the actual literature for correction.

Keywords : artificial intelligence;research front;burst detection;burst term;frontiers evolution

*本文为国家自然科学基金应急管理项目“人工智能领域研究前沿探测与决策支持”(项目编号:61842602)和江苏省研究生科研与实践创新计划项目“基于数据科学的专家在线知识创新平台构建研究”(项目编号:KYCX18_0344)的成果之一。

DOI: 10.16353/j.cnki.1000-7490.2019.09.001

作者简介: 王曰芬 (ORCID:0000-0002-7143-7766,通讯作者),女,1963年生,教授,博士生导师。研究方向:知识服务与数据挖掘。曹嘉君 ,女,1995年生,博士生。研究方向:数据科学,知识服务。余厚强 ,男,1990年生,副教授,硕士生导师。研究方向:科学计量,知识服务。邹本涛 ,男,1994年生,博士生。研究方向:数据科学,知识挖掘。

作者贡献声明:王曰芬 ,提出研究思路,设计研究方案,论文最终版本修订。曹嘉君 ,设计研究方案,采集、清洗和分析数据,进行实验,论文起草。余厚强 ,提出研究思路,设计研究方案,论文最终版本修订。邹本涛 ,采集、清洗和分析数据。

录用日期: 2019-03-27

标签:;  ;  ;  ;  ;  ;  ;  

人工智能研究前沿识别与分析:基于领域全局演化研究视角论文
下载Doc文档

猜你喜欢