多源信息融合用于新兴技术发展趋势识别
——以区块链为例
张维冲1,2,王 芳 1,3,赵 洪 1,2
(1.南开大学商学院信息资源管理系,天津 300071;2.中电科大数据研究院有限公司,贵阳 550081;3.南开大学网络社会治理研究中心,天津;300071)
摘 要 科技文献不断丰富,成为十分有价值的计量分析数据。对不同来源、不同类型科技文献的信息融合分析,能为全面揭示新兴技术的发展现状及趋势提供有力的情报支撑。从多源异构数据中有效获取主题是多源信息融合中解决“主题”计量实体问题的一项技术难点。本文面向专利、期刊论文、学位论文、会议论文、图书、基金项目、行业报告共7种不同的科技文献类型,提出了基于摘要的主题解析方法,从多源异构文本中获取主题词,并进行数据融合与主题关联分析,在处理效果和效率上都取得不错的效果,为该问题的解决提供了参考。实验部分以区块链为例,在数据融合的基础上分别进行时序性关联分析和主题关联分析,以揭示区块链技术的发展情况。结果显示,本文所提方法有效地揭示了区块链技术创新在科技文献中的产生过程、主题扩散和演化轨迹。
关键词 多源数据;信息融合;主题关联;新兴技术;区块链
1 引 言
科技查新、情报监测、热点发现、科技评价等都是情报工作的重点内容,这些工作需要多种来源的信息,简称多源信息[1]。只有对多源信息进行充分考量,才能对新兴技术发展进行全面揭示。大数据的出现使数据的来源和数量都迅速增加,选择最有价值的资源并有效地融合信息、分析信息成为数据科学领域的核心问题[2],也是情报科学领域的重要任务。无论是情报学研究还是情报工作,都需要充分采集“多源信息”,综合运用“多元方法”,以更加全面地了解学科领域进展或行业发展态势,为科学决策提供更有力的情报支撑。同时各信息源及不同方法分析结果间的交叉验证,也可进一步提高情报产品的有效性[3]。
多源信息融合是指对来自多种信息源、异构、不完备的信息进行综合与集成,生成完整、准确、及时有效信息的过程。多源信息融全应用于目标识别、遥感、医学等领域。按照融合的层次,可以分为数据级融合、模型级融合(特征级融合)和决策级融合。在情报学领域,多源信息的融合虽然已有不少研究[4-6],但目前仍存在较多难点。如何将不同来源的异构数据同构化,进而进行多源信息间的融合分析、横向对比,是其中的一项重要技术挑战。对于新兴技术发展趋势的研究而言,不同类型的数据源所反映的科技信息侧重点不同,例如,科技论文侧重基础科学研究产出,专利侧重技术创新,而产业经济数据是对科技市场信息的把握。因此,为了揭示新兴技术的发展现状及趋势,专利、论文、著作(图书)、行业报告、基金项目、政府公文(政策)、舆情等多源信息的对比、融合分析就成为一项有重要意义的研究。
科技情报工作对新技术的出现与发展趋势负有“耳目、尖兵、参谋”的责任。近年来颠覆性新兴技术(emerging technology)[7]、新兴技术群体不断涌现,不仅重塑了传统产业发展形态,而且也改变了社会的生产和生活方式。如何尽早捕捉有颠覆性潜力的新兴技术发展趋势,对企业研发投资决策和政府研发战略决策具有重要参考价值[8]。其中,作为一种全新的去中心化基础架构与分布式计算范式,区块链技术目前已经引起科技企业、政府部门和资本市场的高度重视与广泛关注[9],相关研究与应用也呈现出增长态势。与此同时也伴随着一些质疑,如可监管性存疑、“不可能三角”问题、安全性的基石掌握在欧美发达国家手中、大规模运行时抗压能力等,导致部分公众认为区块链是炒概念,被过分夸大。要想了解此类技术的发展趋势与真实情况,有必要对多源信息进行融合分析。
本文以区块链为例,对来自多种科技文献的信息进行了主题分析,以期为多源信息的融合奠定基础。首先,按照技术发展规律对该技术的多源信息进行时序性关联分析,以揭示技术发展脉络及不同信息类型间的差别;然后,针对主题抽取,研究基于摘要的主题解析方法,并对不同来源的数据进行主题内容探测;最后,对多源信息主题进行关联分析,揭示区块链技术的发展趋势。希望通过本文的研究,为多元信息融合应用于新兴技术发展趋势分析提供方法参考。
内蒙古大兴安岭北部林区属于大兴安岭北部水文区,河流众多,纵横交错。主要河流有根河、激流河、金河、乌鲁吉气河和敖鲁古雅河。各河流的天然水质优良,基本上没有污染,宜于水资源的开发利用。地下水资源丰富,地下水资源总补给量为4.29亿m3,其特点是埋藏浅,易成井,水量大,水质好。
2 已有研究基础
2.1 新兴技术发展趋势研究
已有对新兴技术发展趋势的研究可以概括为定性分析方法和定量分析方法两类。定性分析方法主要包括德尔菲法、层次分析法以及综合方法等[10],缺点是主观性强、时效性差。定量分析方法主要基于科技论文和专利两类数据源,已有的尝试包括:用统计方法、引文分析研究技术领域论文文献和专利分布结构[11]、变化规律及引证关系等[12]。也有学者将深度学习方法用于多源数据融合,解决多源异构数据的关联挖掘问题[13]。此外,李欣等[8]将媒体数据运用到新兴技术发展趋势研究,提出了基于社会感知分析模型。然而定量分析方法也因常常受限于数据源问题,使得分析管中窥豹、证据不足。比如,专利能一定程度上反映技术发展情况,论文能反映基础研究情况,但是二者不能反映技术转移转化程度以及产业发展与技术市场情况。
针对论文、专利等单一数据只能从技术自身发展视角研究其发展趋势的局限性,本文采用多源信息融合的方法,研究分析新兴技术的发展趋势。信息融合是为了某一目的对来自多源的数据和信息进行组合或综合的处理过程,以期得到比单一信息源更精确、更可靠的估计或推理决策[14]。在不同领域和应用场景下,信息融合所面对的问题不同,人们提出的模型方法与技术手段也各不相同。祝振媛等[15]辨析了与融合有关若干概念,认为信息融合是一种概念框架。对于数据融合分析中异源异构数据的同构化处理技术难点,许海云等[16]从科学计量学角度对多源数据融合分析进行了重点阐述,并提出了未来科学计量多源数据融合模式:一是数据源与数据类型融合,二是数据源与数据类型融合,三是聚类融合。多源信息融合对于科技数据分析与评价研究具有重要意义[17]:一方面,有利于进一步挖掘数据价值,从众多分散异构的数据源获取隐含价值信息;另一方面,多源数据的交叉引证可以降低数据噪音、弥补数据缺失、语义模糊和信息不一致等不确定性因素[5],提高分析的置信度。
技术情报主要关注科技文献,不同来源、不同类型的科技文献具有相近但不完全相同的计量实体[18]。比如,论文的计量实体有标题、作者、摘要、关键词、参考文献、发表时间等,对应地,专利的计量实体有专利名称、发明人、摘要、专利分类号、引证专利、专利公布时间,无关键词。多源信息融合的任务在于,抽取相同属性的计量实体进行汇总,融入同一分析目标,技术上涉及字段拆分、字段映射、数据记录滤重、异构数据加权等手段。然而,仅仅从原始数据中获得的这些计量实体仍然无法实现对技术发展趋势的推断,还必须增加新的计量实体——主题。常见的主题识别技术有主题词获取方法、知识单元的关联强度计算以及面向多元关系融合的主题分析方法等[19],但当前主题的知识表示单元和文本表示模型在语法和语义表征层面上都存在各自的不足,尤其针对海量科技文献的文本主题识别方法类型较为复杂,需要参与的人工分析耗时、烦琐。本文面向不同信息类型,提出新的主题解析方法,从多源、异构文本中获取主题词,在处理结果和效率上都取得不错的效果。
给水泵运行时,当泵内任意一点的压力小于当地饱和压力时,该处的水就会发生汽化,形成小的蒸汽泡,当蒸汽泡被带入高压区,受压破裂,使泵产生汽蚀,引起泵的噪音、振动,甚至破坏。因此泵不发生汽蚀的条件是必须保证泵内最低压力处的压力大于水的饱和压力值。泵内流体最低点不是发生在泵的入口,当给水由泵的入口流至叶轮入口过程中,由于流道收缩,流速增加,流体动能增加,在叶片进口边位置处,压力降至最低值,之后叶片对流体做功,压力逐渐升高。泵入口至叶轮进口最低压力点处的压力将称为泵的汽蚀余量,用 NPSHr表示。该值与管路系统无关,仅与泵吸入室的结构、叶轮的吸入口形状以及叶片进口处的流速有关。
技术发展趋势的分析需要通过多源信息的融合最大限度揭示技术创新主题的发展和演化轨迹,展现科技创新的产生、扩散和演变过程。对于技术演化的计量分析,多源数据的关联分析是最好的途径[20]。因此本文在数据融合的基础上分别进行了时序性关联分析和主题关联分析,以揭示区块链技术的发展情况。
2.2 科技评价的多源数据类型
科学技术的发展,伴随着科技成果的产出,通常以科技文献为载体。2012年《科研评价的旧金山宣言》中强调了科研产出的多样性,认为“科研产出”可以分为:科研论文、新知识报告、数据、试剂和软件、知识产权,以及经过严格训练的青年科技人才。经济合作与发展组织(OECD)发表的《研究与发展调查手册》认为,科研成果按科研属性分为基础研究(理论)成果和应用研究(技术)成果。基础研究成果一般不出售,通常只是在科学期刊上发表或在感兴趣的同行中传播。应用研究成果是为改造客观世界而探索的实用性技术和知识,一般以专利、研究报告、相应的技术资料和实物等体现[21]。
而从情报实践来看,多学科的综合分析、多源信息的融合已成为情报学的普遍现象。领域深度分析、动态监测需要及时关注成果产出、政策导向、媒体报道等,行业调研、竞争对手分析需要获取行业报告、研发动态、市场前景等,技术信息服务需要及时总结发现各类技术性成果。这些工作都需要在充分搜集多种来源信息的基础上进行综合分析,以更全面地扫描领域进展、揭示行业发展态势。本文认为,在新兴技术发展趋势相关研究中,最常用到以下9种数据源信息。
本研究对2016年1月1日—2017年12月31日于哈尔滨医科大学附属肿瘤医院腔镜科使用超细鼻胃镜的患者进行回顾性分析,共计160例,年龄36~91岁,男性136例,女性24例,平均年龄分别为61.54±10.34岁和61.38±10.00岁,包含门诊与住院患者,患者均一般状态尚可,在清醒状态下完成内镜下诊疗,无术后并发症。病变狭窄类型主要为消化道癌症、术后吻合口良性与复发性狭窄、外压性狭窄及不明原因性狭窄等,所有患者均因标准胃肠镜无法通过狭窄处而使用超细鼻胃镜。电子内镜均为奥林巴斯生产,标准胃镜的外径≤9.8 mm,标准肠镜的外径≤12.9 mm,而鼻胃镜的外径≤5.8 mm(表1)。
(1)专利。专利文献传递着技术信息、法律信息和经济信息,是技术创新信息的重要结晶和载体[22]。专利文献所载的技术具有新颖性、创造性和实用性。
(2)期刊论文。出版周期短,能及时反映国内外科学技术的新成果、新动向;数量大,绝大多数基础研究的成果都会以论文形式展现出来。
随着移动互联网以及物联网技术的不断深入应用,各类信息数据以极快速度产生和累积,大数据时代已经来临[1]。大数据备受关注,核心在于挖掘出新的有价值信息[2]。数据挖掘是从已知数据集合中发现各种模型、概要和导出值的过程和方法,也是从大数据中挖掘价值信息的核心手段[3]。
(3)学位论文。一般公开发表的是硕士论文和博士论文,专业性强,讨论问题较为专深。学位论文的数量能反映机构在相关领域的人才培养情况。
(4)会议论文。即参加学术会议所发表的论文或报告,传递信息及时,内容新颖,专业性和针对性强。
(1)加强喷混材料的选配研究。喷混材料的选择配置是喷混植生技术的核心。研发的主体是粘结剂、有机物质、保水材料、pH缓冲剂等的筛选;乔、灌、草种的选择和配置;不同生态型(例如以灌木为主的灌草生态植被型,以草为主的草灌生态植被型等)的种子喷播技术。
(5)图书。与其他出版物相比,图书的特点是:内容比较系统、全面、可靠;传递信息速度较慢,出版周期长。
(6)基金项目。基金项目由国家出资,面向全国,公平竞争,择优立项。国家社会科学基金设立重点项目、一般项目和青年项目,每年评审一次;国家自然科学基金设立面上项目、重点项目、重大项目、重大研究计划、国家杰出青年科学基金、专项项目等[23]。技术发展如何可以从立项数量这一投入要素上加以考虑。
(7)行业报告。行业报告一般是通过专业调研组织的最新统计数据及调研数据,利用专业的研究模型、分析方法,经过行业资深人士的分析和研究,做出的对当前行业、市场的研究分析和预测,具有较强的时效性。
(8)政策。科技政策是一个国家或政党在一定历史时期,为实现科技发展的任务而制定的指导方针和行动准则。我国各级政府在规划类文件中会对重要技术的技术路线图或发展方向给予认定、支持。
2018年,我国区块链行业政策环境显著优化,技术能力快速提升,行业应用逐步拓展。专利、论文、著作等科技产出指标均呈现“井喷式”高速增长。5月,习近平总书记在两院院士大会上的讲话中指出,“以人工智能、量子信息、移动通信、物联网、区块链为代表的新一代信息技术加速突破应用”。区块链凭借其独有的信任建立机制,成为金融和科技深度融合的重要方向,大型互联网企业纷纷布局区块链。为促进区块链应用落地、推动区块链技术和产业良性发展,工信部中国电子技术标准化研究院组织制定了《区块链隐私保护规范》《区块链智能合约实施规范》《区块链存证应用指南》《区块链技术安全通用规范》等四大团体标准。同年,《信息技术区块链和分布式账本技术参考架构》《区块链安全技术标准研究》《区块链平台安全技术要求》等行业标准也相继立项。舆情热度的突变显示,公众对区块链进行了持续的热烈讨论,伴随着比特币造富效应在舆情中的传播,区块链技术进入普通公众的视野中,社会认知度明显提高。
(2)期刊论文:中国知网CNKI。检索式为:主题=区块链;限定条件为:核心期刊、CSSCI、CSCD三个核心来源期刊。检索结果为725篇。
3 数据来源及研究方法
3.1 多源信息融合分析的主要流程
本文分析流程如图1所示。对于行业报告、专利、论文、图书等多源数据,分别从时间维度和主题维度进行分析。
首先,通过多源数据随时间的变化分析技术发展的生命周期。技术在处于成长期、成熟期、衰退期等不同阶段时,不论是投入要素情况,还是产出成果数量,其随时间变化均具有不同特征。对不同数据指标的时序性分析有利于综合判断技术发展态势。
接着,对主题进行融合分析。融合分析的优点在于能结合不同数据来源发现技术热点,识别率更高。难点在于异构数据的解析。行业报告和基金项目只提供全文,且长度不一;专利、期刊论文、学位论文、会议论文、图书提供了摘要和全文,虽然也提供了部分关键词,但是对于主题识别任务而言因召回率低不可直接采用。如果对多源数据从全文开始进行主题挖掘,当处理高维数据时势必会因文本长度的过载使得效率降低,且不同的文本长度也会使得不同数据源间横向对比时呈现出的重要程度不同。本文认为,应该将摘要作为多源异构文本主题解析的最小语料单元,因为:①摘要的获取相对便利,专利、论文在数据库中可直接下载摘要,而图书、行业报告、基金项目可采用自动文摘技术[31]或者简单的人工收集即可获得摘要文本;②摘要几乎包含原始数据的主要关键内容,信息损失率低;③简明扼要,不易产生冗余信息,极大地便利了后期处理;④格式统一、长度均衡。获得摘要后,经过自然语言处理和语义分析,解析摘要中包含的所有主题,实现面向主题分析的异构数据同构化。
图1 多源信息融合用于新兴技术发展趋势识别流程
然后辅以人工判断与主轴分析,筛选关键主题。最后进行共现分析,根据主题在不同数据源的共现关系获得领域知识图谱。
从知识传播角度看,专利承担的作用更多的是知识产权的保护,论文、图书、舆情信息都具有媒介属性,是区块链知识的研究交流平台和普及渠道,但各有特点。图书系统全面,论文短小快捷。舆情更加实时、开放,舆情热度具有较强的社会属性和随机性,往往在技术效应累积到一定程度后,通过若干件舆情事件引发大众的普遍关注。
3.2 数据来源
本文所用9种数据来源示例如下。
(1)专利:大为innojoy专利搜索引擎[24],一款专利情报综合应用平台,高度整合全球专利文献资源,为技术发展提供辅助决策支持。该平台支持检索式检索。本文使用的检索式:TI,ABST=区块链,即检索题目或摘要中包含关键词“区块链”的专利;检索范围设置为:中国发明专利、中国实用新型专利、中国外观专利。共检索到4945件专利。
式中:mcx、ηcx、kcx、mcy、ηcy、kcy和mwx、ηwx、kwx、mwy、ηwy、kwy为铣刀和工件在x与y方向的模态、阻尼和刚度特性。总切削力F(t)在x与y方向上的分力可用Fx(t)、Fy(t)表达。
此外,还有软件著作权、技术标准等相关数据,本文暂不做研究。
(3)学位论文:中国知网CNKI,检索式为:主题=区块链。检索结果为179篇。
(9)舆情:以微信指数为代表[30]。
(5)图书:国家图书馆馆藏目录查询系统[25]。国家图书馆完整、系统地搜集和保管本国的文献,从而成为国家总书库。因此,检索式:正题名=区块链;限定条件:中文文献,中文图书基藏库。检索结果为137条。
人体胃肠道微生态受到出生方式、喂养习惯、饮食、药物、应激、地域、年龄等多种因素的影响[1]。胃肠道微生态参与机体的物质代谢、炎症信号通路转导、调控适应性免疫、维持肠道的完整性、保护机体免受致病菌损伤[2-4]。微生态的失衡与人体胃肠道疾病、糖尿病、肥胖、代谢综合征、自身免疫性疾病及肿瘤等相关,尤其是在人体胃肠道等多种疾病中触发了重要的病理进程。而胃肠道微生态与胰腺疾病的研究也引起了学者们的关注。
(6)基金项目:自然科学基金查询LetPub最新科学基金结果查询系统[26],社会科学基金查询国家社会科学基金项目数据库[27],查询项目名称中含区块链的所有项目,共获得35条检索结果。其中,社科青年项目2项,社科西部项目2项,社科一般项目7项,自科地区科学基金项目2项,自科面上项目9项,自科青年科学基金项目13项。
(7)行业报告:中文互联网数据资讯中心[28],共检索到全网公开发布的“区块链”报告106篇。
(8)政策:中国政府公开信息整合服务平台[29],检索并人工去除不相关内容,共得到全文中含有“区块链”主题的政府公文39条。
(4)会议论文:中国知网CNKI,检索式为:主题=区块链。检索结果为106篇。
4 多源数据时序性分析
按照如图2所示的技术发展生命周期S形曲线模型[32],一项技术在整个发展过程中会经历4个阶段:导入期、成长期、成熟期、衰退期。相应的技术行为数据随时间变化呈现S形轨迹[33]:任何一项新技术在最初均成长缓慢,一旦突破这个界限之后,成长就变得快速,而当其接近上限时,成长再度放缓,图形表现如同S形状。当然,技术的发展轨迹也可能是多个S形曲线的组合,比如,人工智能的发展就经历了推理期的繁荣和衰退、知识期的繁荣和衰退,目前正处于机器学习期的上升阶段,其完整的发展轨迹是三个首尾相接的S形曲线组合,且未来存在继续下一轮衰退和再次繁荣的可能。
例 2 只有理想信念坚定,用坚定理想信念炼就了‘金刚不坏之身’干部才能在大是大非面前旗帜鲜明……[1]413
图2 技术生命周期S曲线
图3所示为本文对不同类型数据的时序性分析。无论从基金项目等投入数据,还是从专利、论文、图书、行业报告等产出数据来看,区块链技术都显然度过了导入期,正处于快速发展的成长期,相关研究成果呈现指数级增长趋势。
以指数型函数y=AeBx分别对除(9)舆情热度外的8种技术行为数据进行拟合,结果如图3中虚线所示。其中,y指不同数据类型对应的年度数据;x指时间;A为参数,即当x=0时函数与y轴的截距;B为参数,反映了y随着x的变化程度。系数R2用于判断模型的拟合效果,R2越大,模型的拟合效果越好。
由图3可知,期刊论文、学位论文、图书、基金、行业报告等几种数据的拟合程度最好,R2均在0.9以上;区块链技术专利产出拟合程度偏弱,R2为0.7939,主要是因为专利数据后期变化过快导致增长速度甚至超过了指数曲线所能拟合的范围。政策发布和舆情热度具有较强的随机性,不符合指数型发展趋势。
翻译心理学是“应用性质的学科,是将心理学,尤其是认知心理学的理论成果应用于翻译研究领域的一个学科”。[4]任何交际或翻译都只能表达部分意思,有些意思在交际或翻译过程中丧失了。因此,如何表达原语意义完全取决于译者。
图3“区块链”多源数据时序性对比分析
从时间轴看,我国区块链技术行为数据最早产生于2008年,以专利形式出现。当年《比特币白皮书》发布,支撑比特币体系的主要技术即是区块链。随后2008年至2014年的几年中,每年申请的专利数量均为个位数。期间,德国、美国政府于2013年明确了比特币的合法性,率先为其他国家在金融领域引入区块链技术提供参考,也逐渐引起了学界注意,2014年讨论区块链的期刊论文开始出现。
经过缓慢的技术导入期,2015年区块链的专利数量突然增加至两位数,预示着该技术进入S形曲线中的成长期。对区块链的广泛研究也渐渐铺开,学位论文、会议论文同年出现。2016年,关于区块链技术的研发和讨论正式进入快车道,19部以区块链为主题的图书出版,9家咨询公司发布了区块链行业相关研究报告,2所高校以区块链为研究对象申请了国家基金项目。同年,首个区块链标准《区块链参考架构》颁布。
2017年一系列产业扶持政策的密集出台,助推了区块链技术快速发展,比如,国务院《关于印发新一代人工智能发展规划的通知》《关于进一步扩大和升级信息消费持续释放内需潜力的指导意见》《关于创新管理优化服务培育壮大经济发展新动能加快新旧动能接续转换的意见》,商务部办公厅、财政部办公厅《关于开展供应链体系建设工作的通知》,商务部《关于进一步推进国家电子商务示范基地建设工作的指导意见》等政策,均对区块链的发展提出了鼓励性引导。
(9)舆情。网络舆情信息是公众对技术发展最直接的认知反馈。
科技文献作为科技创新知识的主要载体,记录了技术发展的具体过程。从数量上看,几种科技文献类型中,增长速度最快的是专利,其次分别是期刊论文、学位论文、会议论文、图书、基金项目、行业报告。区块链作为一项技术类别,其前期发展主要反映在专利、论文等科技产出指标数据上。图书对于区块链技术的介绍更具系统性,积聚效应明显。行业报告更加侧重产业、商业化进程,其发布数量取决于咨询公司对该行业的关注程度与重要程度认定情况。因此,图书、基金项目、行业报告的数量要远低于专利与论文,且增长率也相对较低。
几个人吃罢饭,西双建议找个歌厅唱一会儿歌。呼伦说唱歌就免了吧都这么晚了。西双就坏笑。呼伦说再说喝了这么多酒。西双继续坏笑,嘴上说再着急这一会儿也能扛过去吧?云梦偷偷红了脸,呼伦拖起西双就走,说,反正你消费。
5 多源信息主题分析
5.1 主题内容探测
如前文所述,“区块链”的政策和舆情数据源的时序性不符合指数型发展趋势,因而本节使用专利、期刊论文、学位论文、会议论文、图书、基金项目、行业报告共7种来源数据,采用基于摘要的主题解析方法,进行主题提取。具体步骤如下。
(1)文本预处理。对已获得的摘要文本进行数据清洗、jieba中文分词、过滤停用词。
(3)手工焊与自动焊焊缝强度均高于母材,同时各项力学性能指标均满足相关标准要求,这说明自动焊焊缝相比手工焊具有更优异的力学性能。
(2)抽取关键词。分别对处理后摘要采用Tex‐tRank算法[34]提取关键词。TextRank算法基于Pag‐eRank原理,用于为文本生成关键词。研究表明[35],目前该算法在关键词提取方面表现优异。
(3)解析主题词。运用word2vec词向量训练模型,计算各关键词在文本中的词向量距离[36],从而识别出主题词,去除弱相关的冗余词,完成对关键词的筛选。
(4)主题共现分析[37]。自动生成基于主题词共现网络的知识图谱,如图4所示。图中,线的粗细代表主题间的共线强度。
从图4可以观察出,专利侧重基于区块链技术的系统、设备等应用开发,主要吸纳国外开源社区的区块链研究成果,围绕应用层开展研发工作。重点关注加密、智能合约、存储、分布式/去中心化、密钥安全、身份认证、异构数据等底层技术,应用于征信、版权管理、档案管理、供应链管理、货币交易及管理、加密货币、数字资产、溯源、物联网、医疗数据等现实场景。期刊论文的主题内容,既有自然科学领域对区块链技术本身的研究,如智能合约、分布式/去中心化、密钥安全、身份认证等主题,又有社会科学领域对区块链应用场景、共识机制、隐私保护、征信问题、治理与监管等社会问题的探讨,应用场景包括能源互联网、加密货币、版权管理、供应链、医疗数据等。
与期刊论文相似,学位论文的研究内容也来自自然科学和社会科学两个领域。一方面,研究区块链技术的应用设计与实现,如版权管理、供应链管理、溯源、挖矿、医疗数据等;另一方面,对区块链相关议题进行深入的案例研究,如区块链发展涉及的法律问题、技术评价、隐私保护、征信问题等。区块链有关的会议论文数量较少,现有主题主要集中在比特币发展、区块链应用、金融科技创新、征信以及对技术细节的探讨上。
近三年以区块链为研究对象的图书(著作)如雨后春笋般出现,以技术指导、案例研究、观点描述等各种形式对区块链进行了系统深入的阐述。内容涵盖区块链的概念、架构、技术特点、发展路线、应用及治理与监管等,然而由于区块链尚处于社会实验阶段,以上内容在不同著作中并未形成共识。目前高校总计申请区块链相关自然科学基金项目24项、社会科学基金项目11项,既有技术研究,如身份认证、溯源、分布式/去中心化、加密货币/数字货币、供应链管理、版权管理等,又有发展机理探讨,如征信、隐私保护、法律问题、政府治理等。行业报告是对产业发展的调研分析,来自多家权威咨询公司和调研机构的行业报告从宏观环境、产业环境、技术进展等各方面对区块链进行了概述。
综上所述,作为知识传播的载体,不同类型的科技文献从不同角度对技术发展进行了记录,展现了丰富、多样的研究主题;并且,几种信息来源的主题之间存在一定的相似关系,主题重合现象较为明显。因此,对多源科技文献信息进行主题关联分析,解读科学与技术知识之间的关联性及演化过程,即可进一步揭示技术的演变趋势。
图4“区块链”多源数据主题对比分析
5.2 主题关联分析
本节选取每种信息源的前100名主题词作为各数据来源的属性值,计算相似性系数。由于在7种来源数据中,词频超过2的主题词均在100个词以内,因此,只选择前100个主题词做统计分析,基本代表了每种数据类型的主要主题范围,且避免了只出现一次的主题词导致的统计偏差。相似性计算采用jaccard系数,用来比较样本集中的相似性和分散性。Jaccard系数等于样本集交集与样本集合集的比值,即J=|A∩B|/|A∪B|。获得的相似性矩阵如表1所示。
由表1可知,7种数据类型之间,相似性最高的是期刊论文和学位论文,jaccard系数高达0.387;其次是期刊论文和会议论文,jaccard系数为0.373。只有这两项的相似性系数在0.3以上,主要是因为期刊、学位、会议论文三者的研究主体几乎均来自高校,研究团队往往相同。同理也可以印证,会议论文同学位论文的主题相似性也较高,jaccard系数为0.296,基金项目与学位论文、期刊论文相似性也较高,jaccard系数分别为0.277和0.254。
表1 多源信息主题相似性矩阵
此外就主题多元性而言,学位论文、期刊论文分别与专利、会议论文、基金项目3种来源数据的主题都具有较高的相似性,jaccard系数超过0.25,主题多元性强。专利、会议论文分别同学位论文、期刊论文2种来源数据具有较高的相似性,jaccard系数在0.25以上,主题多元性次之。而图书、行业报告同其他任何类型的主题,jaccard系数均低于0.2,主题的独立性强。
为探测新兴技术主要发展方向,本节对不同信息来源的全部主题进行主轴分析,合并同类主题,识别关键发展方向。7种数据来源的关键主题关联关系如图5所示。
5.3 研究发现
1)区块链研究的关键主题领域为技术、管理、安全以及金融与医疗应用
至少有5种数据来源同时关注的关键主题有:区块链技术、加密货币/数字货币、智能合约、供应链管理、金融科技创新、身份认证、征信。有4种数据来源同时关注的关键主题有:医疗数据、溯源、数字资产、区块链应用研究(能源、电力行业较多)、分布式/去中心化、比特币、版权管理。有3种数据来源同时关注的关键主题有:ICO、法律问题、加密、密钥安全、隐私保护。
2)不同科技文献研究的侧重点不同
整体上看,专利的内容多为技术试验,期刊论文、学位论文、会议论文研究多为对技术的认知过程实践,基金项目、图书的研究内容较为综合,重点偏向技术的转移转化,商业报告则更加关注技术的落地以及产业化发展。
3)区块链已从技术试验阶段迈向了技术认知阶段
不同数据来源间主题的高度关联说明,该主题已经从技术试验阶段迈向了技术认知阶段,即从单纯的技术研发,到对技术应用所涉及的场景、法律监管、隐私保护、治理机制等认知与治理问题进行讨论。可以看到,区块链在如供应链管理、数字货币、溯源、医疗数据等领域的发展已经进入商业咨询报告的视野,离真正的产业化越来越近。
众多研究人员针对溢流阀的性能、突变负载对直动式溢流阀的影响以及脉动流量对溢流阀的影响都已进行了深入研究,然而针对交变压力对先导式溢流阀的性能影响的文献却非常少见。为此本文针对高频交变压力工况,对先导式溢流阀数学模型进行理论分析,并对高频交变压力下先导式溢流阀的响应特性进行仿真和试验对比研究。
图5“区块链”多源信息关键主题关联分析
4)区块链应用正尝试在更多行业场景落地
根据以上趋势可以判断,当前区块链技术尚不成熟,仍处于发展早期。而对于区块链性能、隐私安全、可扩展等方面的技术创新正在不断涌现,区块链应用正尝试在更多行业场景落地。一是面向数据开放与交易、权力运行与监督、个人隐私与保护等应用场景,开发具有可复制、易操作的区块链技术应用平台。二是面向金融领域的区块链技术创新,在加密数字货币、跨境支付、票据管理、供应链金融等领域形成安全可靠的解决方案。三是在能源、农业、物流、制造等领域提升区块链在产品溯源、确权认证、供应链管理等方面的行业应用水平。区块链技术可以实现数据公开、透明、不可篡改和可追溯,能够降低参与各方信任成本,提高协作效率。四是在民生服务、社会治理领域培育形成社会服务和管理的新模式、新手段。
他跳上望天归,站在悬崖的边缘,仰天望,头顶繁星漫天,低头看,脚下深渊无底。他心里乱作一团,女孩的倩影和微笑,黑袍人诱惑的言语,天葬刀邪笑着的双瞳,族人们虔诚的跪拜,族长严厉的指责,师父不安甚至绝望的表情……种种景象在他的眼前浮现,一层层重叠,交叉,粉碎,令他头痛欲裂。
6 总 结
多种类型的科技文献不断丰富,成为十分有价值的计量分析数据。对不同来源、不同类型科技文献的信息融合分析,能为全面揭示新兴技术的发展现状及趋势提供有力的情报支撑。多源信息融合是一项基础性工作,从多源、异构、动态、碎片化的数据中有效获取主题,进而实现主题关联分析是一项技术难点。本文面向7种不同的科技文献类型,提出基于摘要的主题解析方法,从多源异构文本中获取主题词,并进行数据融合与主题关联分析,在处理效果和效率上都取得不错的效果,为该问题的解决提供了参考。实验部分以区块链为例,在数据融合的基础上分别进行了时序性关联分析和主题关联分析,揭示了区块链技术的发展情况。
时序性分析结果显示,该技术发展符合技术生命周期S形曲线,在经历近7年的技术导入期后,目前正处于快速发展的成长期,多种技术行为数据呈现“井喷式”高速增长。其中,对新兴技术响应最快的是专利,其次是期刊论文、学位论文、会议论文、图书、基金项目和行业报告。
主题关联分析结果表明,期刊论文、会议论文、学位论文之间主题相似度最高,图书、行业报告主题独立性最强,几种文献类型普遍关注智能合约、加密方法、身份认证、征信系统、分布式/去中心化等技术主题,区块链应用正在数字货币、版权管理、供应链管理、数据溯源、金融科技创新、医疗数据等行业场景尝试落地。
通过对专利、论文、图书等知识载体的信息融合分析,本文所用方法有效地揭示了区块链技术创新在科技文献中的产生过程、主题扩散和演化轨迹。同时,研究尚有不足之处:第一,在数据来源方面,采用粗粒度的检索方式,没有涉及区块链相关的外延技术。第二,在数据处理方面,由于新兴主题发展迅速,技术行为数据只在近三年有突出表现,因此并未做时间切片处理以查看主题随时间的变化。第三,在信息融合的层次上,出于研究目标的需要,本文主要实现了基于信息主题关联融合的决策支持,而没有对全数据进行融合。目前数据级融合主要限于不同类型数据、不同来源数据融合,难度大,效果有限。针对以上问题,后续研究将进行深入探索。
参考文献
[1] 化柏林,武夷山.多“源”信息需要多“方”融合[J].情报学报,2013,32(3):225.
[2] Xu W H,Yu J H.A novel approach to information fusion in multisource datasets:A granular computing viewpoint[J].Information Sciences,2017,378:410-423.
[3] 郑彦宁,刘志辉,赵筱媛,等.基于多源信息与多元方法的产业竞争情报分析范式[J].情报学报,2013,32(3):228-234.
[4] 化柏林,李广建.大数据环境下多源信息融合的理论与应用探讨[J].图书情报工作,2015,59(16):5-10.
[5] Khaleghi B,Khamis A,Karray F O,et al.Multisensor data fu‐sion:A review of the state-of-the-art[J].Information Fusion,2013,14(1):28-44.
[6] 化柏林.多源信息融合方法研究[J].情报理论与实践,2013,36(11):16-19.
[7] Kunreuther H C.Wharton on managing emerging technologies[M].Chichester:John Wiley&Sons,2004.
[8] 李欣,谢前前,洪志生,等.基于社会感知分析的新兴技术发展趋势研究——以钙钛矿太阳能电池技术为例[J].科技进步与对策,2018,35(10):15-24.
[9] 袁勇,王飞跃.区块链技术发展现状与展望[J].自动化学报,2016,42(4):481-494.
[10] 吕晨,张旭,赵蕴华,等.新兴技术选择方法研究[J].科技管理研究,2012,32(23):228-231.
[11] Li X,Zhou Y,Xue L,et al.Integrating bibliometrics and road‐mapping methods:A case of dye-sensitized solar cell technologybased industry in China[J].Technological Forecasting and Social Change,2015,97:205-222.
[12]Guo J F,Wang X F,Li Q R,et al.Subject-action-object-based morphology analysis for determining the direction of technologi‐cal change[J].Technological Forecasting and Social Change,2016,105:27-40.
[13]惠国保.一种基于深度学习的多源异构数据融合方法[J].现代导航,2017,8(3):218-223.
[14]赵杰,崔智社,徐明进,等.信息融合的实质及其核心技术[J].情报指挥控制系统与仿真技术,2003,25(8):38-42.
[15]祝振媛,李广建.“数据—信息—知识”整体视角下的知识融合初探——数据融合、信息融合、知识融合的关联与比较[J].情报理论与实践,2017,40(2):12-18.
[16]许海云,董坤,隗玲,等.科学计量中多源数据融合方法研究述评[J].情报学报,2018,37(3):318-328.
[17] 于洪,何德牛,王国胤,等.大数据智能决策[J/OL].自动化学报,2019,http://kns.cnki.net/kcms/detail/11.2109.TP.20190422.1029.008.html.
[18] Morris S A,Yen G G.Construction of bipartite and unipartite weighted networks from collections of journal papers[OL].https://arxiv.org/pdf/physics/0503061.pdf.
[19]许海云,董坤,刘春江,等.文本主题识别关键技术研究综述[J].情报科学,2017,35(1):153-160.
[20] 武华维,罗瑞,许海云,等.科学技术关联视角下的创新演化路径识别研究述评[J].情报理论与实践,2018,41(8):137-143.
[21] 朱军文,刘念才.科研评价:目的与方法的适切性研究[J].北京大学教育评论,2012,10(3):47-56,188.
[22]张娴,方曙,肖国华,等.专利文献价值评价模型构建及实证分析[J].科技进步与对策,2011,28(6):127-132.
[23]国家自然科学基金委员会.2019项目指南[EB/OL].[2019-03-03].http://www.nsfc.gov.cn/nsfc/cen/xmzn/2019xmzn/index.html.
[24]大为公司.大为专利搜索引擎[EB/OL].[2019-03-04].http://www.innojoy.com/.
[25]国家图书馆.国家图书馆馆藏目录查询系统[EB/OL].[2019-03-05].http://opac.nlc.cn/F/K7VJVUHEJJYJ3CCRNHSQE8SE7 CY39TCH24IC8GAXCU1A7I645M-07979?func=find-b-0.
[26]LetPub.自科基金查询LetPub最新科学基金结果查询系统[EB/OL].[2019-03-01].http://www.letpub.com.cn/index.php?page=grant.
[27]国家社科基金.国家社科基金项目数据库[EB/OL].[2019-02-17].http://fz.people.com.cn/skygb/sk/.
[28]中国互联网数据资讯中心.区块链[EB/OL].[2019-02-15].http://www.199it.com/archives/category/economic-data/internetfi nance/blockchain.
[29]国家图书馆.中国政府公开信息整合服务平台[EB/OL].[2019-02-17].http://govinfo.nlc.cn/lmzz/index_4602.html?new=1.
[30]中国互联网数据资讯中心.微信指数[EB/OL].[2019-02-18].http://www.199it.com/wechat_index.
[31]Mehta P,Majumder P.Effective aggregation of various summari‐zation techniques[J].Information Processing&Management,2018,54(2):145-158.
[32]傅瑶,孙玉涛,刘凤朝.美国主要技术领域发展轨迹及生命周期研究——基于S曲线的分析[J].科学学研究,2013,31(2):209-216.
[33]马天旗.专利分析——方法、图表解读与情报挖掘[M].北京:知识产权出版社,2015.
[34]从中文文本中自动提取关键词和摘要[EB/OL].[2019-01-20].https://github.com/letiantian/TextRank4ZH.
[35]Wen Y J,Yuan H,Zhang P Z.Research on keyword extraction based on word2vec weighted TextRank[C]//Proceedings of the 2nd IEEE International Conference on Computer and Communi‐cations.New York:IEEE,2016.
[36]周群,化柏林.基于多源数据融合的科技决策需求主题识别研究[J].情报理论与实践,2019,42(3):107-113.
[37]郑彦宁,许晓阳,刘志辉.基于关键词共现的研究前沿识别方法研究[J].图书情报工作,2016,60(4):85-92.
Multi-source Information Fusion Analysis for Emerging Technology Development Trend Identification,Using Blockchain as an Example
Zhang Weichong1,2,Wang Fang1,3and Zhao Hong1,2
(1.Department of Information Resources Management,Business School,Nankai University,Tianjin 300071;2.CEC Data Research Institute Co.,Ltd.Guiyang 550081;3.The Center for Network Society Governance,Nankai University,Tianjin 300071)
Abstract: The scientific literature is constantly being enriched,and has become valuable quantitative analysis data.The in‐formation fusion analysis of different sources and different types of scientific and technical literature can provide powerful information support for comprehensively revealing the development status and trends of emerging technologies.The effi‐cient acquisition of topics from multi-source heterogeneous data is a technical difficulty in solving the problem of“sub‐ject”measurement entities in multi-source information fusion.This article is aimed at studying seven different scientific and technical literature types:patents,journal articles,dissertations,conference papers,books,funding projects,and indus‐try reports.A summary-based topic analysis method is proposed.The topic words are obtained from multi-source heteroge‐neous texts,and data fusion and topic association analysis are performed.The results are effective and efficient,which pro‐vides a reference for solving the problem.In the experiment,blockchain is taken as an example.Based on data fusion,se‐quential association analysis and topic association analysis are carried out to reveal the development of blockchain technol‐ogy.The results show that the method effectively reveals the production process,the theme diffusion,and the evolution tra‐jectory of blockchain technology innovation in the scientific literature.
Key words: multi-source data;information fusion;topic association;emerging technologies;blockchain
DOI: 10.3772/j.issn.1000-0135.2019.11.005
收稿日期: 2019-05-17;
修回日期: 2019-09-16
基金项目: 提升政府治理能力大数据应用技术国家工程实验室2017—2018年度开放基金重点支持项目“基于NLP和深度学习的大规模政府公文智能处理技术研究”(HX20180069)。
作者简介: 张维冲,男,1991年生,博士研究生,主要研究方向为知识发现、科学计量学;王芳,女,1970年生,教授,博士生导师,主要研究方向为情报学理论与方法、政府信息资源管理、网络社会治理、知识发现与情感挖掘,E-mail:wangfangnk@nankai.edu.cn;赵洪,男,1986年生,博士研究生,主要研究方向为机器学习、知识发现。
(责任编辑 魏瑞斌)
标签:多源数据论文; 信息融合论文; 主题关联论文; 新兴技术论文; 区块链论文; 南开大学商学院信息资源管理系论文; 中电科大数据研究院有限公司论文; 南开大学网络社会治理研究中心论文;