科研关系构建与可视化系统的设计与实现_数据清洗论文

科研关系构建与可视化系统设计与实现,本文主要内容关键词为:科研论文,关系论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       分类号:TP391 DOI:10.13266/j.issn.0252-3116.2015.08.015

       修回日期:2015-04-05 本文起止页码:103-110,125

       1 引言

       科学技术迅猛发展,科研难度日趋加大,学科间渗透交叉日渐明显,研究者之间既协作又竞争,文献资源呈爆炸式增长,这些对于科技情报分析人员提出了新的挑战,要求其在日新月异的海量科技文献资源中迅速提取有价值的情报,并尽快做出反应。

       本文拟设计并实现一个科研关系构建与可视化系统——ItgInsight,对中英科技论文、专利、报告等科技资源进行数据清洗、主体识别、关系构建、可视化表示,以弥补国内在科技文本挖掘与可视化工具研发方面的不足,为国内用户尤其是科技情报中介服务机构提供更多的选择,一定程度上降低对国外软件工具的依赖,减轻国外研究机构或工具服务商在科技文献文本挖掘与可视化技术、软件工具价格、知识产权、技术出口等方面对国内用户的限制[1]。

       2 研究背景

       随着信息技术的飞速发展,文本挖掘、信息可视化技术已被广泛应用于科技情报分析领域,众多分析工具应运而生。这些软件工具从不同角度分别实现了科研合著关系、同现关系、引证关系、关联关系的挖掘与可视化,如商业化的情报分析工具Thomson Data Analyzer[2]、Vantage-Point[3]、VxInsight[4]、True-Teller[5],免费开放的CiteSpace[6]、VOSviewer[7],等等。但是,这些软件工具多是国外企业或研究机构设计开发的,对中文文本的处理能力有限。同时,商业化软件工具价格较高,部分产品有美国的出口限制和知识产权壁垒[1],而免费开放的软件工具在功能上较商业软件差距明显,且操作方式极其专业化,增加了普通用户的使用难度。还有一些单纯进行可视化展示的免费工具,如UCINET[8]、Pajek[9]等,由于缺乏对文本数据的处理能力,其在情报分析中的应用有限。表1总结对比了图书情报领域较为典型的可视化软件工具的功能特点,并与本文设计的软件系统进行了功能比较。

       基于以上分析,设计开发一个针对中英文科技论文、专利、报告的科技文本挖掘与可视化工具是十分必要的。

       3 设计思路

       3.1 数据处理设计思路

       首先,对图书情报领域常用数据源的文献结构特征进行分析,针对具有相同特征的数据源设计一个具有普适性的数据清洗方案,同时对结构特征较为复杂的数据源单独设立数据清理模块。其次,通过字段名称的关系映射,把各数据源的字段内容与软件内嵌的字段特征进行关联,增加系统灵活性。

      

       3.2 科研关系构建思路

       在图书情报领域,研究和应用较多的科研关系主要有科研主体的合著关系、关联关系、引证关系、共词关系,技术主题或学科的关联关系,文献之间的引证关系,等等。本文拟建立一个科研关系体系框架,将图书情报领域应用较为广泛的科研关系纳入其中,在该框架下进行软件中的科研关系构建。

       3.3 可视化设计思路

       在科研关系的可视化表示上,基于社会网络分析的网络图由于表现结果比较直观,可以清晰地观察网络节点及节点之间的关系,已得到了广泛应用[10-11]。同时,在网络图规模较大、节点数量较多、不易解读可视化结果的情况下,热力图和主题聚类图也被用于进行科研关系的可视化表示。本文的可视化设计思路是建立一个通用的可视化技术框架,该框架能够针对同一科研关系在不同的复杂网络算法下自由切换,并能够以热力图作为背景进行图层叠加。用户可以根据科研关系中的节点数量进行可视化显示方案的选择,即时调整可视化图形样式,使可视化结果尽可能揭示更多的内容。

       4 界面与功能

       4.1 界面设计

       科研关系构建与可视化系统采用单机版的形式,编程语言为C#+WPF。系统主界面包括菜单栏显示区、工具栏显示区、可视化结果显示区,见图1。

       4.2 功能框架

       系统功能框架见图2。用户在输入文献数据后,结合词表、人名词典、机构词典、地名词典进行数据清洗;之后,进行基本的维度统计,构建科研关系;最后,输出可视化结果和各种维度的统计报表。

       5 关键技术

       5.1 字段映射与数据清洗

       为了提高工具对各种数据源的处理能力,采用两种特殊的处理方式:一是建立数据过滤器,过滤器中存储了有关数据源结构特征的信息。针对SCI、CNKI(中国知网)论文的过滤器设计见图3。

       数据过滤器实际是外部数据源字段信息与软件嵌入字段信息的字段映射关系,当对数据进行清洗和关系计算时,系统根据映射关系进行相应字段的提取,并调用数据清洗器进行数据清洗。其中,Class1和Class2针对专利数据用来映射国际专利分类号和美国专利分类号(或欧洲专利分类号);针对论文数据用来映射论文的主题或学科,具体映射关系根据数据特征和分析需求进行调整。

       第二种方式是建立通用数据清洗器和专用数据清洗器。通用数据清洗器处理的数据具有这样的特征,即同一个字段中存储的文献属性相同,且采用相同的分隔符进行分割,比如CNKI论文数据的“Author-作者”字段存储的都是作者信息,且用“;”进行多个作者的分割。专用数据清洗器处理的数据往往在同一字段中存储多种文献属性,如SCI论文的“C1”字段既有机构信息,又有国家信息。

      

       图1 科研关系构建与可视化系统主页面

      

       图2 科研关系构建与可视化系统功能框架

       5.2 科研关系体系框架与构建

       在科研关系的构建上,主要实现科研主体合著关系、主题(关键词、学科、技术类别)同现关系、科研主体的引文耦合关系、科研主体(年代)引证关系、科研主体关联关系以及科研主体和科研内容的关联关系。其中,科研主体是指从事科学研究的个人、机构、地区和出版期刊。科研关系构建主要考虑文献资源中的作者、机构、省市、国家、期刊、基金、时间、关键词、主题、学科等信息,依据这些信息的组合从各个角度进行科研关系构建,力图形成一个较为全面的关系体系,图4为本文的科研关系体系框架。

       在图4的科研关系体系中,合著、同现、耦合、引证关系的构建,是通过对文献中相关信息的数量统计和累加得出的,可以归纳为显性科研关系。系统构建这类关系的过程实际上主要是提取对应的字段,统计同现矩阵。

       关联关系则需要基于文本数据或引文数据,采用关联算法进行隐含信息的挖掘,可以归纳为隐性科研关系。本文采用作者在文献[12-13]中提出的关联算法。

       5.3 可视化空间含义映射

       对于构建的各种科研关系,采用基于复杂网络算法的网络图进行可视化表示。为此,设计可视化空间含义映射,见表2。

      

       图3 SCI和CNKI论文过滤器内容设置

      

       图4 科研关系体系

      

       5.4 复杂网络布局算法与优化

       设计复杂网络布局算法实现的技术框架,以C#计算机编程语言的接口类Layout、抽象类AbstractLayout规范算法的通用功能函数,以4个实现类具体编程实现4个典型的复杂网络布局算法:弹性模型Spring-Embedded Model算法[14]、改进弹性模型Fruchterman-Reingoldlayout算法[15],改进弹性模型Kamada-Kawai layout算法[16]、改进多维标度VOS Mapping算法[17],技术框架如图5所示:

      

       图5 复杂网络布局算法框架

       在实现各种算法的同时,为了使各种算法与构建的科研关系具有较好的拟合性,本文采用了两种优化方案:

       (1)优化方案1:对Spring-Embedded Model和Fruchterman-Reingoldlayout算法做优化:由于两种算法是对物理学中弹簧系统的模拟,以弹簧间引力和斥力的平衡来促使整个网络系统的稳定,因此预先设定一个阈值,只有那些连接线所代表的数量超过指定阈值时,才计算连接线两端节点的引力,低于这个阈值的连接线不显示,也不计算其两端节点的引力。这样改进的益处在于:用户随时调节阈值,把那些明显的网络关系凸显出来,同时又能减少计算机的运算量。

       这种改进方案是基于以下考虑设计的:在对科研关系进行可视化表示时,因数据多少、领域差异和用户偏好的不同,用户对科研关系强度的主观判断标准会有所差异,需提供给用户对构建结果进行即时调整的功能。

       (2)优化方案2:实现各种算法的叠加,以使网络图更加简洁美观。即:对网络节点进行随机布局后,选择任意算法进行网络图优化,优化过程中,用户可以随时选择另外一种算法进行切换,继续图形优化。这样改进的益处在于:对于一个网络图,在现有任一算法下都无法得到满意的可视化结果时,应用算法叠加,使可视化结果更加简洁,易于理解,扩大算法的适用范围。

       5.5 可视化图形样式与渲染

       5.3节设计了科研关系可视化空间含义映射,除此之外,系统仍然给用户提供了丰富的可视化图形样式切换接口。如图6为可视化图形样式切换的控制面板,提供了16种样式切换控制:单色球形节点、多色球形节点、矩形节点、文本框节点、球形和矩形混合节点、节点大小与数量成比例、突出显示被选中节点,区分连线方向、区分连线粗细、突出显示被选中连线、显示连线文字并且文字大小一致、显示连线文字并且文字大小与连线数量成正比,显示节点文字并且文字大小一致、显示节点文字并且文字大小与节点数量成正比、显示节点所代表的数量、显示节点备注信息以及备注类型。

      

       图6 图形样式控制面板

       为了实现以上图形样式的切换操作,采用微软.NET Framework 3.0绘图技术开发框架Windows Presentation Foundation(WPF),分别进行节点、节点文字、连线和连线文字的图形渲染,设计相应的渲染接口和渲染实现类,见图7。

       5.6 聚类与热力图可视化

       当构建的科研关系网络图规模较大,不易对网络图内容和结构进行识别和理解时,系统综合了情报分析工具VOSviewer的聚类算法和热力图可视化技术[17],对科研关系进行二次聚类,按照聚类结果对科研关系进行归类。聚类和热力图的表示形式,见图8。图8中左侧显示节点名称与节点所属的类别号,可视化图形区用颜色深浅表示节点数量,节点间的距离长度表示节点间关系强弱。

       5.7 人机交互接口操作

       为方便用户对可视化图形进行个性化的修改,增强可视化结果的可阅读性和可理解性,笔者设计了可视化结果的人机交互接口操作,见表3。

       6 实证应用

       为体现本文科研关系构建和可视化系统对各类数据的适用性,分别选择以下数据进行分析:①来源于国家知识产权局专利检索系统的美国苹果公司中国专利数据1744件,利用其进行科研合著关系、技术类别同现关系可视化分析;②来源于CNKI的图书情报和数字图书馆学科中知识图谱相关核心期刊论文数据342篇,利用其进行研究主体关联关系可视化分析;③来源于Web of Science的染敏太阳能电池领域中国作者SCI论文数据1368篇,利用其进行期刊引证关系可视化分析。

      

       图7 图形渲染接口与实施类

      

       图8 聚类与热力图可视化

      

       图9为苹果公司1985-2012年间,在中国申请的专利发明人合著关系,图中节点深灰、中灰、浅灰色环大小对应专利发明人署名顺序分别为第一、二、三及以后的专利数量。从图中可以看出,苹果公司的专利主要以BK安德烈、DJ科斯特为主要发明人,以这两个人为核心构成最大的研究团体,其中包括了乔布斯;尽管乔布斯的专利总量达到209件,但只有1件是第一作者;同时,该合著团体的专利侧重于外观设计(14-01、14-02、14-03为外观设计专利);其他具有合著关系的研究团体的专利中,合著专利数量相对较少,每个团体的技术类别各有侧重。

       进一步结合图10可发现,苹果公司的专利技术分布主要集中在3个方向:①围绕“声像记录或复制(14-01)”、“数据处理(14-02)”、“无线电通信(14-03)”设备的外观设计专利;②围绕“图形用户交互技术(G06F3/048)、触摸屏或触摸板(G06F3/041)”的发明和实用新型专利;③围绕“声音输入输出装置(G06F3/161)”的发明和实用新型专利。

      

       图9 苹果公司中国专利发明人合著关系可视化

      

       图10 苹果公司中国专利技术类别同现关系可视化

       图11为2002-2011年间图书情报和数字图书馆学科知识图谱与可视化领域发表核心期刊论文数量排名前30位的作者的文本关联关系,并标注了每个作者应用最多的3个关键词。其中圈定的部分为不具有合著关系但研究内容关联性仍较为明显的作者。该可视化结果对于发现不同研究者研究内容的侧重和相互关联性具有较好的揭示能力。

       图12为1981-2011年间染敏太阳能电池技术领域 SCI论文中中国作者的期刊引证关系。从图中可以看出:①国内作者SCI论文多集中在2010、2011年的ELECTROCHIMICA ACTA、JOURNAL OF PHYSICAL CHEMISTRY C、JOURNAL OF MATERIALS CHEMISTRY,PHYSICAL CHEMISTRY CHEMICAL PHYSICS期刊上,各期刊早期不存在引证关系,且相关论文较少;②期刊JOURNAL OF PHYSICAL CHEMISTRY C,2010年的论文被其他期刊2011年发表的论文引用较多,该期刊这一年的论文影响力相对显著。结合各期刊每年的关键词特征,可了解整个技术在各个期刊和各个年代之间的演化过程。

       7 结论

       本文设计实现了科研关系构建与可视化工具,针对论文、专利、报告等科技文献构建了科研合著关系、同现关系、耦合关系、引证关系、关联关系,实现了数据清洗、关系构建、可视化表示的全流程解决方案。该系统运行稳定,具有自主知识产权,国内科研院所在遵守知识产权约定的条件下可以免费获得。目前,系统还在不断的优化完善当中,下一步的工作包括增强专用数据清洗器的数据解析范围、提高术语识别能力、完善系统的整体功能等。

      

       图11 知识图谱与信息可视化领域中文核心期刊论文作者关联关系可视化

      

       图12 染敏太阳能电池领域中国作者SCI论文所属期刊年代引证关系可视化

       作者贡献说明:

       刘玉琴:软件设计开发,论文撰写;

       汪雪锋:总体指导,行文修改;

       雷孝平:软件使用测试,提出可视化样式表现形式,部分实证分析工作。

标签:;  ;  ;  ;  ;  ;  ;  ;  

科研关系构建与可视化系统的设计与实现_数据清洗论文
下载Doc文档

猜你喜欢