基于社会网络的科技咨询专家库的构建方案与流程设计,本文主要内容关键词为:科技咨询论文,流程论文,专家库论文,方案论文,社会论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
科学技术作为促进经济和社会发展的重要因素,已广泛渗透到各个领域并发挥着越来越重要的作用;面对众多的科技决策和管理问题,科技咨询在促进科学技术的社会推广和应用以及科技成果管理中发挥着重要的作用。科技咨询的效果在很大程度上取决于专家评价的准确性和科学性,专家作为掌握专业性、权威性知识的群体,是科技咨询中最重要的人力资源和评价结果的保障。随着科技管理决策环境和关联要素的日益多元化和动态复杂化,如何获取详尽的专家资源并有效利用,即构建科技咨询专家库,成为支撑科技管理和决策发挥重要作用的基础。
科技咨询专家库是面向科技咨询的专家库系统,又可称为专家管理系统,大致可分为两类:一类是专家知识库,即存储用于辅助决策的专家知识,包括逻辑推理、判断规则等,类似专家系统或人工智能系统;另一类是专家人才库,即存储专家人才信息,主要提供决策咨询过程中所需的相关专家的查找与遴选。本文所要研究的科技咨询专家库属于后者,是专家信息(包括专家个人简历、主攻方向、社会职务、学术专长、科研成果等)的储存载体,其主要功能就是支持项目专家的选取,协助选择满足科技咨询项目需要的专家,构建科技咨询项目的专家评审团。
目前有关科技咨询专家库的研究主要集中在两个方面:一是从理论上对专家库所涉及的管理、制度、数据、业务流程等方面的问题进行研究,包括对专家入库程序、审查制度、专家评价体系、专家抽取的回避原则、专家数据的完整性等的研究;二是从软件工程角度,对开发专家库信息管理系统所涉及的技术和工具的研究与创新,主要是利用各种先进的技术,如数据挖掘,联机事务处理等,设计与开发一系列专家库,以改进专家检索、信息安全控制、专家更新、数据展示等方面的功能。
在发达国家中,信息技术应用已经渗透到科技决策与咨询的方方面面;其科技咨询专家库管理系统的研究更是蓬勃发展,系统的标准化、科学化程度相当高,性能也非常完善;在我国,科技咨询专家库也是遍布政府部门、各行业部门、科技咨询机构及各企事业单位,但依然在很多科技领域缺少完善的、标准的、科学的科技咨询专家库管理系统;相对于庞大的专家库数量,很少有机构能真正有效利用专家库管理系统,大多只是处于简单的应用状态,并没有上升到专家库管理系统这一层次。即使是处于应用中的专家库管理系统,仍存在着很多有待改进的地方,无论是专家信息的标准与规范程度、数据的安全性,还是数据库结构、专家的查询方式还是专家抽取管理等都有很大的改进空间。
现有的、普遍应用的科技咨询专家库系统存在着信息来源单一、更新滞后、信息呈线性模式、专家队伍结构单一、专家信息不完整且孤立缺乏关联、专家遴选主观性强、专家检索功能简单和可视性差等问题,直接影响着专家抽取的质量和科学性,进而间接影响专家的评审工作的准确性和公正性,最终使得科技决策与咨询结果的科学性与权威性难以得到保证。因此,本文从科技咨询工作流程入手,试图引入先进的社会网络理论、社会网络技术及组织专家检索技术等,探索如何构建网络化、可视化、动态化的新型科技咨询专家库系统,研究基于社会网络的科技咨询专家库的运行流程,研究构建方案,进而进行相应的构建流程分析与设计。
2 基于社会网络理论的科技咨询专家库构建方案
2.1 科技咨询中蕴含的专家社会网络关系及其对专家遴选的影响
社会网络是指社会个体成员之间因为互动而形成的相对稳定的关系体系,社会网络关注的是人们之间的互动和联系,社会互动会影响人们的社会行为[1]。简单的社会网络是由多个节点(个体,包括人或组织)与节点之间的连线(个体间关系,包括交流的方式和内容)组成的集合。社会网络理论认为世界是由社会行动者与关系构成的网络结构,关系是社会资源流动的渠道,行动者通过关系网络发现机会、交换资源和利用资源[2]。行为者的行为及行为结果受其所嵌入的社会网络的影响。
科技咨询专家作为社会行动者一员,与社会其他个体之间存在着各种各样的互动关系,如同学关系、同事关系、朋友关系、亲属关系等,所以,在从事科技咨询过程中将会面对着各种社会网络关系。而在专家信息库中蕴含着大量的社会网络关系,如通过专家机构信息可揭示出同事、师生等关系,通过专家研究专长信息可挖掘出同研究方向、科研协作等关系。
在科技咨询中,专家信息库是遴选项目专家的基础。在遴选专家过程中主要考虑因素是[3]:项目所涉及的专业知识结构,专家队伍结构在专业结构、智能结构、区域和年龄结构上的综合平衡,专家本人与项目的利益冲突。在具体操作中,一般根据上述因素,从专家信息库中选择相关专家。这样,从专家信息库中遴选专家就必须涉及专家关系,进而需要考虑到专家的社会网络关系。专家的社会网络关系对于科技咨询的影响体现着双重性:利用关系和规避关系。主要表现在(图1):
图1 科技咨询中体现的社会网络关系及其影响
(1)利用专家的同研究方向和科研合作关系寻找和确定具有满足项目需要的专业知识的专家,保证科技咨询项目的咨询内容不会超出专家的研究范围,提高专家的查准度和查全度。
(2)利用专家之间的学术关系查找具备项目所需的本领域和跨领域专长的专家,从而优化专家群体结构,提高资源利用率。通过对专家关系的收集和展示,可以更全面地审视专家的社会关系,并通过其关系获得更全面的信息以保障决策时的准确性和科学性。
(3)科技咨询不仅涉及对科技成果的鉴定和评估,也具有促进产学研成果转化的功能,可以为企业、政府寻找具有满足其需求的技术强项的专家群体。前沿的技术研究,往往不是一个专家就可以完成的,需要众多专家的通力合作。利用专家间直接或者间接存在的同事关系、同方向研究关系及科研协作关系,可以高效地为技术研发寻找专家。
(4)处于各种社会关系网络的专家很难在涉及自身利益的项目中保持客观立场。因此,在专家遴选中,需要针对专家的同事关系、同学关系、师生关系、科研协作关系等,回避相关专家,以保证所选的专家与项目的相关人员不具有利害关系。
2.2 基于社会网络的科技咨询专家库的运行流程
科技咨询专家库的最大作用就是支持科技决策与咨询活动中的项目专家遴选工作,因此,从社会网络理论出发的科技咨询专家库的运行流程设计也应围绕着专家遴选而展开。
专家遴选工作一般经过项目信息获取、项目要求与专家知识能力之间的匹配、专家社会关系考察、专家规避和抽取、专家工作表现评价等几个环节。在设计与实施过程中,专家库系统需要借助计算机技术实现上述工作环节的自动化,并配备基础性的信息管理操作。鉴于上述思考,本文设计的基于社会网络的科技咨询专家库的运行流程如图2所示。
图2 基于社会网络的科技咨询专家库的运行流程
2.3 基于社会网络的科技咨询专家库的构建思路
科技咨询专家库的构建是一个复杂性的系统性工程,需要遵循一定的步骤:第一步,分析专家库系统所面对的科技决策与咨询工作的作业流程,确定其数据需求和功能需求。数据需求包括从数据来源到结果呈现整个过程,通常数据来源不同、格式多样,需要加以序化,以同一标准加以存储,并以形象化的形式加以呈现,以便于用户调阅和进一步的分析。功能需求的主要落脚点在于系统模块的设计和实现。其中,用户界面作为系统与用户的接口,其友好性是功能需求考量的重点。第二步,从需求出发,分两个方面架构系统,即功能模块与数据模块。功能是与流程相匹配的计算机处理过程,数据则是计算机处理的内容。而数据的处理和功能的实现都需要信息技术的支撑。所以,专家库的实现过程就是通过技术来满足科技咨询流程的数据、功能和界面的全面需求,如图3所示。
图3 基于社会网络的科技咨询专家库的构建思路
2.4 功能架构的设计
参照现有专家库系统,结合需求分析,本文构建如图4所示的专家库功能架构,包括专家工作表现评价、专家遴选、信息处理、新增专家和系统管理五个功能模块。其中,新增专家、信息处理以及专家遴选是研究的重点:新增专家的功能主要是对专家的确定及专家信息的获取;信息处理功能主要是对专家信息的序化及关系抽取;专家遴选是系统的关键功能,主要实现专家信息的检索和检索结果的可视化。
图4 基于社会网络的科技咨询专家库功能架构
3 基于社会网络的科技咨询专家库构建的流程分析与设计
3.1 基于社会网络的科技咨询专家库构建的流程
基于社会网络的科技咨询专家库构建流程主要分为以下五个阶段:信息获取与抽取阶段、信息存储与索引阶段(即信息组织阶段)、社会网络模型构建阶段、专家检索阶段以及检索结果展示阶段。
首先,为保证专家信息的完备性,确定多个专家信息来源,并根据已有专家列表,从网络中获取能表征专家个人信息、学术专长信息及关系信息的数据集,整合并生成相应的索引文件。其次,从数据集中抽取专家关系信息(包括同事关系、研究领域关系、合作者关系等),并生成专家关系集索引文件;同时从专家专长信息中抽取主题词,生成专家—主题词映射文件、分类主题词列表文件及专家关系映射文件。在此基础上,构建各种专家关系网络模型;然后,针对特定主题的专家检索,利用专家—主题词映射文件,计算专家与主题之间的相关性得分,并根据专家得分的高低排序。同时,利用专家的社会关系网络,采用基于传播的算法,改进专家的主题相关度分值。最后,在显示专家排序的同时,将专家分别按照同事关系、主题相似关系、合作者关系等关联关系,以社会网络图的形式呈现,以便用户根据专家间关系,准确把握专家的专长或规避有利害关系专家或查找相关专家。如图5所示为本文所设计的基于社会网络的科技咨询专家库构建流程。
图5 基于社会网络的科技咨询专家库构建的流程
3.2 专家信息的获取与组织
专家信息的完备性是专家库建设的基础,直接关系到专家抽取或遴选的结果,影响着专家评审工作中利用或者回避专家的效果,进而影响科技咨询工作的质量与科学性。因此,本文从扩大专家信息来源、抽取专家关系信息两方面来充实专家数据库,以保证专家信息的完整性和准确性,最终保证专家评审工作的客观性。
本文结合实际情况,选取专家个人网页、搜索引擎、网络数据库作为数据来源,以专家推荐表提供的专家信息为基础,按专家基本信息、专家专长信息、专家关系信息三个角度,对Internet进行信息的获取与抽取,进而进行数据库的构建与索引的建立。具体步骤如下:
(1)获取专家列表
根据专家推荐表,提取其中的专家姓名与单位,构建专家列表。
(2)获取专家信息
根据专家列表,构建检索式——专家姓名*单位,利用Google等搜索引擎进行搜索,选取其中的专家个人主页,并抽取专家的电子邮件、地址等联系信息以及专家学术专长、研究方向、获奖情况、学历、参与项目、发表论文等学术专长信息。同时通过限定专家姓名、单位、年限、期刊,从中国期刊网等学术数据库(包括期刊库、硕博士论文库、专利库等)中检索专家论文信息。对获取的专家基本信息和专家专长信息进行归并、整合、剔除噪声信息等预处理,分别构建专家基本信息数据库和专家专长数据库,并建立索引。
(3)抽取专家关系信息
专家关系主要分为属于组织类别的同系所、同校、跨部门三种关系种类和属于“行动”类别的相同的研究方向、共同发表论文、共同研究课题等多种关系种类[4]。根据已获得的专家信息(主要是单位信息与论文信息)抽取同事关系和论文合作者关系,确定其关系强度,建立专家关系网络模型并构建专家关系数据库,建立索引。
(4)抽取主题词或关键词
针对专家专长信息,抽取并筛选出有明确范围
的、有意义的、能有效代表专家研究专长且能区分不同专家的关键词或主题词,构建专家—关键词列表和分类主题词列表,为后续的检索以及专家主题关系网络模型的构建服务。
3.3 专家社会关系的确定与网络模型的建立
专家关系网络模型的确定包括网络节点的确定、关系的确定以及关系强度的计量。本文拟构建专家合作者关系网络、同事关系网络、主题相似网络及多重关系网络这四类网络模型。
(1)专家合作者关系网络模型
合作者关系网络中的节点分为两类:一类是起着网络架构作用的、处于网络核心地位的专家节点,这些专家来自于专家推荐表;另一类是与网络中核心节点发生联系(即与专家存在合著者关系)的成员,他们还未被组织推荐,或其学术成果尚达不到使其成为专家,可暂且称之为潜在专家,他们具有一定的流动性,可以由于和专家发生联系而进入合作网络,也会随着联系的终结而离开这个网络。例如,合作者中很大一部分是学生与指导老师的关系,随着学生的毕业,该学生可能就会离开这个网络。
合作者关系网络中的关系是指专家间在共同完成或发表一篇学术论文的过程中建立的合作关系。两个人共同发表的论文数量越多,表示两个人之间合作关系越密切,交流越频繁,两人研究专长或研究方向的相似度也越高。
本文采用论文贡献因子合成法[5]来测量专家间合作关系强度,其思想依据是两人合作一篇论文的关系强度明显小于两人合作多篇论文的关系强度;两人合作一篇论文的关系强度要大于多人合作一篇论文的关系强度。该方法的前提假设是每个作者对论文的贡献都是相同的,即有相同的贡献因子。其公式如下:
(2)专家间同事关系网络模型
同事关系网络中的节点也包含两类:表征专家的节点和表征组织或机构的节点;这些组织节点与专家节点之间存在着隶属的关系。
同事关系是指专家之间处于同一系所、同一部门单位的关系。一般而言,处于同一部门单位或系所的专家之间会进行频繁地沟通与交流,往往具有相似的专业或专长[6];而跨部门或跨系所的专家之间交流较少,且研究领域研究方向不大相同。
本文设定两个专家处于同一系所或部门则存在同事关系;若只共存于同一学校或学院等更高层次的组织中,但不属于同一系所或部门,则不存在同事关系。具体关系强度设置如下。
(3)专家主题相似关系网络模型
专家主题相似关系网络中的主题相似关系是根据专家专长信息内容(包括专家发表的论文)的主题相似性所建立的关系,其网络节点就是专家节点。
在计算关系的关联强度时,主要是通过对查询主题和由专家专长信息内容构成的表征专家学术专长的虚拟文档构建向量空间模型,通过余弦定理来计算主题与专家虚拟文档、专家虚拟档之间的相似度分值。这些相似度分值就是主题与专家、专家与专家之间的关联强度值。
(4)基于多重关系的网络模型
这里所说的多重关系包括上述的专家之间同事关系和合作者关系;其关联强度的设定,必须充分考虑这两个关系的权重分配;具体计算公式如下:
3.4 基于社会网络的专家库检索流程分析与设计
本文所探讨的专家库检索任务分为三大类:基于给定主题的专家查找、专家间关系的查找以及特定类型专家的查找。其中前两类是研究重点。
(1)基于给定主题的专家查找流程设计
基于给定主题的专家查找是专家库检索任务中最为重要,也是最难处理的一个流程。借鉴国际上专家检索的先进技术与方法,本文试图通过引入基于关联传播的专家查找算法,将社会网络应用于专家检索,以改进专家检索的性能。
首先,应用传统的信息检索技术,检索出按照主题相关度排序的专家列表。其中,专家与主题之间初始相关度分值的计算公式如下:
其次,针对初始专家主题相关度分值,本文根据专家间的多重学术关系,利用基于传播的算法,将其他与某一专家相关的主题相关度分值按照某一规则传递给该专家,以更改该专家的相关性分值,对专家重新排序,从而达到提高主题相关专家排序的准确度,使真正与该主题领域高度相关的专家排在前面的目的。其基本思想是:若一个人与某个主题领域很多专家均有关系或与该主题领域的某个专家有多次科研合作(包括项目合作、论文合作等),那么这个人就很有可能是或者将成为这个主题领域的专家[7]。具体相关度分值修改公式如下:
(2)专家间关系查找流程设计
专家间关系查找主要是在合作者关系网络和同事关系网络中查找某两个专家的关系。以合作者关系网络的专家查找为例。
一般来说,合作者关系网络是非常庞大的,可能包含上百、上千个节点和上万种关系。而系统往往要在几秒的响应时间内实现网络中的关系查找。因此,本文引入图论中的最短路径算法(Dijkstra算法)及广度优先遍历算法的思路,来实现专家关系的查找。具体流程如表1所示。其中rel(s,t)表示专家关系查找任务,s表示第一个专家,也就是源专家;t表示第二个专家,也就是目标专家。表中的路径是指网络图中专家节点之间的距离,最短路径指两个专家节点之间的最短距离。两个具有直接关系的专家节点之间的距离即路径长度为1。本位所要查找的专家间关系,并不局限于最短路径,只要专家间的关系路径长度小于某一给定的阈值(本文设置为7);那么,这个以s为初始节点,以t为终止节点的路径节点集都要被查找出来。
3.5 基于社会网络的专家库可视化算法设计与实现流程设计
(1)专家网络可视化算法设计
在众多的网络图可视化绘制算法中,力导算法(force-directed algorithm或者force-based algorithm)及在此基础上的各种改进算法是一类最经典的和最有效的网络图绘制算法。力导算法依据图形自身的结构来自适应地计算图形的布局,其算法的本质简单灵活,理论依据直观,易于实施,所绘制的图形优雅均匀。在综合已有的研究成果基础上,根据力导算法的基本思想,提出并实现一种基于节点语义距离和权重特征的改进力导算法,具体思路如下:
3)引力和斥力定义。这里节点的权重可指术语的全局频次或全局权重、文档的全局权重、著者著作量,及其他应用情境中节点的大小、质量等。在不考虑节点的权重特征时,引力和斥力的定义可理解为节点间的图形距离)。当考虑节点的权重时,为保证图形的优雅和均匀分布,可使得那些较大权重的节点尽可能地分离,即放大它们之间的斥力。参考Coulomb法则,节点的权重可类比为带电粒子的电量。基于此,本课题组将任意两个节点之间的斥力定义为:
5)模拟退火机制设计。参考Fruchterman和Reingold等的研究,在算法实现过程中,为控制节点的位移,使得图形的布局更加美观,同时使得每一轮迭代之后的调整量逐渐趋于平稳,本课题组引入了“温度”参数τ,其是一个向量,用于控制任意节点在各个可视化维度上的最大位移量。基于参数τ,在进行每一轮的重新布局时,各节点的位置向量计算如下:
(2)专家网络可视化的实现流程
本文基于上述改进力导算法构建专家关系网络图,包括专家合作者关系网络、同事关系网络以及主题相似关系网络,其具体的网络图可视化实现流程大体一致,以构建专家间主题相似关系网络为例,如图6所示:
1)数据预处理阶段,根据所要研究的领域或主题查找并抽取专家及专家关系信息(包括描述专家特征的基本信息以及描述专家关系的专长与论文信息)。并进行适当的数据清洗、整理、归并等预处理操作,为最终转化为可视化图形做准备。
2)可视化映射阶段,将数据信息映射为节点、连线等可视化结构;主要根据抽取出的信息,确定所要构建的专家关系网络模型,包括表征专家的节点、表征专家间语义关联的关系及其相应的属性数据,并计算各节点之间的关联强度(即语义相似度或相关度)。
3)视图变换阶段,利用改进力导算法,创建网络可视化结构的视图,实现可视化视图变换。主要是根据节点间关联强度值以及节点间的初始相对距离,计算节点间的斥力和引力,并将其转换为节点间的相对距离;然后根据节点与所有其他节点的相对距离,逐一计算各节点的位移量;之后,根据所有节点的平均位置与位移量确定整个可视化网络中心点的位置与位移量,进而确定可视化网络中心点的实际可视位移,并最终确定各节点的实际可视位移,从而移动节点的可视位置;在此过程中根据可视化区域的空间大小,控制节点的可视位置,防止其超出图表范围。这个过程是不断循环进行,直到每一循环的节点位移量趋于平衡。
4 小结
本文在大量调查与文献分析的基础上,通过分析现有专家库构建过程,研究国际上先进的专家检索技术,尤其是基于社会网络的专家检索方法,针对现有专家库存在的诸如专家信息不完整、专家遴选主观性强、专家库信息呈现结构单一等局限性,探讨将社会网络分析与社会网络可视化的先进技术引入专家库构建中,通过从Internet获取专家基本信息与专家间关系信息,应用社会关系网规避有利害关系专家,采用社会网络分析、专家检索与可视化选择某学科领域内权威专家等方法及途径来解决或改善上述局限,以最终达到提高科技咨询与决策结果质量与科学性的目的。
图6 基于改进的力导算法领域知识单元语义关联网络图可视化实现流程
标签:社会网络论文; 网络模型论文; 可视化技术论文; 网络节点论文; 查找算法论文; 流程管理论文; 数据抽取论文; 网络结构论文; 设计流程论文;