科学评价管理信息系统构建,本文主要内容关键词为:管理信息系统论文,评价论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
目前对科学评价有广义和狭义两种理解,广义的科学评价是指用科学的方法对一切对象进行的评价,意指“科学地评价”,涵盖了各行各业、各学科领域、各层次、各类型的评价。狭义上的科学评价是指以科学研究活动为对象的评价,主要是对与科学研究活动有关的人、事、物的评价,意指“评价科学”,包括了科学出版物评价(如学术期刊)、科研机构评价(各类型的科研机构和大学等)、科研工作者评价(如学术水平、工作绩效等)、学科评价(学科结构与发展等)等方面,我们通常所说的科学评价更多是指狭义上的理解。科学评价的本质是根据科学的评价标准和指标体系来确定被评价对象有无价值及价值的大小,价值是评价的基础[1]。评价是管理的重要手段,科学评价是科研管理工作的重要组成部分,是保证科学研究活动顺利进行的最基本保障,面向管理需求的科学评价主要出自政府和科研机构等评价主体对正在进行中的科研项目进行有效管理和实时监督的需要。科学评价及其对科研管理决策的支撑作用,是推动国家科技事业持续健康发展、促进科技资源优化配置、提高科技管理水平的重要手段和保障。如何借助先进的信息技术手段实现高效、规范以及智能化的科学评价活动,整合各类科学评价信息资源,满足社会各类群体的实际信息需求从而实现科学评价信息的社会价值成为了一个重要课题。因此,构建一个基于Web并集成各项评价活动的科学评价管理信息系统非常必要。系统设计的基本原则是“统一平台、跨库检索、分类评价、智能服务”,研发思路是“数据整合、方法融合、应用集成”,如图1所示。
图1 系统构建原则
系统通过整合各类型的评价业务,在数据整合的基础上融合多学科的理论和方法,实现对多种评价对象(国内外高等学校、科研机构、专家学者、学术期刊等)的科学评价应用集成,并实现整个评价过程的高度自动化、智能化,能够极大促进评价工作的规范化和科学化,同时又能深入挖掘评价结果数据,实现面向社会的智能化信息服务。本文结合“中国科学评价研究中心”的“科学评价管理信息系统”建设项目,探讨系统的构建。
2 平台构建意义
(1)技术支撑下的评价活动的科学化。在评价过程中充分利用先进的信息技术是提高评价活动的效率和准确性的必然要求。利用计算机技术和网络技术来提高科学评价活动的效率和准确性,正受到科学评价界的广泛关注。本项目实现了科学评价过程中从数据源分析、信息采集、整理、组织、评价、智能分析与诊断、可视化呈现将全部或部分实现自动化和智能化处理,比如在专家评价、大学评价、网络影响力评价方面的部分指标数据的自动采集与分析处理等方面,就实现了自动化处理,大大提高研究效率和结果的准确性,为科学研究的深入开展创造条件。
(2)跨学科整合应用评价方法。评价理论框架本身具有跨学科特征,所涉及的学科领域主要有决策学、管理学、政策学、行为学、经济学、计量学、工程学、社会学、心理学和逻辑学等,设计和实施科学的评价活动需要跨学科的方法,需要不同专业领域理论的整合和综合应用。系统的评价过程采取了多学科方法的融合,综合运用了以下各种方法:综合评价方法(如层次分析法、模糊综合评判法)、统计学方法、文献计量学方法(如引文分析、词频分析等)、网络信息计量方法(网络链接分析、网络信息采集等)、社会网络分析方法(如中心性分析等)、心理测量方法(如人格测试、动力测试等)等,这些整合应用的探索也丰富了科学评价的学科体系内容。
(3)深度挖掘评价信息,实现智能服务。本中心通过多年对国内外科研机构、大学及学科专业、研究生教育、学术期刊等的评价工作,全面收集了各类评价对象的各个方面的原始数据,建立了评价对象基本信息库,并通过评价模型运算得到了大量相关评价信息,这些信息既为有关科研或教育部门的管理和决策提供了必不可少的定量依据,也为社会公众作为纳税人了解科研机构及高校的运营状况提供了重要的渠道。在基本评价信息基础上,通过大学诊断、个人诊断等智能信息分析服务模型得到大量个性化诊断信息,综合运用各种常规统计方法、心理测量方法、文献计量方法、数据挖掘算法对这些数据进行各种深入挖掘和可视化呈现,发现并揭示各类评价对象的运行规律和发展趋势,通过开放化的网络服务平台,为各科研、教育等管理部门、社会公众提供针对性的个性化诊断与咨询服务,全面实现评价信息资源的社会价值和经济价值。
3 系统分析与设计
3.1 系统体系结构(图2)
本系统选择的开发平台是:LAMP(Linux/Apache/MYSQL/PHP)。此开发平台具有开源、免费、跨平台、低成本的优势。这是一组常用来搭建动态网站或者服务器的开源软件,四个部分具有很高的兼容度,共同组成了一个强大的Web应用程序开发平台[2]。从使用的广泛性来看,互联网信息服务提供者大量采用了LAMP的开发平台,比如著名的Google、FaceBook、维基百科以及大量的开放社区系统等。架构是分配系统计算资源的模式,包括硬件、软件、网络和数据库的模式,它提供了一个平台,使得信息处理功能可以在它上面实现[3]。本系统采用了四层体系架构,自顶向下将整个系统划分为:Web表现层(Web门户入口)、业务逻辑层(应用集成)、数据访问层(跨数据库数据集成)和基础设施层(计算机硬件和系统软件环境)。部分交互式功能采用了Ajax技术,实现了异步数据传递,使得页面无须刷新实现局部更新,既减轻了服务器的负担,又提升了用户体验[4]。
图2 科学评价管理信息系统体系结构
整个系统主要包括从数据源(学术文献数据库或网络资源)采集、数据标准化处理及入库,建立科学评价文献库、项目与成果库两个基本数据库,再基于这两个基本信息库实现分类评价(如期刊、机构、学者等)、智能分析挖掘及各种结果导出,流程非常复杂,中间还涉及大量系统与用户的交互环节,因此系统的流程设计必须充分考虑用户体验,部分交互环节采用了Ajax技术实现,做到按需加载数据,简洁高效。同时根据Web信息构建的原理,根据评价业务环境,融合情境、用户与内容三个方面,设计了清晰的分类组织体系、导航、标签和检索系统[5]。
3.2 数据库设计
本项目数据库的设计综合考虑了数据库存储优化和查询效率优化两方面的需求,对数据库的关系表结构进行了相应的优化处理。比如优化查询语句、试验连接、并、子查询等寻找最佳查询语句,文本检索时为了性能考虑少用LIKE关键词通配符匹配,而考虑采用全文本搜索(FULLTEXT)。为经常检索的表字段建立合适的索引,表结构设计选择正确的数据类型等[6]。后台数据库的设计采用免费、开源数据库管理系统MYSQL,并采用可视化的管理工具Navicat for MySQL来实现数据库的开发与管理。系统包括以下六个数据库:科学评价文献库、科研项目与成果库、期刊评价数据库、科研机构评价数据库、人才评价与专家库、大学评价数据库,系统设计的指导思想是“统一平台、跨库检索、分类评价、智能服务”,基于这些评价数据库,通过融合各种跨学科的分析方法,实现各种深入挖掘并实现了针对性的智能信息服务,主要包括期刊评价与诊断服务、科研机构评价与诊断服务、专家评价与人才遴选服务、人才测评与职业咨询服务、大学评价与诊断服务。
3.3 系统功能设计与实现
这里重点介绍其中的5大核心功能模块,主要包括信息采集、专题文献库、人才评价与专家库、期刊评价、大学评价与诊断。
3.3.1 信息采集
信息采集功能主要完成以各文献数据库(目前,本系统的数据源主要来自CNKI中国学术文献网络出版总库、ISI Web Of Knowledge,以后将逐步扩展)为数据源的自动采集、入库,并完成数据的标准化处理,自动建立各领域的专题文献库,以符合深入分析与评价的需要。首先选定特定的研究领域,构造检索式完成信息检索,通过期刊系统的数据接口将检索结果导出为txt格式的文本文件,然后按照分析需求解析并截取题录信息各字段内容存入数据库(专题文献库)。有些数据则通过Web采集,比如大学和科研机构评价中关于高校网络声誉调查及网络影响力指标数据的采集,通过识别指定数据库网址URL特征和页面文本特征,分别编制相应正则表达式集合,通过字符串截取、正则匹配抓取指定数据(如各类型文件数量、网站入链数、网络引文、搜索引擎收录数等)完成采集入库。
3.3.2 科学评价文献库
科学文献是科学知识积累和传播的重要载体。通常,一篇科学文献主要由标题、作者、单位、摘要、关键词、期刊、发表时间、文章正文、参考文献、被引次数、下载次数等部分组成。这些组成部分包含了丰富的文本信息、链接信息和社会信息,通过对其进行分析和挖掘,可以发现大量有用的或潜在的信息,这些信息能有效地提高研究者对科技文献的深入把握,从而帮助研究者进行更加有效地科学研究[7]。本模块主要实现用于机构及专家评价的相关科学文献信息的分析和挖掘,包括基本文献分析和高级文献分析。
文献基本分析功能实现对某领域文献库的基本分析,让科学研究人员能从整体上把握研究领域的基本状况。主要完成基于传统的文献计量学的一些基本统计,比如论文总数、合著论文数、作者总数、合著作者人数、合作度、合作率、词频统计与分析、作者发文数分布、期刊发文分布、机构发文分布、发文时序分布等,还包括一些基本的社会网络指标(包括网络节点数、边数、平均度、网络密度、节点度分布)的统计。这些基本统计运算逻辑通过本系统的统计业务类实现了封装。统计分析结果的可视化则采用第三方绘图组件包JPGraph实现。
文献高级分析挖掘功能主要是发现科研工作者的相互联系,解释其合作模式与规律。主要包括基本功能:
(1)作者关键词耦合分析,通过作者发文的关键词耦合度,从专家兴趣角度聚合相关文献信息,用于揭示专家之间的潜在关系;
(2)作者合著关系分析,通过作者间的直接合作关系网络分析,揭示学者间的知识交流模式与规律;
(3)作者共被引分析,用于挖掘学科共同体及其共同约定,进而分析其学术观点归纳出该学科领域的学科范式;
(4)共词分析,通过关键词或主题词的共现分析,揭示领域知识网络及关联,从而挖掘某学科领域的研究热点和研究前沿领域。
几个模块的实现有很多相似之处,都是通过调用基本统计分析后生成的数据(如词频统计生成的核心关键词表、关键词、作者的共现分析生成的共词表和作者对表)生成相应的矩阵,然后调用本系统的分析业务类所封装的矩阵算法进行分析处理,得出有意义的社会变量。本模块可以将生成的各种矩阵数据(专家合作矩阵、专家潜在合作矩阵等)导出为Excel格式、UCINET专用的数据语言文件(DL file)格式,可以方便的导入SPSS或UCINET进行更深入的数据分析与挖掘。
3.3.3 人才评价与专家库
本模块主要实现识别并筛选指定研究领域的专家,构建各领域的人才库,并进行评价和各种分析。各领域人才库的建成有助于各领域研究者加深对同行的了解,也有助于科研管理部门和社会大众把握各领域研究人员分布情况和遴选相关领域的专家,能为各科研机构和高校的人才选拔、招聘以及项目团队组建提供定量依据。本模块建立的各专题领域的高级人才库,需要存储以下四类信息:第一类是专家基本个人信息(姓名、单位、联系方式、个人简历等);第二类是该专家的专长研究领域信息(通过系统内置主题词表再结合专题文献库的词频统计分析来抽取);第三类是该专家的合作网络揭示及其可视化呈现(同时输出相关文献列表);第四类是该专家各单项指标和综合指标的得分及其排名信息。包括专家识别与筛选、专家地图、专家检索和专家评价输出四个子功能。
(1)专家识别与筛选。通过分析专题文献库,提供各种组合筛选条件由用户定制,然后根据用户定制条件从专题文献库提取专家基本信息并计算该专家的相关特征数据,最后生成该领域专家库。后期通过后台管理界面实现专家部分信息的人工添加,主要包括个人各种联系方式、成果简介等补充信息。
(2)专家地图。专家地图是专家库系统的一个用于可视化展示的功能,其基于专家库的各种数据,通过Google Maps API实现了地理信息和专家信息的有效整合,实现了专家相关信息的可视化展示,通过Google地图这个媒介直观呈现本学科领域的专家的地域分布,使得专家的相关信息得以可视化展示[8]。
(3)专家检索。主要包括两部分,第一部分是专家库的多途径关键字检索,通过关键字匹配实现精确或模糊检索,输出该专家基本信息和相关文献列表;第二部分是作者合作关系网络检索与可视化呈现,可以任意指定一对作者,系统可以输出他们之间的所有最短路径,包括联系他们的作者及其文献信息,这部分主要是基于图论的Dijkstra算法并作出改进后来实现作者间关系的挖掘和呈现[9-10]。比如检索专家邱均平及相关信息,部分分析界面如图3所示。
图3 专家关联及相关文献揭示
(4)专家评价输出。基于构建的各领域专家库实现专家的综合评价与单项指标评价,各种评价结果便于科研管理部门和相关领域研究者全面了解和把握本领域的专家绩效、学术水平和影响力。本模块包括指标库管理、评价模型运算两个功能。指标库管理功能包括专家评价指标的增、删、改、查等基本功能。其中评价指标库的权重采用了层次分析法(AHP)生成,层次分析法的算法封装在了系统的评价业务逻辑中。评价模型运算通过调用评价指标库的指标及权重数据,同时调用评价业务类的评价算法实现各一级指标排序和综合排序,并自动生成各种评价报表。
3.3.4 期刊评价
学术期刊是科学知识积累和传播的重要载体,是科学研究的重要资源,期刊评价不仅能对期刊本身作出评价,而且也为人才评价、科研立项、成果鉴定等活动提供可信依据。本模块将包含所有被评价的学术期刊和各项评价指标的原始数据整理并录入系统,并可在该平台上通过简单快捷的操作,由系统自动完成数据统计、计算、排序等工作,还可按照需要输出评价结果。本模块采用了多个评价指标,有基金论文比、总被引频次、影响因子、Web下载率、期刊获奖、二次文献收录、专家评审等项,较全面地反映能体现期刊质量水平的各个指标。为保证期刊评价的灵活性,系统为用户提供自主调整各指标权值的功能,满足长期使用过程中可能出现的自由调整各指标权重或增减指标的需要。
(1)数据查询。包括期刊信息查询(支持按照各种可能的组合字段进行检索)、期刊排行榜查询(按各个学科类型查询不同排行榜)、学报排行榜查询(按各个学报类型查询不同排行榜)等功能。
(2)指标管理。本系统采用的评价指标有:基金论文比、总被引次数、影响因子、Web下载率、二次文献收录、专家评审、高被引论文等。系统应提供各指标的权重管理功能,以及指标增删功能。
(3)期刊管理。系统上线后,可能需要根据期刊的变动情况对基础数据进行修改,因此系统应提供常规的期刊记录增删、修改等功能。
(4)数据上传。允许数据搜集人员手工提交各种原始数据并进行必要的清理、校验,而且支持批量导入来自第三方的多种格式的现成数据,以完成基本数据库的建设,并进一步生成必要的指标数据库,为前台的指标计算提供良好的支持。
(5)数据处理。根据用户导入的原始数据以及各指标权重值,快速计算出各种指标加权后的总值,并据此给出各种期刊在所在学科分类下的排名和等级。
(6)数据导出。允许用户将期刊基本信息表、原始数据表、排名结果等各类型数据的检索结果输出为多种格式的文件,并支持批量导出功能,从而方便用户对期刊信息和期刊排名结果的利用。
3.3.5 大学评价与诊断
大学自诞生之日起就以传播知识、弘扬文化、继承传统、创造文明为宗旨,肩负着科学研究和人才培养的双重使命,如何科学、合理、客观、公正地评价国内外高等院校的综合竞争力和学科专业建设的质量和水平,受到社会各界人士的广泛关注。本系统共包括:中国大学本科综合竞争力评价、科技创新竞争力评价、人文社科竞争力评价、本科专业竞争力评价、研究生综合竞争力评价、研究生门类竞争力评价、研究生专业竞争力评价、民办大学综合竞争力评价、世界大学综合竞争力评价、世界大学学科竞争力评价共10方面的评价业务。系统秉承了“分类评价、智能服务”的思路,对不同的评价对象进行研究,设计了不同的评价指标体系,评价过程中从数据源分析、信息采集、整理、组织、评价、智能分析与诊断、可视化呈现将全部或部分实现自动化和智能化处理。
(1)信息采集与标准化功能。通过系统内置的高校基本信息库的URL列表,自动爬取网络数据源,进行文本分析和原始指标数据采集,并进行规范化处理。网络自动采集与数据分析系统不仅用于网络影响力指标数据采集,还延伸应用到了其他规律性的指标数据采集,比如反映高校科研产出的专利数据、论文数据等三级指标的数据采集,不仅大大降低了评价工作的原始数据采集工作量,还提升了数据分析处理的规范性与精确性[11]。
(2)论文学科专业分类器。在大学评价数据处理中,使得发文量和被引频次这两个数据量极大指标的统计计算工作实现了自动化。该系统巧妙利用期刊分类器和类号转换器,实现了二次分类和自动生成测试集,提高了SVM分类精度,也避免了繁重的人工分类任务。自动化分类克服了以往手工分类所造成的主观性强和效率低下两大弊端,兼顾了数据处理工作的质量和效率,大大提高了数据处理的速度,并且使得评价结果更加准确客观[12]。
(3)评价计算与排序。通过多年对大学本科教育、研究生教育的评价工作,全面收集了所有培养单位的各个方面的原始数据,建立了大学评价基本信息库。通过评价模型运算(完成原始数据归一化处理,调用指标库权重,完成各级单项指标计算及综合排名生成和导出)可以得到大量教育评价信息,建立了大学评价结果查询库。这些信息为教育部门的管理和决策提供了必不可少的定量依据,也为广大高考考生提供了报考指南。
(4)智能分析与诊断功能。基于大学评价基本信息库,运用各种常规统计方法、心理测量方法、文献计量方法、数据挖掘算法对这些数据进行各种深入挖掘和可视化呈现,通过基本指标分析、优劣势分析和发展趋势分析,再结合开源的JPGraph可视化组件,以定量化、图形化的方式揭示高等教育的发展趋势和运行规律,为各高等教育机构、管理部门、广大高等教育受众及其家长提供针对性的个性化诊断与建议,如图4所示。
图4 高校人文社科竞争力基本指标分析界面
4 结论
科学评价管理信息系统的构建,实现了一个基于Web集成智能信息服务平台,系统在数据整合的基础上融合了跨学科的理论和方法,实现了对多种评价对象(国内外高等学校、科研机构、专家学者、学术期刊等)的评价应用集成,使得整个评价过程高度自动化和智能化,极大促进了评价工作的规范化和精确化,同时又深入挖掘了评价结果数据,实现了面向社会各类用户的评价信息服务。本系统也存在一些需要继续完善的问题,比如网络信息采集的精度还不够,过于依赖采集对象的URL规则和页面文本特征匹配,使得采集程序需要经常更新以适应采集对象的变化,另外一个问题是专家库系统的专家关系网络揭示方面,基于图论的最短路径算法的效率问题,还需要继续优化,以适应更大规模的专家群体的挖掘和展示。
标签:科学论文; 可视化管理论文; 相关性分析论文; 系统评价论文; 文献分析法论文; 分类数据论文; 功能分析论文; 可视化论文; 文献检索论文;