学位与研究生教育评价数据的可靠性研究(注:国家自然科学基金资助))_大数据论文

学位与研究生教育评价数据的可靠性研究(注:国家自然科学基金资助))_大数据论文

学位与研究生教育评估数据可靠性研究(注:国家自然科学基金项目资助。),本文主要内容关键词为:可靠性论文,学位论文,国家自然科学论文,基金项目论文,研究生教育论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

充分、可靠的数据是进行学位与研究生教育评估的基础,只有在收集大量可靠而有用数据的基础上,才能作出客观正确的评价,这一点已为广大评估研究人员及实施者所共识。

收集评估数据是一项复杂的工作,造成评估者收集的数据不可靠的原因很多,既有人为原因,也有技术原因。找出评估中数据不准确的原因,制定出保证数据可靠性的措施,是学位与研究生教育评估中一个十分重要又十分必要的环节。

一、信息采集中易出现的数据失真现象

在整个学位与研究生教育评估过程中,数据采集和资料的准备需花大量的时间,人们在费了很大力气的同时,总希望收集的数据能准确有效。不管人们的主观愿望如何,数据失真现象还是很容易发生。除了计算机输入和誊写时的失误可用校对等方式检查外,还有其它一些主客观上的数据失真问题。

1.单位名称改换造成的数据收集困难。单位名称改变后,评估者及信息采集者由于不知道,或没有考虑到这种情况,造成数据的漏检。如某些学院改称为大学,某几个学校合并为一个学校,单位自身的发展造成的名称改变,这些原因使单位名称前后不一致,若收集数据时不考虑到这种情况,则单位改称或合并前的数据就收集不到,影响了数据的准确性与完整性。

2.对数据理解的歧义造成的数据不可比性。由于要求不明确、概念说明不清楚,使不同的人对同一数据产生了不同理解,从而使数据内涵不一致,使数据丧失了可比性。

3.信息分散造成的数据不全或数据重复。有些数据不是集中存放的,分散在几个相关部门,申报数据时就容易漏掉个别部门数据,或者由于各部门数据交叉,造成汇总时的数据重复,无意间夸大了数据。

4.实际要求与日常习惯不同造成的数据不一致。学校的许多数据,如有关教学的数据,大多是以“学年度”为单位进行统计,而报表要求又以“年”为单位。这样使申报数据产生了困难,且易产生数据不一致。

5.人事变动造成的数据申报问题。在一些教授、科研人员调动到新单位后,他们以前的论文、获奖、科研项目的归属问题可能混乱。如在评估中曾发现,有的学校把刚调入的教师在其它单位时的论文、获奖算作自己学校的成果,这显然不妥。

6.计量单位不同造成的数据混乱。在数据收集过程中,经常发现有些上报数据的计量单位不一致。例如有的以万元为单位,有的则以元;有的以亩,有的则以公顷。产生这种情况的原因可能有两种,一是报表要求不明确,填报人各自理解不同,二是要求明确,但填报人未加注意,致使上报数据的计量单位各异。显然,若不给予充分的注意,具体计量单位的不同会引起数据的混乱。

7.有些数据项目的具体规定不明确造成的数据不准。如某些科研项目、获奖的申报,当科研项目、获奖由不同单位的几个人合作完成时,若各单位均作为一个完整的项目申报就会造成数据夸大。再如正高、副高人数,一些退休人员如何计算,完全退休与再反聘回来的有无差别。教师总数与教工总数的差别,国家级奖尤其是文科国家级奖的具体范围等。

8.等质性的问题。原始数据应具有等质性,等质性是进行数据处理的必要条件。以国家级奖为例,国家级奖的一、二、三、四等奖显然具有很大的差别,若笼统以国家奖计,则反映不出奖项质的区别。

9.虚报数据。这是数据采集过程中遇到的主观上最恶劣的一种。当遇到和单位有利害关系的评估时,个别单位故意编造、谎报有关数据,隐瞒问题,抬高自己,这既对其它单位是一种不公平,对评估来说也就失去了公正合理的一面。

此外在由专家打分取得数据时,容易有群体效应形成的评估误差,如从众效应、威望效应、肯定效应、关系效应、趋中效应等。这类误差和前面所述的数据不准或不全有所区别,但同样也会造成数据失真。

二、数据可靠性保证措施

要保证数据的准确可靠,就必须对此作系统的关注。否则在整个学位与研究生教育评估过程中就会因数据问题造成工作的被动。

1.理论准备与指标体系制定中的数据考虑。在此阶段对数据方面应重点研究数据及指标内涵、计量单位的选择、指标本身对数据可靠性的保证等。

(1)数据内涵的确立。在收集数据时, 必须对数据的内涵作明确的界定,否则得到的数据很可能就失去了原有的意义。同一指标,在不同类型及不同时间的评估中可能内涵是有差别的,特别是在范围、数据的时间限定等方面更容易变化。如国家级奖,具体包括哪些奖项,与本次评估关系不大的国家级奖算不算在内,获奖时间限定等,很可能每次评估都不尽相同。

(2)计量单位的选择。 应根据本次评估的特点确立合理的计量单位,如万元还是元,亩还是平方米,这样做不仅仅是为了上报数据时填表的方便,而且为下一步制定报表做准备,避免由于报表要求的不明确造成计量单位混乱。

(3)指标设计时的考虑。 指标设计时单就保证数据可靠方面还应考虑两点。一是相互制约指标的设立。在设立指标时,一些合理的可相互制约的指标对抑制虚报数据有积极作用。如设立有关人数的指标时,考虑设置一些人均项目的指标。设立规模指标时,设置一些效益指标。二是惩罚性指标的设立。在对评估单位利害较大的评估中,为了保证上报数据的可靠,设立一些惩罚指标对虚报数据者予以惩罚。譬如可把这种指标放在管理水平这类指标中,对查实的虚报数据的单位予以罚分。

2.数据源及收集手段的确定。数据源及收集手段的合理也是数据准确可靠的保证。

首先必须弄清可能的数据源有哪些,这些数据源的可信度,最终确定使用哪个或哪几个数据源。对评估来说,数据源有各种情报机构、主管部门、图书馆、被评对象、专家、学生、教师、社会人员等。各个数据源收集信息的全面性、准确性、针对性可能不同,因此需要对不同数据采用不同数据源。

相应于不同数据源,采用的收集手段也有所不同,有计算机检索、查阅资料、通信评议、实地考察、被评对象上报等。计算机检索快速、客观,但结果受到数据库本身的数据收集范围的限制;查阅资料工作量太大,查阅个别数据还可以,对所有数据使用查阅资料法则不现实;通信评议周期较长,但是,由于聘请的专家都是同行专家,可信度较高,而且还起到了检验有关数据的作用;实地考察可获得较真实数据,但考察人员的挑选和调查方法的确定直接影响结果的可靠性;上报数据简单易行,但难免虚报数据。因此,根据评估的性质确立收集手段至关重要。

采用不同途径获取同一信息,是提高信息可靠性的有效手段。或者对不同途径所得信息相互比较、检验;或者对不同途径所得信息进行综合分析、处理,消除单一途径的片面性。这种方式的优点是可靠性好,不足之处是工作量、人财物等代价较大。

3.报表的设计。进行通信调查、组织上报数据时,报表是沟通信息采集者与被访者的桥梁,因而报表的设计相当重要,在理论准备与指标体系制定中的成果将反映到报表中。报表最基本的要求是要有自明性,一些设计者认为很显然的事,填表者可能会有理解偏差,因此应能使人只看表格即能明白数据的内涵。内涵的明确性应能充分反映出来,特别应注意一些时间限定、范围限定、程度限定方面的表述。在实际工作中,对一些数据的误解大多是由报表的自明性不够引起的。在使用报表前,应对其自明性作反复审查。

4.数据的核实。对数据进行专门的核实是保证数据可靠的重要措施之一。核实可用以下方法:

(1)异常值法。 这一方法的理论假设是:同一类单位的同一类数据不应相差太大。据此应对数据中太大或太小的特别数据予以分析核实。但此法对位于中间的虚报数据不易发现。

(2)备查资料法。 这种方法要求单位上报数据时同时上报数据证明材料。如计算机检索项目可要求情报检索机关的证明,教授数、博士数、获奖等项目可要求具体的名单及获奖证书。如此要求一是限制了有关单位虚报数据,再就是可根据备查资料核实数据。

(3)对比法。这一方法的要求是:同一数据要从多个途径获得。对比不同途径数据的差异,分析产生这种差异的原因。既为本次评估提供了准确数据,又为下次评估提供有关数据源可信度的经验。

(4)导出数据法。 这一方法是对原始数据进行适当处理后分析导出数据的情况,再判断原始数据的真实性。如对论文数、经费、仪器价值的判断,可先计算人均论文、人均经费等,再用异常值法等其它方法判别导出数据,分析产生异常的情况是由于分子,还是由于分母的原因。

(5)公识法。所谓“公识”, 指的是社会上对特定评估问题能发表独立见解的群体中不少于半数人士所能接受的关于该问题的观点。运用“公识”,首先要找出能对该数据真实性发表独立见解的群体,这个群体对该数据属性及数据申报单位有较客观的认识,然后征询此群体的意见以辨别数据的真伪。这种方法有可能对较隐蔽的数据虚报问题作出鉴别。

(6)实地考察法。这一方法需组织专家到实地访谈、参观、 查阅原始资料等,在精心组织下可核实数据的可靠程度。但人力、财力等代价较大。

除此之外,数据公开制度、举报制度的设立对保证数据可靠性有积极作用。对一些不需要保密的数据公开发表后,可接受社会的监督,对数据上报及收集均有强大的约束作用。而实行举报制度可进一步约束一些隐蔽的违规活动,保证数据的可靠及评估的公正。

三、数据属性分析法

为保证数据可靠,应指定专人负责数据的审核、分析工作。除了人员的保证,还应有一种深入分析问题的思维方法。下面就提出一种思维方式,姑且称之为“数据属性分析法”。

所谓数据属性分析法,是指在数据可靠性研究及数据收集实践过程中,对数据特征细分为若干属性,使这些属性从不同侧面全面地反映数据的内涵、性质、外在特征等,进而研究确定数据的属性值,从属性层次分析问题,提出数据可靠性解决方案的一种思维方法。

●确定本次评估所用数据集

DS={D[,i]} i=1,2,…,n

DS(Data Set):数据集

D[,i]:第i个数据

●确定数据的属性集

AS={A[,i]}

j=1,2,…,m

AS(Attribute Set):属性集

A[,j]:第j个属性

●分析每个数据,确定每个属性值

D[,i]={a[,ij]}

a[,ij]:第i个数据的第j个属性内容(属性值)

进行这一步是对数据的深入认识过程。

●整理数据集及属性集,为本次评估全过程的每个阶段制定出保障数据可靠性的具体措施,为下次评估总结经验。

本文所提的“数据属性分析法”,并不是学位与研究生教育评估的一个孤立阶段,而只是为保证数据可靠性提出的一种思维方式,是研究数据可靠性的一个切入点。实际上,此方法是融合在评估的全过程中的,但在评估的各个阶段对属性的研究侧重点不一样。这是一个交互的过程,一方面为保证数据可靠性要以数据属性作依据,制定出保证措施;另一方面在各个阶段的研究及实施中也要进行反馈,不断完善数据的属性内容。

在具体操作中,确定了需要收集哪些数据即确定了DS后,就需要对每个数据D[,i]的属性作细致分析, 并应在各种评估中完善数据属性集,以深化对数据的认识程度。

数据的属性应包括以下主要内容:

1.数据名称:评估中所用数据的全称、简称等。

2.数据内涵:数据的确切、完整内涵表述。

3.相关数据:有可能与本数据相运算或相关的数据。

4.计量单位:本次评估中拟用的合理的计量单位。

5.时间界定:所需数据时间的确切上下界。

6.范围、程度:所采集数据的确切范围、程度。

7.可能数据源:采集本数据所有可能数据源。

8.实际数据源:本次评估实际可用数据源。

9.数据源可信度:各个数据源的信息完备、准确程度,并为数据源可信度评定等级。

10.采集方法:采集本数据的可用采集手段。

11.易出现问题:本数据容易出现失真的地方。

12.核实手段:可用来核实本数据的方法及适用性。

当然,数据属性不只这12种,每次评估也不一定对所有属性均作细致分析,可根据评估的大小、性质、特点的不同,合理确定需分析的属性。但这些主要属性对深入研究数据本身特点,保证数据准确可靠有提纲挈领的作用。

对此数据属性集可用表格、卡片或数据库的形式加以管理。在今后再次用到此类数据时,可以从中借鉴一些经验。

标签:;  ;  ;  

学位与研究生教育评价数据的可靠性研究(注:国家自然科学基金资助))_大数据论文
下载Doc文档

猜你喜欢