基于文献计量学和内容挖掘的中国人口统计学分析_文献分析法论文

基于文献计量和内容挖掘的国内人口学研究分析,本文主要内容关键词为:人口学论文,文献论文,内容论文,国内论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G250.252;C92 [文献标识码]A [文章编号]1007-032X(2001)03-0037-05

[修订日期]2011-03-15

人口学是研究人口发展及其规律,人口变量与社会、经济、生态环境等变量之间相互关系的一门学科[1]。国内的人口学研究从1949年至今已走过了60多年的发展历程。叶文振等学者认为,可将人口学的发展划分为三大时期,其中国内人口学的自我发展期应从20世纪90年代中期算起,其研究经历了低谷期、活跃期,现今已逐渐进入稳定期[2]。“十二五”期间人口学研究如何进一步发展成为研究者普遍关心的问题。基于文献计量学来研究学科发展是一种常用的方法,国内学者采用该方法对人口学科建设的发展做了一些初步研究,如侯佳伟通过对人口学期刊论文作者的统计分析发现,期刊新增量明显低于理论最佳值,人口学研究队伍稳定,但活力不足,易出现老化现象[3]。和红、马骁基于《人口研究》的基本数据,从发文量、论文作者、引文和被引等角度对该刊做了文献计量统计分析[4]。但上述主要采用定量统计分析方法所作研究中,还较少基于文献内容进行的分析。为此,本文综合文献计量法与内容分析法,拟通过对文献内容的深入研究来展现我国人口学的研究现状与发展趋势,为学科研究提供另一种思路和视角,供研究者参考和借鉴。

一、数据源与研究方法

1.数据源

所谓权威期刊是指刊载基金论文数量多、被读者利用次数高、广受网络用户点击、二次文献转载篇数多或被国外重要数据库收录多的期刊[5]。权威期刊代表了一个学科研究的最高水平和最新研究方向,为此选取人口学权威期刊文献作为本文研究的数据源。从CNKI 1992-2009年核心期刊文献题录数据库中抽取《人口研究》、《中国人口科学》和《人口与经济》刊发的论文5 139篇,剔除其中的会议通知、征文、会议纪要、年总目录等非学术性论文,以其余4 695篇论文作为研究样本。数据字段包括:篇名、作者、研究机构、关键词、被引频次等。

2.研究方法

将文献计量法和基于内容的主题挖掘技术相结合,通过对3种权威期刊历年发文量和被引情况、作者机构与地域分布特点、文献合著情况、标题和关键词及高频关键词、突现词等信息的考察来分析人口学研究发展状况。

二、文献计量分析

1.期刊发文与被引计量分析

表1数据显示,1992-2009年,《人口研究》与《中国人口科学》每年的发文量比较稳定,《人口与经济》从2001年开始年发文量增加,大致为原先的2倍,近两年又呈现出进一步增长趋势。从期刊被引情况分析,与2003年相比,《人口研究》2004、2005年的发文量没有增加,甚至出现了减少,但被引量增加了一倍,其原因可能是,从2004年开始出现了大量关于流动人口、人口老龄化、人口迁徙的文章,且都有很高的被引量,其中段成荣、周福林2005年的论文《我国留守儿童状况研究》被引达到337次;段成荣、梁宏2004年的论文《我国流动儿童状况》被引达到116次。《人口研究》的被引总量和篇均引用量(期刊被引总量/期刊总篇数)均大于另外两种期刊,说明其在国内人口学研究领域具有一定权威性。

综合3种期刊历年的发文量和被引量总和(图1)可见,期刊被引量与发文量之间没有绝对的线性关系,在发文量基本保持不变的情况下,文献被引量逐年上升,2004年达到峰值,说明论文从发表到被其他作者引用需要一个周期,被引概率较高的时期多在论文发表后的5年之内。1999年和2001年相继出现的两个次峰值则可以说明,进入2000年后国内人口学研究逐渐火热,有大批学者进入这个领域从事研究。

图1 三种期刊发文量与被引总量图

2.机构发文计量分析

考察作者机构的分布,可以了解该学科主要研究部门的地理分布状况及其研究实力。经统计发现,4 695篇文献中以编辑部署名的有37篇,作者机构不详的有255篇,出自高等院校、科学研究所等科研机构的文献3 405篇,占到总量的72.52%,政府、企事业单位人员所著文献838篇,占总量的17.85%;作者属国外研究机构的文献有101篇,其中以美国为最多,达81篇。

由表2可见,我国人口学研究的地域不平衡性比较突出,研究机构主要集中在华北地区,前6所机构发文量占到总发文量的37.55%。从地区分布看,华北地区占据前6位,其次为华东地区,占5席。这里虽有三大核心期刊属地均在北京的客观因素,但也以数据充分说明人口学发展的核心力量建立在高校云集、经济和科研力量相对较强的地区,西部和经济欠发达地区人口学的科研力量还比较薄弱。由于排名靠前的研究机构普遍都设有专门的人口研究所,聚集了大量具有一定科研实力的研究人员,因此其发文数量要远大于其他机构。

3.作者合著计量分析

合著论文作者数目可从一个侧面反映学科的交流和融合情况。表3和图2数据表明,在3种期刊发文总量中,合著文献比例呈波动上升态势,特别是2004年以后,合著文献所占比例有了明显提高,独立作者所著文献量有所下降,2人合著文献保持平稳,3人合著文献量自2006年开始明显上升,4人及以上合著文献量也略有增长。从中可以看出,近年来随着社会的不断发展和进步,人口相关问题逐渐得到社会的普遍关注,从事该学科研究的学者在增加,人口学的研究团队正在逐步形成并趋于稳定,同时有更多学科背景的人员加入到人口研究的队伍中来,为人口学的长远发展奠定了坚实的人才基础。

图2 合著文献比例图

三、基于内容的研究主题挖掘

学术文献标题往往点明了文献的主题或主旨,通过标题能直观反映文献研究的重点和中心内容;关键词是从文献标题、层次标题和正文中选出来的、能反映论文主题概念的词或词组,是文献主要研究内容的集中体现和凝练表述,因此,研究标题和各类关键词是挖掘和把握文献内容的有效途径。

1.通过标题词挖掘

从4 695篇论文样本中按标题进行分词统计,采用中科院计算技术研究所的自动分词软件ICTCLAS3.0,将文献标题分解成1~2个能代表其含义的词或词组,我们称之为标题词,按标题词进行分组统计(含义相近的标题词归为一组,例如老人、老年人口、高龄人口等)。排名前10的研究主题如表4所示,其中主要标题词为该主题中出现频次较高的词或词组(排序不分先后)。

表4数据说明,作为人口大国,有关生育和妇女的论文数量占到3种期刊发文总量的20.47%,而随着计划生育的推行和和家庭生育观念的改变、老龄化问题的日益突出以及城市化进程的不断加速,有关老人、医疗、外来人口、人口迁移的论文数也占到了整体的23.37%,可见这些是近年来社会普遍关心的热点问题。另外探讨社会福利、医疗保障以及社会特殊困难群体等问题论文的增多也反映出上述方面已成为众多学者关注和研究的课题。由此可以说,人口学研究正日益发挥其交叉学科的综合优势,研究领域在不断扩大,许多新人口问题的出现,如人口老龄化、独生子女、流动人口、人口与就业、人口对资源和环境的压力等[6],使得人口学研究在向更广的领域、更深的层次拓展。

2.通过核心关键词挖掘

4 695篇文献中给出关键词的文献为1 774篇,占到所统计文献总量的37.78%。最早标引关键词的是乔晓春博士1998年发表在《人口研究》上的《关于中国农村社会养老保险问题的分析》。《人口与经济》所载文献从2000年开始普遍标引关键词,《人口研究》和《中国人口科学》则分别从2002年和2003年开始普遍标引关键词。本文从3种期刊2000年-2009年近10年所载文献的关键词中,抽取包含“人口”两字的四字词语作为学科研究的核心关键词,按其出现频次作统计分析。

从表5的统计结果可以看出,近10年来,人口学研究者关注的主要问题包括:人口生育、人口经济、人口养老、人口流动、人口保障和人口性别等。作为一个人口大国,计划生育政策在一定时期内仍然是我国的基本国策,而伴随着城市化进程的加速,流动人口问题逐步凸显。另据第六次全国人口普查主要数据公报(第1号),此次人口普查登记的60岁及以上人口占全国总人口的13.26%,比2000年上升2.93个百分点[7],可见我国老龄化进程逐步加快,随之而来的人口养老和人口保障问题成为学科研究的重点。

3.通过高频关键词挖掘

人口学作为一门关系民生的社会科学,其研究热点和新的增长点在很大程度上反映了社会的发展和变迁。文献关键词中的高频词汇是在一定时期内,某学科研究人员大量应用的词汇,表征了该研究领域的研究重心,也是学科知识单元的基本内容[8]。通过对近5年来高频关键词的统计分析应能反映国内人口学的发展动态。

我国从20世纪70年代后期开始推行计划生育政策,至今已有30多年历史,计划生育政策已深入人心,人口增长也进入了“低生育水平”时期。李建民教授2009年在《人口研究》“人口与发展论坛”发文指出,在低生育水平条件下,由于人口老龄化对人口粗死亡率的不断抬升,未来的中国人口增长速度将进一步减缓,并将出现负增长[9]。社会实践的发展必然带来理论研究的动态调整,从一些关键词出现频次的变化可以折射出这种调整。

我们抽取“计划生育”、“流动人口”、“养老保险”、“社会保障”和“生育率”作为关键词代表研究其出现频次的变化曲线。其中具有代表性的是,关键词“计划生育”与“生育率”的排名在逐年下降,说明有关计划生育的论文在减少,“计划生育”研究热已逐渐消退。关键词“养老保险”的排名在不断上升,而“流动人口”的排名一直高居不下,说明随着城市化进程的推进和老龄人口的增加,有关流动人口问题、社会养老保障问题已成为人口学研究的热点。

图3 高频关键词排名变化

4.突现词挖掘

突现词(Burst Terms)是指出现频次在较短时间内突然增加(即增长速度较快)或使用频次增长率明显提高的术语[10]。该词最早出现于专门针对科研文献数据设计的可视化分析软件CiteSpace中,①该软件能够通过引文分析和聚类分析寻找研究热点及趋势,并以可视化的方式展示。该软件采用著名计算机学家Kleinberg的突变检测算法来确定研究中的前沿问题,基本原理是统计相关领域论文的标题、摘要、系索词(标引主题的单元词或词组)和文献记录的标识符中词汇频率,根据词的词频增长率来确定哪些是研究的前沿。我们采用该突变检测算法的核心思想,对文献资料中的关键词部分按年份进行频次统计,不仅仅注意频次的高低,更重要的是重视新兴出现的关键词以及其变化幅度。如同软件有其生命周期一样,研究热点也会经历产生、发展、成熟和消亡的过程,高频关键词代表了现今人口学研究的热点,而突现词则是指最近几年出现,虽然没有成为高频词但具有上升态势的词汇,它代表了新事物的诞生,并很可能成为以后的研究热点。但有些词出现了几次就消亡了,例如“SARS防治”现在已很少有文章涉及,这类词将排除在突现词之外。

表7中给出了几个具有典型意义的突现词。通过表中数据变化可以看到,“收入差距”、“失地农民”、“留守”和“合作医疗”成为突现词,预示着相关研究已成为人口学研究新的增长点,且正处于成长期。这些研究方向与当前经济发展的现状是相适应的,人口流动问题、收入问题、农民问题及医疗改革问题正是当前社会关注的热点。

四、小结

通过上述综合运用文献计量法与内容分析法对3种人口学期刊的研究,笔者得出以下结论:

(1)人口学研究已形成稳定的研究队伍,具有一批高素质研究人员,研究机构相对集中,核心作者科研产出占成果总量的比重较高,学科交叉研究进一步加强,合著文献数量提高,团队合作意识增强。

(2)3种期刊在发文量基本不变的情况下,被引量逐年上升,一是说明了期刊的核心地位,二是说明了从事人口学研究的学者在增加,论文总数在增加,但对期刊或是对作者而言,发文量与被引量之间没有直接的线性关系。

(3)对标题词、高频关键词和突现词的统计分析表明,研究热点有其生命周期性,突现词分析能够确定学科的研究前沿和研究趋势,显示研究新的增长点。3种人口学核心期刊10多年来发表的文献显示,随着我国老龄化问题的日益突出,城市化进程的不断发展,有关老人、医疗、外来人口、人口迁移已成为社会普遍关心的热点问题。另外有关社会福利、医疗保障,社会特殊困难群体等也是众多学者研究的课题。

注释:

①引自CiteSpace软件专业资源网站.http://cluster.cis.drexel.edu/~cchen/citespace/.

标签:;  ;  ;  ;  ;  ;  

基于文献计量学和内容挖掘的中国人口统计学分析_文献分析法论文
下载Doc文档

猜你喜欢