现代学生群体的压力与生活的共存性分析
——一项基于微博语料的自然语言处理技术应用
金 幕
(浙江大学,浙江杭州310058)
摘要: 压力,是现实生活中由于外界环境的变化而导致的人类生理变化和情绪波动。学生的生活中是否存在压力,以及其影响程度,都是学生群体心理健康研究的重要课题。本文采用了计算语言学的方法,以心理学模型为基础,计算机科学中的自然语言处理技术为手段,借助爬虫软件提取了具有代表性的现代大学生群体微博内容,用以探究学生群体压力与生活的共存性关系。分析结果显示,在现代学生群体的生活中,压力是不可或缺的一部分,它主要来自于家庭、学校、人际交往。为此,合理对待生活中的压力、积极面对生活是现代学生群体解压的有效途径。
关键词: 自然语言处理;压力探究;学生群体;微博语料
压力是个体对直觉到的对自身心理、生理、情绪及精神威胁时的体验所导致的一系列的生理性反应及适应。正性压力能够激发和鼓舞个体达到预期目标,实现最高绩效,但压力持续上升就会转化为负性压力,个体能力因难以承受而造成绩效下降,其慢性效应长期积累会导致情绪失落、心理疾病等后果[1]。学生群体作为社会阶层的一个重要组成部分,其年龄层较低,在面对压力时往往容易出现不同程度的心理问题。
在哲学常识课的教学过程中,如何做到哲理教育与情趣教育的有机结合呢?在教学实践中,我主要从以下几个方面进行了尝试,收到了较好的教育、教学效果。
本文基于Python平台,利用爬虫技术爬取了2018年6月1日-6月23日的语料数据,利用自然语言处理方法,如关键词TF-IDF算法、Word2Vec词向量训练模型等技术,对获取的微博语料进行可视化分析,探究当代学生群体的学业、就业、经济、情感、人际关系和自我认同的发展与生存状况,并通过对前人的经典心理学模型的研究,对压力之于生命的意义进行了更深入的阐释。
一、爬虫技术与微博语料的采集处理
(一)爬虫技术简介
爬虫技术,是一种按照一定的网页协议规则,自动地抓取互联网信息的一些代码脚本。通常认为,网络爬虫是一种程序,主要用于搜索引擎,它可以将一个网站的所有内容和链接进行读取,从第一个网站地址开始读取,获取目标内容,并建立相关的全文索引到数据库中,然后跳到下一个相关网站,如此下去,一直循环获取所有相关的内容和链接,直至读取完毕,并将所有读取的内容依次索引到数据库中,进行记录,从而快速、高效地获取所有的信息内容。由于爬虫的方式与蜘蛛运作方式相似,爬虫技术,又称为“网页蜘蛛”或“网页追逐者”。在大数据时代,互联网中富含丰富的数据信息,由于人工处理费时费力,浪费时间和资金,因此需要通过爬虫这种方式进行批量、自动化地抓取和处理数据。
本文所研究的微博语料就是基于若干用以反映学生群体身份的关键词,爬取微博获得的,这些关键词包括“高中”“高一”“高二”“高三”“大学”“大一 ”“大 二 ”“大三 ”“大四 ”“研究生 ”“研一”“研二”。利用爬虫软件提取博文内容,共提取23760条微博,合计750406字。
图3表示的是甘露聚糖酶与甘露糖之间的相关关系,从图3中可以看出,随着甘露聚糖酶添加量的增加,酶解液中甘露糖的含量先提高后下降,当甘露聚糖酶添加量为0.018 mg/g时,甘露糖含量最高,因此甘露聚糖酶的最适添加量为0.018 mg/g。
爬取的基本思想是通过构造微博的URL序列,爬取相关网页、解析网页、储存。整个爬取过程都是以Python作为操作平台。本文爬取所获的部分语料如图1所示。
在日后的人生旅途上,每当我哼起印度尼西亚民歌《鸽子》,就会想起舒曼,想起了我们在学校烧大茶炉的生活,想起西天大海滩一样的火烧云。想起舒曼离开我们的那个黄昏。
图1初步获取的粗语料
此次词向量训练中,设置参数如下:训练算法设置为默认,即对应CBOW模型,特征向量的维度设为200,设置前次与预测次在一个句子中的最大距离为6。
分词就是将连续的字序列按照一定的规范重新组合成次序列的过程。中文分词是指将语段按照汉字序列分割成一个个单独的词。本文采用的分词工具是基于Python平台下的清华大学中文词法分析工具包THULAC。THULAC是由清华大学自然语言处理与社会人文计算实验室推出的一套中文词法分析工具包,该分词工具经过了大量的中文语料模型训练,具有消除歧义、更高精度分词的功能,有很高的准确性[2]。当然,没有任何分词工具可以做到100%准确率,但是经测试,THULAC工具包的准确召回率已经达到了95%。通过分词、去噪之后的语料如图2,此时的语料已经可以进行自然语言处理。
道路工程档案是指在道路工程建设的活动中逐渐形成的具有保存价值的文字、图片、表格、声视频及电子文件等各种形式上的道路工程历史记录。道路工程档案建设也是对道路工程整体项目建设全过程的翔实记录和真实记载。
图2处理完毕的微博语料
(二)微博语料的可视化分析
通过上表可以看出,“压力”是在15个微博关键词中唯一的情绪名词,这说明学生群体的现实生活中确实存在着一定的心理压力。而关键词中,涉及到“高考”“实习”“专业”,这反映了不同年龄段的学生群体不同的压力源。对于本科生、研究生而言,当前带来压力首当其冲的还是毕业问题及去向,这关系到他们将来的发展和前途;其次,无论是高中生还是本科生、研究生,考试成绩、和同学老师的人际关系都是相当重要的。在人际关系方面,寝室关系、同学关系、师生关系是学生群体里最关键的关系。寝室和学校成为了学生群体有一定压力的场所。在专业学习和就业实习方面,也会给学生群体带来一定的压力。
2.计算逆文档频率(IDF)
2.将输入文本的每个词都生成一个one-hot向量,此处注意保留每个词的原始位置,因为是上下文相关的。
TF-IDF算法的主要思想是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上就是TF*IDF,其中TF(Term Frequency)表示词条在文章Document中出现的频率;IDF(Inverse Document Fre-quency)的主要思想就是:如果包含某个词条t的文档越少,则这个词的区分度n就越大,也就是IDF越大。
因此,对于如何获取一篇文章的关键词,我们可以计算这篇文章出现的所有名词的TF-IDF,TFIDF越大说明这个名词对这篇文章的区分度就越高,取TF-IDF值较大的几个词,就可以当做这篇文章的关键词。
TF-IDF的具体算法如下:
1.计算词频(TF)
面向5G的承载网需求及关键技术 ……………………………………………………师严,王光全,王海军 24-1-17
以上式子中ni ,j ,是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。
(1)TF-IDF算法原理
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
3.计算词频-逆文档频率(TF-IDF)
词频-逆文档频率即为词频与逆文档频率相乘之积。
(2)TF-IDF算法训练结果
以之前获取的微博语料作为训练样本,通过Python平台进行TF-IDF关键词算法计算,得到了语料中的20个核心关键词,去除5个无重点意义的实词,得到了语料中的15个核心关键词,如表1所示:
表1通过TF-IDF算法获得的微博主题关键词
以可视化的图表进行绘制,得到图3:
图3微博语料关键词权重情况
1.关键词提取算法
二、词向量模型分析
(一)词向量的原理
词向量是将词映射到一个语义空间,得到的向量。而word2vec是借用神经网络的方式实现的,考虑文本的上下文关系,词向量有两种模型,分别是CBOW模型和Skip-gram模型,这两种模型在训练的过程中类似。Skip-gram模型是用一个词语作为输入,来预测它周围的上下文,CBOW模型是拿一个词语的上下文作为输入,来预测这个词语本身。
词向量训练的预处理步骤如下:
针对互联网金融监管要转变传统的监管观念,在保障金融安全的同时要鼓励金融创新发展,构建科学的监管体系,针对互联网金融不同的模式进行分门别类有重点的监管。同时要明确各个监管部门的职责,加强各个部门之间的信息互连互通,必要时可以构建专门的监管部门。除此之外,还要培养监管人员的业务能力,打造高水平的监管队伍,在了解和掌握传统监管方式基础上进行创新监管。
2.3 不同耕作方式对夏玉米农田土壤理化性质的影响 从图3可以看出,不同耕作方式下,免耕土壤黏粒含量显著高于深松耕和常规耕作(P<0.05),深松耕和常规耕作差异不显著(P>0.05)。常规耕作土壤的粉粒含量大于深松耕和免耕方式,深松耕大于免耕,且3种耕作方式间差异显著(P<0.05)。免耕方式土壤的砂粒含量显著大于深松耕和常规耕作(P<0.05),深松耕和常规耕作方式无显著差异(P>0.05)。免耕方式土壤含水量大于深松耕和常规耕作,深松耕大于常规耕作,且3种耕作方式间土壤含水量差异显著(P<0.05)。
TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇文章中找到它的关键词。
3.确定词向量的维数N,神经网络迭代训练一定次数,得到输入层到隐藏层的参数矩阵,矩阵中每一行的转置即是对应词的词向量。
(二)微博语料的词向量训练
通过Python平台,在gensim下加载word2vec实现词向量的训练。训练结果以余弦距离表示:两个词之间的余弦距离越小,二者越相近,反映出微博语料中两个词的密切关系。通常认为,两个词的余弦距离越接近1,两个词就越接近同关联性。
通过哪些渠道精准找到、触达并转化高端消费者是奢侈腕表品牌们面临的最大挑战。Audemars Piguet爱彼近来在微信平台的大胆尝试非常值得奢侈腕表行业的关注。
1.对输入的文本生成一个词汇表,每个词统计词频,按照词频从高到低排序,取频率最高的V个词,构成一个词汇表。每个词存在一个one-hot向量,向量的维度是V,如果该词在词汇表中出现过,则向量中词汇表中对应的位置为1,其他位置全为0。如果词汇表中不出现,则向量为全0。
在获取了初步的微博语料以后,需要对获取的微博语料进行去噪、分词。微博语料的去噪包括初步去噪和后去噪。初步去噪指去除无关的标点符号、字母、数字;后去噪是指去除停用词(即一些没有实际意义的词诸如“的”“和”“啊”等无意义的词,即一些连词、感叹词、介词)。初步去噪在分词前处理,后去噪是在分词以后处理。
词向量的训练结果如表2和表3所示。
在1939年到1945年世界正处于战争期间,武器装备是一个国家军事实力的象征,飞行、导弹的控制需要应用动力学系统,而实物的检测需要大量的人力和物力,这促使了仿真技术的发展。20世纪40年代,为了适应控制系统的市场,开始研究控制系统的仿真技术。随着控制系统鲁棒性及可靠性要求日益增加,这就需要研发团队对相应的产品进行速度、样式的模拟并进行测试,最终形成可靠产品。dSPACE的出现就是为了达到这一目的。
表2通过CBOW模型计算获得的余弦相似度
表3通过CBOW模型计算获得关键词“压力”最接近的25词的余弦相似度
(三)结果分析
将表3以可视化的形式表现,得到图4。
从训练结果中,可以看到和“压力”一词余弦距离最近的实意词为“家”“生活”“学习”“分手”。一定程度上反映了现代学生群体的生活现状。从词向量模型中,可以推测,学生群体中,压力既有正压力源(爱、希望、超越、国家),也有负性压力源(生活、学习、时间)。一方面,即将成人,或刚刚成人,仍旧和家有着十分密切的关系;另一方面,压力已经开始压向了这个群体,学习、恋爱是他们生活的主旋律。虽然在生活中,现代学生群体有着一定的压力,但是“希望”“努力”等正性压力词仍然反映出他们对美好未来的憧憬和期待。
通过“生活”和“压力”的余弦距离计算,可以看出二者关联度极其之高,接近于1,这说明在微博语料中,生活已经给学生群体带来了无形的压力。
如果杨蓉是来买肉,那他更来精神。一刀下去,切出来的肉肥瘦相间,煞是好看。然后他脸上笑成一朵花,把肉用报纸包好,再美颠颠地递过去。好像他递过去的不是猪肉,而是他一颗火热的心。
图4可视化后的与“压力”最相关的25词余弦距离展示
三、研究小结
通过微博语料的信息挖掘,我们可以发现学生群体的压力在现实生活中存在感很明显,无论是学业压力、人际关系压力,都已经成为学生群体不可避免的压力源。压力若没有通过合适的途径平复,那么在一定程度上,压力会转变成负性压力,而负性压力在没有合理调节下,会产生巨大的心理阻力,干扰着人类正常的精神生活。
从本质上看,现实生活中的压力根源在于存在性焦虑(existential anxiety)。人类不仅具有生物性、社会性、心理性,还具有精神性。海德格尔在《存在与时间》中认为,某种意义而言,活着的人存在着“被投掷性”。一方面,人类没有任何意志与自由便来到了人世间,这不是人类个体所能决定的。来到尘世后,人类便具有了精神性,精神性通过生命意义使得人类超越各种物理、生理、心理上的障碍。负面压力通过负面情绪给人带来各种不健康的心理体验,使得人类的精神性趋于萎靡。学生群体由于年龄层较低,人生阅历和生活经验相对不够丰富,很容易被负面压力所击垮。存在主义心理学强调,人要学会与孤独、痛苦、无意义甚至死亡等人生逆境和谐相处[3];自我决定理论(Self-determination Theory)则认为无论在何种压力下,人的自我决定都是一种基于个人需要和环境信息的基础上,基于过去经验的一种选择。每一个人都具有自由选择生活状态的权利和能力[4];而积极心理学认为积极的经历和情绪体验才是有意义生活的核心,在一定程度上,负性压力可以通过积极的思维、情感体验转换为正性的压力,从而更好地促进人的精神成长。Park整合了积极心理学、文化心理学、健康心理学和临床心理学等各个领域的研究成果,提出了一个生命意义构建的整合模型,用以解释个体在对生活中的压力事件或逆境的应对过程[5]。他认为个体通过意义建构降低一般性意义与情境性意义之间的差异(即负面情绪体验与正常情绪的差异),从而重新获得对世界的认知是非常有意义的[6]。如果一个人意义建构过程能够成功,那么个体就适应了压力情境或者事件。
在学生群体中,压力的形成必然涉及多种影响因素,包括环境因素和个体因素。学生群体一定要重视负性压力情境下的意义构建。负性压力情境并非就是绝对无意义的,相反,一定程度下,负性情境下的意义构建有助于拓展生活,唯有体验到巨大的负性压力,体验到不确定感、不安全感,人类才会进一步探索个体生命意义,个体在面临所有信念和努力均无效的压力时,也会更进一步地感悟和体验人生,从外在归因转移到内在的自我探索[6]。
本文通过研究微博语料的方式证明了生活与压力的共存性,因此学生群体在面对生活的压力时,应正确面对压力,用合理、健康、积极的心态去直面生活中的难题。唯有敬畏生命,在压力和负面情绪中不断地认知与清醒,才能唤醒生命中最原始的人类精神,才能追寻到生命的意义[7]。
参考文献:
[1]樊富珉,李伟.大学生心理压力及应对方式:在清华大学的调查[J].青年研究,2000(6):40-45.
[2]孙茂松,陈新雄,张开旭,等.THULAC:一个高效的中文词法分析工具包[EB/OL].[2018-11-18].http://thulac.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5.
[3]CRAIG M,COOPER M,CORREIA E.Existential psychotherapies[M].Washington:American Psychological Association,2016:283-317.
[4]DECI E L,RYAN R M.Self-determination Theory:A Macrotheory of Human Motivation.development,and health[J].Canadian Psychology,2008(49):182-185.
[5]PARK C L.Making sense of the meaning literature:An integrative review of meaning making and its effects on adjustment to stressful life events[J].Psychological Bulletin,2010(2):257-301.
[6]陈福侠,樊富珉.大学新生学校适应、心里弹性与心理健康的关系[J].中国健康心理学杂志,2014(12):1894-1896.
[7]王中江.生命的创造和灵性化:梁漱溟的伦理生命主义图像[J].深圳大学学报(人文社会科学版),2018(2):134-143.
An Analysis of the Coexistence of pressure and life in modern student groups——A Natural language processing technology application based on Microblog Corpus
JIN Mu
(Zhejiang University ,Hangzhou 310058,China )
Abstract: Stress is a physiological change and emotional fluctuation caused by the changes of the external environment in real life.In the student group,whether there is pressure in life and how much pressure influence it are important chapters to study students’mental health.This paper adopts computational linguistics method,based on natural language processing technology in computer science and psychological model as theory,crawls representative group micro-blogs of modern college students by crawling technology,and explores the coexistence relationship between group pressure and life.The conclusion is that modern student groups are living.Stress is an indispensable part of life,mainly from family,school,interpersonal communication,and through psychological models to emphasize that students should be active in life,reasonable treatment of life stress.
Key words: Natural language processing,pressure exploration,student groups,Microblog corpus
中图分类号: H087
文献标识码: A
文章编号: 1671-3699(2019)01-0079-06
DOI: 10.3969/j.issn.1671-3699.2019.01.018
收稿日期: 2018-08-11
作者简介: 金 幕(1993-),男,河南濮阳人,浙江大学外语学院在读硕士研究生,研究方向为计算语言学。
责任编辑:卢斐斐