R语言在生物学教学中的应用论文

R语言在生物学教学中的应用论文

R 语言在生物学教学中的应用

唐毅,王凤珍,刘明宇,王红艳

(辽宁大学 生命科学院,辽宁 沈阳)

摘 要: R 语言在生物学教学中具有广阔应用前景。本文列举其在生态学、生物信息学、生物统计学三门课程中的应用。R 语言在生态学课程中可用于物种空间分布预测、鸟类鸣声特征与环境的关系探索;在生物信息学课程中可用于蛋白质热稳定性与结构关系预测、蛋白质网络分析;在生物统计学课程中可用于数据正态性检验、概率分布模拟。R 语言在生物学教学中需注意以下问题。第一,为初次学习的同学提供基础培训;第二,理论知识与实践操作在课程设计中均应用体现;第三,注重考试题目的独特设计以便准确考察同学学习效果。本文介绍R 语言在生物学课程教学中的应用,为生物类专业教学与课程设计提供借鉴与参考。

关键词: 课程设计;数据思维;本科教学

一 引言

生物学在双一流建设中占据重要的地位。在2017年9月公布的双一流建设高校与学科名单中,137 所一流大学和一流学科建设高校中有16 所将生物学定为一流学科,占全部双一流建设高校的11.7%。当前生物类专业在招生与就业方面存在一些困难。生物技术、生物科学专业连续几年被教育部列为就业红牌专业(红牌专业指就业率较低的专业)。这种情况一方面由于生物学培养周期较长,应用性岗位有限,另一方面可能是人才培养滞后于人才需求。

含风电的交直流互联电网AGC两级分层模型预测控制//廖小兵,刘开培,汪宁渤,马彦宏,陈钊,丁坤,等//(8):45

因此,中国版南海争端国际意象的塑造和推广还需通过具体的外交政策和精准的国际舆论引导才能真正获得相关国家的认同。一方面,使建立在客观、尊重历史源流、符合国际法的公平公正基础上的“中国版”南海问题国际意象为各方所周知乃至认同;另一方面,对于在南海问题上的误导性意象必须予以坚决回应乃至驳斥以正视听。

大数据时代的生物学人才需求与数据密不可分。大数据时代的数据具有大量、高速、多样、低价值密度、真实性等特征。大数据时代的生物学需要面对海量的数据[1,2],因此掌握关于收集、整理、分析数据的技术是生物学人才适应时代需求不不可或缺的部分。鉴于此,如何在生物学专业教学中体现数据思维以培养适应大数据时代的生物学人才值得深入思考。

在人才培养中开设数据分析尤其是生物大数据相关课程值得尝试。尽管目前大部分生物学人才培养单位设有生物统计或近似课程,但限于学时与授课内容,在数据分析的实践方面可能有待加强。

3)霜冻发生在出土前,或尽管已经出土并开始生长,但受损并不明显,除了加强营养管理以外,保花保果的修剪措施就得多做一些了。

二 R 语言的应用场景

物种空间分布预测。物种空间分布是通过已知的物种分布点与分布点环境对物种在地理空间中的分布状况进行模拟和预测[4,5]。研究物种空间分布模型可预测物种分布范围[6],了解物种演化过程,分析物种对环境变化的响应[7]。R 语言中的BioMod 程序包提供9 种空间分布模型,可提供预测准确性。毕迎风等用该程序包整合多个模型,提出铁杉(Tsuga chinensis)主要分布在西南与四川盆地周围,这一结果得到野外观察记录支撑[8]

(一)R 语言在生态学中的应用

教育部普通高等学校本科专业目录(2012 版)中,生物类专业包括生物科学、生物技术、生物信息学、生态学四个本科专业。这些专业课程设置同中有异,本研究未能涵盖,仅举R 语言在生态学、生物统计学、生物信息学三门课程中的应用,意在抛砖引玉,推动R语言在生物学教学中的应用。

概率分布模拟。概率分布刻画随机变量,对理解主要的连续分布与离散分布类型十分重要,是生物统计学课程的基础内容。该部分内容系相对抽象,学生理解起来有一定难度。将概率分布通过图像方式展示出来无疑对学生掌握各种分布类型的期望、方差等特征十分有益。R 语言可通过概率分布模拟直观展示各类分布。R语言不仅提供计算各类概率分布的函数,而且提供计算各类分布函数的密度、分布、分位数等特征的函数。常用形式为前缀+分布函数名。其中前缀包括d、p、q、r,分别代表密度函数、分布函数、分位数函数和随机函数。

(二)R 语言在生物信息学中的应用

蛋白质热稳定性与结构关系预测。热稳定性关系到蛋白质尤其是酶在工业生产高温环境中的适应程度。根据蛋白质特征预测热稳定性对于筛选适于工业生产环境的蛋白质具有重要意义。R 语言中的caret 与randomForest 程序包提供随机森林算法筛选特征变量组合。张力等利用的R 语言中的caret 与randomForest 程序包对氨基酸特征进行筛选并据此预测蛋白质的热稳定性[9]。该研究发现影响热稳定性的氨基酸主要特征,并为蛋白质热稳定性改造提供依据。

R 语言为生物学教学提供坚实支撑。R 语言作为开源、跨平台的程序设计语言,可开展交互式数据分析,并具有强大的图形输出功能、便于实现多种统计方法的优点[3]。本文主要介绍R 语言在生物学课程教学中的应用,希望为生物类专业教学与课程设计提供借鉴与参考。

数据正态性检验。正态分布在已知诸分布中占有重要地位。生物学统计课程中的基本内容如方差分析、回归分析等均涉及正态分布的内容。围绕如何检验正态分布,统计学家提出多种方法,包括QQ-plot图、Shapiro-Wilk 检 验、Kolmogorov-Smirnov 检 验、D’Agostino 检 验 等。R 语 言 提 供qqnorm()、shapiro.test()、ks.test()、dagoTest()等函数进行相应的检验。利用R 语言进行数据正态性检验使得正态性检验问题可操作性更强,利于学生掌握并运用。

(三)R 语言在生物统计学中的应用

蛋白质网络分析。蛋白质在细胞信号传导、生物体新陈代谢、生长繁殖等方面具有重要作用。其功能发挥并非依靠单一蛋白质而是依赖蛋白质之间的协同作用。蛋白质相互作用构成蛋白质网络,蛋白质网络是理解蛋白质功能,生命活动的关键。蛋白质相互作用的模型方法与实验方法相比,有节省人力、物力、时间等优点。网络分析方法是蛋白质模型研究的重要方法。R语言中的igraph 程序包可用于网络分析。吴金华利用igraph 程序包对可能导致阿尔兹海默症发生的蛋白质网络进行分析,找出网络中的关键蛋白质和集群[10]

鸟类鸣声特征与环境关系探索。鸣声在吸引配偶、保卫领域、开展警戒、躲避其他生物捕食等行为发挥作用。鸣声特征分化受环境因素尤其是纬度、降水、海拔等地理因素驱动。分析鸣声特征与环境关系可加深对鸣禽行为如何响应环境变化的理解。R 语言中程序包turnR、soundecology 和seewave 可揭示鸣声声学特征。笔者等利用以上程序包分析山噪鹛(Garrulax davidi)鸣声特征,发现声学多样性指数与声学熵最大值出现在中海拔地区,说明中海拔地区鸟类物种多样性比高海拔与低海拔地区更丰富。

小虫的心情极好与风无关,而是受了姑父的鼓舞。能被姑父器重,是小虫到凌州以来最大的心愿。平时,小虫和姑父之间像隔着一座高大的山坡,姑父在山巅,小虫在山谷。这些年小虫一直怀着无比崇敬的心情,就这么仰视着姑父。小虫非常希望自己能干件漂亮的活儿,让姑父瞧瞧。现在,机会来了。

三 讨论

R 语言在生物学教学中具有广阔的应用前景。R语言作为统计学中最流行的程序语言,不仅在生物统计学课程教学中可运用到假设检验、统计推断、计算模拟等方面,而且在生态学、生物信息学等课程也可应用。随着R 语言程序包不断增加,其应用范围也随之扩大。

在生物学课程教学中应用R 语言具有明显优势。第一,增加学生训练与实践机会,推动课程教学改革。R 语言安装简便,能在多种操作系统下运行,对系统配置要求不高。学生在笔记本电脑上即可使用R 语言对课程教学内容进行练习。第二,R 语言具有推广优势。教学过程中使用的专业软件往往需要高校采购。但由于教学经费不足等原因,许多高校购买收费不菲的正版软件存在一定困难。R 语言开源、免费的特性可弥补不能购买正版软件产生的教学短板。第三,适应数据时代对生物学的要求。数据时代的来临,生物学人才培养除传统的生物学知识、技术外,还需要加强数据分析能力的培养,如对基因组学数据的处理能力。R 语言具有大量程序包,可满足生物学教学中对数据分析的需要。

R 语言在生物学教学中需要注意以下问题。第一,对初次学习的同学提供基础的操作培训。R 语言作为程序语言,生物学背景的学生初次学习可能会有一定难度,因此建议为初次学习的同学提供基本操作的培训。第二,理论知识与实践操作在课程设计中均应有体现。R 语言作为一门实践与理论兼备的课程,在课程设计之初应考虑设置理论与实践部分,并将二者结合。第三,注重设计独特的考试题目以便准确考察同学学习效果。R 语言资料广泛见于互联网,如对R 语言课程进行考核,应考虑设计较为独特的题目,减少乃至杜绝从互联网上获得现成答案的可能性,以便准确了解同学学习效果。

参考文献

[1] 李扬, 赵青, 马双鸽. 生物统计的研究进展与挑战[J]. 统计研究, 2016, 33(6):3-12.

[2] 吴金华,张艳秋, 唐毅. 数据挖掘在生物信息学中的应用—文献计量学视角[J]. 生物信息学, 2016, 14(4):249-253.

[3] 唐 毅. 高等院校生物类本科专业统计课程的思考[J]. 科教导刊, 2014, (11):61+107.

[4] Austin M. Species distribution models and ecological theory: a critical assessment and some possible new approaches[J]. Ecological Modelling, 2007, 200(1): 1-19.

[5] Guisan A, Thuiller W. Predicting species distribution: offering more than simple habitat models[J]. Ecology Letters, 2005, 8(9): 993-1009.

[6] Marmion M, Luoto M, Heikkinen RK. The performance of stateof-the-art modelling techniques depends on geographical distribution of species[J]. Ecological Modelling, 2009, 220(24): 3512-3520.

[7] McPherson JM, Jetz W. Effects of species’ ecology on the accuracy of distribution models[J]. Ecography, 2007, 30(1): 135-151.

[8] 毕迎凤, 许建初, 李巧宏, 等. 应用BioMod 集成多种模型研究物种的空间分布——以铁杉在中国的潜在分布为例[J]. 植物分类与资源学报, 2013, 35(5): 647-655.

[9] 张力, 艾海新, 张吉宽, 等. 基于随机森林和特征选择方法的蛋白质热稳定性影响因素预测[J]. 现代食品科技, 2016 (7): 103-108.

[10] 吴金华. 基于数据挖掘的阿尔兹海默症蛋白质网络研究[D]. 沈阳: 辽宁大学, 2018.

本文引用格式: 唐毅,等.R 语言在生物学教学中的应用[J].教育现代化,2019,6(79):275-276.

DOI: 10.16541/j.cnki.2095-8420.2019.79.100

基金项目: 辽宁大学本科教学改革研究立项(JG2018ZC63,JG2018YB03)。

作者简介: 唐毅,男,辽宁大学生命科学院,副教授。

标签:;  ;  ;  ;  

R语言在生物学教学中的应用论文
下载Doc文档

猜你喜欢