基于机器学习的污染物构效关系研究现状分析论文_ 郭春伟1,李露露2,胡曼3

基于机器学习的污染物构效关系研究现状分析论文_ 郭春伟1,李露露2,胡曼3

摘要:机器学习已经在计算机视觉、自然语言处理等领域取得了成功的应用,在生物、材料、生命科学领域的探究也颇多。鉴于此,本文从国内、国外视角系统介绍机器学习方法在环境工程领域的研究状况及应用前景。

关键词:机器学习;环境工程;污染物;构效关系

机器学习算法可以追溯到20世纪初,直至1980年,机器学习才真正成为一个独立的方向。此后,各种机器学习算法被大量提出,得到了快速发展。近年来,机器学习已成为数据科学的核心,成为从数据通往智能的良好技术、方法途径。当前,这类技术已成功微软、阿里等公司应用于计算机视觉、语音识别、自然语言处理和音频识别等领域,并迅速辐射到生命、生物、材料等领域。

1.定量构效关系

定量构效关系源自于“物质的组成与结构决定物质的性质,性质决定用途,用途体现性质”理论,是指以建立物质的结构参数与其理化性质、环境行为和毒理学效应等参数之间的定量关系模型为手段,达到对物质性质快速和经济的评估。尤其是在实验数据不全或工程上不容易获得的情况下,QSAR被看作是毒理学的可靠预测工具之一。当前,世界权威机构,诸如:美国美国环保局、美国食品与药品管理局及世界经济合作与发展组织(OECD)等部门己经认可了该方法。欧盟的一些国家和加拿大也拟将该方法用于化合物环境行为的评价。

2.国内研究现状

机器学习分为监督学习、无监督学习和强化学习,按发展历程可分为知识推理期、知识工程期、浅层学习和深度学习几个阶段,包括偏最小二乘回归(PLS)、支持向量机(SVM)和高斯过程(GP)、人工神经网络(ANN)等众多方法。其中深度学习的概念起源于人工神经网络的研究,是一类借鉴生物的多层神经网络处理模式所发展起来的智能处理技术。

国内污染物的机器学习方法预测毒性数据研究始于20世纪80年代。1998年,孙烯等应用三层误差反向传递网络对51种胺类有机物的大鼠口服LD50进行了QSAR关系的研究,在神经网络模型上做出差别归类,并分别对每类进行定量预测,结果表明神经网络对急性毒性LD50具有良好预测效果,大大优于多元线性回归分析和判别分析。随后,许禄等(2000)利用回归分析、人工神经网络对苯胺类化合物的定量构效关系进行了研究……。2016年陈璟文等也尝试用不同的机器学习方法对同系列的化合物的毒性进行了QSAR建模。周鹏小组(2009/2011)成功将GP/GA(高斯过程/遗传算法)应用于模拟及预测肽的离子漂移时间、肽的统计模拟等问题。刘秀红等(2011)将GP/GA模型引入到肽/蛋白质的统计模拟中,发现预测能力优于SVM模型。

3.国外研究现状

QSAR研究起源于1868年的Crum Brown和Fraser提出的Crum-Brown方程,逐渐演变形成模式识别方法(聚类分析等)、回归分析方法和支持向量机三类主流建模方法。神经网络、支持向量机与高斯过程均属于机器学习中的高级建模技术。1949年,Hebb提出基于一个神经心理学的学习公式,即Hebbian学习原理,极大促进了机器学习的发展。

20世纪90年代中期到21世纪00年代中期,计算机界和统计界交叉融合,成就了机器学习的黄金发展时期。基于统计学习理论的支持向量机、随机森林和Boosting等集成分类方法,概率图模型,基于再生核理论的非线性数据分析与处理方法,非参数贝叶斯方法,基于正则化理论的稀疏学习模型及应用等等。

期刊文章分类查询,尽在期刊图书馆这些成果奠定了机器学习的理论基础和框架。

2001年,Fabiana等利用半经验的量化方法对67种多环芳烃的光诱发毒性进行了定量构效关系研究,通过高斯函数使其线性化,建立回归模型,得到很好的结果。同年,DP Enot等发现在处理44个分子毒性时GP/GA模型优于神经网络法。Stefan 等人用TLSER模型研究了80种氯代烃类化合物对发光菌的毒性,也得到了较显著的QSAR模型。2006年,多伦多大学教授?Geoffrey Hinton、Ruslan又突破了神经网络的深度算法,使神经网络的能力大大提高,标志着机器学习进入深度学习时代。2016年,AlphaGo依靠深度学习算法战胜围棋世界冠军李世石,掀起了全球机器学习的高潮。

2016年,Huuskonen等应用原子类型的E-状态指数研究了140种有机化合物对黑头呆鱼的毒性,结果表明有14种原子类型的E-状态指数建立的神经网络模型具有良好的预测效果。经GA-PLS算法改进,得到比以前较为优良的模型,说明GA-PLS算法结合了较强的全局优化搜索能力,具有较好的变量选择及模型优化能力,且具有较强的稳健性。NYU 的 Brenden Lake 等用贝叶斯程序学习的方法针对特定问题开发出专门的数学模型,但是只能在特定任务中才能实现降低数据需求。

4.存在问题及建议

在常规建模方法中,模式识别方法常用于数据的分类识别及建模回归分析,一般只用于常规问题的建模求解,对于海量信息及复杂问题需要深度学习高级建模技术才能解决。归纳起来主要存在以下问题:单层的神经网络无法解决不可线性分割的问题,神经网络算法经常停止于局部最优解,而不是全球最优解;算法的培训时间过长时,会出现过度拟合 (overfit),把噪音当做有效信号;深度学习则要求有海量的数据量,否则也会出现过拟合现象。

综上所述,机器学习正为应用学科提供解决问题的方法与途径,也必定会为环境工程研究中污染物构效关系研究增加价值。但,在大数据背景下,需要有更复杂、表达能力更强的模型才能充分挖掘出海量数据中隐藏的丰富信息。另一方面,受制于工程实践中能取得的污染物样本和数据的限制,标准化的物性数据较少,因此,不宜盲目为建模而建模。

参考文献:

[1]王中钰,陈景文等.面向化学品风险评价的计算毒理学[J].中国科学:化学,2016, 46(2):222-240.

[2]于艳军,张勇等. N-取代氟乙酰胺结构与急性毒性的CoMFA和CoMSIA研究[J].生态毒理学报,2015,10(2):183-189.

[3] 林志芬,王连生等.海洋中有毒有机污染物的监测方法研究进展[J].海洋环境科学,2016,25(1):88-93.

【课题项目】本文受浙江省教育厅科研项目“基于机器学习的小样本污染物构效关系模型研究”资助(项目编号:Y201636599)。

【作者简介】郭春伟(1979.08-),男,汉族,河南周口市人,博士研究生学历,杭州电子科技大学工程师,主要研究方向:高等教育及信息化管理研究。

论文作者: 郭春伟1,李露露2,胡曼3

论文发表刊物:《工程管理前沿》2020年第4期

论文发表时间:2020/4/22

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于机器学习的污染物构效关系研究现状分析论文_ 郭春伟1,李露露2,胡曼3
下载Doc文档

猜你喜欢