饮食暴露定量评价模型及其可变性和不确定度研究_抽样分布论文

膳食暴露定量评估模型及其变异性和不确定性研究①,本文主要内容关键词为:变异性论文,不确定性论文,膳食论文,定量论文,模型论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

膳食暴露评估是对生物性、化学性与物理性因子通过食品或其他相关来源摄入量的定量(定性)评估。目前我国运用的是点估计模型,即人群相关食物产品平均消费量与平均残留物浓度相乘,再除以人群平均体重。世界粮农组织和世界卫生组织(FAO/WHO)建议采用高端消费量(P[,97.5])和残留物高端暴露量(最大观测值)进行评价[1],这些方法体现了保护大部分人的原则且简便易行,但忽略了观察个体由于消费率不同以及消费食物中化学残留物浓度水平不同而导致的变异性,结果较为粗糙和保守。目前,欧盟、美国等发达国家均在积极开展各自的膳食暴露定量评估模型研究[2,3]。由于我国的膳食结构与西方存在显著差别,故研究符合中国居民膳食待点的定量评估模型对提高我国食品危险性评估水平具有重要现实意义。我们对膳食暴露定量评估模型及其变异性和不确定性的统计学方法进行了研究,现将结果报告如下。

一、原理与方法

(一)膳食暴露定量评估模型

由上式知,该模型主要取决于食物消费量和残留物浓度数据,其中食物消费量数据可从全国或地区性的膳食调查中获得;对于残留物浓度,理想情况是在膳食调查时对k=1,2,…,p种食物中的化学残留物浓度进行同步测定,但这种测定涉及大量的人力、物力和时间,缺乏可行性。目前欧美学者在构建膳食暴露定量评估模型时,均用全国或地区性的食品污染物监测网数据作为食物的残留物浓度[3]。由于食物消费量和污染物浓度数据来源于两个不同的调查和监测系统,将其直接相乘计算其摄入量是不合理的。但如果从食物消费量数据库(记为样本A)和化学残留物数据库(记为样本B)中进行随机抽样并配对相乘,当样本A和样本B足够大且抽样次数足够多时,采用这种大样本随机抽样方法获得的化学残留物浓度数值可以作为目标人群的摄入量估计值,从而有效利用现有化学污染物监测网的大样本数据,巧妙地解决了需要专门测定每种食物化学残留物浓度的难题。由于化学污染物监测网的数据是对初级农产品(RAC)进行测量后得到的,故需将食物消费量数据转化为RAC消费量,利用下式对其调整:rk,ek分别表示食谱调整因子、食物可食部比例。

(二)变异性和不确定性的模拟

由于个体消费变异非常大,模型中食物残留物浓度并非严格通过测量得出,加之消费过程中多种因素影响,使得模型存在很大的变异性和不确定性。其中变异性是人群固有的特征(如食物摄入量存在个体差异);而不确定性主要由人群暴露或摄入量知识(主要来自样本)的缺乏造成。故构建模型时需分别分析。

(1)变异性分析

使用Monte carlo方法[4](图1),通过计算机大量重复随机抽样,分析数据的变异性。

图1 Monte cartlo模拟

(2)不确定性分析

首先使用bootstrap方法[5]多次从样本含量n的原始数据中有放回地随机抽取i(i≤n)观察单位组成新样本,然后对每个样本进行Monte carlo模拟,分析数据的不确定性(图2)。

为保护绝大多数人,我们关注摄入量的高百分位数。一次Monte carlo模拟可以估计目标人群摄入量的P95,P99,P99.9等,M次模拟后能够得到这些百分位数的分布(或可称之变异性分布),从而进分变异性分析;B次bootstrap抽样后可以得到B个抽样分布,以估计数据的不确定性。

图2 bootstrap模拟

二、实例与分析

以某地区4579名3~5岁儿童汞的短期暴露数据为例说明模型构建方法。消费量数据来自连续两天的膳食调查,残留物浓度数据来自该地区RAC监测,数据库描述如表1。通过桥梁数据库将消费量数据库、浓度数据库进行联接,将食物转化为RAC,然后以RAC为单位对相应残留物浓度进行Monte carlo抽样,并应用处理因子、LOD参数调整,计算摄入量,取M=1000次,进行变异性分析;不确定性分析进行B×M=200×1000次模拟。编程、绘图运用SAS 8.1软件,由于主要针对数据库操作,程序编写选用SQL过程,所有程序用宏语言组织,如对bootstrap抽样、Monte carlo抽样,参数调整等分别命名宏,运行时SAS将自行调用。

由于每次Monte carlo模拟都会从残留物数据库中为RAC重新抽取相应浓度值并计算该目标人群摄入量的高百分位数,1000次模拟后进行高百分位数分布计算,表2显示了P95,P99,P99.9百分位数分布的统计量,提示汞暴露量存在性别差异,3~5岁男孩汞暴露的危险性高于女孩。从三个百分位数分布的中位数50看,P95、P99、P99.9呈数量级递增,这提示摄入量的变异非常大。

进一步我们又将该人群汞高端暴露分布(P99.9)同汞的急性暴露限量(ArfD)进行了比较,如图3所示(竖线为ArfD=10μg/kg),一方面,99.9%的人平均暴露量(女:3.4920;男:6.1408)处于安全水平;另一方面,若以P99.9的第99百分位数为人群汞暴露参考值的上限值,则提示有极少部分男孩可能超过了ArfD,这一结果既反应了风险性评估保护大多数人的思想,又为特定人群的暴露风险提供了信息。

图3 3~5岁人群不同性别汞摄入量P99.9分布情况

每次bootstrap抽样后将得到的样本进行Monte carlo模拟以计算摄入量各分位数,200次抽样后获得表示不确定性的各分位数可信区间,由于数据较偏,95%可信区间以(P2.5,P97.5)定义。由表3知,P50,P75分位数为0,提示数据高度偏态。百分位数越高,区间越宽,不确定性越大。

评价概率性模型有效的标准之一是其结果要低于点估计模型结果。本文点估计评价采用WHO/FAO建议的模型[1],Bootstrap方法用以评价信息缺乏等导致的不确定性,故点估计评价也进行B=200的bootstrap抽样,即对消费量数据、残留物数据、人群体重数据分别抽样。由于点估计模型是基于“最坏情况假设”的确定性估计,两种模型比较较为困难。国外研究[6]采用概率模型暴露分布所有分位数与点估计值比较,限于篇幅,采用了P99.9估计值与之比较:概率估计P99.9分布中位数为5.1009,95%可信区间为(4.3585,5.8161);点估计值为43.8434,95%可信区间为(37.9009,43.9390)。图4也提示点估计值约为P99.9值的8倍。一般情况下,食物消费量和残留物浓度数据呈正偏态分布,其尾部数据变异很大,而WHO/FAO的方法采用了消费量数据的P97.5分位数和监测到的最大残留物浓度,虽该值可能涵盖绝大部分人群,但却是过度保守的。

图4 概率估计P99.9暴露值与点估计值比例(μg/kg/day)

三、讨论

1.概率估计的优点是将个体作为研究对象,并在模型中加入更多的参数使得结果更符合实际。国外膳食暴露评估软件如欧盟的MCRA、美国的DEEM、SHEDS都是基于概率性模型,其结果也优于点估计模型[2,3]。尽管在本例中也作了一些保守假设,如LOD参数,但无疑其结果要比点估计结果更接近真实值、更合理。值得一提的是,国外有研究[2]认为残留物在同一种食物中的分布并不均匀(称之为变异因子),但就我们目前所获得的信息还无法确定,如果贸然加入该参数可能会人为增加不确定性,故仍然按照FAO/WHO的建议作了均匀分布假设,变异因子的测量可在将来的现场试验中进行。概率性模拟的最后结果是形成了摄入量的分布,然后计算其高百分位数,同时也可以对高百分位数分布进行评价,因此得到的信息要远远大于确定性估计(即点估计模型)。

2.数据变异性和不确定性的量化是通过统计模拟方法实现的。Bootstrap方法基于样本再抽样,只要样本代表性好,多次抽样能够有效降低标准误,减少不确定性;Monte carlo方法一般先拟合分布,然后进行抽样,可以认为是从总体中抽样,能够有效地量化变异性。但Monte carlo方法的运用也可能会成为不确定性的一个来源,本例虽然没有量化,但研究表明只要模拟的次数足够大,其产生的效应可以忽略[7-9]。虽然Efron认为B=200次的Bootstrap抽样是足够的[10]。但不确定性更多的是从专业上加以评价,如果危险性管理者认为数据的不确定性过大,可以拒绝概率估计的结论,或者采取措施如提高数据质量减少不确定性。另外,Bootstrap、Monte carlo模拟皆有参数和非参数方法之分,参数方法一般先拟合分布,如国外研究认为残留量数据服从对数正态分布,本文主要采用了非参数方法,对参数方法有待进一步研究。

3.关于模拟运算的效率。编程主要运用SAS宏语言和SQL过程:前者可以实现程序的模块化,如对消费量。残留量、处理因子等参数分别命名宏,运算时可以很快调用,同时可为将来编写软件提供基础;SQL语言在数据库处理上具有独特优势[11],尤其在数据库的访问、联接上要比一般SAS语言快很多,程序语句也较为简练,并且支持交互式操作,两方面的结合可有效加快计算机的运算效率。

标签:;  ;  ;  ;  

饮食暴露定量评价模型及其可变性和不确定度研究_抽样分布论文
下载Doc文档

猜你喜欢