基于理想边界和多元逐步回归模型的城市生活需水量预测*
李慧敏1,2,王小胜1,刘欣欣1,安笑洁1
(1.河北工程大学数理科学与工程学院,河北 邯郸 056038;2.邯郸学院软件学院,河北 邯郸 056038)
摘 要: 精准的生活需水量预测可为水资源管理部门调控供需提供数据支撑。由于测量过程中受诸多不确定因素的影响,观测值的测量结果不以单一的数值存在,利用区间数值可以很好描述这一不确定性的范围。现有预测区间的算法需要繁琐的参数搜索过程,本文算法可简化该过程。首先,利用一种初始区间设定办法得到区间宽度,作为本文初始绝对宽度构造区间上下界。其次,对上界集和下界集分别建立多元逐步回归模型预测城市生活需水量的区间上下界,以预测区间覆盖率、预测区间宽度、预测区间对称性和均方根误差作精度评估指标与已有模型结果对比,截取较优的绝对宽度,建立模型。与此同时,以邯郸市生活需水量为例,与已有模型对比,预测精度优于已有模型。
关键词: 生活需水量;多元逐步回归;理想边界;上下界估计
0 引言
城市需水量预测是城市水资源规划和管理中的重要环节。生活用水是城市总用水的重要组成部分,关系到居民的生活和城市的发展。近年来,随着城市的扩大,用水方面增多,城市水资源匮乏常引发诸多矛盾,精准的城市生活需水量预测不仅可以辅助相关部门调节供水,缓解供需矛盾,而且有利于提高城市节水能力。国外关于需水量的预测和研究始于100多年前,1965年美国进行了第一次全国水资源评价[1]。1985年,Maidment等[2]开发了一种基于Box-Jenkins的时间序列分析模型进行短期需水预测。从20世纪80年代起,国内学者开始研究水资源相关的课题,主要研究方法有神经网络[3-4]、多元回归分析[5]和灰色理论[6]等,已有方法大都基于传统数值数据进行研究。实际上,诸多不确定因素导致测量值出现误差,因此观测值不能保证以单个数值存在,针对这种不确定性,李海燕[7]采用区间数据来描述观测值的不确定性,结合时间序列模型预测城市需水量区间。本文采用理想绝对宽度构建观测值区间来描述观测值的不确定性范围,以李海燕[7]区间宽度作为初始绝对宽度,利用精度指标找寻合适的绝对宽度结合多元逐步回归建模进行区间预测,上述模型与不确定时间序列模型预测结果进行对比,得到较优的结果。
2.2 A组患者入院后不同时间点的血清Hcy水平分析 A组患者入院后1天、3天、7天、14天、21天、30天的血清Hcy水平与入院时比较,呈逐渐下降趋势,差异均有统计学意义(均P<0.05)。见表2。
有色金属矿山给排水设计的主要任务是满足采矿工程、选矿工程,配套的生活区及办公区等生产和生活用水对水质、水量和水压的要求;同时要将生产及生活产生的污废水有组织的收集并处理后回用或达标排放[1]。
1 预备知识
本章节介绍建立模型所涉及的理论知识,作为上下界的指标。以覆盖宽度对称准则(CWSC)作为准则,估计上下界,并用于预测生活需水量特征。上下界的覆盖宽度对称准则是指基于区间覆盖率(PICP)和区间宽度(PIARW)的惩罚函数[8]。
定义 1[9]设{Yi,i=1,2…n}为 n 个样本观测值,令
作为本文生活需水量的初始区间宽度W
为预测区间覆盖率(简称PICP),其中UYi,LYi分别为第个样本的预测区间的上界和下界。
定义 2[8]设{Yi,i=1,2…n}为 n 个样本观测值,UYi,LYi分别为第 i个样本的预测区间的上界和下界,则称
为预测区间平均相对宽度(简称PIARW)。
由表2知,软件选取人均生活用水量和全市人口两个相关因素建立模型。在不同宽度标准下,各个模型变量系数相同,随着绝对宽度取值增大区间上下界的差值增大,但截距变化相反,下界截距增大,上界截距减少。很明显截距的变化可以抵消由区间上下界差值变化导致预测区间变大的影响,有利于预测结果符合预测区间宽度指标。
则称
为预测区间对称性(简称PIS)。
定义4[8]令
定义 3[10]设{Yi,i=1,2…n}为 n 个样本观测值, UYi,LYi分别为第i个样本的预测区间的上界和下界,则称
为覆盖宽度对称准则(简称 CWSC),其中 μ1,μ2为与预测区间相关联的置信水平,η1,η2为 PICP 与 μ1差值的放大参数[10],PICP 、PIS和PIARW由定义1、定义2和定义3给出。
定义 5[11]设{Yi,i=1,2…n}为n个样本观测值,为第i个样本的预测值,则称
为均方根误差(简称RMSE)。
2 模型建立
本文通过构建训练期的区间上下界数据,使用多元逐步回归模型预测生活需水量检验期的区间上下界数据,而建立模型首先要通过绝对宽度建立训练期的区间上下界,文献[11]的绝对宽度
宣姝姝告诉《中国医院院长》杂志,随着服务范围逐步扩大和医院业务量增长,预约中心每年服务人次不断增长,由2013年5个月预约7万人次左右,增加到2017年的超过51万人次。
结合观测值转化为区间
模型构建具体步骤如下:
第一步,数据处理。本文对采集的数据进行标准化处理,便于不同单位或量级的指标进行比较或者加权。本文搜集因变量“城市生活需水量”和多个与其相关的自变量数据,其数据涉及到多种单位,因此,选择无量纲化处理去除数据的单位限制,将其转化为无量纲的纯数值进行分析。
第二步,设定初始绝对宽度。文献[11]规定绝对宽度W的初始取值可依据所使用测量数据的差异进行自由设定,本文为了简化绝对宽度W搜索和优化的次数,使用李海燕[7]的初始区间宽度
另外,市民卡还跟医保打通,在医生收费的同时,医保结算也同步完成。而且,市民卡还可以当银行卡、信用卡使用。
则称
第三步,构造理想上下界。本文使用初始绝对宽度取值,采用(1)式构造因变量“生活需水量”的第个区间上界和下界为
同理,构造“所有与生活需水量的相关自变量”的上界和下界为
他们目送鲲消失在明月繁星与雪岭群山之间,才将视线收回来,去看黄梁驿外,宇晴提到的大榆树。大榆树离他们二三百步之遥,主干上发出七八条侧枝,盘旋环绕,巨伞一般负着积雪,站立在月光中。白天所见的十来个雀巢,想必已接纳了回窠的喜鹊,正簇拥着它们在巢中睡香甜,可是他们往树上看的时候,却发现在树伞的顶端,剪纸般地贴着两条灰黑人影,一东一西,相对而坐,中间一只棋盘,隔开了他们,他们身后,是寒夜里密集的星辰。
由此得到两个数集:上界集和下界集。
2.2和肽素水平随心功能分级增高依次加大,心功能II、III级和IV级患者的和肽素含量均显著高于未发生心衰患者及心功能I级患者(P<0.05)
第四步,求解预测区间。本文建立最佳自变量与因变量“城市生活需水量”之间的线性关系,使用多元逐步回归对自变量进行降维使得剩下的变量可以较全面的反映生活需水量。对两组上下界集分别使用逐步回归预测年以后的生活需水量的上界集和下界集
第五步,调整绝对宽度。本文以区间中点作为预测值[7],以PICP,PIARW,PIS及RMSE作为评价指标,与不确定时间序列(UAR)模型结果比较,得到绝对宽度W。若PIARW、PIS及RMSE三个指标数值均小于UAR模型结果,同时PICP的数值大于UAR模型结果,则说明所建模型合理以及W取值可用,输出参数,确立模型。如若指标精度不能完全高于UAR模型,则返回第二步调整W取值至第五步进行循环,直至W取值可用,输出。
在设置土工格栅结构的过程中,需完善施工技术方案,提升整体结构的施工建设水平,保证符合当前的施工发展需求。首先需在基床开挖环节中开展砂垫层的处理工作,逐层进行碾压处理,开始铺设土工格栅[5]。在铺设之后应进行格栅加筋,保证方向受力的均匀性,纵向搭接长度符合标准要求,控制在18cm左右,横向搭接长度控制在10cm左右。且在钢筋搭接的位置上,应使用塑料带开展绑扎工作,按照1.4m的规格开展间隔铺设活动,使用U型钉材料开展固定工作,以免影响工程的施工效果[6]。
小学生的自制力很差,能够积极主动者很少,所以功课一般都可以说是在师长的“逼迫”下完成。那么,在学生已经是知识学习的“主体”的情况下如何“逼迫”,成为众数学老师迫切想解决的问题。笔者认为,不妨从以下三点进行教学。
第六步,确定绝对宽度。输出绝对宽度W后,该宽度可以寻找多个符合指标的取值。在绝对宽度下构造理想区间上界和下界,分别进行逐步回归建模和预测区间,预测区间与UAR模型结果检验指标对比,得到更优的结果。
本文建模过程可概括为流程图,如图1所示。
图1 模型流程图
Fig.1 Model Flow Chart
3 实例应用
邯郸市坐落于河北省南部,西依太行山脉,东接华北平原,地势自西向东呈阶梯状下降,地貌复杂多样,高度落差悬殊,气候属于温带大陆性季风气候,春季干旱少雨。城市市区人口超过百万,是国务院批准的大城市。地理环境和人口状况使得水资源十分匮乏,邯郸市水资源总量约为17亿立方米,人均占有量约190立方米,仅为全国人均水资源占有量的9%,属于严重缺水城市。节约水资源保障城市经济发展和生活生产成为最紧迫最首要的工作。
3.1 数据来源
数据选自《邯郸市统计年鉴》的1993年~2014年的城市生活需水量相关数据,其中1993~2003年数据作为训练值,2004~2014年数据做检验值,因变量为城市市区生活用水量 (P)(百万吨),主要相关变量为:市区人均 GDP(Q1)(元),市区人口(Q2)(万人),固定资产投资(Q3)(万元),市区工业总产值(Q4)(万元),企业单位个数(Q5)(个),城镇人均可支配收入(Q6)(元),人均生活用水量(Q7)(万吨),全市人口(Q8)(万人),建筑总产值(Q9)(万元),市区绿化面积(Q10)(公顷)。
比阴柔审美更可怕的是“精神娘气”,缺铁缺钙,失去阳刚,羸弱无力。人们重视阴柔审美的问题,希望荧屏硬朗一点,其实也是担心阳刚之气成为新一代身上的稀缺品。要解决这个问题,不仅需要荧屏作出努力,家庭、学校和社会都要重视这个问题,让我们的孩子“保持着元气淋漓的气象”(梁启超语)。
3.2 建立模型
3.2.1 数据处理
针对数据量纲不同的情况,本文使用常用对数转化数据,形
其中为第i年第j个变量,为第i年第j个变量对数处理后的数值,Yi为第j年生活需水量对数处理后的数值。
式如下
3.2.2 MSR-LULB预测模型
绝对宽度W以0.100为例,列出10个相关因素的区间数据如表1所示。
本文由模型迭代选出W为0.100、0.104和0.108进行构建区间上下界,使用各个区间的上界和下界两组数集进行多元逐步回归建模,经软件计算得出模型系数如表2所示。
表2 区间上下界的逐步回归模型系数
实践证明,只要对接好市场,品质过硬,土特产也可以卖上好价钱。在南方某省,曾经10元一根也难卖的竹子,切分成一节节、用来做竹筒饭,一下人气蹿升,将其打磨成纤细的竹丝,又成了瓷胎竹编的好材料;土猪肉搭上直播快车,网友不仅能看到养殖环境和烹饪过程,还能邀请好友观看和进行线上下单;荔枝遇上丰产年,普通品种量大滞销,但在一些主产地,科技专家和新型经营主体一起想办法,让新品种荔枝走俏市场。
3.2.3 不确定时间序列预测模型
实例数据使用李海燕[7]UAR模型进行建模,其结果为
其中Yi为第i年的预测需水量对数处理后数值,Yi-1为前一年需水量对数处理后数值,Yi-2为前两年需水量对数处理后数值。
3.3 两种预测方法的对比
使用UAR和MSR-LULB两种模型,得到2004年~2014年的生活需水量预测数据,并进行对比。
3.3.1 预测区间对比
UAR和MSR-LULB模型在预测区间宽度为对比指标情况下,对比结果如表3所示。
表3 上下界建模预测区间
由表 3知,MSR-LULB模型在绝对宽度为 0.100、0.104和0.108时,预测区间宽度均在0.101~0.107之间,小于UAR模型的结果。
化肥市场总体回升。前三季度,国内化肥市场总体呈现回升态势,主要品种价格均有不同上涨。目前,国内化肥市场消费持续回落,出口没有明显改善,
3.3.2 预测值对比
UAR和MSR-LULB两种模型都以预测值为对比指标时,结果如表4所示。
表4 预测值对比
表4数据表明,三种区间宽度标准下的预测值相同,MSRLULB模型的预测值相对于UAR模型预测值更接近观测值。
3.3.3 趋势对比
1995~2014年的处理后的生活需水量数据使用W=0.104的MSR-LULB模型和β=0.88 UAR模型进行模拟趋势图。如图2所示,其中,红色线代表预测区间的上界,蓝色线代表预测区间的下界,绿色线代表观测值。图的横轴是年份,纵轴是处理后的生活需水量数据。
在注视热点图中,由绿色过渡到黄色,再到红色,以示注视率越来越高。对页面12和13,标题、电路符号、电器元件三维图都是重点要素,而卡通小人不是重点要素,学生被期望多关注重点要素。页面12的综合五人眼动热点主要位于中间零件电路符号、中间零件,标题上,说明学生关注的都是PPT重点要素;而页面13的综合五人眼动热点除了位于重点要素,还同时分布于非重点要素(卡通小人)上,说明五名被试学生在学习页面13时过度关注页面的非重点要素。
图2 MSR-LULB和UAR模型预测区间值和观测值拟合图
Fig.2 Fitting Diagram of Prediction Interval and rvation Value of Two Models
表1 W=0.100的区间数据
图2表明,MSR-LULB模型预测上下界均匀的分布观测值两边,具有良好的对称性,并且预测区间的宽度明显小于UAR模型,本文模型虽然2010年后预测区间下界走势高于观测值,但偏离程度较小。相比,UAR模型预测区间覆盖率较低,区间宽度较大,并且区间中点值与观测值偏差较大。
原版外文图书的采购人员应该具备图书馆专业知识和一定的外语基础。同时,也要加强对“一带一路”沿线国家经济和文化的了解。因为在采购过程中,采购人员在一定程度上是图书采选决策者,他们的采购结果直接关系到馆藏外文书籍的质量,关系到外文图书的馆藏结构是否合理。采购人员应该掌握一定的外文文献分编知识,具备一定的外语技能。除此之外,外文图书采购工作人员既要跟踪原版外文图书的出版动态,又要密切关注和持续记录读者对于外文图书的阅读需求。可建立专门的读者阅读监测档案,持续关注读者的阅读动态和原版书籍的利用和需求情况。
3.3.4 指标对比
UAR和MSR-LULB两种模型在预测指标综合对比时,对比结果如表5所示。
表5 MSR-LULB与UAR模型预测精度进行比较
由表5知,数据的训练期和检验期分别经过PICP、PIRAW、PIS和RMSE 4个指标检验,在预测区间覆盖率比较中,训练期精度均高UAR模型,检验期精度同UAR模型。表中最明显的是预测区间对称性比较,本文模型指标值远远小于UAR模型,说明预测值与预测区间有较好的对称性。尤其当W=0.104时,各项指标相对较优。总之,本文模型预测结果均优于UAR模型。
4 结论
本文采用理想边界和多元逐步回归模型对城市生活需水量进行预测。利用区间描述观测值,更符合实际情况,使用多元逐步回归筛选出人均生活用水量和全市人口两个相关因素实现了有效降维,两者结合提升了模型预测精度和稳定性。本文加入已有的初始区间宽度选择方法,有效的简化搜索过程。本文构建的MSR-LULB模型与置信水平β=0.88的UAR模型相比,模型评价指标均优于后者,表明本文MSR-LULB模型可为城市水资源管理部门供需调控提供决策依据。
参考文献:
[1]Prassifka D W.Current trends in water supply planning[M].New York;Van Nostrand Reinhold Company,1988.
[2]Maidment D R,Miaou S P.Daily water use in nine cities[J].Water Resources Research,1986,22(6),845-851.
[3]Liu J,Savenije H H G,Xu J.Forecast of water demand in Weinan City in China using WDF-ANN model[J].Physics and Chem istry Of The Earth,2002,28(4-5),219-224.
[4]Xu Y B,Zhang J,Long Z Q,et al.Daily urban water demand forecasting based on chaotic theory and continuous deep belief neural network[J].Neural Processing Letters,2018.
[5]周鹏飞,卢泽雨.基于SPSS多元线性回归模型在城市用水量的预测[J].水利科技与经济,2018,24(5),6-10.
[6]郭华,褚金鹏.基于灰色系统理论对城市年需水量预测的模型探究[J].水利科技与经济,2018,24(12),69-72.
[7]李海燕.两种不同的城市需水量预测方法[D].邯郸:河北工程大学,2018.
[8]Zhang H,Zhou J,Ye L,et al.Lower upper bound estimation method considering symmetry for construction of prediction in tervals in flood forecasting[J].Water Resour Manag,2015,29(15):5505-5519.
[9]Khosravi A,Nahavandi S,Creighton D.Construction of optimal prediction intervals for load forecasing problems[J].IEEE T Power Syst,2010,25(3):1496-1503.
[10]Xiong L,Wan M,Wei X,et al.Indices for assessing the pre diction bounds of hydrological models and application by gener alized likelihood uncertainty estimation[J].Hydrological Science Journal,2009,54(5):852-871.
[11]Li W,Zhou J,Chen L,et al.Upper and lower bound interval Forecasting methodology based on ideal boundary and multiple linear regression models[J].Water Resources Management,2019,(1).
Prediction of Urban Domestic Water Demand Based on Ideal Boundary and Multiple Stepwise Regression Model
LI Huimin1,2 ,WANG Xiaosheng1 ,LIU Xinxin1 ,AN Xiaojie1
(1.School of Mathematics and Physics,Hebei University of Engineering,Handan,056038,China;2.School of Software,Handan College,Handan,056038,China)
Abstract: The prediction of accurate domestic water can provide more reasonable reference for water resources management departments to regulate supply and demand.The measurement results of the observed values do not exist as a single value due to the influence of many uncertainties during the measurement process,so the range of this uncertainty can be perfectly described by using interval values.The existing prediction interval algorithm needs a tedious parameter search process which can be simplified by the algorithm in this paper.Firstly,an initial interval setting method is adopted to obtain the interval width,which is used as the initial absolute width to construct the upper and lower bounds of the interval.Secondly,a multiple stepwise regression model shall be established to predict the upper and lower bounds of urban water demand respectively,and it is used to predict interval coverage,interval width,interval symmetry and root mean square error,and then use it as accuracy evaluation index,and compare with the existed model results,the absolute width is intercepted and the model shall be established.Finally,taking the urban domestic water demand of Handan as an example,the prediction accuracy of this model is better than that of existing models.
Keyword: Urban domestic water demand;Multiple stepwise regression models;The ideal boundary;Upper and lower bound estimation
中图分类号: F299.24
文献标志码: A
文章编号: 1672-3872(2019)17-0010-05
基金项目: 国家自然科学基金项目(No.61873084);河北省高等学校科学技术研究重点项目(No.ZD2017016)
作者简介: 李慧敏(1984—),女,河北邯郸人,硕士,研究方向:不确定理论与决策。
通讯作者: 王小胜(1969—),男,河北邯郸人,博士,教授,研究方向:不确定规划等。
标签:生活需水量论文; 多元逐步回归论文; 理想边界论文; 上下界估计论文; 河北工程大学数理科学与工程学院论文; 邯郸学院软件学院论文;