(中国人民大学附属中学)
摘要:2018年北京中心城区限制四环路以内的各类用地调整为住宅商品房,这意味着今后北京四环以内不会出现新建商品住宅。未来四环以内,只能购买二手房,新房将十分稀缺。由此,全面的研究二手房就显得很有必要。本文以2011年至2013年链家网丰台房价数据为样本,通过建立随机森林模型,多元线性回归模型以及神经网络模型,分析其中的主要影响因素,并对链家数据建立时间序列模型来预测价格。
关键词:房价影响因素;ARIMA模型;随机森林模型;多元回归模型;神经网络模型
模型建立和比较
多元线性回归是研究初期最开始使用的算法,通过进行模型的建立,将变量进行处理,对于定性变量进行取值,再将自变量和因变量输入,建立多元线性回归模型,通过对于结果的分析以及控制变量,得到结论并通过结论进行预测。
采用spss软件逐步回归的方法进行模型的建立:
表一:逐步回归结果
续表2-4
a.應變數\:单价
由上表的输出结果,可得到最后的预测模型为:
人工神经网络擅长处理需要同时考虑诸多不精确因素的问题,利用神经网络的算法优点对于影响房价的主要影响因素进行筛选.
本文以链家网2011至2012年数据作为建模数据,其中进行随机分区,其70%为训练数据,30%为测试数据,建立一个含有5个输入层,1个输出层的神经网络,并将标准化数据导入。利用spss modeler软件进行设置,权值初始值是随机选取的,模型停止规则为无法进一步降低误差为标准。神经网络方法将记录归类为构建和防止过度组合的模型,这些模型被用作单独的数据集来检测培训过程中的错误,以防止该方法对数据中的几率变异进行建模。指定记录的百分比。缺省值为 30。最终将2013年标准化数据导入2011年至2012年数据所建模型,从而判断2013年真实数据与预测数据的误差。其中为了保证模型的适应性,自然是应该通过系统随机分配训练和测试数据,训练与测试分别为70%和30%。这样结果更可靠。
表二:神经网络预测结果
模型的结果比较及分析
随机森林回归的基本思想是:首先利用自助抽样法,从原始数据集中抽取B个样本,且每个样本容量都与原始数据集相同;然后对B个样本分别建立B棵树,得到B个结果;最后,对这B个结果取平均值得到最终的预测结果。对于回归问题预测值为所有树的预测结果的平均。
整合2011年至2012年北京丰台房价数据,其中自变量有房间数、房价面积、房屋空置时间、是否是学区房,以及居住类居民消费价格指数。以总样本数据的70%作为训练样本,30%作为测试数据来检验模型的精度,再将2013年数据相关数据带入模型中进行预测。
表三:随机森林分析结果
根据整合的房价数据,由训练集2011年至2012年数据进行建模,利用测试集2013年房价数据对房价进行预测,多元线性回归与随机森林与ARIMA模型和BP神经网络模型相关预测结果如下表所示。
表四:各模型预测结果
标准差是衡量一个样本波动大小的量,样本标准差越大,样本数据波动就越大,从预测结果来看,每一种预测方法真实值与预测值误差标准差都很好,但是根据各模型误差标准差的对比来看,神经网络模型预测结果最优,其次是随机森林模型,最差是多元线性回归模型。
但在研究过程中发现,由于数据是非线性关系数据,导致多元线性回归模型的建立效果并不好,预测结果不准确,而时间序列模型、随机森林以及神经网络模型却不存在这样的问题。
参考文献
[1]钟丽燕.多元线性回归模型在房价走势分析与预测中的应用.科技创业月刊,2017,30(9);94-96.
[2]刘美芳.天津市商品房价格影响因素的实证研究——基于多元线性回归模型的分析.时代经贸,2017,0(16);84-87.
[3]蔡素丽.多元线性回归模型应用实证分析.廊坊师范学院学报:自然科学版,2017,17(4);5-8.
[4]陈世鹏.基于随机森林模型的房价预测.科技创新与应用,2016,0(4);52-52
[5]杨瑞君,赵楠.基于随机森林模型的城市空气质量评价.计算机工程与设计,2017,38(11);3151-3156.
论文作者:吴天遂 陈清玉
论文发表刊物:《知识-力量》2019年4月上
论文发表时间:2019/1/25
标签:模型论文; 数据论文; 神经网络论文; 线性论文; 样本论文; 房价论文; 森林论文; 《知识-力量》2019年4月上论文;