北京市二手房价格影响因素分析论文_吴天遂陈清玉

（中国人民大学附属中学）

摘要：2018年北京中心城区限制四环路以内的各类用地调整为住宅商品房，这意味着今后北京四环以内不会出现新建商品住宅。未来四环以内，只能购买二手房，新房将十分稀缺。由此，全面的研究二手房就显得很有必要。本文以2011年至2013年链家网丰台房价数据为样本，通过建立随机森林模型，多元线性回归模型以及神经网络模型，分析其中的主要影响因素，并对链家数据建立时间序列模型来预测价格。

关键词：房价影响因素；ARIMA模型；随机森林模型；多元回归模型；神经网络模型

模型建立和比较

多元线性回归是研究初期最开始使用的算法，通过进行模型的建立，将变量进行处理，对于定性变量进行取值，再将自变量和因变量输入，建立多元线性回归模型，通过对于结果的分析以及控制变量，得到结论并通过结论进行预测。

采用spss软件逐步回归的方法进行模型的建立：

表一：逐步回归结果

续表2-4

a.應變數\:单价

由上表的输出结果，可得到最后的预测模型为：

人工神经网络擅长处理需要同时考虑诸多不精确因素的问题,利用神经网络的算法优点对于影响房价的主要影响因素进行筛选.

本文以链家网2011至2012年数据作为建模数据，其中进行随机分区，其70%为训练数据，30%为测试数据，建立一个含有5个输入层，1个输出层的神经网络，并将标准化数据导入。利用spss modeler软件进行设置，权值初始值是随机选取的，模型停止规则为无法进一步降低误差为标准。神经网络方法将记录归类为构建和防止过度组合的模型，这些模型被用作单独的数据集来检测培训过程中的错误，以防止该方法对数据中的几率变异进行建模。指定记录的百分比。缺省值为 30。最终将2013年标准化数据导入2011年至2012年数据所建模型，从而判断2013年真实数据与预测数据的误差。其中为了保证模型的适应性，自然是应该通过系统随机分配训练和测试数据，训练与测试分别为70%和30%。这样结果更可靠。

表二：神经网络预测结果

模型的结果比较及分析

随机森林回归的基本思想是：首先利用自助抽样法，从原始数据集中抽取B个样本，且每个样本容量都与原始数据集相同；然后对B个样本分别建立B棵树，得到B个结果；最后，对这B个结果取平均值得到最终的预测结果。对于回归问题预测值为所有树的预测结果的平均。

整合2011年至2012年北京丰台房价数据，其中自变量有房间数、房价面积、房屋空置时间、是否是学区房，以及居住类居民消费价格指数。以总样本数据的70%作为训练样本，30%作为测试数据来检验模型的精度，再将2013年数据相关数据带入模型中进行预测。

表三：随机森林分析结果

根据整合的房价数据，由训练集2011年至2012年数据进行建模，利用测试集2013年房价数据对房价进行预测，多元线性回归与随机森林与ARIMA模型和BP神经网络模型相关预测结果如下表所示。

表四：各模型预测结果

标准差是衡量一个样本波动大小的量，样本标准差越大，样本数据波动就越大，从预测结果来看，每一种预测方法真实值与预测值误差标准差都很好，但是根据各模型误差标准差的对比来看，神经网络模型预测结果最优，其次是随机森林模型，最差是多元线性回归模型。

但在研究过程中发现，由于数据是非线性关系数据，导致多元线性回归模型的建立效果并不好，预测结果不准确，而时间序列模型、随机森林以及神经网络模型却不存在这样的问题。

参考文献

[1]钟丽燕.多元线性回归模型在房价走势分析与预测中的应用.科技创业月刊,2017,30(9);94-96.

[2]刘美芳.天津市商品房价格影响因素的实证研究——基于多元线性回归模型的分析.时代经贸,2017,0(16);84-87.

[3]蔡素丽.多元线性回归模型应用实证分析.廊坊师范学院学报：自然科学版,2017,17(4);5-8.

[4]陈世鹏.基于随机森林模型的房价预测.科技创新与应用,2016,0(4);52-52

[5]杨瑞君,赵楠.基于随机森林模型的城市空气质量评价.计算机工程与设计,2017,38(11);3151-3156.

论文作者:吴天遂陈清玉

论文发表刊物:《知识-力量》2019年4月上

论文发表时间:2019/1/25

标签：模型论文; 数据论文; 神经网络论文; 线性论文; 样本论文; 房价论文; 森林论文; 《知识-力量》2019年4月上论文;

北京市二手房价格影响因素分析论文_吴天遂 陈清玉

猜你喜欢

北京市二手房价格影响因素分析论文_吴天遂陈清玉