基于回归LS-SVM的房地产估价方法
文/潘巍1晋松2
摘 要
本文对典型的房地产估价算法进行分析,研究回归SVM模型对房地产价格进行学习的实现过程,并提出一种基于回归LS-SVM(最小二乘支持向量机)的房地产估价算法。
【关键词】 回归学习 房地产估价 最小二乘支持向量机
1 房地产估价方法的研究现状
房地产的价格随国民经济的发展上下波动,房地产价格主要用于房产交易所和银行等金融机构进行抵押贷款或资产清算等活动时,对房地产的估算价格的准确性高低对于金融行业和房产交易等为回避风险给出了至关重要的预测尺度。近几十年来,国内外常应用相关的经济模型和方法来对房地产价格进行估价,如市场比较法、成本法和收益还原法等。但这些方法存在单一性和片面性。针对上述方法存在的问题,许多学者将机器学习技术引入到房地产估价中,在房地产的多元属性和价格间构建出回归模型并得到了良好的效果。许多研究人员将层次分析、特征选择、神经网络和SVM等技术应用到房地产估价中,杨和礼等人利用RS-BPNN神经网络模型对房地产的价格进行预测,并采用粗糙集的属性粒度计算来约简掉冗余房地产属性。再者,李毅等人将SVM模型应用到房地产估价中取得了良好的效果,有效解决了神经网络局部最优的缺陷。
高血压、肺气肿、肺梗塞、冠状动脉粥样硬化,内分泌疾病均可能诱发慢性充血性心力衰竭[1]。患者发病后必须及时采取治疗,否则病情加剧可能导致患者死亡,为此,本研究特收集我院收治的80例慢性充血性心力衰竭患者为研究对象,分析螺内酯联合贝那普利临床治疗效果,现报告如下。
2 基于回归LS-SVM的房地产估价方法
2.1 方法选取
本文选取LS-SVM来建立房地产价格的回归模型,从而实现对房地产评估的增量学习。
但在本文中,采集的房地产样本是通过网络爬虫获得的WEB数据,它是随着时间序列获得的或在线采集的致使数据量将不断增大,就必须使用增量式学习算法或在线学习算法来训练模型,以减少训练的存储开销。更重要的是增量学习算法会使学习机具有在线自适应的能力,能够随着时间而进化。
2.2 数据描述
闫化然(1986—),男,安徽亳州人,讲师,博士生,研究方向为船舶交通工程。E-mail:455596621@qq.com
表1:房地产估价算法准确性对比表
表2:房地产估价算法运行时间(s)对比表
2.3 增量学习模型
为了便于建立增量学习模型,令i+j+l=N,因l是随时间不断增大的,因此房产数据的整体规模N也是随时间不断增大的,因此我们对于整体的样本而言,认为样本集D随着时刻t的递进而每次新增一个样本。增量学习的样本集可以表示为,其中
其中
来拟合样本集,式(1)中x为房产交易数据样本,y为房产价格,w和b为回归参数,w为超平面的法向量,b为超平面的截距。
第一步,按年份顺序整理出每年的大事,每年内又按月份时间排序整理,在熟悉当年大事基础上,将重复的内容合并。对时间表述不清晰的放在最后,用不同颜色标明待查。对缺失内容也要标明待查,如水库始建于1959年,1965年建成,但大事记是从1966年开始记录的,这就需要查补1959—1965年的资料内容。
根据结构风险最小化原理和拟合误差,回归问题可以表示为约束优化问题:
系统采集到的没有任何碰触的信号时域波形基本是一条平稳的直线;当人手敲击光缆时信号部分时域波形如图2所示。
在房产价格的LS-SVM回归模型中,以便使输入空间中的非线性拟合问题变成高维特征空间中的线性拟合问题,可利用k(·)非线性映射把数据集从输入空间映射到特征空间,我们选取高斯核对样本做非线性映射。
根据系统需求,房地产数据主要由人工采集、购买和WEB数据组成。由此我们可将房地产数据定义为,其中为人工采集房产交易数据,为购买的房产交易数据,为WEB的房产交易数据(),xh为一个房产交易数据样本,yh为房产交易价格而 xh=(Xh1, Xh2, …, Xh10),每个房产交易数据样本由10个属性组成,它们分别是房屋新旧程度、户型、装修程度、楼层、朝向、建筑面积、楼盘绿化率、楼盘类型、所处区域和所处城市。
令由式(2)可知
则可转化为如下形式
其中是平衡系数矩阵。
其中ξ为样本的损失。
则回归LS-SVM模型中,式(1)可转化为可知增量学习的LSSVM回归模型为
本文提出的房产估价算法简称为mySVRLSSVM。将本文使用得到方法与回归支持向量机(R-SVM)和回归神经网络算法(RNN)进行性能对比分析。在从房产代理公司购买到的近1年哈尔滨市的真实房产交易数据用于实验,该数据集包含10000条数据,称它为RestateData数据集。其中R-SVM和mySVRLSSVM算法中采用了RBF核且利用十折交叉验证来得到上述三种算法中的参数。从RestateData数据集中选取出7个房产交易记录作为最终的测试预测值的准确性来使用,具体的对比结果见表1所示。
那么,在数据样本集D上,房产价格预测的LS-SVM回归模型为:
3 实验分析
那么,由可知,
通过表1可以看出,R-SVM和mySVRLSSVM算法比RNN算法误差率至少低1%,且mySVR-LSSVM算法比R-SVM算法的误差率低0.14%,因此可知mySVR-LSSVM算法有良好的预测准确性。
接下来,为了对比三种算法的实际训练时间,我们用RestateData数据集对其进行测试。在RestateData数据集中分别选100,200,500,1000,2000,5000,10000个样本作为训练样本,并分别对每组样本进行重复10次实验来分析三种算法的运行效率。房地产估价算法的运行时间对比结果,见表2。
周围人都噤了声,注视着两个人,主要注视那个索赔的单薄男人,暗暗为他担心。谁知他无半点胆怯之色,催促道,切肉啊。
通过表2可以看出,随着样本数目的增加三种算法中mySVR-LSSVM的训练时间最少,RNN算法的训练时间最长,且在算法的测试时间上三种算法基本相同。
那一切被路灯投射下的暖黄色光带笼罩着,有种霭霭人间烟火的温暖,莫名地让人感到不能自控的向往,引着我的心和胃义无反顾地朝着它奔去。
参考文献
[1]陈良琼,张宗领.基于特征价格理论的市场比较法研究[J].信阳师范学院学报,2011,24(4):31-36.
[2]杨和礼,宋士豹,包相相.基于RS-BPNN模型对商品房价格的预测研究[J].数学的实践与认识,2015,(2):50-52.
[3]李毅.基于SVM的房地产投资风险评价及应用[J].统计与决策,2012(1):70-72.
作者简介
潘巍(1976-),男,黑龙江省哈尔滨市人。工学博士。现为哈尔滨华德学院数据科学与人工智能学院软件工程专业讲师。主要研究方向为模式识别、机器学习及应用。
作者单位
1.哈尔滨华德学院 黑龙江省哈尔滨市150025
2.哈尔滨电工仪表研究所 黑龙江省哈尔滨市 150040
标签:回归学习论文; 房地产估价论文; 最小二乘支持向量机论文; 哈尔滨华德学院论文; 哈尔滨电工仪表研究所论文;