关键词:建筑设计;数字化技术;运用;统计学;机器学习
1、无监督学习(Unspervised Study)
在现实生活中我们往往会遇到这样的问题:由于缺少先验经验,我们很难对目标进行标注或者分类,亦或是数据样本过大,人工手动分类的成本过高。我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。举例来说,当规划师们获取全纽约的房产数据时,怎样通过计算找快速出其中“反常”的建筑呢?
本次案例中每一栋建筑的记录中包含以下属性:地块编号、基地宽度、基地深度、建筑层数、建筑进深、建筑面宽、邮政编号(ZIP code)、建筑当前市场价格和建筑历史成交价格。建筑当前市场价格由税务局依据相关数据计算生产并用以计算房产税。
1.1 数据清理
在进行任何分析前我们都需要清理数据中的无效项目,例如无实际意义的“0”或者空项。在实际项目中,数据整合和清理可能会消耗整个项目中最多的时间。在本案例中,我们使用临近建筑或者同社区的平均数值来替代无意义项。
1.2 创造新属性
仅仅依靠现有的九项属性是远远不足以深度理解数据的。因此,我们需要创造出更多的属性来深入理解数据集。举例来说,我们可以利用建筑面宽和建筑进深相乘来计算新属性:建筑单层面积;以建筑单层面积乘以层数来计算建筑总面积;以当前市场价格除以建筑总面积来计算均价;最终我们创造出45项新属性。
1.3 减少维度
在数据分析中,每一项属性代表一个维度,而高纬度会不可避免的带来更多的“噪音”。以本文中的数据为例,当前的维度为54(9个初始属性和45个新计算属性)。如果在此时直接进行运算会带来大量的冗余或过度拟合,所以我们需要在保证不会丢失过多信息的情况下减少维度。在这里,我们将使用主成分分析(Principal Components Analysis 下称PCA)。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。简单来说,PCA利用旋转坐标轴来消减维度。通过这一步计算,我们将维度降到8。
1.4 算法
本案例中我们运用了两种算法:Z值(Heuristic Function of Z-Scores)和自编码(Autoencoder)。Z值计算主要以标准差为单位统计单体数值对于平均值的偏移程度。Z值越高意味着偏离程度越高。-2的Z值意味着样本低于群体中98%的成员。自编码,又称自编码器是神经网络的一种自动算法。它会自动加密再解密数据,在这一过程中反常的数据会被筛选出来。
1.5 结果
通过整合两种算法的结果,我们会给予每一栋建筑一个数值用以描述它的特殊程度。通过排列这个数值,我们得以快速挑选出计算机认为的“反常”建筑。比如皇后区(Queen)的某建筑因为建筑长宽比与街区内平均水平相比极度失调而被算法发现。
期刊文章分类查询,尽在期刊图书馆通过无监督学习我们得以发现“不和谐”的建筑,这可以为未来规划设计提出参考意见。值得注意的是这里结论中的“正常”与“反常”是基于统计学意义上的标签,并非传统语境中的定义。
2、监督学习(Spervised Study)
与无监督学习相比,监督学习多出了一个或者几个属性标签。在无监督学习中,我们给数据贴上标签,而监督学习中数据自带标签,我们需要找出属性与标签之间的关系。举例来说,一个标准的监督学习数据集为胃病患者和健康人的饮食习惯、年龄、种族和作息周期等等信息。分析师需要通过建立模型来找出以上的属性是否有可能导致患者得胃病。
让我们仍以纽约房产数据为例,假设在本次分析中,我们事先让公众对于建筑进行投票并选举出了他们心中最怪异最难看的五十栋建筑。(既为这五十栋建筑贴上“反常”标签并为剩下建筑贴下“正常”的标签)接下来我们需要采集建筑数据并分析什么因素导致了人们认为该建筑异于同类。
2.1 数据清理与计算新属性
这两个步骤与无监督学习相应部分大同小异。我们可以依据实际需要收集更多的数据,例如建筑的颜色、材料与形体比例等等。
2.2 减少维度
当我们创造出大量新属性时,PCA的效果可能不明显并耗时过长。除去PCA,我们还可以运用柯尔莫可洛夫-斯米洛夫检验(KS)和伪发现率(FDR)筛选法。KS 和FDR的原理相似,都是检验单一属性对于数据标签的筛选能力。通过剔除KS和FDR检验中表现差的属性,我们可以快速筛选出需要的属性。当我们需要精选出10 - 20个属性时,logistic回归分析是一个很好的选择。它耗时短并且结果准确。
2.3 算法
监督学习的算法有更多的选择,常用的有logistic回归分析、K临近算法(KNN)、决策树(decision tree)、视神经网络(neural network)、随机森林(random forest)或者加权决策树(boosted tree)等等。针对不同的模型,不同的算法会有不同的表现。通常我们需要将数据分为训练集(training set)、测试集(testing set)和验证集(out of time)。训练集用于训练模型,测试集用于避免过度拟合(overfit),而验证集用于计算FDR。我们通过对比FDR来选择最佳算法。
2.4 结果
通过一些列运算,某一种算法会脱颖而出得到最高的区分“正常”与“反常”的能力。而我们得到了定量分析公众对于“反常”建筑评判标准的数学模型。
3、总结
建筑不仅是一种单纯的组合排列方式,更是人类对生活的追求,数字化技术的应用对建筑设计来说是一个伟大的变革,它的影响表现在各个方面,例如操作简便性和灵活利用性不,都是传统的建筑手段所不具备的。文中介绍的功能以及算法都有相对应的封装代码模块,分析师仅仅需要将数据导入其中并进行计算。于此同时市面上存在大量的分析软件,可以帮助分析师极大的简化分析流程。举例来说,我们完全可以在Excel中输入简单指令 来计算线性回归(linear regression)。随着建筑设计需要考虑的内容越来越复杂,数据分析可以更好的帮助建筑师和规划师理解和认知设计。进来Google利用其开源机器学习引擎GAN进行室内设计,其结果令人瞩目。本文仅仅抛砖引玉,为读者简单介绍机器学习的大致流程。建筑行业应当拥抱最新的最合乎实际的数字化技术,大力的推进数字化技术,不断的优化和创新。在完备的企业管理机制的基础上推动其自身的长远发展。
参考文献:
[1]https://blog.csdn.net/program_developer/article/details/80632779
[2]廖海平.浅谈数字化技术与建筑设计的关系[J].山西建筑,2010(8).
[3]The elements of statistical learning 作者:Trevpr Hastie
[4]http://www.cnblogs.com/arkenstone/p/5496761.html
论文作者:李志晗
论文发表刊物:《建筑细部》2018年第26期
论文发表时间:2019/7/16
标签:建筑论文; 数据论文; 属性论文; 算法论文; 维度论文; 反常论文; 建筑设计论文; 《建筑细部》2018年第26期论文;