基于K-Means算法和重心法求解多配送中心选址问题论文

基于K-Means算法和重心法求解多配送中心选址问题

许彦宸，戴韬

（东华大学，上海 200051）

[摘要] 分析了P-中值模型的特点，阐述了传统的模型与算法在求解大量需求点选择问题的局限性，提出了利用改进K-Means算法和重心法相结合的方式来求解该问题的思路，并提出以噪音率来刻画选址的效果，利用公开的数据设计了数值实验，证明该算法是收敛且实用的。

[关键词] K-Means；重心法；多设施选址；P-中值模型；海量数据

1 引言

随着国民经济的快速发展以及网络的普及，越来越多的人习惯并且喜欢在网上购物，网上购物及一些O2O 服务的核心要素是其背后的配送体系，其中配送中心（配送站）的选址是一个影响最终响应速度的核心基础问题。由于我国幅员辽阔、客户需求井喷式涌现，无论是全国范围的全国性配送问题还是一个城市内的区域性配送问题，都面临着海量需求点的基本挑战，而现有的物流选址模型及算法往往只能求解十几个到几十个需求点的基础问题。因此，提出一种求解海量需求的多配送中心选址算法有非常强的理论与现实意义。

2 文献综述

多设施选址问题一般可以转化为P-中值问题，该问题是由Hakimi 在1964年所提出，具体是指在已知需求点位置、待建中心的数量以及待选点位置集合的情况下，为P 个中心找到合适的位置，并为每个需求点指定一个中心，使得所有需求点到各自对应的中心点的总加权成本最低^[11]。对于P-中值问题，学术界有多种求解方法和不同的思路，例如：Hansen等采用变领域搜索算法求解该问题^[1]，而变领域搜索算法是常用的求解优化问题的算法之一，而P-中值问题的目标就是优化总加权成本；Mladenovi 等利用元启发式算法求解P-中值问题^[2]，Colmenar等采用高级贪婪随机自适应搜索方法来求解^[3]，该方法可以对传统的贪婪算法进行改进以降低其陷入局部最优解的可能性；Griffith等利用选址问题中的空间属性，使用空间自相关性方法对P-中值问题进行求解^[4]；Youkyung Won则采用广义细胞形成的方法求解大规模多目标P-中值问题^[5]；Drezner 等采用改进的启发式算法求解平面P-中值问题^[6]，取得了显著的效果；Stefanello等对容量受限的P-中值问题进行了求解^[7]；Carrizosa 等在网格上利用平方和为指标对数据进行聚类以求解P-中值问题^[8]；而王飞飞和林文则对利用改进的重心—因次分析法求解3PL 配送中心选址问题进行研究并将其与P-中值问题进行联系^[9]；张彩庆和赵璐利用改进的P-中值模型对电网检修公司分部选址问题进行研究^[10]等。

3 基本模型与算法局限性分析

P-中值模型的数学表达式如下：

针对羊肚菌人工栽培大面积不出菇和产量不稳定等问题，郝哲还主持实施了“羊肚菌栽培设施设计建造技术研究”“羊肚菌适宜品种筛选及其设施高效栽培技术研究”和“羊肚菌产业化生产技术研究与示范”等项目，结合北方风沙区的自然气候特点和羊肚菌的生理特性，通过分离提纯野生羊肚菌菌种，选育出适于北方风沙区人工栽培的羊肚菌优良菌株。利用适宜的栽培设施，模仿本地野生羊肚菌生态环境条件，攻克了北方风沙区羊肚菌人工栽培技术难题，获得授权专利1项，培育出适宜北方栽培的羊肚菌优良菌株4个，实现了羊肚菌在北方风沙区的规模化发展。

随着社会发展，人们物质生活水平得到了显著的提升，闲暇时间更加充裕，社会经济的增长在为人们提供优质生活条件的同时，也为人们带来了更多的休闲娱乐服务。当前的体育运动已不再是专业运动员的专属项目，而是逐渐进入了人们的生活中，成为当代休闲方式的主要内容。其中健美操运动就是休闲体育的一种形式，它以丰富多样的内容和形式受到了社会大众的欢迎与喜爱，并且也受到了各大院校的高度重视，许多学校的体育课程中，都将健美操运动作为重要的教学内容。由此能够充分看出，健美操运动已成为当下较为流行的休闲运动方式，并存在社会各个角落，对人们日常生活带来了积极的影响。

上述表达式中各符号的含义如下：i为需求点的编号、j为待建物流中心的编号；D为每个物流网点的需求量（一般与该网点所辐射的辖区内的人口数量成正相关）；W为物流中心与物流网点之间的加权成本（由距离、时间等因素共同决定）；Y 为0/1 决策变量，取0 表示物流中心j 不为需求点i 提供服务，而取1则表示物流中心j为需求点i提供服务；X同样也为0/1决策变量，取0表示该点不建物流中心，取1则表示该点建物流中心。M为所有网点的集合，而N则为待建物流中心备选点的集合。

式（1）是P-中值问题的目标，即加权成本的最小化；式（2）是对物流中心和需求点的关系的约束，具体是指每一个需求网点必须属于一个物流中心且只能属于一个物流中心；式（3）是对待建物流中心的数量进行约束；式（4）是要求需求点必须能被其所属的物流中心辐射到；式（5）是指在当前的j 位置是否建立物流中心；式（6）是指物流中心和物流网点之间仅有两种关系，物流网点属于物流中心与物流网点不属于物流中心^[11]。

三是注重教师教学能力提升，加大对数学教师的投入，鼓励教师走出去参加教学研讨会和学术会议，加强对数学教师的培训，丰富培训的形式，定期组织教学研讨会、组织听课和教师讲课比赛等。对于教学经验丰富，但使用计算机困难的老教师，定期组织计算机应用的培训，以适应现代多媒体计算机教学的发展形式。注重提高在职教师的学历层次，鼓励继续深造，对报考在职研究生等采取一定的激励政策。

显然，P-中值问题是一个NP-Hard问题^[12]。而求解P-中值问题的传统方法是需要先经过考察，预先指定N个备选点（N＞P），随后使用贪心算法或启发式算法等方法求解。其缺点在于：第一，在指定N个备选点的过程中，可能会受到多个方面的影响（如决策专家的水平等），使得所选择的N个备选点与潜在的正确的P个中心点的位置相去甚远，后续的计算过程也只是徒劳无功。第二，求解P-中值问题的传统算法只能求解规模较小的问题，一般为100个需求点以下。而如果超过该规模，计算的精度和速度都会受到影响。

对于本文所要研究的问题（以下简称本问题）而言，传统的P-中值问题的解决方案无法在付出合理成本的情况下解决。理由是：本问题的规模远超传统的P-中值问题的解法所能解决的规模（从表1可以得知）；此外，本问题并没有指定P 的值，因此N 个备选点的位置也无法确定。如果要进行多次尝试，就要多次确定备选点，所要花费的计算成本是非常巨大的，甚至可能在有效时间内无法得到可行的满意解。

表1 本文的需求规模与其他文献的对比

4 算法设计

4.1 流程图

基础K-Means算法的步骤如下：

图1 K-Means算法结合重心法的算法逻辑

4.2 算法的详细描述

步骤3：对于每个数据点，分别计算该点与K 个簇中心的距离,与该点距离最小（也称作相似度最大）的簇中心将是该点所属的簇;

前文已经提及，本文所要解决的问题规模远超传统的P-中值问题的规模，因此需要一个新的方法，而聚类算法就是一个很好的选择。聚类算法的基本思想是将所给数据分为若干簇，使簇内的数据有较高的相似度，而簇间的数据则具有较大的差异性。K-Means算法是数据挖掘中的一种聚类算法，其具有算法思想简单、实现方便；算法的收敛速度较快以及能方便处理海量数据等优点。

本文提出的K-Means分类算法与重心法结合的算法逻辑如图1所示。

步骤 3 至步骤 6：与基础 K-Means 的步骤 3-6 相同。

从图3中可以看出，理想的12位ADC转化是没有增益误差和偏移误差的，因此模拟输入量X和数字输出量Y之间的关系为：Y=mi·X，mi=4 095/3.0=1 365。但是实际上F2812内部存在增益误差和偏移误差，假设增益系数为ma，实际偏移量b，则模拟输入量X和数字输出量Y之间的关系为：Y=ma·X+b，关键就是确定ma和b的值。在实际应用中可以通过2路精确的输入X1和X2提供给ADC的ADCINA0和ADCINB0通道的转化结果Y1和Y2来获得，通过二元一次方程组来解出上述两个参数。方程为

步骤2：随机选择K个点为初始的簇中心；

2018年，正值依波成立27周年。在风云变幻的市场环境下，依波秉承“精艺开启优雅生活”的品牌理念，以精品战略为核心，以提升顾客体验为动力，以品牌文化为后盾，以技术创新为手段，全面提升自身的品牌形象和综合竞争力。2018年，依波连续四年登榜亚洲品牌500强、连续十五年入选中国500最具价值品牌榜，品牌价值突破111.95亿元。

目前在普洱旅游道内的工作人员没有经过系统的培训，难以满足游客的求知欲。，普洱茶文化作为云南旅游的名片，吸引了大批量的国外游客，但在景区内外语接待人员十分缺乏。没有新型的旅游服务人才，不能为游客提供导游规范化或个性化服务，无法据游客个体差异提供准确的养生指导。本地居民在旅游接待时还是以采摘工作为主，游客参与度低。

重心法是求解设施选址问题中最简单的问题—单一设施选址问题的常用方法之一^[17]，数学表达式如下：

可以注意到，K-Means算法在步骤2选择初始的簇中心集合时是随机进行的，这样会拥有非常快的速度并且该算法的实现非常简单，但是这样的结果是以精确率为代价换来的。因此，Arthur等便提出一种对选取K 个初始点的方式进行改进的K-Means 算法，被称为K-Means++^[18]。另外，在Arthur 等的论文中，其中有些数据集的规模超过1 000。因此，本文使用K-Means算法改进算法是合理的。本文使用的改进算法主要针对基础算法的第2步，通过修改初始化K 个中心的方法改善了这个缺点，在减少迭代次数的同时并没有降低该算法的速度及其实现的简单性，其详细步骤描述如下：

步骤5：若迭代次数到达最大迭代次数或当前的簇中心集合与上一次迭代相比没有变化，则转到步骤6；反之则转到步骤3；

步骤6：输出数据集的分类结果（K 个簇中心的位置、每个点所属的簇以及簇内误差平方和等）。

步骤4：重新计算K 个簇的中心，中心为该簇内所有点的算术平均值；

步骤1：获取最大迭代次数Iter及数据集D。

步骤2.1：从数据集D 中随机选择一个点c₁作为初始的第一个簇中心；

步骤2.2：选择下一个簇中心c_i，而数据集中剩余的任意点x'，成为c_i的概率是，其中 D（x）是指点x到已确定的聚类中心的距离；

步骤2.3：重复步骤2.2，直至有K 个初始中心被确定。

学生社团等第二课堂活动为培养学科竞赛人才提供了重要保障。外国语学院建立的学生国学社致力于在全校范围内广招对中华传统文化和人文知识有浓厚兴趣的青年人才，以书法、国画、民乐、诗词、相声等为活动载体，培育了一批对我国文化精神高度认同、具备一定国学素养、掌握一定传统艺术基础的学生骨干，而这个群体中的佼佼者大多成为了学科竞赛中的骨干力量。

步骤1：获取最大迭代次数Iter及数据集D；

从中可以看出，K-Means++与K-Means的区别仅仅在于步骤2（初始化K个中心的方法上）的不同，其余的步骤完全相同。因此，在实践过程中，仅需要将刚刚的K-Means算法中初始化的部分略作改动即可获得较大的速度方面的提升以及迭代次数的减少。另一点需要注意的则是，尽管在算法步骤5的原始描述的其中一个终止条件是本次迭代结束之后的簇中心集合与上一次迭代结束之后的簇中心集合相比没有变化，在实践的过程中往往利用公式来评判该次聚类的效果^[13]，其中为第k个簇的中心，E则是簇内误差的平方和。在实践过程中，通常要求，其中δ 是一个充分小的正数。

初步检出文献672篇，Note-Express软件剔重后浏览文题和摘要获得与本研究相关文献49篇，阅读全文，按照纳入及排除标准严格筛查，最终获得27篇文献[1-27]，经质量评价，27篇文献虽均未阐明研究的哲学基础及研究者对研究的影响，但考虑其他方面评价较好，故将其全部纳入研究。文献筛选流程及结果见图1，纳入研究的基本特征见表1。纳入研究的质量评价见表2。

基于上述分析，本文的基本思路是先将所有的需求点划分为K 个簇，然后将每一簇视为单一设施选址问题利用重心法进行求解^[3]。虽然，K-Means++算法的K 值也无法确定，但是可以利用循环结构解决传统的P-中值问题在每次运算之前都需要花大量计算时间去决策的备选点集合的确定问题，可以极大地减少最终的总时间。

根据现实配送管理问题的背景，我们需要让尽量多的需求点在约定的配送距离以内，因此提出以噪音率衡量最终的选址结果。具体是将与其所属的中心点之间的距离大于给定覆盖半径的需求点记为噪音点。

具体的数学表达式如下：

其中，式（9）用于计算每个需求点到其所属中心点的距离，其中k 表示第i 个需求点属于第k 类。而式（10）中Noise Rate的下标d则表示噪音率受到给定的配送中心覆盖半径d的影响。

5 算例实验

5.1 数据预处理

为求解上述问题并验证本文所提出方式的可行性，本文选用“数据超市”中公开的“百度地图POI-全国各城市快递网点数据”的示例数据^[19]进行验证，共1 000条数据。尽管初始数据一共有16个特征，但是仅需要使用lat（纬度）和lng（经度）两个特征，在设施选址问题的领域内这种特征的选取方法也是较为常见的^[20]。对经过处理的数据执行可视化操作，如图2所示。

1.服务方式上创新。为进一步提升辖区居民满意率，树立过硬品牌，满足居民日益增长的物业服务需求，东辛物业站在服务方式上寻找突破，在推行《小区巡视记录本》的基础上，又推出了物业服务联动机制，启用了服务联动卡，此卡一式三联，第一联大厅留存，第二联在分管站领导手中，第三联在服务责任人手中。经运行实施后，服务大厅收费、咨询、报修服务功能凸显，居民到大厅反映的问题能够及时得到答复与解决，越来越多的居民有问题愿意找到服务大厅，缴纳物业费的积极性也越来越高。同时对门卫、大厅人员进行了调整充实，通过素质提升、规范上岗，室外执勤等进一步擦亮服务窗口。

图2 所有需求点的位置

从图2中可以看出，该样本的分布基本符合中国各地区的快递情况，因此这份数据是可信的。

5.2 实验结果分析

该算法在CPU为i5-8250U的笔记本电脑上运行的时间在330s 至350s 之间。因此，该方法可以在合理时间内解决大量需求点的选址问题。

仅考虑待建中心数量和噪音率的关系。在给定覆盖半径为120km 的条件下，绘制出结果图，如图3所示。从图3中可以看出，该算法最终是收敛的。但在某些情况下，随着物流中心的个数增加，噪音率同样也会有所波动，这是本文算法作为启发式算法的一个缺点。

为了保持问题的一般性，我们不假设任何与运营相关的效益与成本系数，因此仅以噪音率来刻画配送中心的收益。通过图3发现，在新建100个左右配送站点时，新建站点边际收益迅速下降，当配送站点数量超过175时，收益更是几乎没有任何增加。单从图上来看，100个左右的配送站点可能是较为可行的结果，若现实最终的数量在此范围附近时，需要逐一计算每个点的加权成本加以确定。

将覆盖半径也作为变量加入到考虑中来，绘制出的结果如图4所示。从图中可以发现，在任何变量的搭配下该方法都可以收敛，因此该方法是现实可行的。

6 总结

本文首先提出需求点数量巨大、配送中心数量未知的多配送中心选址问题，并指出传统的求解该类型问题的方法无法在有效时间内解决。因此本文提出一种基于K-Means算法和重心法结合的算法求解该问题，并提出使用K-Means++算法改进基础算法进行需求点的分类。由于一般的K-Means算法中的“距离平方和”指标并不能准确的反映配送问题的实际分类效果，因此，本文又提出了“噪音率”指标来刻画配送管理背景下需求点与配送中心的平均距离。最后，本文选用公开的数据集（共计1 000 个需求点）验证了算法的合理性。本文提出的分类结合重心法的方式为解决现实中海量需求的配送站点选择问题提供了一种新的思路。

图3 待建配送中心个数与噪音率的关系

图4 待建中心个数、覆盖半径和噪音率之间的关系

[参考文献]

[1]Hansen P,Mladenovic N.Variable neighborhood search for the p-median[J].Journal of Heuristics,2004,10(3)：293-314.

[2]Mladenovi N,Brimberg J,Hansen P,et al.The p-median problem：A survey of metaheuristic approaches[J].European Journal of Operational Research,2007,179(3)：927-939.

[3]Colmenar J M,Greistorfer P,MartiR,et al.Advanced greedy randomized adaptive search procedure for the obnoxious pmedian problem[J].European Journal of Operational Research,2016,252(2)：432-442.

[4]Griffith D A,Paelinck J H P.Spatial Autocorrelation and the p- Median Problem[A].Morphisms for Quantitative Spatial Analysis[C].Cham：Springer,2018.

[5]Won Y.P-Median Approach for the Large-Size Multi-Objective Generalized Cell Formation[J].경 영 과 학,2018,35(2)：35-55.

[6]Drezner Z,Brimberg J,Mladenovi N,et al.New heuristic algorithms for solving the planar p-median problem[J].Computers & Operations Research,2015,62：296-304.

[7]Stefanello F,de Araújo O C B,Müller F M.Matheuristics for the capacitated p-median problem[J].International Transactions in Operational Research,2015,22(1)：149-167.

[8]Carrizosa E,Nenad Mladenovic,Raca Todosijevic.Sum- ofsquares clustering on networks[J].Yugoslav Journal of Operations Research,2011,21(2)：157-161.

[9]王飞飞,林文.基于改进的重心—因次分析法的3PL配送中心选址研究[J].物流技术,2014,33(5)：185-187.

[10]张彩庆,赵璐.基于P-中值模型的电网检修公司分部选址模型[J].系统管理学报,2014,23(4)：501-506.

[11]宋正娜,颜庭干,刘婷,等.新重力P中值模型及其在城市综合医院区位决策中的实证检验—以无锡市为例[J].地理科学进展,2016,35(4)：420-430.

[12]Michael R Garey,David S Johnson,Computers and intractability：A guide to the theory of NP-completeness[J].Bulletin (New Series) of the American Mathematical Society,1980,3(2)：898-904.

[13]郑利平,江婷,周乘龙,等.基于Power 图求解容量限制P-中值问题[J].计算机应用,2015,35(6)：1 623-1 627.

[14]时曼曼,张守健,吴婉弘.基于P 中值模型的村镇文化体育设施配置研究[J].工程管理学报,2014,28(1)：36-40.

[15]徐久强,柏大治,罗玎玎,等 .遗传算法在 WSNs 多 Sink 节点布局中的应用[J].东北大学学报：自然科学版,2008,(6)：815-818.

[16]关怀庆,张毕西,欧江艳.贪婪取走启发式算法在离散网络选址中的研究[J].系统科学学报,2010,18(3)：49-52.

[17]鲁晓春,詹荷生.关于配送中心重心法选址的研究[J].北京交通大学学报,2000,24(6)：108-110.

[18]Arthur D.k-means++：The advantages of careful seeding[A].Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms[C].2007.

[19]数据超市.百度地图POI-全国各城市“快递网点”数据（3.1万条）[EB/OL].http：//www.data-shop.net/.

[20]程珩,牟瑞芳.物流配送中心选址的重心法探讨[J].交通运输工程与信息学报,2013,11(1)：91-95.

[21]Swami A,Jain R.Scikit-learn：Machine Learning in Python[J].Journal of Machine Learning Research,2012,12(10)：2 825-2 830.

Solving Multiple Distribution Center Location Allocation Problem Using K-Means Algorithm and Center of Gravity Method

Xu Yanchen,Dai Tao
(Donghua University,Shanghai 200051,China)

Abstract: This paper analyzes the characteristics of the P-median model,expounds the limitations of traditional models and algorithms in solving selection problems involving a large number of demand points, puts forward the idea of combining the improved K-Means algorithm with the center of gravity method to solve such problems,and proposes to use noise rate to characterize the effect of site selection.Next,it designs a numerical experiment using public data and proves that the algorithm is convergent and practical.

Keywords: K-Means;center of gravity method;multiple facility site selection;P-median model;mass data

[中图分类号] F224.0；F252.14

[文献标识码] A

[文章编号] 1005-152X(2019)06-0069-05

doi: 10.3969/j.issn.1005-152X.2019.06.014

[收稿日期] 2019-04-17

[作者简介] 许彦宸（1995-），男，上海人，东华大学硕士研究生，研究方向：机器学习算法；戴韬（1983-），男，浙江人，东华大学管理学院副教授，研究方向：服务运作管理、物流与供应链管理等。

标签：k-means论文; 重心法论文; 多设施选址论文; P-中值模型论文; 海量数据论文; 东华大学论文;