基于并行Apriori的物流路径频繁模式研究
曹菁菁1,任欣欣2,徐贤浩2
1.武汉理工大学 物流工程学院,武汉 430063
2.华中科技大学 管理学院,武汉 430074
摘 要: 传统的频繁路径挖掘分析主要通过关联规则算法实现,但其在处理大型数据集时,会产生占用内存过多,数据处理速度慢等问题,对此提出一种基于Fuzzyc-means聚类算法的并行Apriori算法模型。该模型通过Fuzzycmeans算法完成对原始数据集的聚类分析,将同一区域的物流路径数据划分到内部相似度较高的数据类,并利用Apriori算法对各数据类中的频繁模式进行挖掘分析,进而获得各区域的物流频繁路径。同时通过Hadoop平台实现算法的并行化,有效提高算法运行效率和质量。通过对物流频繁路径的挖掘分析,使管理者更清楚货物流向,可为配送路径优化等决策提供支持。
关键词: 大数据;频繁路径;Hadoop;Fuzzyc-means聚类算法;Apriori算法
1 引言
随着科学信息技术的不断进步和发展,信息数据已经渗透到当今各个行业和业务职能领域,且产生速度呈爆炸式增长,大数据成为必然的发展趋势。在物流领域,随着物流现代化进程的持续推进,其信息化水平不断提高,RFID、GPS和GIS等信息技术广泛应用于采购、库存记录、货物出入库和在途运输等物流作业环节,并产生大量数据信息。通过对RFID、GPS等产生的货物路径数据的频繁模式进行挖掘分析,能够发现货物运输的路径规律,对优化物流配送、优化运输决策、优化物流配送中心库存决策等提供数据支持。目前,频繁项集挖掘分析多数运用关联规则算法,但由于大数据量大、类型多、价值密度低等特点,传统数据挖掘算法很难适应大数据处理环境。所以,目前多数研究主要是解决如何借助大数据处理平台实现传统算法的并行化,提高计算机对海量数据的存储和计算的处理速度,以及结合物流网络的独特性对频繁路径挖掘算法的改进等问题。
对大数据处理平台的研究方面,Tsai C F等人[1]通过比较大规模数据集中的分布式和MapReduce方法在开采精度和效率方面的性能差异,并由实验验证基于MapReduce的程序的分类性能非常稳定,无论使用多少个计算机节点,都优于基线单机和分布式程序,且运行成本低。Ramamoorthy S等人[2]提供了基于Map-Reduce算法的优化数据和服务分析以及Big Data分析技术,云服务提供商可以从多个集群的过去历史分析中维护频繁服务的日志,以预测频繁的服务,通过这种分析,云服务提供商能够推荐其他云客户使用的频繁服务进行相同的查询,从而该方案自动增加云环境中的客户数量,并对云存储中的数据进行分析。Agarwal P等人[3]定义了普遍出现的数据协调问题,并展示如何使用MapReduce关联不同的数据源,且通过现实生活中的企业数据协调案例研究来改进相应的研究技术。
在大数据背景下,关于物流方面的研究,苏桂贤[4]介绍了在物流配送环节中数据挖掘技术应用情况,并分析其中存在的主要问题。过杭斌[5]则介绍了物流运输系统中涉及到的数据挖掘技术,并针对所研究的问题提出了一种建立在数据挖掘技术基础上的物流运输模型。郑军等人[6]着重介绍了聚类分析在物流管理领域的应用现状和技术优势,并针对物流网点分布及货物运输等问题,利用数据挖掘技术进行解决分析。关于频繁项集的挖掘研究方面,Wu X等人[7]结合MapReduce提出了一种ISbFIM算法,用于基于迭代采样的频繁项集挖掘,极大提高了数据处理效率。Luo W等人[8]在大数据的环境下,综合考虑后缀最优、长度不敏感和无瓶颈三个关键属性,提出一种基于时间段的最频繁路径搜索算法以及新的索引,加速对数据的处理速度。Zhou F[9]主要讨论了图,对最大频次子图挖掘的特殊情况,即最长路径挖掘算法进行了分析,并在此基础上提出了一种有效的最长路径挖掘算法。何柏英[10]基于MapReduce并行处理的特征,将物流路径无回路的网络特征作为剪枝条件,对AprioriAll算法进行改进,从而提高对物流路径数据的存储计算能力,以及对频繁路径的挖掘运行效率。唐颖峰等人[11]针对在智能交通领域传感器网络中数据流的典型特点,提出了一种建立在分布式窗口树的基础上的分布式数据流闭频繁模式挖掘算法。该算法通过对分布式窗口树的不断更新、剪枝和挖掘可以加快对数据的处理速度,得出闭频繁模式,对用户的需求做出及时反应。程军锋[12]根据聚类算法在数据流处理中存在的问题及数据流的特点,借鉴传统CluStream算法的在线和离线的框架,利用蜂群算法定义聚类分析中的相关参数和聚类的特征结构等,提出了ABCCluStream算法,提高了对数据流的聚类质量。于彦伟等人[13]针对空间数据流任意形状聚类簇的问题,提出了一种基于密度的空间数据流在线聚类算法,该算法降低了聚类更新过程中的复杂度,可以快速处理大量的空间数据流,具有实时获取聚类结果和发现孤立数据点的优势。
在评书演员中,他是劳模;在评书迷的心中,他是单爷;在普通听众心中,他是永不消失的那个麒派的嗓子。他的嗓音是模仿秀时的模仿对象,人们会学他的口音播天气预报和解说足球。(年轻人若说声音辨识度,可能是郭德纲、林志玲和单田芳。)他把自己说成了文化符号,从八十年代就大量出版评书,一度成为评书的代称,像郭德纲成了相声的代称一样。他曾把评书出成磁带,也曾改过电视剧,可想按磁带录的时长和成本来算,听众再爱听也不可能买一箱回家,这并不成功,但他始终在经营公司,让人想这位老人一生为什么那么拼命,他到底经历了什么。
基于以上背景,本文主要针对物流企业货物在全国各地的运输路线分布以及各路线的使用频次等情况,利用企业管理信息系统中物流活动数据库中的货物路径相关信息,借助Hadoop运行平台,采用本文提出的基于Fuzzyc-means聚类算法的Apriori并行算法模型对海量物流路径数据进行关联挖掘分析,得出不同区域中蕴含的频繁路径,使企业管理人员可以清楚地了解货物的流向,并对其运动轨迹进行预测,从而可以优化物流环节,降低物流运输成本,为企业管理者提供物流经营的相关决策支持。
2 算法模型
2.1 基于Fuzzyc-means的Apriori并行算法
Apriori算法是关联规则分析的经典算法之一,通过采用逐层搜索的迭代的方法分析数据集中的频繁项集,算法简单明了,且易于实现。但该算法对整个数据集的扫描次数过多,在每生成一个频繁候选集时都要对数据集进行一次全面的扫描,若要生成长度为K的频繁项集,就需对整个数据集扫描K+1次。并且,处理大型数据集时,在内存容量有限的情况下,系统I/O的负载过大,严重影响了算法的运行效率,不利于频繁模式的挖掘。通过利用MapReduce实现Apriori算法的并行化可以有效提高算法的运行效率。此外,Apriori算法是针对全局数据集中的频繁模式进行挖掘分析,但对于物流企业而言,局部区域数据集中蕴含的物流频繁路径在企业决策过程中同样具有重要的研究价值,但由于某些局部区域路径数据较少,使得对该区域而言是频繁路径的序列,在对全局频繁路径挖掘分析的过程中因不满足最小支持度的条件而舍弃。
通过物流路径的这些性质可以对各簇中得出的频繁路径序列进行分析合并,获得最终的物流频繁路径序列。
在得到各数据类中的频繁模式后,本文主要通过利用物流网络中频繁路径的一些性质对各数据类的结果进行合并分析,得出最终的物流频繁路径结果。在其他相关研究中这些性质多数被用于算法模型中的剪枝操作,进而提高算法的运行效率。本文主要利用相关性质具体利用的性质如下。
性质1货物在配送的过程中,移动路径不会出现重复,所以最后的路径数据不会出现回路[10]。
性质2当得出的一条频繁路径是另一条频繁路径的子路径时,在结果中可将该子路径舍去。如设两条频繁路径P1=<a1,a2,…,am>,P2=<b1,b2,…,bn>,若整数m和n满足m<n,且a1=b1,a2=b2,…,am=bn,则P1为P2的子路径,在最终的结果中将这两条路径合并,只显示频繁路径P2[10]。
为说明基于Fuzzyc-means的Apriori并行算法模型在对区域范围内物流频繁路径挖掘的有效性,本文将该模型与Apriori算法和FP-Growth算法模型进行对比实验分析,所用数据集、最小支持度min_sup以及频繁序列包含的项目数L设置均相同,其中min_sup=0.75,L=5。实验运行结果如表5所示。
据此,本文提出了建立在Hadoop数据处理平台基于Fuzzyc-means的Apriori并行算法。通过Fuzzycmeans算法完成对数据集的聚类分析,把数据集划分为内部相似度较高的数据簇,即将同一区域的路径数据划分为一类,在此基础上运用Apriori算法对各数据簇中蕴含的频繁模式进行挖掘分析,最后对各数据簇的结果分析合并,得出各区域的频繁路径序列。另外,为适应大数据的处理特点,本文利用Hadoop数据处理平台中的MapReduce和Mahout子项目实现算法的并行化,进一步提高了算法对海量数据处理的处理效率,以及对数据集的适应性。图1为该方法的流程图。
2.2 基于Hadoop平台的算法并行化实现
Mu:No,no,no.Master is so happy today.He will not refer to the debts.Come with me.
Fuzzyc-means算法是一种应用非常广泛的聚类算法。最早的模糊划分的概念由Ruspini提出[15],而Fuzzycmeans算法是Jim Bezdek在1973年利用模糊聚类推广到基于模糊度m的一般形式[16]。与其他算法相比,Fuzzyc-means聚类算法有更明确的数学理论依据,且其在实际应用中的可行性更高。Fuzzyc-means聚类算法的原理和k-means算法类似,都是预先设定聚类类别数和终止条件阈值等参数,通过距离度量数据与聚类中心的相似度,并不断更新聚类中心,最终将原始数据集划分为内部相似度高,之间相似度低的数据簇。但与kmeans算法不同的是Fuzzyc-means聚类算法利用了模糊理论的观点,不是将数据特定且唯一的划分到某一数据簇,而是通过数据对各数据簇的归属程度来表现属于各数据簇的概率大小。Fuzzyc-means的算法主要思想可用以下数学规划表示:
其中,C表示聚类的数据簇的个数,n表示数据总量,表示xj到数据簇Ci的质心ci的距离,uij表示第 j个数据属于第i个数据簇的隶属度,m表示模糊参数,且当m趋近于1时,Fuzzyc-means算法与k-means算法越接近,但Fuzzyc-means收敛速度快,运行效率高,聚类效果更好。Fuzzyc-means算法具体实现步骤如下:
结合图3,基于MapReduce的Apriori算法并行化的实现过程为:首先,将Fuzzyc-means处理结果中的一个数据簇做分块化处理,调度一个mapper分析一个数据块中的频繁1-项候选集,之后利用reducer将局部频繁1-项候选集与全局数据集进行比对,计算各事务项出现的频数,并与最小支持度min_sup比较,得出全局频繁1-项集;其次,通过与全局数据对比,由频繁1-项集产生频繁2-项集的候选集;然后循环上述步骤,直至频繁K+1项候选集为空集,并最终得到该数据簇中的全局频繁K-项集。在传统Apriori算法思想的基础上,借助Hadoop平台中的MapReduce模型进行多次迭代和数据库的扫描,完成支持度的计算,实现算法的并行化,使数据处理速度和质量得到明显的提高。
图1 基于Fuzzy c-means的Apriori并行算法流程图
步骤2按照公式(1)更新聚类中心向量C(k):
步骤3 按照公式(2)更新隶属度矩阵U(k),U(k+1):
步骤4若||U(k+1)-U(k)||<ε,则输出隶属度矩阵U和聚类中心向量C,否则令k=k+1,返回步骤2进行下一轮迭代。
本文主要通过Hadoop平台中的开源项目Mahout实现Fuzzyc-means算法的并行化。算法的并行化过程可主要分为两大部分:第一部分为循环部分,主要通过Fuzzyc-means Driver任务实现,用于判断在本轮运行中计算所得的准则函数是否满足预先设定的阈值,满足则结束循环,否则继续执行循环体;第二部分是循环体部分,主要通过Fuzzyc-means Mapper任务和Fuzzycmeans Reducer任务实现,用于实现算法的主要计算过程,在该部分可通过设置Fuzzyc-means Combiner任务提高算法的运行效率[17]。图2是Fuzzyc-means算法并行化的原理图。
在Fuzzyc-means算法并行化的过程中,输入主要分为输入数据文件和初始聚类中心向量的文件,可通过设置参数自动在原始数据集中提取k个值作为初始中心点。Fuzzyc-means Driver主要通过判别算法运行的误差是否达到阈值或循环运行的次数是否为给定的最大次数来控制循环。在算法循环运行的过程中,新的聚类中心依据前一次的中心点和新输入的数据重新计算获得,并存储到新的中心点文件路径。Fuzzyc-means Mapper主要通过setup函数读取数据,并通过预先设定的计算距离的方法将数据划分到距离最近的聚类中心簇中,输出的结果中key为类的标签,value为数值;Fuzzyc-means Combiner通过获得Mapper任务的输出,并对其进行整合,得到最终输出;Fuzzyc-means Reducer主要通过设置一个Reduce任务,获得Combiner的输出,并将具有相同key值的数据整合并输出。在算法执行的最后一步是通过一个Fuzzyc-means Mapper任务依据最后一次的中心点对输入数据进行聚类,得到最终的聚类结果,该过程不通过Reducer和Combiner操作[17]。
图2 Fuzzy c-means算法并行化原理图
2.2.2 Apriori算法及并行化实现
Apriori算法在1994年由Agrawal等人提出[18],是一种经典的关联规则算法。该算法通过找出数据集中所有的频繁项,再由频繁项之间产生强关联规则,是一种基于两阶段频繁项的递推算法。Apriori算法具体的实现步骤如下:
只有通过建造历史、材料组分与特征分析,劣化迹象的科学检测评估,才能准确地选择和应用适宜的修复技术,才能最大可能地真实保存地面材料与特征,实现德式历史建筑可持续利用.
步骤1根据事先设定的最小支持度min_sup,在相似度较高的数据簇中生成频数大于min_sup的项集,即频繁 1-项集 L1。
步骤2根据频繁k-项集生成频繁k+1项集的候选集。
步骤4循环步骤2和步骤3,直至频繁k+1项集的候选集为空集。
步骤3扫描数据集,在步骤2中的候选集中生成频数大于min_sup的频繁k+1项集。
①溃坝数量最多的为云南省61座,其次为吉林、广东、湖南、广西、新疆等省(自治区),均在20座以上。从时间分布看,主要集中于20世纪90年代,10年间共溃坝246座,最多年份为1994年,溃坝54座。进入2000年以后,溃坝数量明显减少,统计为60座。
由上述步骤可以看出,Apriori算法需要对数据集进行多次扫描,在处理海量数据集时会使系统 I/O的负载过大,严重影响算法的运行效率,而Hadoop平台可以提供具有良好并行读取的HDFS存储,为Apriori算法运行性能的提高提供了可能性。并且,Apriori算法具有良好的分布性,其涉及的计算多数为类似计数的过程,而Hadoop中MapReduce模型的经典应用就在于对web数据的词频挖掘中,所以Apriori具有良好的符合MapReduce的性质。基于MapReduce的Apriori并行算法的实现流程如图3所示。
步骤1算法的初始化,首先确定聚类类别数C,2≤C≤n,n为数据总量,设置迭代终止条件阈值ε,其次初始化隶属度矩阵U=[uij],表示为U(0),且初始化聚类中心C=[ci],表示为C(0)。
3 实例验证
图3 基于MapReduce的Apriori并行算法流程图
本文涉及到的实验是基于一个Hadoop伪分布模式,该模式可以通过Java对Hadoop中的完全分布模式进行模拟,实现在单台机器上模拟集群以及其他完全分布模式下的功能。所用服务器的处理器的型号是ADM Athlon™X4740 Quad Core Processor 3.20G,操作系统是Ubuntu14.04,使用的Hadoop的环境安装包为Hadoop-2.8.0,开发工具为IntelliJ IDEA v13.133.193版本,通过Java语言编码实现,依靠HDFS实现数据的存储过程。
3.1 数据的采集和预处理
本文利用一种适用于关联规则的IBM数据生成器生成原始数据,用于模拟货物物流的路径信息,该数据生成器也是Agrawal等人[18]在研究Apriori算法时用于生成数据的。其生成过程是首先生成一个潜在的频繁项目集,然后根据各数据之间的相关性从潜在频繁项目集中选取数据组成要进行分析的事务序列。具体的参数设置为:事务数=1 000 000,每个事务序列的平均长度=10,项目个数=100,用0~99表示,潜在频繁项目集的个数=10 000,平均长度=4。本实验中将项目假定为货物运输中经过的地点,如项目0表示深圳,项目1表示嘉兴,其余项目表示的地点见附录。为满足Fuzzyc-means算法对数据集维度的要求,将数据转换为布尔型,出现的项目用1表示,未出现的项目用0表示,如事务序列1的第一个项目为3,在布尔型转换结果中事务序列1的第四位用1表示。
3.2 数据分析及频繁模式挖掘
将生成的数据集转换为布尔型后,在Hadoop数据处理平台上利用本文提出的基于Fuzzyc-means的Apriori并行算法模型对其中蕴含的频繁序列进行挖掘分析。本文分别针对k=2,k=3和k=4三种情况对数据集进行Fuzzyc-means聚类分析,然后利用Apriori算法分析得到各数据类的频繁序列,其中min_sup=0.75,各序列中所包含的项目数L依次为1,2,3,4,5。本文主要针对k=3时的频繁模式挖掘进行具体的分析,表1、表2和表3分别为类1、类2和类3的部分运行结果。
2.2.1 Fuzzyc-means算法及并行化实现
由运行结果可以得出,随着序列中项目数的增加其频数呈下降趋势,所以可以得出以下结论:类1中的最频繁序列为0→86,则表明深圳→天津为类1这一区域的最频繁路径,该路线上货物运输的频次较大,最频繁的项目为0,则表明在深圳市的货物运输频次较大;同理,类2中的最频繁序列为1→86,即嘉兴→天津为该区域的最频繁路径,最频繁的项目为1;类3中的最频繁序列为42→86,即上海→天津为该区域的最频繁路径,最频繁的项目为86。由于得出的频繁序列数量较大,本文根据定理“频繁路径的子路径均为频繁路径”以及物流网络的性质对各类的频繁模式进行分析合并,得出较长的频繁序列。例如若0→42→74→86→97、0→42→74→86→88和0→42→86→88→97均为频繁序列,即表示深圳→上海→苏州→天津→沈阳、深圳→上海→苏州→天津→北京和深圳→上海→天津→北京→沈阳为物流频繁路径,即可推断出较长的频繁序列0→42→74→86→88→97,即深圳→上海→苏州→天津→北京→沈阳。据此对k=3,L=5中前50条频繁序列结果进行分析合并,具体结果如表4所示。
身为老板真正要做的,首先是最大程度确保公司存活下来,其次筛选出合适的同行者,给予充足的物质与精神奖励,进而激发他们为公司创造更大的利益。
表1 k=3时类1的部分运行结果
表3 k=3时类3的部分运行结果
表2 k=3时类2的部分运行结果
此外当k=2时,结果中类1的最频繁序列为0→86,即深圳→天津,最频繁项为0,类2的最频繁序列为42→86,即上海→天津,最频繁项为86。当k=4时,类1的最频繁序列为0→86,即深圳→天津,最频繁项为0,类2的最频繁序列为42→86,即上海→天津,最频繁项为86,类3的最频繁序列为1→2,即嘉兴→金华,最频繁项为2,类4的最频繁序列为1→2,即嘉兴→金华,最频繁项为2。所以k=2、k=4和k=3时得到的结果大致相同,且最频繁序列均包含0→86和42→86。以此可以得出在Fuzzyc-means算法分析中k值的选取对本文提出的算法影响较小。
综上所述,在k值不同的情况下,分析得出的频繁序列中项目86、42、88、97、74、57、30、34的支持度很高,即说明天津、上海、北京、沈阳、苏州、沧州、南京和许昌等地的货物输运量较大,可以将其作为物流仓储中心选址的备选方案。另一方面,由这些项目构成的事务序列可视为频繁路径序列,且其支持度较高,企业管理者可据此对货物运输路线的选择与优化以及货物的装车等做出决策,从而提高货物的运输效率和物流服务水平,减少物流成本,增强企业在行业中的竞争力。由此可见,在大数据环境下的物流路径频繁模式的挖掘分析对物流作业的相关决策及作业效率的提高具有极其重要的研究价值和应用价值。
3.3 实验结果对比
(1)对比分析实验1
2.3 各年龄段患儿非典型病原体总检出情况 九种呼吸道感染病原体总阳性率,<1岁组为12.81%(51/398)最低,≥3岁组为49.75%(99/199)最高。从<1岁组到≥3岁组,阳性率随年龄增加而增高。<1岁组 MP、RSV阳性率排前两位,而其他组以上患儿以 MP、INFB阳性率排前两位。见表2。
性质3利用物流网络具有的特点进行分析合并,具体表现为以下两点。其一是对于路径序列里任何相邻的两点在物流运输网络中也是相邻的,比如A点与C点不相邻,只能通过B点或D点进行连接,所以在最后的频繁路径结果中不能出现A→C,只能有A→B→C或者A→D→C。其二是如若一条频繁路径的k-1序列是另一条频繁路径去掉第一个节点的子路径,如频繁路径 A→B→C和 B→C→D,就可将其合并为A→B→C→D[14]。
由实验结果可以得出,通过传统的关联规则算法可挖掘出全局数据集中存在的频繁序列模式,其中,Apriori算法模型得出的频繁序列共25条,各频繁序列在数据集中的频次为7 400~9 800,FP-Growth算法模型得出的频繁序列共14条,各频繁序列在数据集中的频次为5 100~9 800。通过本文提出的基于Fuzzyc-means的Apriori并行算法模型可挖掘出内部相似度较高的各数据类中存在的频繁序列模式,其中,数据类1中挖掘的频繁序列共2 382条,各频繁序列在数据类出现的频次为600~2 700,类2中挖掘的频繁序列共1 610条,各频繁序列在数据集中的频次为1 500~6 100,类3中挖掘的频繁序列共18条,各频繁序列在数据集中的频次为5 200~6 600。
表4 k=3时频繁模式分析结果
表5 基于Fuzzyc-means的Apriori算法、Apriori算法和FP-Growth算法对比分析实验部分结果
通过上述分析可以看出,在利用本文提出的基于Fuzzyc-means的Apriori并行算法模型得出的结果中,数据类1中的频繁序列出现的频次相较于Apriori算法和FP-Growth算法得到的全局频繁序列的频次相差较大,这就导致直接利用传统的关联规则算法对全局数据进行频繁序列挖掘的结果中不会包含数据类1的结果。该现象反映在实际应用中可解释为,由于某一区域的路径数据在全局数据集中占比较小,导致该区域中存在的频繁路径在全局频繁序列挖掘过程中被忽略,未能显示在最终的结果中,但在实际应用中,对这类区域的物流路径等的规划也是企业整体决策的重要组成部分之一,所以发现区域性的频繁路径具有重要的实际意义。其次,Ariori算法和FP-Growth算法的分析结果均存在于本文提出的算法模型的运行结果中。因此,本文提出的基于Fuzzyc-means的Apriori并行算法模型相比于传统的关联规则算法更具有实际应用价值。
(7)大粒径沥青混合料压实。采用13t双钢轮振动压路机对大粒径沥青混合料基层进行压实,数量为3台。压路机应紧跟在摊铺机后碾压,碾压3遍后,若仍有明显的轮迹,应继续碾压,直至无明显轮迹[5]。初压及终压温度分别不得低于150℃和90℃。
(2)对比分析实验2
除此之外,西门子的创新产品还有Sinamics G120X系列变频器,对基础设施行业中的风机和泵的应用进行了优化。该设备可以借助Sinamics Connect 300连接到MindSphere,使用户能够分析从变频器、驱动链和机器设备中所收集的运行数据以优化其过程和维护策略。Sidrive IQ是西门子为分析和利用来自驱动系统的数据所提供的数字平台,借助于联网的西门子驱动系统,这种基于云的应用现在已经能够用于中高压电机和变频器。
No adverse event was found for the 148 participants included in the present study.
本文对基于Fuzzyc-means的Apriori算法和基于kmeans的Apriori算法进行对比实验分析,进而说明相比于k-means算法,Fuzzyc-means算法在本模型中应用的性能更优。实验中所用数据集、最小支持度min_sup、数据类k值以及频繁序列包含的项目数L设置均相同,其中min_sup=0.75,k=4,L=5。部分实验运行结果如表6所示。
由实验结果可以看出,基于Fuzzyc-means的Apriori算法和基于k-means的Apriori算法获得的频繁序列数量相差较小,且在各算法中频数较高的频繁序列基本相同。但对于一些序列,如“1,42,86,88,97”,其存在于两个算法的频繁序列挖掘结果中,但在基于Fuzzyc-means的Apriori算法中频数为6 050,而在基于k-means的Apriori算法中频数仅为257。当将最小支持度min_sup小幅度增大时,这类频繁序列在基于k-means的Apriori算法运行结果中将被忽略,但在基于Fuzzyc-means的Apriori算法运行结果中,其依旧是频数较高的频繁序列。所以对于两个算法运行结果中均存在的频繁序列,基于Fuzzyc-means的Apriori算法相比于基于k-means的Apriori算法受min_sup的影响更小,具有更优的性能。
采用NG出口温度同SCV水浴温度的串级控制,串级控制方案如图1所示,主被控变量是NG出口温度TIC001,副被控对象为水浴温度TIC002,操纵变量为燃料气的流量。该方案将影响水浴温度的相关干扰因素如燃料气的流量、发热量、压力、风量和燃料气的配比等引入副回路,取得不错的效果[8]。
4 结束语
通过借助大数据处理平台,利用数据挖掘技术对物流作业环节产生的海量数据信息进行挖掘分析,成为近几年优化物流作业环节的热点研究问题。本文提出一种基于Fuzzyc-means聚类算法的并行Apriori算法模型,首先通过Fuzzyc-means算法对数据集进行聚类分析,将同一或邻近区域的路径数据划分为一类,使得Apriori算法分析的目标更加明确,在整体上提高对数据的处理质量。其次借助Hadoop数据处理平台实现了并行化,进一步提高了算法的运行效率,可以实现对海量数据的挖掘分析,进而满足在大数据环境下对物流路径频繁模式挖掘研究的需求。
4.1 气候条件:番茄不耐高温、强光、雨涝,露地栽培病害主要发生在高温多雨季节,暴风雨会给植株造成伤口,有利于病菌侵入,高温高湿是病害发生的重要条件,特别是风雨过后,遇上几天高温天气,更利于病害发生流行,造成该病的严重危害。温度在15℃以上和相对湿度在80%以上的条件有利于发病。
表6 基于Fuzzyc-means的Apriori算法和基于k-means的Apriori算法对比分析实验部分结果
研究中的不足在于,在实例验证部分由于难以获得真实的物流公司货物配送路径数据,转而采用关联规则数据生成器产生模拟数据集,使得提出的算法模型的性能未能得到真实数据集的验证,这也是在今后的研究中需进一步完善之处。此外,得到物流频繁路径后,在之后的研究中将对物流频繁路径的优化、配送中心的选址等物流决策问题进行进一步的研究,为管理者提供决策支持。
参考文献:
[1]Tsai C F,Lin W C,Ke S W.Big data mining with parallel computing:a comparison of distributed and Map-Reduce methodologies[J].Journal of Systems&Software,2016,122:83-92.
[2]Ramamoorthy S,Rajalakshmi S.Optimized data analysis in cloud using BigData analytics techniques[C]//Fourth International Conference on Computing,Communications and Networking Technologies,2014:1-5.
[3]Agarwal P,Shroff G,Malhotra P.Approximate incremental big-data harmonization[C]//IEEE International Congress on Big Data,2013:118-125.
[4]苏桂贤.数据挖掘技术在物流配送管理中的应用[J].赤峰学院学报(自然科学版),2013,29(11):76-77.
[5]过杭斌.数据挖掘及其在物流运输系统中的应用研究[J].物流技术,2011,30(9):79-81.
[6]郑军,金贻,鄢吉多,等.数据挖掘技术在物流管理中的应用[J].贵阳学院学报(自然科学版),2013,8(2):32-34.
[7]Wu X,Fan W,Peng J,et al.Iterative sampling based frequent itemset mining for big data[J].International Journal of Machine Learning and Cybernetics,2015,1(6):1-8.
[8]Luo W,Tan H,Chen L,et al.Finding time period-based most frequent path in big trajectory data[C]//ACM SIGMOD International Conference on Management of Data,2013:713-724.
[9]Zhou F.The longest frequent path mining of digraph and its application[J].International Journal of Advancements in Computing Technology,2013.
[10]何柏英.云计算环境下物流路径数据挖掘研究[D].合肥:合肥工业大学,2013.
[11]唐颖峰,陈世平.一种面向分布式数据流的闭频繁模式挖掘方法[J].计算机应用研究,2015,32(12):3560-3564.
[12]程军锋.基于人工蜂群算法的数据流聚类研究[J].首都师范大学学报(自然科学版),2015,36(6):24-29.
[13]于彦伟,王沁,邝俊,等.一种基于密度的空间数据流在线聚类算法[J].自动化学报,2012,38(6):1051-1059.
[14]杨俊瑶.基于物联网的物流路径规划与频繁路径挖掘的研究[D].南宁:广西大学,2014.
[15]Ruspini E H.A new approach to clustering[J].Information&Control,1969,15(1):22-32.
[16]Bezdek J C.Pattern recognition with fuzzy objective function algorithms[M].Norwell,MA,USA:Kluwer Academic Publishers,1981.
[17]樊哲.Mahout算法解析与案例实战[M].北京:机械工业出版社,2014.
[18]Srikant R,Agrawal R.Mining generalized association rules[C]//International Conference on Very Large Data Bases,1995:407-419.
Research on Logistics Path Frequent Patterns Based on ParallelApriori
CAO Jingjing1,REN Xinxin2,XU Xianhao2
1.College of Logistics Engineering,Wuhan University of Technology,Wuhan 430063,China
2.School of Management,Huazhong University of Science and Technology,Wuhan 430074,China
Abstract: The traditional method of frequent path mining analysis is realized by the association rule algorithm.However,when dealing with large data sets,the traditional association rules algorithm will take up too much memory and process data slowly.In this paper,a parallel Apriori algorithm based on Fuzzyc-means clustering algorithm is proposed.The model performs clustering analysis of the original data set by Fuzzyc-means algorithm,divides the logistics path data which is considered as the same district into a data cluster with high similarity.Then the model utilizes the Apriori algorithm to mine the frequent paths in this district,so as to obtain the frequent logistics path of each area.Meanwhile,the algorithm is parallelized through the Hadoop platform,which can effectively improve the efficiency and the quality of the algorithm.Through the analysis of the frequent path of logistics,managers can better understand the flow of goods and make the decision of the optimization of the delivery path.
Key words: big data;frequent path;Hadoop;Fuzzyc-means clustering algorithm;Apriori algorithm
文献标志码: A
中图分类号: TP181
doi: 10.3778/j.issn.1002-8331.1803-0236
曹菁菁,任欣欣,徐贤浩.基于并行Apriori的物流路径频繁模式研究.计算机工程与应用,2019,55(11):257-264.
CAO Jingjing,REN Xinxin,XU Xianhao.Research on logistics path frequent patterns based on parallel Apriori.Computer Engineering andApplications,2019,55(11):257-264.
基金项目: 国家自然科学基金重点国际(地区)合作与交流项目(No.71620107002);国家自然科学基金青年项目(No.61502360)。
作者简介: 曹菁菁(1984—),女,博士,副教授,研究领域为数据挖掘和电子商务,E-mail:bettycao@whut.edu.cn;任欣欣(1994—),女,硕士研究生,研究领域为大数据分析和电子商务;徐贤浩(1964—),博士,教授,研究领域为物流与供应链管理、生产运作管理、现代项目管理。
收稿日期: 2018-03-14
修回日期: 2018-04-27
文章编号: 1002-8331(2019)11-0257-08
CNKI网络出版: 2018-08-30,http://kns.cnki.net/kcms/detail/11.2127.TP.20180828.1705.010.html
标签:大数据论文; 频繁路径论文; hadoop论文; fuzzy论文; c-means聚类算法论文; Apriori算法论文; 武汉理工大学物流工程学院论文; 华中科技大学管理学院论文;