大数据挖掘在寄递业的应用
吕进龙1,徐 庆1,陈曙光2
(1.安徽省阜阳市农业物联网发展研究院,安徽 阜阳 236000;2.阜阳师范学院 物理与电子工程学院,安徽 阜阳 236000)
摘 要: 随着电子商务的蓬勃发展,专门提供运输平台的寄递行业呈现持续高速发展的态势,一些非法分子通过邮政、快递渠道寄递违禁品的案件越来越多。随着大数据时代的来临,寄递行业选用应用软件系统对数据进行专业管理很有必要。文中设计的系统使用大数据挖掘和数据建模技术,能够针对寄递行业的大数据进行数据查询、数据分析、数据统计和数据预警。该软件系统对寄递行业发现异常邮包、降低自身风险、协助侦破违法案件等方面具有重大意义,应用前景广阔。
关键词: 寄递行业;大数据挖掘;数据分析预警;查询;网络;数据抓取
0 引 言
本次研究从实战理念出发,从基础工作做起,运用先进的大数据技术对现有寄递行业数据进行整合,构建新的大数据应用系统。该系统建设包含本地快递数据以及其他相关数据的数据中心,并在此数据中心基础上与其他各地实现全国联网、异地协作等功能的邮路侦控信息化平台,通过该系统可与其他地市进行数据交换。通过该系统的建设,将极大丰富行动技术部门的信息资源,形成可甄别特定信息,查除异端快件信息的监控网络[1]。
1 系统整体设计
系统针对寄递行业特点,结合基础资料进行机主信息分析、宽带信息分析、逃犯信息分析,同时可在大数据中进行人员关系分析、号码关系分析、物品关系分析。分析的结果可保存在中间库,并进行信息共享,方便用户使用。系统设计如图1所示。
结合寄递公司基本功能要求,系统以可扩展结构实现多种数据的接入。针对不同的数据源可定制专属的数据抓取工具,实现自动化数据抓取,系统中需要附带专业的数据抓取工具。应对不同的数据格式,实现可动态配置的数据格式化工具,数据格式化由数据格式化软件负责,数据格式化软件运行在格式化机上,主要功能包括将各种来源的数据快速、准确地转换为统一格式,同时进行数据整理和标准化处理,以便于后续的处理工作。抓取的源数据其来源与格式千差万别,具有数据量大、实时性要求高等特点,是本系统处理的重点。数据格式化在进行数据标准化处理时,需要进行解压、解析、数据标准化整理、预警等过程,具有统一的查询平台和查询接口,统一的预警体系和预警接口等[2-3]。
现在由于姿势不正确或颈椎的退行性改变等因素导致的颈椎病发生率较高。颈椎病可压迫神经出现一系列的功能障碍,包括颈背的疼痛,上肢无力、僵硬,手指麻木,甚至头晕、头痛。颈椎病引起的头痛多为颈部肌肉血液循环受阻或椎动脉受压所致,多发生于枕部,是放射性头痛,同时多有头晕,跟颈部体位变换多有关系,而不是单纯的神经性头痛,会伴发背部、肩部、手指的麻木。
图1 系统设计
2 大数据挖掘与应用
系统支持普通查询和综合查询。对于普通查询而言,可以针对某个字段,如号码、基站代码、机身码进行查询,在普通查询时可以输入多个条件进行批量查询。为了提高工作效率,这些条件既可人工输入,也可以从其他文件中导入。综合查询时操作员可根据需要设置各种查询条件,这些条件用“与”“或”逻辑关系组合起来[4]。
2.1 大数据挖掘
(5)找出邮递频率比较高的记录,分析其发送邮包的内容,查验是否包含违禁品。
当产生了抽象模型,可以针对每一个人积累的数据进行模式匹配和模式识别,从而进行针对某种特定需求的操作判断。比如一家销售化妆品的公司可以对积累的海量用户消费数据进行筛选,根据模型识别匹配出目标客户群,从而找到目标客户群,并进行有针对性的营销,不同用户群接触的媒体类型不同,寻找每个人的媒体接触习惯与接触时间,甚至能够预测下一次将在什么地方接触到,方便定向推广预定信息,做到有的放矢,提高命中率。
(4)根据特定号码收发邮件的时间来分析特定号码的活动规律,是白天在家,还是晚上在家;是工作日在家,还是周末在家等。
(8)以物品为中心,按时间、地区、网点、人员、号码等分析出特定物品的流动特性。如突发性地在一个月内有大量笔记本电脑从A地发往B地,这样的信息极其可疑[8-10]。
2.2 大数据应用
立雇身文字人小张,今为身闲,别无营/生,自愿雇与古二处作杂色,酒店内/使唤。每月言定工钱中统钞贰拾两,按/月计算。如人天行时病,逃亡走失,一切违/碍并不干雇主之事,同雇人一面承管。/一写已后,各无番悔,如有先悔者,罚钞/壹拾两与不悔之人受用。恐后无凭,/故立此雇人文字为照用。/至正元年八月初四日立雇身人小张/同雇人太黑奴/□□□
(7)通过归属地与地址不符分析,找出手机归属地与收件地址不符的信息,进一步排除。
(2)通过关系网分析,集合号码查询关系人或者关系人的关系人等多层次联系对象的话单。该模型是联系圈模型及多层次联系对象现场比对分析等模型的基础。以号码为第一层号码对其联系对象进行统计;以第一层号码的联系对象为第二层、以第二层的联系对象为第三层,依次类推,直到指定层次,组成一个关系集合。
(3)根据人与群分的特性,多个嫌疑人可能有共同联络人,输入一批嫌疑号码,找出与他们有共同联系的人,这些人也带有一定的嫌疑性。
企业发展需要员工具有较高的综合职业能力,包括创新意识和创新能力、组织执行力、交往与合作能力、学习与思维能力、独立性与责任感等,这就需要我们在教学过程中突出强化和渗透这种能力。
大数据的挖掘运用越来越向定制化、个性化方向发展。个性化才能收到最佳效果,而个性化来自于精准的判断,精准的判断来自于丰富的模型和经验。因此只有挖掘出有价值的信息,才能使应用更广泛[6-7]。
大数据使用计算机进行分析处理。针对海量数据,人脑的处理速度远远不比计算机处理速度快、效率高。比如对不同的粗糙粒度进行全维度分析,就需借助人机综合系统,而这就是科技发展带来的优势[5]。
(6)系统找出一个电话采用不同地址收发邮件的记录或找出收发双方采用不同快递收发邮件的信息,查验是否具有涉嫌零散组装货物,逃避检查的嫌疑。
系统运用大数据挖掘技术,使用预先建立的数据模型进行大数据分析。系统的主要功能包括名址查询、快速查询、组合查询、全文检索、查询模板、结果再处理、专题数据、城市信息查询、归属地查询、重点库查询、从业人员查询、服务结果、审批查询、日志查询等。通过上述操作可以现实以下功能。
(1)通过号码(姓名、地址)等分析多个号码(姓名、地址)间是否有快递联系,可在后台执行。从资料库或中间库中找出一组号码中存在的记录,或该组号码不存在的记录。根据联系人、姓名、地址不变的原则,以原号码为基础,找出某两段时间内同一姓名地址使用与原号码不同的通讯工具,该通讯工具基本可判定为同一人使用。
这场两天期限的旅行还未满就结束了,下山后田铭把范青青直接塞进汽车拉回市区。和范青青相处以来,他第一次心里充满莫名的嫉妒。
对于稀疏解混模型,其包含了一个完备的端元光谱库,该光谱库通常是通过实验条件或者野外采集等手段获取,再将采集到的大量纯净地物光谱进行组合,里面囊括了每类端元所有可能的光谱[18]。相对于成千上万条的端元光谱库,而每个混合像元通常只是由3~5个端元构成,那么丰度是稀疏的,于是这就成了一个稀疏问题[15]。为此,结合稀疏表示理论,利用完备的端元光谱库构造用于稀疏分解的过完备字典,通过对丰度进行稀疏约束,将解混问题转化为稀疏回归问题进行求解。
3 结 语
本系统建立本地数据库并从各渠道实时或定时获取数据,可以有效提供数据规范化系统需要的灵活的数据规范化工具,以帮助进行数据规范化工作,加快行业标准化运营发展。
根据前期试验确定的最佳添加量,考查不同发酵温度40,41,42,43,44℃对黄精酸奶品质的影响,确定黄精酸奶的最适发酵温度。
系统实现数据比对,对业务数据、知识库内的信息进行数据关联规则和比对策略设置,实现定时或即时分析与比对,当满足条件后,自动通报比对结果。在变化的数据入库后执行相关数据比对工作,细致详尽规划查询信息,快递收件人姓名、收件人手机号、收件人地址的真实程度越高,越有助于查询异常和重点关注快件,可以提取出这类信息建立一个实时准确的人员信息库。
利用寄递行业数据真实程度高这一特性,结合已知的犯罪行为模式进行数据挖掘,可以类比出异常数据发现犯罪。后期在条件允许的情况下可以和各个公司进行联网实时取得数据,并进行预警,有助于公安系统维护社会和谐,打击犯罪活动。
注:本文通讯作者为徐曙光。
参 考 文 献
[1]陈杰.本地文件系统数据更新模式研究[D].武汉:华中科技大学,2014.
[2]罗东健.大规模存储系统高可靠性关键技术研究[D].武汉:华中科技大学,2011.
[3]王健宗.云存储服务质量的若干关键问题研究[D].武汉:华中科技大学,2012.
[4]刁莹.用数学建模方法评价存储系统性能[D].哈尔滨:哈尔滨工程大学,2013.
[5]朱明.数据挖掘[M].合肥:中国科技技术大学出版社,2002.
[6]陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.
[7]毛国君.数据挖掘原理与算法[M].北京:清华大学出版社,2005.
[8]王魁.基于物流网站的大数据挖掘系统开发及其应用[D].上海:华东师范大学,2018.
[9]何瑞娟.大数据时代下数据挖掘技术在企业中的应用[J].网络安全技术与应用,2016(12):90-91.
[10]李敏杰.基于大数据下的寄递物流管理信息系统的研究[D].南京:南京邮电大学,2014.
中图分类号: TP393
文献标识码: A
文章编号: 2095-1302(2019)08-0065-02
DOI: 10.16667/j.issn.2095-1302.2019.08.021
收稿日期: 2018-10-24 修回日期:2019-02-22
基金项目: 新型溯源系统下的国家级农业科技园区的农产品电商应用系统创新与示范(1604a0702037)
标签:寄递行业论文; 大数据挖掘论文; 数据分析预警论文; 查询论文; 网络论文; 数据抓取论文; 安徽省阜阳市农业物联网发展研究院论文; 阜阳师范学院物理与电子工程学院论文;