摘要:根据互联网的发展情况来看,个人信用的数据越来越庞大,单一维度的信用系统已经不能满足银行或者企业的需求。多元化的信用数据,应用场景的不断增加,信用载体的变化,信用数据需要更加高效和多维度的采集与使用。如何高效地数据采集,而且可以做到跨领域,跨行业,并且从各种数据源上挖掘相关的信用数据,根据各种信用数据信用系统转化为对应的信用评分,一直都是信用系统面临的课题。
关键词:信用体系;大数据;Hapdoop;Spark
引言:大数据是信用系统的基础,数据是非常重要的。良好的信用系统,可以帮助提升社会效率。举个例子,你想在某网上在线购物平台上购物,搜索关键字,看了几个小时,最后还是不能决定下单。市面上有许多开源的大数据处理引擎,其中最著名的是Hapdoop和Spark。使用大数据处理引擎,可以对系统外部数据和系统内部数据进行采集,并且对其大数据进行计算、挖掘和管理,并通过深度学习技术和数据建模技术,使数据具有“智能”。
一、信用体系构建
信用体系主要包括:信用载体,信用维度,信用等级,信用评分等。
信用载体的信用信息需要通过大数据引擎进行收集,最终收集到的信用信息保存到信用载体上。
信用维度指的是根据不同角度,不同方面去定义其信用评分。可以根据领域,行业或者某些特性区分,一个良好的信用体系,必须考虑信用维度的扩展性。
信用等级是信用评估机构对信用载体的信用信息进行评估,根据结果对信用载体的信用度划分的等级类别,它反映了信用载体的在其信用维度的信用度的高低。
信用评分是可以通过信用载体信息,信用维度,信用等级等数据系统自动生成的分数。信用评分可以是单维度或者多维度的,多维度情况要根据系统定于的信用权重来进行计算。
二、Hapdoop
Hadoop主要有两个核心模块,即:加工/计算层(MapReduce),以及存储层(Hadoop分布式文件系统)。
MapReduce是由谷歌设计的,是一种并行编程模型。谷歌对大数据的高效处理,甚至多TB数据集的分析,以MapReduce分布式应用批处理的方式,运行在大型集群(数千个节点),并且提供可靠的容错方式。
Hadoop分布式文件系统(HDFS)是基于谷歌文件系统(GFS)发展而来,并且提供了一个设计在普通计算机上运行的分布式文件系统。它与现有的其他分布式文件系统有着许多相同之处,但是也与其他分布式文件系统有着显著的差别。
除了上面提及的核心组件,Hadoop大数据引擎还包含以下两个模块:通用模块,这是Java类库和其他Hadoop组件所需的实用工具;YARN模块,这是作业调度和集群资源管理的组件。
构建Hadoop大数据系统需要重复配置,处理大规模服务器的配置工作是相当昂贵的,但是作为替代,可以采取多普通电脑用单CPU在一起工作,使其成为一个单CPU一个功能的分布式系统。实际上,集群服务器可以平行读取大量数据集,使集群服务器达到一个高吞吐量的标准。可以用较低廉的价格获取到比较高的性能。因此,使用Hadoop跨域集群和低成本的机器上运行是一个不错的选择。
Hadoop运行整个计算机集群代码的过程包括以下核心任务:数据划分,文件划分为128M和64M(128M最好)统一大小块;然后文件会被分布在不同的群集节点上,以便进一步处理;通过HDFS监管处理这些文件;使用块复制处理硬件故障;检查以上步骤是否已成功执行,如果出现故障,则重新执行该文件;执行后映射数据,减少阶段的排序;发送排序的数据到某一服务器上;为每个作业编写的调试日志。
Hadoop大数据引擎允许用户快速地编写和测试的分布式系统。利用CPU内核的平衡细分作业,高效的让数据在整个集群服务器种分配数据和工作。
期刊文章分类查询,尽在期刊图书馆改设计不仅不依赖于硬件,而且还提供容错和高可用性(FTHA),而且它本身可以在应用层检测和处理故障。在集群服务器的应用种,可以添加或从集群中动态删除其中一个或者多个节点,Hadoop仍可继续不中断地运行。
三、Spark
Spark可以很好弥补Hadoop的不足,同时又可以继承Hadoop组件,性能上更是比Hadoop好。具统计,Spark同Hadoop服务器资源的情况下,排序性能可达Hadoop的30倍。
Spark主要有五个核心模块,即:Spark Core,Spark SQL,Spark 数据流,MLBase,GraphX。
Spark Core是底层一般执行引擎,所有其他的功能都是建立在Spark的平台之上。这些功能包含:任务调度,内存管理,故障恢复以及存储系统的交互等。它还提供了内存计算和引用数据集在外部存储系统。
Spark SQL是Spark更新到1.0.0版本后新推出的基于Catalyst引擎的大数据SQL交互式技术,使用 SchemaRDD一个新的数据抽象来操作SQL,它提供了结构化和半结构化数据的支持。这个功能和Shark相同,但是它比Shark支持更多数据库的查询表达式。
Spark数据流是一个对实时数据流进行高通量、容错处理的流式处理系统,并且对多种数据源进行各种复杂的操作,最终将结果保存到外部文件系统,数据库,或应用到实时图表仪表盘UI上。利用Spark核心快速调度进行流分析的能力,摄取的数据并划分小型数据进行RDD(弹性分布式数据集),对这些数据进行转换分析管理。
MLBase是机器学习和统计学技术,其重心是把大数据转化为知识的关键点。对于大多数开发者来说,需要掌握机器学习的相关知识不是一个难题,但更重要的是,企业大数据不断积累,行化算法实现的需求也越来越多,对应各邻域、算法的参数设置和调优需要很强的领域经验,从而导致机器学习成为一个难以精通的学科。
GraphX是Spark中用于图和图并行计算的API。跟其他分布式图计算框架相比,它更加方便,更加高效。它是一种点和边都带属性的有向多边图。
四、信用系统设计
信用系统主要包含3个模块:信用采集,信用报告和系统管理。
信用采集有2种手段:利用第三方信用系统接口,将第三方信用信息抓取到本地信用系统种;利用网络爬虫,抓取各个信用网站的信用信息。这里需要用到hadoop的批处理功能来实现对信用信息的批量抓取与保存。在数据抓取过程中,使用Spark来对信用信息进行分析,对信用数据进行分领域,行业,模块划分录入。
在系统中可以根据不同维度、不同模块生成信用报告。信用报告展示的方式是图表UI,可以向用户展示某个信用载体的信用数据,以及趋向性分析,同时也支持多载体展示。
系统管理是后台管理员配置信用载体,信用公式,信用维度,信用权重,信用等级以及记录日志,处理异常的平台。系统根据管理员的配置弹性扩充信用信息种类,信用采集方式以及最终信用载体生成信用评分的标准。
结束语
信用系统的核心作用在于,降低社会成本,提高社会效益。旧有信用体系环境薄弱,而且“违约”和“欺诈”成本并不高,对失信的惩罚也不高,这会让整个社会信用体系的建立极其不利。可想而知,当“信用”成为未来的个人资产,整个市场经济和社会运转速度和效率将会有很大的提高。在这个进程中,会产生信用信息巨大,在大数据平台的帮助下完善信用体系,使信用体系越来越健壮。
参考文献:
[1]孙磊.信用体系演化的经济学分析.西南财经大学.2008.
[2]Hadoop权威指南(第3版)-(美)Tom White著;华东师范大学数据科学与工程学院译.2015.
[3]大数据Spark企业级实战/王家林 编著.2015.
论文作者:尤沛泉
论文发表刊物:《基层建设》2018年第25期
论文发表时间:2018/9/17
标签:信用论文; 数据论文; 系统论文; 维度论文; 分布式论文; 载体论文; 集群论文; 《基层建设》2018年第25期论文;