基于Hadoop框架的图书数据管理系统论文

基于Hadoop 框架的图书数据管理系统

李明杰 刘小飞

(三亚学院信息与智能工程学院,海南 三亚572022)

摘 要: 由Google 公司研发的Google 文件系统和MapReduce 编程模型以其Web 环境下处理大规模海量数据的特有魅力,在学术界和工业界引起了非同小可的反响。本文以某大型图书出版社数据为例,在Hadoop 框架下实现了从数据处理到数据分析再到数据展示的一系列完整环节。

关键词: Hadoop;MapReduce;Pig;PHP

1 概述

今时今日,当互联网应用、科学数据处理、商业智能数据分析等具有海量数据需求的应用变得越来越普遍时,无论从科学研究还是从应用开发角度来看,掌握Google 文件系统和MapReduce 编程模型这样的技术已成为一种趋势。本文将以某大型图书出版社数据为例,在Hadoop 框架下实现从数据处理到数据分析再到数据展示的一系列完整环节。本文的运行环境如下:操作系统:ubuntu-16.0.4,内存容量:16G,GPU:GTX-1060 6GB,配置环境:JDK1.7,Hadoop-1.0.4。

耐磨复合刚玉的缺点为:① 抗冲击性能虽然有一定的提高,但和钢质衬板相比,抗冲击性能较差,若采用耐磨复合刚玉,应在容易出现冲击的地方用其它耐磨钢板代替;② 安装牢固性能不及其他衬板。

2 问题分析

2.1 问题描述

某大型图书出版社现拥有一个包含许多实体的主数据管理系统,还有一个用于执行数据管理和处理操作的CSV 输入文件,企业希望从数据中提取有价值的信息。

根据重载转动副偏差计算过程,对重载转动副的可装配性评价进行参数化定义。根据式(9)、式(10),间隙带的宽度分别取极值的情况下,重载转动副的偏差值区间为:

2.2 处理流程

将数据加载到Hadoop 框架,并使用Hadoop 工具,如Hive、MapReduce 和Pig 进行查询。从数据集中提取的信息将以图表的形式出现,因此需要一个基于网络的用户界面(UI)。在本文中,我们会使用PHP 脚本语言创建UI,以便执行Hive、Pig 和MapReduce 查询。项目会集成各种单独开发的模块。具体数据流程图和项目架构如图1 和图2 所示:

图1 数据流程图

图2 项目整体架构图

3 项目实现

3.1 数据导入

将含有限定对象的记录可以保存为一个文本文件qury1.txt。

图3 数据集

启动Hadoop,使用如下命令将数据集加载到HDFS:

输入下列命令,显示输出结果:

图4 将数据导入HDFS

在浏览器中输入http://localhost:50070,访问后点击页面中的Browse the file system,如图5 所示:

图5 访问已导入文件的数据

3.2 在Pig 中编写脚本处理数据

store limt into '/home/muzili/wcbdd/qury1.txt';

图6 在pig 中读取本地数据

按回车,然后执行下列命令:

图7 选择数据集中的四列

上 述 命 令 返 回logDate、logTime、routerRedirectIdentifier 和genre 这四列中存储的所有记录。输入下列命令来限定列值:limt = limit column1 10;

20世纪50年代开始,日本经济进入高速增长期。产业界不断要求建立和学校更加密切的体制,使学校能够不断培养出更加适应经济和社会发展的人才。1956年,日本通产省产业合理化审议会提出“关于产学合作教育制度”的咨询报告;1957年,日本生产性本部赴美考察;1958年,设置“产学合作委员会”;1960年,池田内阁把“关于产学合作”的政策性文件作为人的能力培养和科学技术振兴的政策,加入“国民收入倍增计划”中,标志着产学合作教学体制最终确立。

dump limt;

以某管廊氢气管道为例,按上述方法对其进行风险评价。已知氢气在常温常压下为气态,具有易燃易爆性。根据检测报告,该管道基本参数见表4所列,对管道的某弯头处做抽点检测。

输入上述命令后,终端窗口如图8 所示:

图8 显示包含四个字段的数据记录,限定显示10 条

本文已将收集到的数据保存在一个CSV 文件中,文件大小约700M,部分数据如下图所示:

启动Pig,使用LOAD 语句用于读取本地文件系统中的数据。

启动Hadoop 和Hive 来运行指定的应用程序,打开终端窗口,执行下列命令:

浏览qury1 中内容:

由可控源地震学数据分析得出的模型可用地下弹性/非弹性性质(特别是P波速度VP、S波速度VS和密度ρ)表示。将弹性地球模型分解为背景变量(即长波长)和短波长波动(通常被称作反射率,速度和密度的乘积,称为地震波阻抗),可得出可控源地震学的两个主要分支。第一个是广角反射/折射(WARR)法(有时也被称为深地震探测方法),可以提供有关全球构造的信息(该方法的近期历史回顾见Prodehl and Mooney,2012)。第二个是地震勘探的典型手段——所谓的近垂直入射反射法(NVI),它能提供高分辨率的地球反射系数图像。

图9 qury1.txt 中的内容

4 项目展示

用SPSS 17.0软件进行统计分析。计量资料以均数±标准差表示,组间比较用t检验;计数及等级资料以率(%)表示, 等级资料比较采用秩和检验。检验水准α=0.05。

使用图7 所示命令,从已知数据集的这四列数据中选择所有记录:

终端窗口保持打开状态,直到应用程序运行完毕。

该项目可以帮助你分析数据流,执行完PHP 代码,程序会生成相应的图表。

为了执行这段代码,首先应将项目文件夹复制到filesystem/var/www。打开web 浏览器,将下列链接粘贴到地址栏:http://localhost/weblog/index.html

显示的项目主页如下图所示:

图10 项目展示效果图

以图表形式表达数据的代码如下:

理想的六维力传感器在输入单维的力/力矩时,输出的应当只有该方向的力/力矩。然而由于结构设计、加工精度等问题,必然会导致其他方向也有力的输出,即产生维间耦合。

上述代码中,Pie3D.swf 是显示图表的package,如果没有它,图表将无法生成。因为package 已经存在于weblog 文件夹中,所以程序会基于数据生成图表。

图11 效果展示生成柱状图

5 结论

本文中,使用PHP 开发的基于网络的UI 包含一些执行Hive、Pig 和MapReduce 查询的链接;本项目可用来导入不同格式的输入文件,并从数据中提取信息;通过集成不同的Hadoop工具,企业可以轻松管理和处理他们的大数据。

参考文献

[1]陈鹏.计算机软件技术在大数据时代的应用[J].电子技术与软件工程,2019,(10):49.

[2]高霏霏.大数据时代信息不对称问题与图书馆缓解策略研究[J].图书馆工作与研究,2019,(5):75-81.

[3]陈先红,宋发枝.互联网新技术背景下的舆论传播策略[J].武汉理工大学学报(社会科学版),2019.

中图分类号 :TP319

文献标识码: A

文章编号: 2096-4390(2019)30-0072-02

作者简介 :李明杰(1984,11-),男,汉族,吉林松原人,硕士,副教授,研究方向:模式分析与人工智能;刘小飞(1984,10-),女,汉族,吉林敦化人,硕士,副教授,研究方向:动态规划与规划识别。

标签:;  ;  ;  ;  ;  

基于Hadoop框架的图书数据管理系统论文
下载Doc文档

猜你喜欢