高校图书馆智能设备的信息提取论文

高校图书馆智能设备的信息提取

张 旋

(天津音乐学院,天津300171)

[摘 要] 随着互联网技术的快速发展,将会有更多智能设备通过校园WiFi 设备接入互联网。了解智能设备的准确信息可以进一步提高网络运营商的网络服务质量以及服务提供商的安全性,并为高校智慧图书馆建设提供数据分析依据。提出一种基于Hadoop 平台和用户自定义功能的校园WiFi 网络智能设备信息提取方案。用户自定义函数是根据高校图书馆日常服务中的常见参数开发的,用于处理大量非标准化数据。提出的信息提取方案的核心是将处理后的输入数据与预先构建的智能设备规则数据库进行字符串匹配。测试是基于高校图书馆日常师生登陆平台检索数据集进行的。测试结果表明,提出的方法能准确地从校园WiFi 网络中提取设备信息。

[关 键 词] 高校图书馆;智能设备;信息提取;无线网络

在校园网络中,读者用户使用各种智能设备(如手机、平板电脑、智能手表等),通过校园无线网络接入互联网。随着智慧图书馆的发展,更多的智能设备将通过无线网络接入互联网。为了向服务订阅者提供更好的网络服务质量和业务体验,高校图书馆服务人员将收集大量的测量数据,包括安全性和用户行为信息。然后进一步执行数据处理,如测试网络管理的瓶颈,并提高用户的体验质量。智能设备的提取是上述数据处理过程中的关键任务之一。本文通过高等院校图书馆在校园网络环境下提取数据流量以此建立分析智能设备信息的方案。传统蜂窝网络的运营商可以通过分析信息流量获取大部分设备信息,如国际移动设备标识通常嵌入信息通信量中。然而,这些信息在默认情况下不包含在WiFi 条件下的数据流量信息。为了获得校园无线网络中智能设备等此类信息,一种可能的方法是收集和解析智能设备与云之间交换的超文本传输协议(HTTP)消息中的用户代理(UA)字符串。图1 显示了UA 的一个例子。如图所示,可以通过解析过程提取浏览器类型、操作系统、字符集等信息。

图1 UA 示例

尽管有两个公共标准可用于格式化设备标签,但大多数制造商都忽略了这些标准,从而使信息提取更加困难。对这个问题,现有两种解决方案。一种是无线通用资源文件(WURFL),这是一种基于唯一内容的UA 识别方法,如设备信息。通过将唯一标识的内容与预定义的文件进行匹配,可以从Web 服务器中提取设备信息。然而,由于新设备的出现和现有设备的频繁升级,WURFL 不能保证长期的高精度。另一种解决方案基于UA 字符串匹配。应用UA 字符串匹配,需要使用包含UA 字符串和设备模型的匹配规则预先设置数据库。提取设备信息的方法是将捕获的字符串映射到数据库中的预置值。虽然实现起来很简单,但是这种方法效率很低,尤其是在大数据背景的今天,我们提出的方案旨在克服现有两种方法的缺点,特别是我们在方案中实现Hadoop 以快速高效地处理大量数据。此外,Hive UDF 以统一数据格式对数据进行预处理。

本文的其余部分组织如下:给出智能设备信息提取方案的框架;介绍基于Hadoop 的数据处理技术,并描述了如何实现UDF函数;给出实验结果;总结这项实验工作。

一、方案概述

图2 显示了所提议的信息提取方案的概述。总体而言,该方案包括4 个部分,即流量采集、数据预处理、智能设备信息提取和智能设备信息记录(SDIR)。

很多企业管理者对审计价格、经济合同的流程并不了解,使得要么审计者并不能自如的进行评估审核,要么使得经费滥用严重,造成重大损失。企业只是单方面的重视各类活动的事后经济审计,忽略了事前预算审计的重要性,许多经费使用者套用经费的现象依旧存在,并且依旧严峻。另外,一些人对于各类企划的预算编制没有节制[2],使得最终使用的经费与当初的预算有着很大的偏差,导致出现很大的浪费。

流量收集是指从目标网络中收集原始数据流量。流量收集点可以部署在通信网络的不同位置,如核心网络、聚合层、基于远程服务器的访问节点和网络网关。

修辞,英文所称的figure of speech或rhetoric,我们亦可以称其为文辞或修饰文辞。“修辞”本义就是修饰言论,我们利用多种语言手段以收获尽可能好的表达效果的一种语言活动。

SDIR 是提取方案的汇总。在此步骤中,从原始数据流量中成功地提取了所需的信息,如设备类型、品牌、模型等。收集SDIRs以进行进一步的数据统计、分析和挖掘。SDIR 的详细应用超出了信息提取方案的范围。

智能设备信息提取是本方案的核心功能。此函数用于匹配从预定义库中捕获的、经常维护和更新的UA 字符串。

图2 方案图

二、基于UDF 的智能设备信息提取方案

在步骤4 中,WebMagic 是一个简单而灵活的Java web 爬虫程序框架。它被用于从可信的电子商务网站收集智能设备相关信息,信息数据库也由WebMagic 自动定期更新。最终结果存储在SDIR 数据结构中。

5.通过与数据库匹配的UA 字符串提取智能设备信息。

3.使用在MapReduce 上实现的UDF 函数解析和正则化UA字符串数据。

2.从预处理中清除和过滤UA 字符串数据。

4.通过WebMagic.11 创建和管理一个智能设备规则数据库。

1.在Hive 数据库中收集和预处理原始流量。

在第1 步中,Hive 是一个基于Hadoop 的数据仓库,它使用Hadoop-HDFS 作为数据存储并提供HiveQL。除了内置功能外,Hive 还提供用户定义功能(UDF)来增强数据处理。由于非标准的UA 字符串不能由HiveQL 内置in 语句处理,因此我们定义了一个UDF,它将非标准数据格式处理为期望的格式,以便进行信息匹配。

凹凸棒石原矿取自江苏省盱眙县高家洼矿区,经中科(淮安)新能源技术开发有限公司漂洗纯化后提供。粉碎过200目筛,105℃烘干备用。

要启动步骤3 中的调节过程,将一个UA 字符串的正则表达式文件作为数据结构列表读入内存。正则表达式包含智能设备信息,用于解析原始的UA 字符串。表1 显示了正则表达式的一个示例。当原始的UA 字符串与正则表达式匹配时,将得到解析过的UA 字符串。表2 显示了一些原始UA 刺和相应的解析过的刺的例子。

表1 正则表达式示例

表2 原始UA 刺和相应解析过的刺的实例

经过数据预处理后,可以获得包含接入网络用户账户、用户访问统一资源定位器(URL)和UA 字符串的有用数据流,用于基于UDF-方案的信息提取。为了处理大量的UA 字符串,实现基于Hadoop 的MapReduce 支持并行处理。Hadoop 需要处理的5个步骤如下:

数据预处理是对采集到的交通数据进行净化和过滤,因为采集到的交通数据可能存在噪声。经过数据预处理后,核心函数(即基于DPI9 的核心函数)只处理采集数据的一小部分,大大降低了方案的计算开销。研究发现,大多数移动应用程序使用HTTP与服务器通信。在本文中,我们将使用HTTP 演示所提出的信息提取方案。我们提出的方案可以很容易地扩展,如应用报头/消息字段以更好地兼容其他专有协议。在大量实验基础上设计该方案的滤波策略,使近98%的原始数据能够被准确地清洗和滤波。策略包括用户类型、位置、通信协议等。

突然,他把手按到我的腹部。他的手指那么修长,以至于掌跟触着我一边的胸腔,指尖还能着另一边。我的心跳得如此厉害,以至于胸口都有些疼了,我盯着他,眼睛睁得大大的。

译本中,“班姑”“蔡女”这两个典故分别译为“Ban Zhao”与“Cai Yan”, 然后再辅以注释,言简意赅,有效减轻了译入语读者的阅读困难,基本传达了“班姑”“蔡女”的历史内涵。

三、实验与案例分析

在本节中,我们以实际网络数据为基础,通过实验验证所提出的信息提取方案。通过与中国一家网络运营商的合作,以天津音乐学院图书馆为调研地点收集了为期5 天的原始数据。数据来自2 种类型的智能设备。其中手机3630 台,平板电脑1609台。正如我们所看到的,智能手机在收集数据中占主导地位。然而,为了提供更好的用户体验,网络运营商可能需要更详细的信息,如设备类型、设备品牌、操作系统等。在不损失通用性的前提下给出利用该方案提取设备类型和品牌的结果。特别是我们的虚拟计算集群配备了8 核心中央处理器(CPU)和64GB 随机存取内存(RAM)。整个信息提取过程包括数据预处理,在12 小时内完成。通过运行我们提出的信息提取方案可以准确地提取出各类智能设备的品牌。在真实的实验中,所有类型的智能设备的准确率都达到了92%以上,准确度是通过正确检测的数量与智能设备总数的比值来衡量的。

有了这些信息,网络运营商将能更有效地提供服务和管理他们的网络资源,以提高用户的使用感受。如网络运营商可以根据用户设备的不同为视频流服务分配不同的缓存大小和优先级。类似网络资源管理可以应用于其他应用程序,如游戏、在线购物、社交网络等。为了进一步提高用户的使用感受,智能设备制造商和应用程序开发人员可以通过固件和应用程序更新等方式对产品进行改进,从而充分利用优化后的网络资源。

XMTD-8222电热恒温鼓风干燥箱,上海精宏实验设备有限公司;MJX-160B-Z霉菌培养箱,上海博迅实业有限公司医疗设备厂;SW-CJ-20双人单面净化工作台,苏州净化设备有限公司;LDZX-30KBS立式压力蒸汽灭菌器,上海申安医疗器械厂;HJ-2A数显恒温磁力加热搅拌器,金坛市城东新瑞仪器厂;FA2004N电子天平,上海菁海仪器有限公司;H1850R离心机,湖南湘仪实验仪器开发有限公司;PHS-3CpH计,上海智光仪器仪表有限公司;紫外可见分光光度计,上海仪电分析仪器有限公司;恒温水浴锅,北京科伟永兴仪器有限公司。

四、结语

本文提出了一种智能设备信息提取方案。该方案将UDF 应用于处理非标准的UA 字符串格式,因此,可以使用基于Hadoop的平台进行处理,实验基于真实的网络数据进行。结果表明,在实际应用中,该方法在智能设备信息提取中可以达到92%以上的精度。此外,在今后的工作中还将探讨一些开放的问题,如UA签名数据库的更新和维护,更快的匹配等。我们还将与未来可能进行的相关工作进行性能比较。

[中图分类号] G647

[文献标志码] A

[文章编号] 2096-0603(2019)25-0224-02

作者简介: 张旋(1982—),男,汉族,天津人,本科,助理研究员,研究方向:图书情报学。

◎编辑 冯永霞

标签:;  ;  ;  ;  ;  

高校图书馆智能设备的信息提取论文
下载Doc文档

猜你喜欢