数据压缩在用电信息采集远程通信中的应用论文_贾方成,李建合

贾方成 李建合

国网山东郓城县供电公司 山东郓城 274700

摘要:将数据压缩技术应用在用电信息采集远程通信中,大大提高了工作效率,降低了劳动成本,可以实现低压电力用户电力信息的智能化和自动化管理。本文首先说明了用电信息采集远程通信系统的结构及数据采集方式,然后分析了数据压缩在用电信息采集远程通信中应用的必要性,最后详细阐述了数据压缩在用电信息采集远程通信中的应用。

关键词:数据压缩;用电信息采集;远程通信;LZ77 算法;编码

一、用电信息采集远程通信系统的结构及数据采集方式

(一)系统结构

远程用电信息采集系统由三部分组成:主站、集中器和终端载体,系统结构如下图所示。

1、第一层(上层):主站

主站由抄表管理软件和管理计算机组成,能实时存储集中器上传的各类采集数据,并能实现集中器、电能表状态的实时监控。主站还可以实现采集数据自动出账、反窃电、高线损分析、费控等深化应用。

2、第二层(中间层)集中器

集中器能通过采集器或者 485 线采集电能表电量,通过 GPRS或光纤通信,把数据上传到主站中。

3、第三层(下层)

终端载体,包括采集器及电能表。采集器与电能表之间用 485 线连接。通过电力线载波方式,采集器可以把电能表的数据传输给集中器。

(二)数据的采集方式

集中器通过以下方式采集电能表的数据。

1、实时采集

直接采集指定电能表的相应数据,如实时电量、日冻结电量、重要事件数据等。

2、定时自动采集

根据主站设置的抄表方案自动采集电能表的数据。

3、自动补抄

对在规定时间内未抄读到数据的电能表进行自动补抄,补抄失败时,生成事件记录,并向主站报告。

二、数据压缩在用电信息采集远程通信中应用的必要性

图 系统结构

(一)节约信息传输成本

常见的远程通信方式主要包括光纤、无线公网(GPRS/CDMA)、230MHz等。虽然无线公网通信方式在传输速率和安全性等方面并不是最佳选择,但与光纤和230MHz相比,无线公网通信不需要电力系统投入大量的资金和人力进行通信信道的建设与网络设施的维护,因此,现阶段实际在运的用电信息采集终端中,绝大多数采用GPRS/CDMA等无线公网通信方式进行数据传输。由于采用公网通信需租用通信运营商的网络信道,电力企业每年产生一笔支出作为付给运营商的通信流量费用,随着用电信息“全采集,全覆盖,全预付费”的开展,终端数量与流量费用将持续增长。在现有的套餐资费下,将数据压缩后再传输可以使终端每传输一个字节的成本大幅降低,提高终端通信套餐资费的性价比。

(二)提高传输效率

根据主站与终端之间的通信协议,终端提供的一类实时数据和二类历史数据多达 300 多项,并且终端同时支持电能表、脉冲及交流采样等多测量点的数据采集,将这些测量点类型考虑在内,采集的数据总量成倍增长。例如,低压居民集中抄表是用电信息采集典型的应用场景,集中器采集几百户电能表的情况比较常见,如此多的数据通过 GPRS/CDMA 等无线公网通信方式传输到主站要耗费大量时间。并且,没有用电情况下的数据存在大量重复的零值,这类数据与其他正常用电情况下的数据在现有不压缩的传输方式下所消耗的传输时间和传输带宽是相同的,这就降低了传输效率和资源的利用率。因此,将数据压缩后再传输,能够缩短传输时间,提高传输效率。

三、数据压缩在用电信息采集远程通信中的应用

LZ77 算法在无损压缩领域出现的时间较哈夫曼算法晚,但其应用已十分广泛,现在常用的压缩软件都是基于 LZ77 算法的思想。LZ77 算法通过建立字典模型对数据进行压缩,如人们在日常生活中常使用缩略词汇进行交流,如约定“用电信息采集终端”和“用电信息采集主站”分别简称“终端”和“主站”。缩略词能够被理解是因为双方已经预先定义好一套字典,发送方将要表达的词汇按照字典的定义转换成缩略词发送(编码),接收方在字典中查找其对应的含义(解码),便实现数据的压缩与解压缩。

(一)LZ77 算法的编码

LZ77算法将数据中重复出现的长字符串用较短的字典索引表示,这一过程要用到“预置区”与“滑动窗口”2个数据缓冲区。压缩过程中,数据先进入“预置区”,后通过“滑动窗口”区域。“滑动窗口”中的数据作为建立字典索引的依据,“预置区”中的数据与“滑动窗口”中的数据进行比较,查找最长的字符串匹配。假设“预置区”中的数据为:SiSi+1…Sn,则可能匹配的字符串组合为:{Si,SiSi+1,...,SiSi+1…Sn}。假设“滑动窗口”中的数据为:SjSj+1…Sm,则可供比较的字符串组合为:{Sj,SjSj+1,…,SjSj+1…Sm,Sj+1,Sj+1Sj+2,…,Sj+1Sj+2…Sm,…,Sm}。

下面以字符串“ababcabd”为例说明LZ77算法的压缩过程。编码过程见表1所列。其中,绿色部分表示“滑动窗口”区域,长度为5个字符,黄色部分表示“预置区”,长度为3个字符。

表1 LZ77 算法编码过程

1、第 1 行为压缩开始前的状态,数据先载入“预置区”。

2、压缩从第 2 行开始,由于“滑动窗口”区域暂无数据,没有可供匹配的字符串,故保存字符 a 作为压缩结果。同时,所有数据往前移动 1 个字符。

3、在第 3 行,“预置区”的数据为字符串 bab,可能匹配的字符串组合为:{b,ba,bab},在“滑动窗口”区域,字符 a 是唯一可供比较的字符,因此不存在匹配,故保存字符 b 作为压缩结果。同时,所有数据往前移动 1 个字符。

4、在第 4 行,“预置区”的数据为字符串 abc,可能匹配的字符串组合为:{a,ab,abc}。“滑动窗口”区域的数据为字符串 ab,可供比较的字符串组合为{a,ab},故最长的匹配字符串为 ab。字符串 ab 从“滑动窗口”的第 3 个字符开始匹配(即偏移量为 3),长度为 2,在“预置区”中字符串 ab 后面的首字符为c。这 3 个信息组合在一起便构成字符串 ab 的字典索引(3,2,c)。由于(3,2,c)代表字符串 abc,故所有数据往前移动 3 个字符。

5、在第 5 行,“预置区”的数据为字符串 abd,可能匹配的字符串组合为:{a,ab,abd},“滑动窗口”区域的数据为字符串 ababc,可供比较的字符串组合为{a,ab,aba,abab,ababc,…,b,bc,c}。故最长匹配字符串为 ab,长度为 2 个字符,偏移量为 0,匹配字符串 ab 后的首字符为 d,故字典索引为(0,2,d)。所有数据往前移动 3 个字符。

6、此时“预置区”中已经没有数据,压缩结束。根据分析可知,LZ77 算法中字典索引分为 2 种:当没有匹配字符串时,字典索引为原字符;当存在匹配字符串时,字典索引由偏移量、长度、首字符组成。其中,偏移量为“滑动窗口”中从第几个字符开始匹配的偏移量,长度为匹配字符串的长度,首字符为“预置区”中匹配字符串后的首个字符。

本例中,“滑动窗口”长度为 5 个字符,“预置区”长度为 3 个字符,故字典索引中的偏移量可用 3个二进制位表示,长度可用 2 个二进制位表示。由于每个字符占用 1 个字节,3 个字符串在压缩前共占用24 个二进制位。当存在字符串匹配时,字典索引总共需要 13 个二进制位,压缩比为 13/24×100%=54.2%。整个字符串“ababcabd”共有 8 个字符,压缩后占用42 个二进制位,压缩比 42/64×100%=65.6%,压缩效果明显。

(二)LZ77 算法的解码

LZ77 算法的解压缩过程需要运用“滑动窗口”数据缓存区,遵循的原则为:遇到单个字符则直接读入,遇到匹配字符串则根据偏移量、长度、首字母这些信息将原字符串还原。以压缩中的例子为例,LZ77 算法解码过程见表2所列。

表2 LZ77 算法解码过程

其中,绿色部分为“滑动窗口”区域,长度为 5 个字符。

1、第 1 行为解压开始状态,压缩结果中字符 a为单个字符,则直接将 a 读入“滑动窗口”。

2、在第 2 行,压缩结果字符 b 也属于单个字符,直接读入“滑动窗口”。

3、在第 3 行,压缩结果为匹配字符串的字典索引(3,2,c),其中偏移量为 3,长度为 2。因此,在“滑动窗口”中找到对应的匹配字符串为 ab。同时,由于首字符为 c,故还原后的字符串为 abc。解压后的字符串进入“滑动窗口”,相应地“滑动窗口”中之前的数据向前移动 3 个字符。

4、同样地,在第 4 行,字典索引(0,2,d)解压后对应字符串 abd,同时所有数据向前移动 3 个字符。

5、在第 5 行,所有压缩数据都已被还原,解压缩结束。

结语

综上,在 GPRS/CDMA 等公网通信方式作为实际主导的远程通信方式的现状下,压缩远程通信数据还可为电力企业降低固定支出的通信流量费用,提高资金的使用效率。

参考文献:

[1]池智伟,陈晰,夏桃芳.GPRS公网终端拨号原理及常见故障判别方法[J].电力系统通信.2012(04)

[2]姜海.用电信息采集系统远程通信方案[J].电力系统通信.2010(04)

论文作者:贾方成,李建合

论文发表刊物:《基层建设》2015年23期供稿

论文发表时间:2016/4/5

标签:;  ;  ;  ;  ;  ;  ;  ;  

数据压缩在用电信息采集远程通信中的应用论文_贾方成,李建合
下载Doc文档

猜你喜欢