单位名录库地理信息建立途径与“互联网+”维护管理的探讨,本文主要内容关键词为:互联网论文,地理信息论文,名录论文,途径论文,单位论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
统计地理信息系统(统计GIS)是基于电子地图实现各类调查对象和统计信息集成、定位、展现、汇总、分析、服务的综合型信息系统,是利用现代科学技术手段展示统计信息的有效平台①。作为社会经济现象的综合反映,统计数据普遍具有空间属性。大数据时代,传统的统计数据图表和统计分析方法不能有效地展现海量统计数据的空间特征,而通过统计地理信息系统将统计数据与地理信息整合,能够充分挖掘和展示统计数据所隐含的空间分布特点和规律。 由政府统计部门主导的周期性普查是定期搜集全面反映社会经济现象的统计数据的方式,在世界各国周期性普查实践中,地理信息技术作为有效的数据采集、分析与展示工具,通过不断与普查数据生产过程融合,成为各国建立统计地理信息系统的主要途径。美国普查局在2010年人口普查中采用的主地址文件/拓扑集成地理编码参照(MAF/TIGER)系统是国际上应用较为成熟的统计地理信息系统[1],其源于美国普查局为1990年人口普查建立的拓扑集成地理编码参照(TIGER)系统[2]。TIGER系统主要包含了公路、铁路、地理区域、地标、水路等用于普查方案实施的地理信息,能够将给定的实际地址与系统中划分的物理位置连接,用于普查数据搜集与地图演示等,但系统的维护更新周期较长,并采用自主开发的数据库系统,无法适应社会经济和信息技术快速发展的需要。美国普查局在2000年人口普查中开发了能够日常持续更新的包含全美居住和商业地址信息的主地址文件(MAF)[3]用于普查表发放和面访,并在2010年人口普查中将MAF数据库与TIGER系统进行整合,利用现有商业软件形成了能够开展统计地理信息服务的MAF/TIGER系统以用于普查、常规调查和相关专业领域[4]。此外,欧盟、加拿大、澳大利亚等发达国家或地区也建立了与普查相关的统计地理信息系统,印度、非洲等一些发展中国家也相继将地理信息技术作为开展普查的重要手段[5][6]。2013年2月,联合国统计委员会第44届会议提出各国政府统计部门应建立将社会经济信息联系到空间位置要素的能力,以增强统计信息的价值和使用领域,同时为建立国际统计地理空间框架提出了建议[7]。 我国统计地理信息系统的建设起步相对较晚,但自周期性普查制度建立以来[8],政府统计部门在普查中逐渐认识到了应用GIS技术的重要性。尤其是2000年和2010年人口普查、2004年和2008年经济普查、2006年农业普查的实践促进了我国统计地理信息系统的建设和发展[9]~[11]。近年来,随着移动互联网技术的发展,地理信息的价值发现在商业领域得到了广泛的应用,例如各种手机应用的位置服务、电子地图的线路导航等。“互联网+”模式下,基于地理信息的统计数据开发利用对我国政府统计的影响不可忽视,我国政府统计于2011年实施“四大工程”后,基本单位名录库在政府统计中的基础性作用日益显现,名录库地理信息的开发利用为增强我国政府统计能力带来了新的机遇。 在相关研究中[12],我们发现通过互联网资源不仅可以提取某些行业单位的基本信息,同时还可获取单位位置坐标。我国现有统计系统基本单位名录库的信息②并不包含位置坐标,而位置坐标是名录库地理信息开发的基础与关键。为此,本文拟在国外实践经验和“互联网+”模式的启发下,探讨我国统计系统基本单位名录库地理信息建立途径和维护管理的可行性;在前期通过互联网资源提取单位基本信息的方法基础上[12],重点讨论如何使用互联网资源获取空间位置坐标用于单位名录库地理信息的维护更新;并通过实例模拟论证在“互联网+”模式下,单位名录库地理信息开发对于增强我国政府统计能力的重要性。 二、单位名录库地理信息的建立途径 (一)美国MAF/TIGER系统开发的实践经验 为了提高对普查对象涵盖的完整性,美国普查局在1990年人口普查中建立了包含全部住宅地址列表的地址控制文件(ACF)名录库[3],但由于ACF名录库无法实现持续维护更新,而TIGER系统数据库维护更新周期为10年,两者不能有效结合。美国普查局在ACF库的基础上,基于全美社区调查等常规调查、邮政服务投递系统及其他行政记录的地址数据源,开发了能够日常持续维护更新的主地址文件(MAF)名录库用于2000年普查表的发放、面访数据搜集等[3]。 MAF名录库主要包括住宅邮政编码、邮寄地址、住宅位置描述、空间位置坐标、住宅类型以及其他有关信息。虽然该数据库自身不能实现空间特性的开发[4],但由于包含位置坐标等地理信息,能够与TIGER系统更加有效地结合。因此,美国普查局在2010年人口普查中将MAF数据库与TIGER的地理信息数据库重新整合,设计了MAF/TIGER系统用于普查的实施。既实现了TIGER系统的持续维护更新,也实现了基于MAF的普查和各项常规调查统计数据的空间开发利用,MAF/TIGER系统可用于统计调查地理区域的划定与维护、地理编码、地址匹配、统计调查数据的空间可视化、空间分析等。 MAF/TIGER系统的开发过程表明,虽然住宅地址名录库自身无法实现空间特性的开发,但由于库中包含了能够与统计GIS建立联系的空间位置信息,且能够持续维护更新,可通过地址名录库地理信息的开发将与之有关的统计数据信息联系到具体空间位置,增强统计GIS在政府统计工作中的使用价值。就我国而言,当前统计系统基本单位名录库的地理信息开发可借鉴美国实践经验,探索可能途径为名录库建立空间位置信息及维护管理机制,使其能够与统计地理信息系统实现有效连接,才能进一步实施名录库地理信息的开发利用。 (二)我国单位名录库地理信息的开发基础 我国统计地理信息系统的建设始于2000年国家及部分地方统计部门尝试建立的人口普查地理信息系统。通过2003年和2007年两期国家“863”计划项目的支持,国家统计局普查中心牵头建立了国家社会经济统计地理信息系统[10]。2008年第二次全国经济普查中,部分地区开展了普查区电子化划分及绘图试点。2010年第六次全国人口普查利用航拍地图绘制了人口普查电子地图[11]。2012年,国家统计局和世界银行合作开展了“建设和改进中国统计地理信息系统”项目,为2013年第三次全国经济普查专项试点提供了技术和业务准备,部分成果在第三次全国经济普查方案中得到应用。2013年,在全国部署了26个省级和4个地市级统计地理信息系统节点基础上,第三次全国经济普查利用统计地理信息系统全面建立了普查区电子地图,并使用手持电子终端设备(PDA)采集普查对象的位置坐标,核实普查对象基本信息、拍摄相关证照等。我国统计地理信息系统的不断完善为实现单位名录库地理信息的建立与开发提供了可能。 (三)单位名录库地理信息的建立途径 我国统计系统基本单位名录库的建立始于1996年第一次全国基本单位普查,2004年第一次全国经济普查后逐步实现了统计与工商、税务、质监、民政、编办等多部门信息共享为基础的维护更新方式。2011年我国政府统计实施“四大工程”后,制定了以“全国统一管理、专业分工协作、地方分级负责、各方共同参与、信息资料共享”为指导原则的基本单位名录库建设维护与使用管理办法,奠定了基本单位名录库在政府统计工作中的基础地位[13]。 当前基本单位名录库主要包括识别信息、属性信息和数据信息。其中识别信息包括单位代码、单位名称、法定代表人(负责人)、单位地址和区划以及联系方式等;属性信息包括单位所属行业、登记注册类型、机构类型、开业时间、营业状态,以及法人单位与其下属产业活动单位的关系等;数据信息包括单位从业人员、资产和收支情况等。能够与统计地理信息关联的仅有识别信息中的单位地址和区划,据此仅能实现在统计地理信息系统中单位数量空间分布的展示(见图1)③,图1中通过每个六边形的大小表示行政区域包含企业单位的数量规模,这种统计数据空间分布展示受制于电子地图区划信息的详细程度。相比美国MAF库包含的地理信息特性,我国现有基本单位名录库由于不包含空间位置坐标等地理信息,无法建立每个单位在电子地图中的精确位置显示,这也是制约当前我国统计地理信息系统将社会经济信息联系到具体空间位置要素的关键问题所在。 统计地理信息系统的基础是通过遥感数据绘制的行政区划电子地图,电子地图根据分辨精度的不同能够包含从全国到省、地市、区县、乡镇街道、村居委会和建筑物不同层级的图层。为了实现与名录库单位有关的统计数据信息在地理信息系统中的精确展示,必须建立每个单位与电子地图的空间位置匹配关系:每个单位有其固定的经营场所,在现有名录库中主要通过单位地址这一识别信息予以反映,而每个单位地址在现实中必然关联到建筑物,建筑物则是电子地图能够包含的最低层级元素。以上路径分析向我们展现了名录库单位地址与电子地图中建筑物的内在联系,但两者有本质区别,电子地图中的建筑物是根据遥感和矢量坐标数据绘制的,而现有单位地址是严格意义上的文字信息,两者不能直接匹配。借鉴美国MAF库的开发经验,我们需要将记录单位地址的文字信息联系到地理信息系统能够识别的空间位置坐标(例如经纬度),才能实现名录库信息与建筑物的精确匹配(图2)。 2013年第三次全国经济普查为了确保普查对象的真实可靠,采用PDA采集普查对象数据的同时也进行了空间定位,获取了全部普查对象的位置坐标信息。这为实现名录库单位地址信息与空间位置坐标相联系提供了基础,本文提出以下思路:经济普查数据作为我国单位名录库每5年一次全面维护更新的主要数据源,政府统计部门在进行名录库全面维护更新时,可尝试将名录库单位与经济普查采集的单位信息匹配,在现有名录库单位地址识别信息的基础上,为库中每个单位追加识别地理信息的空间位置坐标,空间位置坐标与原有的单位地址共同构成单位地理识别信息,区别于原有的常规识别信息(见图3)。 以上论证表明利用普查获取定位信息为实现单位名录库地理信息的初步建立提供了可能途径,地理识别信息的构建将使我国单位名录库具备空间属性,具备进一步与我国统计GIS结合开发利用的能力。 三、单位名录库地理信息的维护管理 为实现名录库地理信息的开发价值,位置坐标信息有必要像其他信息一样能够持续动态更新,例如在两次经济普查间单位地理信息可能会发生变化,特别是众多小微企业的生灭变化较为频繁,名录库地理信息如何反映单位位置坐标的变化?由于我国经济普查中对于个体经营户采用抽样调查,这类单位仅有部分能够通过普查数据源解决地理信息的建立,如何实现广大个体经营户地理信息的建立和更新?为此,需要进一步通过名录库地理信息维护管理的探讨寻找解决途径。 (一)单位名录库地理信息的维护管理方式 我国统计系统单位名录库日常维护管理分为全面更新和部分更新。全面更新即是利用5年一次的经济普查形成的普查数据库对名录库全部单位进行更新。部分更新通过以半年度、季度或月度为调查周期的基本单位统计调查和各专业统计调查取得单位变动情况、单位基本信息变更资料对名录库部分单位进行经常性的部分维护更新[14]。随着现代信息技术在统计调查中的使用,受“互联网+”思维启发,本文在现有维护管理制度基础上通过丰富和拓展,提出以下三种可能的维护更新途径: 1.途径一,借鉴普查实践经验。借鉴经济普查中采用现代信息技术手段获取普查对象位置坐标的做法,进一步在我国各专业统计调查中推广使用PDA设备采集调查对象的位置坐标,实现对名录库地理信息的部分维护更新。这种方式的优点是完全与现有维护管理制度接轨,仅是通过技术手段获取更多的调查内容,在获取日常更新信息的基础上增加位置坐标的采集,能够及时体现调查单位的动态变化。缺点是由于我国各项专业统计调查的联网直报工作正在由“四上企业”向“四下企业”④逐步推广,联网直报企业的位置坐标采集可能需要采用更先进的技术,例如以网络IP定位方式获取,或者同非联网直报企业一样由调查员在调查时采集,采集过程将耗费大量人力物力,实现过程也有待我国政府统计调查制度的不断改革与完善。 2.途径二,拓宽现有行政记录来源。名录库日常部分更新采用了基本单位统计调查中得到的有关单位变动情况,主要是通过统计部门与编制、民政、税务、工商等行政部门的数据共享获取,政府统计部门可借鉴这一模式通过与国家测绘部门合作获取相关单位的地理信息变动情况。这种方式的优点是国家测绘部门会定期开展大规模的地理信息采集标注,效率高、成本低,能够及时反映行政区划变动带来的单位地理信息变迁。缺点是由于国家测绘主要关注行政区划、道路建筑、主要大中型企业单位等变动频率相对较低的地理信息,可能无法满足日新月异的基本单位新生、消亡和变动频率,特别是无法获得生产经营地的变化、生灭变动较为频繁的小微企业等相关信息。 3.途径三,利用“互联网+”模式。随着移动互联网技术的发展,越来越多的基于位置服务(LBS)的商业网站能够免费提供大量的“信息点”(POI)数据,也称为坐标点标注数据。每个POI数据包含单位名称、单位类别、经纬度等方面的信息,例如新浪微博、大众点评、口碑网、携程等商业网站的POI数据,POI数据能够为位置坐标维护更新提供精确的经纬度信息。对于LBS网站没有涵盖的单位,可根据掌握的名录库单位地址的变动信息,通过互联网地图服务商的地址反向编译功能,以及矢量地图中的道路数据,运用算法进行空间定位,获取相关单位的经纬度坐标变动情况。例如百度地图、高德地图和腾讯地图等互联网地图服务商。相比前两种途径,“互联网+”模式时效性高、成本低廉,且获取途径可靠,还能获取普查无法掌握的部分个体经营户的地理信息,下文将重点讨论其技术手段。 (二)“互联网+”模式下单位名录库地理信息的维护管理 通过对互联网数据进行“聚焦”和“定向”,可实现从中提取某些行业单位信息用于名录库基本信息的更新[12]。随着“互联网+”模式的提出,通过网络地图规划出行线路、导航,利用手机APP应用开展定位服务,这些普通大众即可随时获取的地理位置服务将在名录库的地理信息更新维护中发挥明显优势。在非经济普查年份,政府统计部门可通过基本单位统计调查和专业统计调查等名录库信息的传统维护更新途径筛选出库中新增和发生地址变动的单位信息,再通过以下两种技术手段获取位置坐标的维护更新资源。 1.通过基于位置服务网站获取POI数据。 如果名录库单位属于LBS商业网站所涵盖的行业类型,可采用这一技术手段提取POI数据用于单位地理信息的更新。以主要涵盖服务业单位的国内LBS商业网站为例,相关单位的POI数据通常包含在特定网页的HTML代码中,但LBS商业网站为了保护数据资源,对HTML代码中的POI数据进行了加密以防恶意采集。例如通过大众点评的某餐饮企业网页HTML代码虽然能够查看到POI信息(表1),但经过了字符编译,无法直接获取经纬度坐标。 为了提高数据的使用价值,LBS商业网站一般会向公众提供免费的开发平台⑤,企业或个人开发者可通过申请注册密钥和网络签名证书,利用软件编程通过应用程序接口(API)调用获取合法的POI数据。大众点评的开发平台搜索指定单位API调用示例见表2。 在表2调用示例中,通过输入相应的搜索关键词,例如单位名称、单位地址等信息,并根据给定的搜索限定参数(城市city,地区region等),即可获取网站指定单位的相关信息。大众点评API以HTTPGET的方法获取搜索结果,在将这些搜索词提交给平台服务器后,得到指定的返回结果列表,不能自主定义输出内容。如果成功返回“OK”,并返回结果字段;如果失败返回“ERROR”,并返回错误说明。成功示例结果见表3。 表3种列出了返回搜索结果中的单位名称、单位地址、联系方式和经纬度坐标信息,省略了与本文讨论无关的返回字段。通过上述步骤即可从LBS商业网站的POI数据中提取用于名录库单位地理信息更新的经纬度坐标。如果名录库单位不属于LBS商业网站涵盖的行业类型,需要转向互联网地图服务商寻求更多的地理信息资源。 2.通过电子地图反向编译获取位置坐标。 国内诸如百度地图、高德地图和腾讯地图均通过免费开放平台的API接口提供相应的地理信息服务。与LBS商业网站不同的是,由于电子地图服务商具有强大的地理信息优势,除了能够提供上述POI数据包含的精确位置坐标,还能通过电子地图的反向编译功能获取更多没有POI数据的单位地理信息,可满足名录库众多行业单位的更新需求。 表4给出了百度开放平台接口调用的一个示例,不同于LBS商业网站,“output”为可选输出参数,这里能够定义输出结果。只需将事先掌握的单位地址信息给定参数address即可提交给百度服务器返回查询结果。 由于百度地图是根据address赋值的单位地址信息进行反向编译,一旦输入的地址非POI数据包含范围,则需要后台运用相关算法进行定位。因此,与LSB商业网站仅返回位置坐标不同,其输出结果除了定位的经纬度坐标(见表5),还给出了相关定位算法的准确性和可靠性,“precise”结果为1指精确查找,“confidence”表示可信度为90%。 通过以上步骤即可直接解析获取任意单位地址信息的经纬度坐标。当前,百度开放平台已经为社会公众提供“坐标拾取器”在线应用⑥,即便不使用编程调用API接口,也可简单地查询给定地址的定位信息。 3.两种技术手段获取空间位置坐标的适用性。 通过LBS商业网站平台获取的POI数据,主要来源于商业网站自行实地采集、向地图服务商或POI数据服务商购买、网站使用者或商户标注等,前两种方式均是为商业目的而采集,精度相对较高,而使用者或商户自发标注的POI数据可由网站后台严密的审核机制确保其可靠性。无论哪种途径来源,POI数据中的经纬度坐标本质上均是事先采集,而反向编译是根据单位地址信息运用算法进行的空间定位,POI整体数据质量优于反向编译获取的经纬度坐标。正因如此,POI数据获取成本较高,涵盖行业范围有限,主要集中于日常生活服务行业,但却能涵盖众多有固定经营场所的个体经营户信息;相比而言,通过电子地图反向编译获取的经纬度坐标虽然精度不高,但成本非常低,只需掌握单位地址信息即可,能够涵盖很多LBS商业网站不关注的行业。综合考虑,两种技术手段获取的位置坐标互为补充,才能构成在两次经济普查间单位名录库地理信息维护更新的数据源。 四、单位名录库地理信息建立的效果模拟 (一)实例演示 结合上述空间位置坐标采集技术,本文通过初步的模拟来演示单位名录库地理信息建立的效果。由于并不掌握实际名录库单位,为了便于讨论,本文将从LBS商业网站采集的餐饮业单位名录作为单位名录库替代。以北京市海淀区为例,根据掌握的餐饮企业单位名称和单位地址,通过R软件编程调用百度地图API直接获取POI数据的经纬度或反向编译出单位地址的经纬度,为单位名录库追加建立地理识别信息,再将这些单位名录根据采集的经纬度坐标用R软件绘制出空间位置分布图(见下页图4)。与图1相比,图4能够在电子地图中清晰展示每个单位。如果电子地图的分辨精度越高,名录库的地理分布信息展示将越充分;若能获取包含建筑物的街道级电子地图,便能在建筑物中充分展示名录库的空间分布信息。 (二)效果分析 上述实例模拟中,除了POI数据具有较高精度的经纬度信息外,通过互联网电子地图反向编译获取的经纬度信息会存在一定的误差,特别当单位地址信息存在误差时,反向编译出的位置坐标误差会更大。图4中超出北京市海淀区行政边界的坐标点既有可能是由于反向编译误差导致,也有可能是由于单位地址信息存在误差所致,同样边界内的点也可能存在这些误差。若将这一误差联系到普查涵盖误差的特性[15],可称之为名录库地理信息的空间涵盖误差。 由于互联网信息的海量性和杂乱性,通过不同互联网资源途径获取的位置坐标并非同经济普查中实际由人工采集那样精确和可靠,即便同一单位通过不同网络途径采集的经纬度坐标信息也可能不一致,需要我们在使用前清洗筛选。我们可利用多个LBS站点或地图服务商获取的地理信息相互验证同一单位位置坐标的准确性,将经过验证的位置信息用于名录库地理信息的维护更新。 实践中可能会面临来自不同平台的位置坐标由于采用不同的坐标系,或由于采用不同的坐标格式而存在的差异,这需要我们将获取的位置信息转换处理为同一坐标系和同一坐标格式。例如我国国家测绘部门规定国内地理信息必须以GCJ-02坐标体系为基础,而各网络地图服务商在此基础上经过偏移算法构建了自己的坐标系,不同坐标系之间的转换在相关文献已有介绍。常见的坐标格式如经纬度球面坐标、度分表坐标、墨卡托平面坐标,不同坐标格式间也有既定公式进行相互换算,本文不再赘述。 五、名录库地理信息在未来政府统计工作中的应用前景 从准确性和信息量角度看,经纬度坐标比单位地址更加符合地理信息的表述要求,建立单位名录库的地理坐标信息是实现我国单位名录库与统计地理信息系统对接的有效途径。本文探讨的内容仅是初步的抛砖引玉,真正付诸实施还有许多制度和方法上的问题需要考虑。但名录库地理信息的建立与开发对提升我国未来政府统计能力、提高统计数据质量和加强对社会经济活动单位的管理具有重要的意义。 首先,拓展我国统计地理信息系统的应用范围,不仅能够实现在高分辨率电子地图中通过建筑物精确展示名录库的基本信息,还能够展示与基本单位名录库有关的各专业统计调查数据,例如企业一套表统计数据的地理空间展示、专业统计调查结果的地理空间展示,进一步增强统计数据可视化的开发应用价值。 其次,为我国基本单位名录库基本信息的更新维护提供途径。每个库中单位均具有自己的位置坐标,通过地理识别信息的日常维护管理能够建立起单位常规信息与互联网资源的有效连接,为名录库常规基本信息的更新维护提供丰富的互联网数据来源,拓展我国基本单位名录库基本信息更新维护的途径。 第三,提高我国经济普查的数据质量。在未来普查中,名录库地理信息可为统计工作人员走访各普查区、开展单位清查工作提供最优路径规划。在当前国家推广企业登记注册“三证合一”的改革背景下,未来名录库中新的单位代码、位置坐标均是清查中识别单位的有效途径,结合普查对象的空间涵盖误差测量[16],将有效保证单位清查阶段的数据质量,为进一步提高经济普查数据质量奠定基础。 第四,发挥基本单位名录库在单位年(定)报、大型普查、抽样调查中的作用。从名录库在我国政府统计工作中的作用看,经纬度坐标可为诸如GDP核算、企业调查等统计工作提供精确定位依据,名录库地理信息的开发将为今后开展空间抽样,特别是针对经营场所容易变动的小微企业和个体经营户的空间抽样建立抽样框提供必要的基础。 ①徐一帆在2012年全国普查中心系统工作会议上的讲话,2012年1月6日。 ②参见国家统计局,《全国统计系统基本单位名录库建设维护与使用管理暂行办法》,2010年6月9日。 ③也可采用类似人口密度(热力图)的方式予以展示,用不同区域颜色深浅来区分单位数量的分布规模。 ④“四上企业”指规模以上工业企业、资质等级建筑业企业、限额以上批零住餐企业、规模以上服务业企业,“四下企业”是指相应的规模以下企业。 ⑤在本文刊发之际,大众点评网开发者平台维护策略进行了调整,2015年10月起不再提供免费接入服务,仅限商务合作使用。 ⑥http://api.map.baidu.com/lbsapi/getpoint/index.html。标签:地理信息论文; 经纬度论文; 电子地图论文; 坐标拾取系统论文; 坐标软件论文; 空间数据论文; 统计调查论文; 企业定位论文; 数据单位论文; 企业空间论文; 误差分析论文; poi论文;