基于爬虫技术的城际信息流网络测度及其经济意义研究
徐庭伟a , 罗守贵a,b
(上海交通大学 a.安泰经济与管理学院;b.城市治理研究院 上海 200030)
摘要: 随着信息技术的发展,基于大数据支撑的城际信息流、产业流等为基于“流空间”的城市网络研究提供了新的研究视角。为了进一步研究城际信息流的经济意义,通过编写Python爬虫程序对基于百度搜索的我国271个城市之间信息流进行统计和数据结构化。结果表明:城市信息流总量是一个城市发展程度的综合反映,同时通过对结构洞理论的延伸,证明了在城际网络中,中心节点具有较高的冗余度。通过回归分析算法证明了城市信息流总量受到城市人均GDP、货运量、互联网接入用户数、城市的区位及其行政等级的显著影响。
关 键 词: 城际信息流;城市信息流总量;爬虫技术;结构洞;冗余度
城市之间巨量而复杂的联系是现代经济运行的最普遍的特征之一,这种联系包括城际间的人流、物流、资金流、技术流和信息流等,而对其测度一直是城市经济和经济地理研究中引人入胜的领域。但各种流的获取工作量巨大且缺乏合适的方法,相关研究受到较大的限制。在互联网时代,各种流几乎都通过信息流映射在网上,这给相关研究带来了很大方便,原来几乎不可能测度的“流”现在可以比较方便地获取。在此基础上,更进一步解释由各种“流”综合反映出来的信息流的实际经济意义就成为以往研究的反方向追溯路径,具有非常重要的理论和实践意义。本研究试图借助于互联网搜索引擎(百度),在获取全国主要城市之间的信息流强度的基础上,进一步通过实证分析,厘清影响城际信息流的因素,为城市经济发展相关策略的制定提供科学依据。
环保节能方面,五建依托自身优势,在2011年开始试水土壤污染治理工程项目。至今已完成了北京广华新城、北京焦化厂等两个大型土壤修复项目,合同额近10亿。今年,五建正在执行天津石化土壤修复项目,合同额近2亿元。近期五建还应业主要求,快速应对、妥善处置了数起恶性突发土壤污染事件。与此同时,五建与清华大学、华南理工、华东理工等高校和中科院南京土壤所、中石化大连院、中石化上海院、SEG技术研发中心等众多科研机构合作,联合开发技术,探索“人才不为所有但为所用”的高端人才使用方式,不断提升能力,已成为国内领先的“技术集成、市场开发、项目执行”土壤修复企业。环保节能业务也即将成为五建新的利润增长点。
1 文献综述
1.1 城际关系
城际关系的研究可以追溯到中心地理论及其建立的城际等级体系关系[1]:中心地向其周围的区域提供贸易、金融、行政、文化等服务;中心地的等级由中心地所能提供的商品和服务的级别决定;中心地的等级决定了中心地的数量、分布和服务范围。20世纪60年代以后,西方学者对城际关系的研究开始以“系统”概念为基础,即城市系统是一个国家或大的地区在经济上互相联系的城市集合[1]。城市系统具有复杂的形态,系统内的城市之间紧密的相互作用形成了影响城市发展变化的反馈效应[2-3]。也有学者指出中心地理论等学说存在理论与现实的脱节问题,层级组织等很难有效阐述现实中所涌现出的各种现象[3],单纯的层级结构并不能很好地解释城际间的复杂关系[4-5]。这些理论与中心地理论的分歧在于城市网络的本质被认为是不同规模的城市间既合作又竞争形成的复杂关系,是基于各自的需求形成的,与层级关系并没有直接联系。
1.2 信息流
M.Castells[6]提出了“流空间”的概念。信息通讯网络的建立与互联网的普及大大地加速了全球一体化的进程,促进了信息流、知识流、资金流[7]等在城市间的快速流动,信息社会、网络社会逐渐显现[8]。城市系统内部各种形式的流共同构成一个整体,当城市之间形成频繁的流交互时,城市系统中各节点都能够获得更多的资源和机会,进而促进区域整体的协同发展。
21世纪以来,国内相关研究逐步展开。董超分析了流空间的地理学属性特征,基于信息流交互量分析了吉林省流空间基本格局及其区域响应[9]。冷炳荣等用城市对外服务量的大小来衡量城际经济关系的强弱,并采用引力模型构建网络分析中国城市经济网络的复杂性[10]。孙桂平等运用社会网络分析法,通过人口流动和城市网络的结合对京津冀地区发展现状和趋势进行分析[11]。交通流[12-15]、旅游流[16-18]、产业流[19]对区域发展空间结构的影响的研究同样也是国内学者研究的重点。
随着信息技术的发展,大数据和人工智能技术的成熟和普及为信息流测度和及其对区域城市的发展研究提供了极大的便利。以百度指数为基础,熊丽芳等构建了长三角、珠三角和京津冀三大经济地区城市网络,并对网络特征的变化和区别进行了对比分析[20-21];蒋大亮等从大城市群视角和所辖子城市群视角,分别探讨了城市网络格局的时空变化[22];胡国建等[23]、赵映慧等[24]分别对黑龙江省和成渝城市群的城市网络结构进行了研究;张宏乔通过网络分析的方法对中原城市群“小群体化”的倾向进行了总结和分析[25];孙中伟等则将对互联网信息流的空间分布格局的研究拓展到了世界范围[26]。
1.3 结构洞和冗余
企业内部具体使用软件的人员素质将直接决定ERP的作用发挥。目前在国有企业、大中型民营企业以及小微型企业中,为了更好的向现代化企业方向发展,进一步降低企业管理成本,增加企业的经营利润,很多企业都积极使用各种财务软件、ERP系统等先进的管理手段来提高企业的管理水平。但是,有些企业在选择使用ERP系统时,经常会盲目跟从一些大企业的做法,不顾成本和企业规模,很多领导认为只要ERP系统内有的板块都要运用上,这种做法不但增加了企业的成本,还会增加员工的抵触情绪,极不利于ERP的进一步推行和实施。因此,企业在实施ERP时,要充分考虑自身的实际情况,才能更好地推行系统的正常使用。
2 研究对象、数据来源及研究方法
2.1 研究对象及数据来源
基于《中国城市统计年鉴2017》中297个地级及以上城市,因部分城市的名称在作为关键词进行百度搜索时会产生歧义导致结果异常,例如朝阳、白银、日照、中山、普洱、哈密、来宾等。因此,将这些城市剔除。最终确定研究对象包含271个城市。
市面上的异型混凝土很多,此次为保证施工质量,此次项目中采用的是泰科石。泰科石也称作T-CAST STONE、模制石。其以白度大于87%的高强波特兰水泥为主要胶凝材料,采用德国瑞科利模具,经泰孚公司专利配方和工艺成型的Reckli模具精铸合成的无机复合石制建材。
传统的研究已经证明了经济流,人口流,交通流等对城际关系均有显著的影响,为进一步分析城际信息流的经济意义,选取人均地区生产总值来综合反映经济流和人口流,用城市客运量和城市货运量来反映交通流。考虑到互联网宽带接入用户数在理论上对信息流存在较为直接的影响,同时城市的行政等级和区位也对城市社会经济联系有重要作用,选取每个城市的人均地区生产总值、行政级别、区位、互联网宽带接入用户数、城市客运量、城市货运量共6个变量来对作为因变量的信息流进行多元线性回归(表1)。其中,人均地区生产总值、城市客运量、城市货运量、互联网宽带接入用户数数据均来源于《中国城市统计年鉴2017》。由于部分城市的部分统计信息缺失,在回归过程中将这些城市剔除,剔除的城市包括赤峰、乌兰察布、牡丹江、绥化、龙江、三沙、昌都、林芝、吐鲁番。
2.2 研究方法
在社会网络中,初级关系人和次级关系人的直接联系造成节点的冗余,降低了网络的效率。冗余度表示为:
表1 主要变量描述性统计
Tab.1 Descriptive statistics of main variables
城际信息流数据来自于百度搜索的相关结果数量,通过Python编写爬虫程序,进行批量搜索、抓取和数据格式化。根据百度搜索关键词的算法规则,使用引号保持检索词的完整性以完成精确匹配,两个关键词间使用“+”保证搜索结果中两个关键词同时出现,完整的检索表达式为“城市A +城市B ”。考虑到百度搜索“城市A +城市B ”和“城市B +城市A ”结果有可能会出现较小的不同,最后的数据统计中将两个结果相加作为城市A 和城市B 之间的城际信息流量数值。所有涉及城市A 的城际信息流加总即得城市A 的城市信息流总量。
已有研究对城际信息流量的度量都来自于百度提供的百度指数,而百度指数本身是通过一定处理后得到的指数化指标,且其计算方式并未公开,其准确性和权威性难以保证。而本研究创新性地通过爬虫程序,对搜索引擎的结果进行直接统计,更加直观且灵活,由此获取的城际信息流量也更具研究价值。通过统计,图论等方法可以对城际信息流网络进行较为完善的剖析。
加强学生的实践活动是培养初中生核心素养的重要方式之一。语文核心素养的塑造是一个比较漫长的过程,学生的学习能力在实践中得以提升,从而养成良好的核心素养。例如在讲解《变色龙》的时候,因为文章的情节非常跳跃,文章中的人物又都个性鲜明。为了让学生能够更好地理解文章,教师在设计的时候可以将学生分成几个小组,每个小组进行自导自演,将课本内容以话剧的形式表演出来。学生感兴趣就能够迅速展开讨论文章、编写台词、设计动作、排练,等等。学生在不断的演绎中更清楚地明白了书中的人物特点,更好地理解了文章。
在建立城际信息流网络并对网络的基本特征进行分析的基础上,首次将结构洞的冗余理论引入城际网络分析。通过对冗余度的分析,研究城际信息流网络有别于一般社会网络的特点。通过多元线性回归的方法,剖析城市信息流总量的经济意义。
3 结果及分析
3.1 城际信息流网络度量及分析
通过对爬虫数据的处理和格式化,构建包含271个城市的城际信息流网络,包含城际信息流量和城市信息流总量两个指标。
从上图可见,ESP归入应用语言学的“语言教学”,MTI纳入翻译学的“翻译教学”。两者都是“教学”,MTI翻译教学中的教学评估、课程设计、测试方法等都与ESP 直接相关,两者殊途同归。
从城市信息流总量位居前20位的城市(表2)可以明显地发现,城市信息流总量与城市规模和经济发达程度有较大的相关性。广州、深圳、东莞和佛山是珠三角都市圈最重要的4个城市,2017年GDP分别为22 286亿、21 500亿、9 500亿、7 580亿元,分列全国第3,4,16,19名。上海、杭州、苏州和南京是长三角都市圈最重要的4个城市,2017年GDP分别为30 133亿、17 000亿、12 556亿、11 715亿元,分列全国第1,7,10,11位。北京、天津是环渤海都市圈最重要的两个城市,2017年GDP分别为28 000亿、18 595亿元,分列全国第2,6位。
表2 城市信息流总量居前20位的城市
Tab.2 List of the top 20 cities of information flow
从区域整体上来看,长三角、珠三角和环渤海地区聚集了较多的高信息流城市,这与长三角、珠三角和环渤海三大都市圈的区域经济发展状况是一致的;而与之相反,西部欠发达地区则是信息流量最小的区域。
齐白石有两句题画诗:“省却人间烦恼事,斜阳古树看鸦归。”老人屡次以此题画,也可见其对恬淡心境的追求。可惜人间烦恼事不是那么容易省却的。官本位、金本位文化的影响,常常叫人淡定不能。譬如深恶特权思想的家长们,也时常不自觉参与钻营,只因为怕孩子“遭遇不公”。
R.S.Burt[27]提出了结构洞理论。该理论用结构洞来描述非重复关系人之间的断裂。非重复关系人通过结构洞联系起来,其对网络贡献的利益是可累加的,而非重复的。结构洞存在的条件跟凝聚力和结构等位有关,这两者都会带来相应的冗余,结构洞存在于这两种冗余都缺失的位置[27]。这里的假设沿袭了L.Festinger等[28]对私人关系之间的信息流动以及G.C.Homans[29]的社会群体理论的常规分析,即信息从一个人向另一个人流动的可能性与他们之间关系的强度成正比[27]。显然,结构洞的概念及其描述的相关主体之间的联系理论上应同样适用于城市之间的联系。
初步分析表明,城市信息流总量在一定程度反映了城市和地区的综合发展水平,相比较GDP、人口、基础建设、投资等较为单一的指标来说,城市信息流总量包含了城市间的企业、机构、政府、民间等各类主体的交流信息。在大数据技术的支持下,可以对信息流进行实时的更新,不会受到一般统计数据的时间和地域的限制,从而有利于建立一个动态且持续的城际关系网络,为城际关系和区域关系的研究和发展提供更好的支持。
图1 城市信息流总量骨干网络
Fig.1 Backbone network of cities’ information flow
3.2 冗余度和结构洞计算和分析
一个城市对周围的影响力(集聚和辐射)是客观的。这种影响可以通过人流、物流、资金流、信息流等反映出来。但由于数据缺乏,任何一种“流”的度量都十分困难。本研究提出一个基本的假设:由于各种流的本质是一个城市与周围其他城市之间经济与社会联系的客观反映,各种流之间具有高度的相关性,即如果两个城市之间的某一种“流”比较强的话,则其他几种“流”也会很强。相对应地,如果一个城市与其他城市之间总的信息流量较大,就代表了这个城市有较高的经济能量,即相关的经济指标也较为突出。
企业资源包括有形物质资源和无形的资源,有形的物质资源包括人、财、物等基本物质资源,无形资源包括品牌、社会资本、商誉和技术等无形资源或资产。一个企业具有良好的成长性,就可以高效率地开发和利用已有的资源以及充分挖掘未发现的管理能力。电子商务企业资源成长性的大小可以由这两方面的成长性指标群来测量,有形的资源的成长性是量的增加,如市场占有率的提升、总资产的增加、固定资产的增加、企业员工的增加等;无形的资源的成长性是质的增加,如技术的进步、企业员工素质的提升、社会资本的增加、品牌价值的增加等。
。
式中:R 为i 在整个网络中的冗余度;r j 是i 与j 的冗余关系占i 与其他所有初级关系人的关系总和的比例,即节点j 对i 冗余度的贡献;p iq 是关系人i 花费在与关系人q 的关系上的时间和精力占其网络投资的比例(与q 的交互项除以i 的关系总和),在本研究中即i 与q 之间的信息流占其所有信息流总和的比例;m jq 是关系人j 与关系人q 的关系的边际强度(与q 的交互项除以j 与其他人的所有关系中最强的关系)。p iq ,m jq 的表达式分别为:
为了进一步观察城市信息流网络的特征,将城市信息流总量居前20位的每个城市对应的城际信息流前5位的城市加入网络并与其相连,重复的连接不重复体现,以此构成城市信息流总量的骨干网络(图1)。可见,北京+天津、上海+苏州+杭州、深圳+广州+东莞+佛山是城市信息流总量骨干网络的一级核心节点,次一级的核心节点包括南京和重庆。大量的信息流经过这些城市,在城际信息流网络中拥有巨大的信息优势和控制优势。
而比较文学的教学方法正好能补救这一弊端。《药》这篇小说可以采用比较文学的很多种方法进行解读。限于篇幅,我这里仅从影响研究的层面,谈几点教学思路。
。
式中:z iq 是测量关系人i 与关系人q 关系强度的网络变量,在本研究中即为i 到q 的城际信息流量。
对城际信息网络中271个城市节点的冗余度进行计算,限于篇幅,仅列出居前50位城市的冗余度(表3)。由于冗余度的计算结果数值上十分接近,出于数据比较的直观性考虑将冗余度R 计算结果进行线性变换,使其最大值约为1 000。公式如下:
R new= 100×(10 ×R old-19.9) 。
可以发现,与社会网络中典型的结论正相反,在城际信息网络中,冗余的作用是正向的,其原因在于:(1)中心城市作为区域内信息发布和汇集的平台,产生大量交流和合作的机会,是区域内中小城市可靠且难以替代的信息通路。区域内的中小城市有动力建立与中心城市的直接联系。(2)中心城市拥有大量稀缺性的经济、文化、政治等方面的资源,例如上海,深圳的证券交易所、北京的大量媒体资源等。小城市往往需要通过中心城市才能获得自身需要的发展资源。因此,由初级关系人、次级关系人之间直接联系造成的凝聚力冗余和结构等位冗余不会对中心城市的控制利益造成负面影响。(3)城际网络对关系人的维护成本是较高的基础成本加上较低的边际成本,例如已建有高铁站的情况下,新增一条直达某城市的高铁线路的成本并不高。因此,中心城市新增与小城市的联系并不会显著增加其支出成本。(4)中心城市的繁荣与区域内其他中小城市的发展是相互促进的。中心城市会促进其所在区域内中小城市之间的交流,即初级、次级关系人之间的进一步联系;同时,区域内中小城市间的充分联系也会提升整个区域的竞争力,推动中心城市的发展。
表3 冗余度居前50位的城市
Tab.3 Top 50 cities of high redundancy
具体来看,上海拥有最高的冗余度,说明在以上海为核心的城市网络中,与上海直接相联系的城市之间也都普遍存在活跃的联系。上海作为国际经济、金融、贸易、航运和科技创新中心,长江经济带的龙头城市,充分发挥了它在网络中的核心作用,对相关联城市的辐射效应非常显著,区域整体的经济、文化等交流合作十分活跃,形成了可持续、优质的发展模式。
SNCR+SCR脱硝是目前国内NOx超低排放项目使用较多的工艺,经SNCR在炉内脱除部分NOx,再经过SCR系统进一步脱硝,该组合方式运行系统稳定,已被广泛使用。
北京拥有最高的城市信息流量,但是在冗余度排名中仅列第8位。其原因可能是北京作为首都和政治与文化中心,城际信息流中政治相关的内容占了相对较大的比重,与其他城市的关系在一定程度上更贴近于以城市行政等级为基础的树状关系,初级关系人、次级关系人之间的城际信息流与其与北京直接的信息流相比差距较其他以产业和金融为优势的核心城市(如广州、天津等)更大,因此其冗余度会相对较小。另外,北京对城市网络中各城市的直接辐射效应虽然是最强的(城市信息流总量居第1位),但在带动区域内城市整体活跃和发展上尚有不足。这与当前京津冀地区北京、天津与河北的发展存在显著断层的事实是相一致的。
综合来看,冗余度较高的城市都是综合发展程度较高的城市,他们在各自的区域都处于中心城市的地位。
3.3 城市信息流总量经济意义回归分析
以城市信息流总量F 为因变量,城市的人均地区生产总值(G )、行政级别(L )、区位(A )、互联网宽带接入用户数(I )、城市客运量(P )、城市货运量(C )为自变量,进行多元线性回归(表4)。6个自变量中,区位和行政等级为虚拟变量。其中,区位分为东部、中部和西部,分别赋值1,2,3;行政等级分为省级城市(4个直辖市),副省级城市(包括10个副省级省会城市和5个计划单列市:沈阳、长春、哈尔滨、南京、武汉、广州、济南、杭州、西安、成都、深圳、厦门、宁波、青岛和大连),非副省级省会城市,其他地级市共4类,分别赋值1,2,3,4。
由回归结果可知,人均GDP、货运量、互联网宽带接入用户数对城市信息流总量的影响均为显著,且系数均为正,验证了之前的假设:城际信息流实际上综合反映了一系列的社会经济联系,包括城市间的交通联系(如上海—苏州之间的火车时刻表)、城市间的企业联系(如上海企业在苏州的分公司)、城市间的政府交流(如苏州政府代表团到上海学习)、城市间的民间交流(如上海人到苏州探亲)、城市间的潜在联系(如网友提问上海到苏州驾车需要多长时间)等。
表4 回归结果
Tab.4 Results of regression
说明:***,**,*分别表示在1%,5%,10%水平上显著。括号内数值为t 值。
人均GDP能够很好地反映城市在经济发展方面的状况。该变量显著说明了城市信息流受到该城市经济势能的显著影响。即城际信息流实际上是城际经济流、产业流的客观反映。
客运量是对一个城市的交通(包括旅游等相关产业)情况的总体反映。在城际信息流中,两个城市的交通线路是很重要的一个部分。理论上客运量对城际信息流存在显著影响。回归结果中客运量的影响不显著很有可能是统计口径造成的,《中国城市统计年鉴2017》中,将客运总量分为公路客运量,水路客运量和民用航空客运量,而没有统计铁路客运量。事实上,对于很多城市,尤其是大城市,铁路是非常重要的客运途径,承担了很大比例的客运量。因此,没有将铁路客运量计入统计中会对结果造成较大影响。
货运量直接反映了一个城市交通和经济状况,例如某城市是贸易和交通中某条线路上重要的枢纽或中转站。回归结果中货运量对信息流的影响是显著的,这也进一步说明了城际信息流与城际的贸易流、交通流确实存在明显的正相关性。
六是资金支持因素。有利面是党和国家十分重视水利建设,多年来对水工程建设持续投入,水资源配置格局和防洪减灾体系基本建立。不利面是水利投入稳定增长机制尚未建立,长期存在较大投资缺口,水利资金配置合理性有待论证。
互联网接入用户数一方面反映了城市的信息化程度,另一方面由于信息流是通过百度搜索获得,实际上是两个城市社会经济联系在互联网信息上的显示度,因此,与城市的互联网宽带接入用户数应该有较好的相关性,所以该变量显著也是合理的。
区位在回归中作为虚拟变量。在中国当前区域发展极不平衡的情况下,区位对城市的发展有极大的影响。回归结果中,区位的系数为负,区位3(西部)显著,且其系数绝对值大于区位2(中部),由此可知区位对信息流有较明显影响,相对于东部城市,中部和西部城市的信息流依次减少,其中西部城市的区位对其信息流数量的影响尤为显著。反映到城际信息流上,处于西部的城市与其他城市之间的信息流量显著降低,这反映出西部城市相对较为封闭,参与区际合作交流、产业分工的程度较低。
行政等级在回归中同样是虚拟变量,它可以在一定程度上表现政治与政策行为。回归结果显示行政等级的系数为负,其中行政等级3(非副省级省会城市)和行政等级4(其他地级市城市)显著,且行政等级2,3,4的系数绝对值逐渐增大。表明行政等级对城市信息流量有较明显影响,即行政等级越低,信息流量越小。其中不是直辖市或副省级省会城市的城市信息流显著减少,这表明直辖市和副省级省会城市所拥有的政治和政策优势使这些城市有强大的吸引力,集聚了大量的信息和资源,客观上成为了城际信息流网络的重要节点。
4 结论与展望
4.1 结论
运用Python爬虫方法,获取了基于百度搜索的271个城市间的城际信息流量,构建了城际信息流网络。
通过分析网络的基本特征发现,城市信息流总量较大的城市同时也是社会综合发展水平较高的城市。城际信息流骨干网络中,北京+天津、上海+苏州+杭州、广州+深圳+东莞+佛山处于一级核心位置,南京和重庆处于二级核心位置,这与当前中国城市和区域发展的现状是一致的。表明城市信息流是对城市社会发展状况的一种综合性反映。同时将结构洞冗余度理论引入到城市网络分析,通过计算和分析,证明了城市网络的冗余度反映了节点城市在网络中的重要性以及区域整体交流合作的活跃度。这与传统的社会网络分析中认为结构洞冗余度是效率损失的认识正相反,是城际信息流研究中的重要发现。
通过多元线性回归分析发现,人均GDP、货运量,互联网接入用户数、区位和行政等级均显著影响城市信息流总量。其中人均GDP、货运量、互联网接入用户数与城市信息流量正相关。在区位方面,位于西部的城市信息流量显著较小;行政等级方面,非直辖市或副省级省会城市的信息流显著较小。这表明城际信息流综合反映了一个城市政治,经济,文化等各方面的发展程度,是比人流、物流、资金流、技术流等更能全面衡量城际联系强度的指标。
4.2 展望
本研究通过多层次的分析,揭示了城际信息流的经济意义。在此基础上,未来的研究一方面可以通过对城际信息流的时间条件进行约束,形成时间序列的数据,研究城际信息流网络的动态变化,并进一步预测城市群和区域经济一体化的趋势;另一方面可以研究城际信息流对城市和区域发展的反向作用——较强的信息流是否能够促进城市和区域发展。另外,在实际应用方面,城际信息流的测度和变化趋势的分析对城市群规划、交通网络和其他基础设施网络规划都具有重要价值。
参考文献:
[1] 张闯.从层级到网络:城市间关系研究的演进[J].财经问题研究,2009(3):22-27.
[2] SIMMONS J W,ALONSO W,BOURNE L S.Systems of Cities:Readings on Structure,Growth,and Policy[M].New York:Oxford University Press,1978.
[3] 曾浩.城市群内城际关系及其对城市发展影响研究——以武汉城市圈为例[D].武汉:中国地质大学,2016.
[4] RODAWAY P.Recognizing European Modernities:A Montage of the Present[J].Transactions of the Institute of British Geographers,1995,20(4):515-516.
[5] ESPARZA A X,KRMENCE A J.Large City Interaction in the US Urban System[J].Urban Studies,2000,37(4):691-709.
[6] CASTELLS M.The Information Age:Economy,Society,and Culture.Volume 1:The Rise of the Network Society[M].Hoboken,N.J.:John Wiley & Sons,2011:440-448.
[7] 陈晨,修春亮.流空间视角的东北地区城市网络研究[J].地域研究与开发,2014,33(4):82-89.
[8] 高鑫,修春亮,魏冶.城市地理学的“流空间"视角及其中国化研究[J].人文地理,2012,27(4):32-36.
[9] 董超.“流空间”的地理学属性及其区域发展效应分析[J].地域研究与开发,2012,31(2):5-8.
[10] 冷炳荣,杨永春,李英杰,等.中国城市经济网络结构空间特征及其复杂性分析[J].地理学报,2011,66(2):199-211.
[11] 孙桂平,韩东,贾梦琴.京津冀城市群人口流动网络结构及影响因素研究[J].地域研究与开发,2019,38(4):166-169.
[12] 黄园园,闫庆武,冯志鹏,等.基于交通流强度的淮海经济区城市等级体系划分研究[J].地域研究与开发,2015,34(5):58-63.
[13] 陈伟劲,马学广,蔡莉丽,等.珠三角城市联系的空间格局特征研究——基于城际客运交通流的分析[J].经济地理,2013,33(4):48-55.
[14] 陈伟,修春亮,柯文前,等.多元交通流视角下的中国城市网络层级特征[J].地理研究,2015,34(11):2073-2083.
[15] 冯长春,谢旦杏,马学广,等.基于城际轨道交通流的珠三角城市区域功能多中心研究[J].地理科学,2014,34(6):648-655.
[16] 刘法建,张捷,陈冬冬.中国入境旅游网络结构特征及动因研究[J].地理学报,2010,65(8):1013-1024.
[17] 卞显红,沙润.长江三角洲城市旅游空间相互作用研究[J].地域研究与开发,2007,26(4):62-67.
[18] 郭建科,王绍博,李博,等.哈大高铁对东北城市旅游经济联系的空间影响[J].地理科学,2016,36(4):521-529.
[19] 武前波,宁越敏.中国城市空间网络分析——基于电子信息企业生产网络视角[J].地理研究,2012,31(2):207-219.
[20] 熊丽芳,甄峰,王波,等.基于百度指数的长三角核心区城市网络特征研究[J].经济地理,2013,33(7):67-73.
[21] 熊丽芳,甄峰,席广亮,等.我国三大经济区城市网络变化特征——基于百度信息流的实证研究[J].热带地理,2014,34(1):34-43.
[22] 蒋大亮,孙烨,任航,等.基于百度指数的长江中游城市群城市网络特征研究[J].长江流域资源与环境,2015,24(10):1654-1664.
[23] 胡国建,陈传明,侯雨峰,等.基于百度指数的黑龙江省城市网络研究[J].地域研究与开发,2018,37(1):58-64.
[24] 赵映慧,李佳谣,郭晶鹏.基于百度指数的成渝城市群网络联系格局研究[J].地域研究与开发,2017,36(4):55-59.
[25] 张宏乔.基于信息流的中原城市群城市网络空间特征及演化分析[J].地域研究与开发,2019,38(1):60-64.
[26] 孙中伟,路紫,贺军亮.世界互联网信息流的空间格局及其组织机理[J].人文地理,2009,24(4):43-49.
[27] BURT R S.Structural Holes:The Social Structure of Competiton[M]//DOBBIN F.The New Economic Sociology:A Reader.Princeton:Princeton University,2004:325-348.
[28] FESTINGER L,SCHACHTER S,BACK K,et al .Social Pressures in Informal Groups[M].Redwood City,C.A.:Stanford University Press,1963:3-13.
[29] HOMANS G C.The Human Group[M].New York:Routledge,1993.
Study on the Measurement of Inter -city Information Flow Network Based on Crawler Technology and Its Economic Significance
XU Tingweia, LUO Shouguia,b
(a .Antai College of Economics &Management ;b .China Institute for Urban Governance ,Shanghai Jiao Tong University ,Shanghai 200030,China )
Abstract : With the development of information technology, inter-city information flow based on big data support, industrial flow, etc. provides a new research perspective for urban network research based on “flow space”. In order to further study the economic significance of inter-city information flow, this research wrote a python crawler program based on Baidu search and did the statistical analysis based on information flow between 271 cities. The analysis finds that the total amount of city information flow is a comprehensive reflection of the degree of urban development. At the same time, through the extension of the structural hole theory, it is proved that the central node has higher redundancy in the inter-city network. Finally, the regression analysis algorithm proves that the total amount of urban information flow is significantly affected by urban per capita GDP, freight volume, number of internet access users, city location and administrative level.
Key words : inter-city information flow; city information flow; crawler technology; structure hole theory; redundancy
中图分类号: F061.5
文献标志码: A
文章编号: 1003- 2363( 2019) 06- 0046- 06
doi: 10.3969/ j.issn.1003- 2363.2019.06.009
收稿日期: 2018-10-10;修回日期: 2019-10-17
基金项目: 国家社会科学基金重大项目(12&ZD026);上海交大中国城市治理研究院项目(2017-A-067-004)
作者简介: 徐庭伟(1994-),男,浙江浦江县人,硕士研究生,主要从事城市与区域经济发展方面的研究,(E-mail)xutw.carlos@qq.com。
通信作者: 罗守贵(1963-),男,河南固始县人,教授,博士生导师,博士,主要从事城市与区域经济发展方面的研究,(E-mail)sgluo@sjtu.edu.cn。
标签:城际信息流论文; 城市信息流总量论文; 爬虫技术论文; 结构洞论文; 冗余度论文; 上海交通大学a.安泰经济与管理学院论文; b.城市治理研究院论文;