京津冀协同发展政策与文献的语义匹配度研究论文

京津冀协同发展政策与文献的语义匹配度研究

刘璐，余文斌，李欣桐，赵毅，何喜军

(北京工业大学经济与管理学院，北京 100124)

[摘要] 提高政策与文献研究的协同效果，有利于加强科学研究对政策制定的支撑作用，以及政策制定对科学研究的引导作用。以中国知网和白鹿数据为数据源，基于Word2Vec和余弦相似度构建政策与文献文本的语义匹配度模型，研究京津冀协同发展政策与文献的匹配度及热点。研究发现：匹配度逐年上升，但匹配度值仍不够高；政策对科学研究有正向引导作用；政策与文献的热点呈现多元化趋势；政策持续关注点为城市建设，此外科技、环境、交通协同发展等也是热点；经济协同发展与产业转移、环境、区域空间建设、协同创新是研究热点。文章为政策与文献匹配度的定量研究提供了思路和方法。

[关键词] 京津冀协同发展；政策；文献；语义匹配度；热点

1 引言

2014年2月，京津冀协同发展上升为国家战略，为京津冀三地的跨越式发展提供重要机遇。5年来，为推动战略实施，国家和京津冀三地政府陆续出台多项政策，学术界也围绕区域协同创新开展系列研究，取得了阶段性的成果。在战略实施进入攻坚阶段，政策与科学研究的协同性和匹配性尤为重要，匹配度高，说明科学研究对政策制定的支撑作用加强，同时政策制定引导科学研究的问题导向功能加强。目前，已有成果多从单一维度研究政策热点和科学前沿挖掘，对两者语义匹配度的研究还较少关注。因此，本文将利用文本挖掘中语义分析方法基于时间系列研究政策与文献的匹配度，并挖掘政策与文献热点，为提高两者的协同效果提供对策建议，从而加强科学研究对政策制定的支撑作用，以及政策制定对科学研究的引导作用。

2 文献回顾

2.1 京津冀协同发展政策研究及热点识别

京津冀协同发展的核心是有序疏解北京非首都功能。董微微^[1]通过对中央报刊政策文本的关键词和主题词的提炼及分析，探究京津冀协同发展热点主题和前沿趋势；黄萃等^[2]提出政策文献量化研究，为公共政策研究提供新方向。

2.2 京津冀协同发展文献研究及热点识别

魏进平等^[3]利用文献计量学和共词分析等方法，总结京津冀协同发展的研究热点和趋势；陈辰^[4]等结合词频统计与高频关键词的语义关联分析，挖掘京津冀协同发展的热点主题。

2.3 政策与文献语义匹配方法研究现状

王崇德^[5]研究证明文献计量学是科学政策制定有力的辅助工具；徐扬辉^[6]表明公共政策制定过程离不开社会科学研究方法的运用。因此，研究政策与文献语义匹配度有利于反映科研成果的有效性。目前，基于关键词共现和基于语义共现匹配方法应用比较多。关键词共现方法认为：关键词在同篇文献中两两出现的频次越多，则认为这两个词的相关性强，但是当共现次数相同时则无法判断相关性强弱，且该方法无法判断语义相同但不共现的关键词之间的相关性强度，因此，该方法更适用于相关性问题识别。基于语义共现匹配方法能更好地弥补上述方法的不足，例如：基于信息内容的词向量模型^[7]，可以根据特征选择和统计构造向量空间，计算向量的语义相似性。

本文将采用MIKOLOV等^[8]提出的Word2Vec模型结合维基百科语料库将政策与文献文本转化为低维实数向量，再结合余弦相似度计算政策与文献的语义匹配度。

之前的施工技术大多是对混凝土原材料进行现场加工，由于原材料除了水以外大都呈粉末状，在现场加工时难免会造成尘土飞扬，破坏周围的环境，影响当地居民日常生活，对作业工人的身体也会造成一定程度的伤害。现在的混凝土装配式住宅施工技术采用的是预制构件，即不需要对原材料进行现场加工，而是由厂家生产出原材料之后直接将其按照科学的比例进行浇筑而形成。该技术避免了对原材料的现场加工，从而大大减少了在施工过程中产生的灰尘，从而有效地保护环境，减轻了对周围居民生活造成的影响，相关的作业人员的身体健康也得到了有效的保障。

3 基于词向量的政策与文献语义匹配度模型

关于模型构建步骤，有以下三步。

3.1 采集政策与文献文本词集

通过Python切词工具将政策与文献文本切分成词集，将文献词集表示为S _i ={S _{i_}1 ,S _{i_}2 ,…,S _{i_p} }(i =1,2,…,m )，m 为文献词的个数，将政策词集表示为D _j ={D _{j_}1 ,D _{j_}2 ,…,D _{j_q} }(j =1,2,…,n )，n 为政策词的个数。计算语义相似度是先计算词语之间的距离，距离越小则相似度越大，因此，两个词集中相同词语越多，那么其相似度也就越高，但是语义相似是指不同词语的含义相似度，因此要将两个词集做去重处理。处理后的S _i 表示为(p ′为文献词集去重后词的个数)，D _j 表示为(q ′为政策词集去重后词的个数),两词集的交集个数为r ，且0≤r ≤min(p ,q )。

3.2 训练词向量模型

将采集到的政策与文献信息以及维基百科数据作为语料库，利用Word2Vec模型训练文本，将所有的词向量化，以此来表示词与词之间的关系，进而得到词向量模型。

M ₁

从举世闻名的万里长城，到守土一方的城池，不管是出于对安居乐业的渴望，还是内敛民族性格的彰显，中国历史上不知修建了多少座城墙，也不知有多少城墙随着冷兵器时代的结束，轰然坍塌在了岁月的长河中。西安是幸运的，它的古城墙几乎完好如初地幸存下来了，成为世界上目前规模最大、保存最完整的古城墙。

3.3 计算政策与文献的语义匹配度

利用基于词向量的词集相似度方法^[9-10]计算政策与文献文本语义匹配度。以计算和中的为例，设a _i 和b _i 分别为和的词向量，h 为词向量的维数，则：

(1)

4.3.2 研究热点变化分析

2017年10月16日三明市大田县桃源镇前厝村武陵自然村发生数十处岩溶地面塌陷，塌陷主要位于农田及房前，导致1栋民房损毁，20多栋民房开裂、近13.33 hm2农田不能耕种。同时，伴有道路和灌溉水渠塌陷、开裂等损坏，严重影响当地居民生产生活，威胁武陵自然村500余人生命财产安全。

计算机作为高新技术应用，对于提高学生社会实践能力及计算机技术水平具有良好的推动作用。尤其是极域多媒体电子教室软件应用，对解决计算机基础性教学的诸多难题有一定的帮助，使学生在计算机知识学习方面，不再受到基础学习环境及知识学习能力的限制，实现对学生计算机知识的立体化教学。通过理论知识讲解与教学实现对学生计算机知识的掌握能力及应用能力进行深度提高。

将M ₁中的最大值元素添加到集合R 中，删除所在的第k 行和第v 列的所有元素值；重复以上过程，直到集合R 中的元素个数T 为min (p ′,q ′)，从而得到集合R ={Sim ₁,Sim ₂,…,Sim _T }，词集和的匹配度即为集合R 中各元素的加权平均值，公式为：

(2)

4 京津冀协同发展政策与文献匹配度测算

4.1 数据检索与统计分析

由图1发现，2014—2017年，文献数量快速增长，政策数量在2014年达到最高后，呈现下降趋势；2018年，文献和政策数量均呈现下降趋势。分析其原因：国家战略制定后，各级部门快速反应并制定相关政策，短周期内政策数量达到顶点，后续围绕实践中面临的主要问题进行政策的调整和完善，数量趋于平稳；而文献研究需要周期较长，但在政策引导下，关注范围持续升高，成果快速增长。经过5年的周期，政策与制度相对完善，呈现下降趋势，从研究层面，对问题的关注更加深入，主题更加丰富和多元化，例如近年来的“雄安新区”建设则成为京津冀协同发展的研究热点，但因检索词中未涉及，导致从数据统计上文献数量呈下降趋势。

图1 京津冀政策与文献发表时间及数量分布

文献数据来源为中国知网，检索时间为2014—2018年，检索主题为 “京津冀”和“环渤海”，文献类别为CSSCI和CSCD，共检索到1951篇。政策文本来源为白鹿数据，检索时间同上，检索词为：“京津冀”“环渤海”“北京”“天津”“河北”，共检测到1004个政策。政策与文献发表时间及数量分布如图1所示。

4.2 匹配度计算与分析

利用基于词向量的匹配度模型计算政策与文献的匹配度。结果如表1所示。

表1 京津冀协同发展政策与文献匹配度

结合政策热点词频统计，得出政策持续关注点为城市建设，此外科技、环境、交通协同发展等也是热点。其中，城市建设一直是政策热点，2016年9月全国科技创新中心建设上升为国家战略后，科技协同发展政策成为热点。随着大气、污染等问题的关注度上升，京津冀环境综合治理也是京津冀政策热点，且关注度逐年上升。此外，京津冀交通一体化作为《京津冀协同发展规划纲要》中的重点领域，交通问题五年间三次成为政策热点。

4.3 政策与文献的热点挖掘及差异性分析

由于政策和文献关注点差异较大，归纳政策与文献的热点关键词如表2所示。

表2 2014—2018年政策与文献研究热点关系网络及分布

续表

基于此，将两类文本的热点词汇可视化，得到图2、图3、图4和图5所示。

料包使用要点：建议鱼的重量控制在1000～1500 g；添加3～4 g食盐和15～20 g料酒对切配好的鱼进行腌制，腌制10～15 min。将汤底油包放入锅内，再加入1～1.5 L的水，烧开。向锅中加入腌制好的鱼块，大火煮沸。消费者可适当加入1～2个西红柿，西红柿切片即可，风味口感更佳。起锅前，加入汤底粉包，根据个人口味再加入适量的藤椒油包。食用时根据个人口味调制蘸料。

图2 2014年政策热点关系网络图3 2014年研究热点关系网络

图4 2018年政策热点关系网络图5 2018年研究热点关系网络

4.3.1 政策热点变化分析

绞车润滑使用了机油润滑和脂润滑。减速箱内的齿轮及轴承均采用机油润滑方式润滑降温，该系统主要由电动齿轮液压泵、吸油过滤器、吸油与回油管线及各种管线接头等组成，电动齿轮液压泵安装在减速箱箱体上，通过吸入减速箱底部的润滑油送至齿轮减速箱各润滑部位，绞车电机启动时该泵自动启动。绞车滚筒两侧滚筒轴支撑轴承、盘刹液压缸、电机轴承，连接电机与齿轮减速箱的齿式联轴器、滚筒轴端仪表装置、挡绳轮和盘刹钳缸连杆等部位均采用润滑脂润滑。

操动机构由手动或者电动的方式完成合闸，而合闸能量可以转变成电磁能和弹簧的位能及重力位能等，可以促动断路器的动作。提高断路器结构与传动机构的机械性能，一旦机构发生故障，就会使断路器发生拒动，而电磁操动机构是由螺管电磁铁执行动作，电磁铁线圈电压与电流可以说是影响电磁铁处理能力重要的因素[1]。

由表1可得：其一，5年来，政策与文献的语义匹配度呈现增长趋势，说明两者的协同性持续增长，政策研究的引导作用及文献研究对政策的支撑作用持续增强。其二，5年来，政策与文献的语义匹配度虽然呈现增长趋势，但匹配度相对较小，说明政策与文献研究的差异性依然较大。

同理，可得p ′×q ′的语义匹配度矩阵M ₁：

结合科学文献热点词频统计，得出经济协同发展与产业转移、环境、区域空间建设、协同创新是研究热点。其中，经济协同发展与产业转移领域主要包括经济、产业、城市等。《京津冀协同发展规划纲要》指出要率先突破京津冀生态环境保护、产业升级转移等重点领域，因此近五年经济协同与产业转移一直是首要热点，环境治理是第二关注点。其次，空间规划作为实现可持续发展的必要手段和途径，时空和空间热度仅次于前两大热点。此外，科技创新也是研究热点。

4.3.3 政策与文献热点共性分析

全息机器人产品主要具备3D全息显示、语音交互等功能。全息图像由激光全息照相技术生成，其利用分光镜生成多路激光，无论全息底片多小，或者碎成多少块，在激光进行重放时都可以看到完整的图像。通过这样的方式，可以实现与用户面对面交流和服务。

政策与科学研究共性热点为京津冀城市建设问题。其中，主要涵盖京津冀资源分配、城市布局、空间结构调整、缓解首都功能压力、交通服务一体化等方面。此外环境问题连续五年作为政策与文献的热点关键词，其中，大气污染持续受到学者关注，是环境保护中最亟待解决的问题。

4.3.4 文献、政策热点差异性分析

政策关注科技与技术。“京津冀协同发展”提出之后，国家出台多部科技、技术支持政策，以此激励科技进步、技术开发与转移，缩小京津冀三地的科技技术水平差距。学者更重视经济发展、协同创新以及区域空间产业转移。

综上所述，随着政策的完善及研究的深入，热点呈现多元化趋势，政策研究与科学探索的匹配性提高。

5 研究结论和不足

本文以维基百科、中国知网以及白鹿数据文本为语料库训练词向量模型，利用Word2Vec结合余弦相似度构建政策与文献文本语义匹配度模型，对政策与科学研究的契合度以及热点变化进行研究，得出结论：其一，政策与文献匹配度稳步提高，科学研究对政策制定的支撑作用增强；其二，政策对科学研究有正向引导作用；其三，政策与文献匹配度仍不够高；其四，政策的四大热点为城市建设、科技、环境、交通；研究的四大热点为经济协同发展与产业转移、环境、区域空间、创新，且五年间热点变化不大；其五，学者和政策主要关注点相同，但次要关注点不同，导致政策匹配度不够高。

基于上述结论，为提高政策与文献匹配度水平，提出如下四点建议。

第一，挖掘政策需求热点，增强科学研究对政策制定的支撑作用。要深入研究京津冀协同发展政策，关注城市建设、区域环境、经济社会以及科技创新等领域的潜在问题。

第二，增强政策制定引导科学研究的导向功能。将政策目标细化，从而减小政策推行过程中热点识别难度，提高政策导向功能。

第三，提高科学研究对政策制定的决策支持作用，科学探索一方面要解决科学难题，另一方面要面向现实问题，因此应用实践类、案例研究类等问题研究要提高政策建议的有效性和可操作性。

第四，提高政策与科学研究的动态匹配性，要关注基于动态视角分析的政策以及文献研究的多维统计和热点挖掘，剖析两者之间的协同发展关系，以及相互作用。

本研究仅采集了CNKI中收录的文献，数据的局限性可能影响了分析的全面性。此外，分词的准确性会影响文本的量化分析。

北冰洋位于欧、亚、北美洲的顶点，地下蕴藏着巨量的油气资源。因严寒天气和多年积冰，北冰洋不适宜商业航行，船舶绕航导致海运物流成本居高不下，使得北极油气资源无法进行大规模的开发和运输。

参考文献：

[1]董微微.国内京津冀协同发展研究热点与趋势[J].工业技术经济,2015,34(8):134-138.

[2]黄萃,任弢,张剑.政策文献量化研究:公共政策研究的新方向[J].公共管理学报,2015,12(2):129-137，158-159.

[3]魏进平,赵王英.基于文献计量学方法的京津冀协同发展研究评述[J].河北工业大学学报(社会科学版),2016,8(3):11-18.

[4]陈辰,王璐,郝晓雪.基于词频统计与语义关联的京津冀协同发展研究热点与前沿监测研究[J].河北科技图苑,2018,31(1):91-96.

[5]王崇德.文献计量学方法在制定科学政策中的应用[J].图书情报工作,1988(1):10-16.

[6]徐扬辉.论社会科学研究方法在公共政策制定过程中的作用和意义[J].当代经济,2011(14):34-35.

[7]蔡圆媛,卢苇.基于低维语义向量模型的语义相似度度量[J].中国科学技术大学学报,2016,46(9):719-726.

[8]MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of wordsand phrasesand their compositionality[J].Advancesin Neural Information Processing Systems,2013(26):3111-3119.

[9]崔晓兰,蔡淑琴,冯进展.基于本体的通信服务网络抱怨案例相似度计算[J].系统工程理论与实践,2017,37(6):1638-1647.

[10]何喜军,马珊,武玉英.基于本体和SAO结构的线上技术供需信息语义匹配研究[J].情报科学,2018,36(11):95-100.

[ DOI] 10.13939/j.cnki.zgsc.2019.35.029

[作者简介] 刘璐( 1998—) ，女，北京人，北京工业大学经济与管理学院，研究方向：数据挖掘; 余文斌(1998—)，男，甘肃庆阳人，北京工业大学经济与管理学院，研究方向：软件工程技术; 李欣桐(1998—)，女，北京人，北京工业大学经济与管理学院，研究方向：信息计量; 赵毅(1998—)，男，辽宁沈阳人，北京工业大学经济与管理学院，研究方向：数据挖掘; 何喜军(1979—)，女，河北文安人，北京工业大学经济与管理学院，副研究员，博士，研究方向：数据挖掘与决策支持。

标签：京津冀协同发展论文; 政策论文; 文献论文; 语义匹配度论文; 热点论文; 北京工业大学经济与管理学院论文;