基于新闻文本挖掘的政府态度识别实证研究论文

基于新闻文本挖掘的政府态度识别实证研究*

● 段尧清1,2,何思奇1,2,林 平1,2

(1.华中师范大学信息管理学院,湖北 武汉 430079;2.湖北省数据治理与智能决策研究中心,湖北 武汉 430079)

摘 要: [目的/意义]政府新闻文本作为政府部门发布的重要信息之一,能有效解释政府政策与政府行为,体现政府态度,基于新闻文本挖掘的政府态度自动识别研究有助于情报人员快速了解政府态度的基本情况及发展路径,对情报分析工作具有一定的参考价值。[方法/过程]在评价理论和模糊限制语的基础上构建领域态度极性词典与模糊限制语词典,以美国白宫网站的新闻文本作为实验数据集,采用基于word2vec的态度匹配算法,对新闻文本中蕴含的政府态度极性与态度强硬程度进行自动识别,最后进行模型的信度效度分析。[结果/结论]政府态度识别模型具有较好的识别效果,将文本挖掘技术引入政府态度识别研究有利于拓宽该领域的研究思路与方法,提升决策的时效性与科学性。

关键词: 新闻文本;文本挖掘;政府开放数据;政府态度;态度识别

态度是建立在认知、情感反应、行为意向以及过去行为基础上的评价倾向性[1]。政府是人们自愿通过协议联合组成的共同体[2],是国家表示意志、发布命令和处理事务的机关,政府态度是国家机关对特定群体、事件等对象的评论性倾向。一般情况下,态度会表现于外,个人态度通常显露在表情、言语和行动等行为中[3];政府态度关乎政府形象,通常表现在一系列政策法规、政府新闻与外交活动中。政府态度识别是运用科学方法对承载政府态度的内容进行分析,从而明确政府态度的过程。现今,国际局势风云诡谲,政治环境错综复杂,政府态度的识别研究有助于政府机构及企业情报人员快速获悉政府态度的基本情况、历史发展路径,对情报分析、决策制定具有指导意义,与中国特色新型智库体系“智慧洞察,前瞻储备”的功能要求相互呼应[4]

1 相关文献回顾

回顾近年来政府态度的研究成果,我们可以发现国内外学者在分析政府态度时大多依托于政府新闻文本[5]、政府部门相关人员的访谈数据[6-8]与历史事件[9-11]。在研究方法的使用上,国内外学界呈现出一定的共性与差异。共性主要体现在逻辑推理法的使用,学者在历史事件与政策方针的基础上进行逻辑推理,从而分析政府态度与变化情况[9-11]。差异性主要表现为国内学者采用内容分析法,借鉴评价理论,对新闻文本中的态度资源进行编码,进而识别新闻报道等文本数据中蕴含的政府态度[5],国外学者则善于采用量表法,使用特定的态度量表进行针对性测评,从而了解政府态度情况[6-8]。综上所述,推理法、内容分析法与量表法是政府态度识别研究中被广泛使用的方法,但上述方法的效度和信度并不十分理想。得益于大数据与人工智能的迅猛发展,文本挖掘技术逐步成熟,近年来被广泛应用于专利信息分析、网络新闻与舆情信息分析、健康医疗分析以及知识发现等多个领域,呈现出多元化与交叉化特点[12]。在新的时代背景下,研究人员利用文本挖掘的技术优势,对政策性文本等政府资源进行深度挖掘分析,取得了丰硕的研究成果,形成了如政府公文处理系统、自动简报系统等一系列政府资源智能管理系统[13-15],为中国特色新型智库的建设提供了有效助力。由此,本文将文本挖掘技术引入政府态度识别研究中,提出了基于新闻文本挖掘的政府态度自动识别模型,使用态度词典与匹配算法,对政府新闻文本中的态度词进行自动识别,代替人工分析。结果表明,基于文本挖掘技术的政府态度自动识别模型有较好的识别效果,节省了时间成本,提高了政府态度的分析效率。

2 态度识别模型构建

2 .1 理论依据与实施路径

图1 基于文本挖掘的态度自动识别路径图

2.1.1 理论依据 政府新闻由国家权威机构发布,能有效解释政府政策和政府行为、传达政府立场、引导社会舆论,是民主政治运作过程中不可或缺的一环[16]。从政治传播学角度看,新闻是传达事件的平台,也是执政者提高公共政策部门的执政形象、执政公信和执政合法性的有效手段[17]。政府新闻发布指的是政府通过新闻发言人以及其他信息传播途径,向媒体和公众公布有新闻价值的信息,传达政府的立场和态度[18]。本文以政府新闻文本为数据源,分析政府态度。

在文本态度揭示方面,J.R.Martin在系统功能语言学的基础上提出了评价理论,形成了语言评价研究中极具价值的理论和分析工具。该理论阐述了人际意义的概念,探索、描述和解释了语言用于评估、采取立场、构建文本角色和管理人际定位和关系的方式[19],重点关注话语如何通过评价型词汇语法资源表达各种态度和情感[20],被广泛应用于新闻语篇分析中。从理论构成来看,评价理论包含介入、态度和级差三个子系统,其中,态度系统是核心,是英文文本中用于映射感受的框架,由情感系统、鉴赏系统和判断系统三部分组成[21],各组成部分均被划分为积极和消极两大类。据此,本文以评价系统中的态度系统作为理论依据,将态度极性分为积极与消极两大类,用于分析新闻语篇中的政府态度极性。

葛局长当时真的不怕。人在激动的时候,什么都不怕。但冷静之后,就越想越怕了。葛局长记得他钻进车子时,许沁站在他的车窗外,慵懒地说,葛局长您再考虑考虑吧,这几天请给我个回话。哦,时间有点紧,税务那边催着呢,麻烦葛局长快点。

在获悉新闻文本所反映的政府态度倾向的同时,我们同样关注态度极性的模糊程度。含蓄、善于运用“托词”是政治语言的特色。从政往往不可避免地要控制信息的传递,这种控制主要表现在语篇上的省略与含糊[22]。政府新闻文本作为一种典型的政治语言[23],其模糊性特点也是需要重点关注的内容。本文从词汇角度切入,引入模糊限制语构建模糊词词典。模糊限制语是指具有模糊语义特点的词语[24],表示对所述内容的准确性或精确度不完全承诺的程度[25]。模糊限制语是礼貌表达的重要手段之一,能使言语表达礼貌客气,缓和陈述语气,有效调节和维系交流双方的平等合作关系,表达立场时采用模糊策略能缓和语气,避免极端化[26]。因此,笔者认为,语篇中的模糊限制语越多,政府态度越缓和;反之则态度越强硬。政府新闻文本中包含了大量模糊限制语,我们通过统计模糊限制语的出现频次,了解文本内容的模糊程度进而分析态度的强硬程度。

饭毕,两人前后走出大厅。大门口,王树林接过辛娜的伞,擎在手中,另一只手自然而然地揽在了辛娜的腰间。手感柔滑。辛娜甚至还主动将身子往王树林这侧靠了靠,这让王树林心尖的芽苞增大了一圈。他走得很慢,辛娜配合着他的缓慢。他们缓慢地走向停车场。在辛娜的车前,王树林终于忍不住拉开了车门。辛娜说,谁同意的?

2.1.2 实施路径 在态度极性词典与模糊词词典的基础上,本文设计了基于Word2vec的态度匹配算法,构建了态度识别模型。具体实施路径包括数据采集与预处理、构建态度词典、态度词匹配、可视化4个阶段(见图1)。其中,态度词典的构建与匹配算法是核心。

2 .2 态度词典构建

态度词典是政府态度识别的核心与基础,本文构建了两种类型的态度词典,分别是领域态度极性词典以及模糊限制语词典。态度极性词典主要用于识别文本所蕴含的态度极性(积极或消极)、模糊限制语词典则用于判定态度的强硬程度。

西南联大时期,大家生活都很困难,难以为继。梅贻琦校长千辛万苦向教育部要来一笔学生补助金,按规定,他家四个孩子都有资格申请,可是他却一个不准沾边,就是为了避嫌,不让人说闲话。其实,那个时候他的家用相当拮据,早已捉襟见肘,寅吃卯粮,可他宁肯举债,变卖家产,或让夫人磨米粉,做米糕,提篮小卖去补贴家用,也不涉“瓜田李下”之地。因而他在师生中享有崇高威望,带领大家共度时艰,培养了大批优秀人才,铸就了中国教育的一段辉煌历史。

2.2.1 基于SO-PMI算法的态度极性词典 本文以评价理论中态度系统的态度词分类为依据构建态度极性词典,由于在不用的语境下,态度词的语义倾向不尽相同,因此笔者使用SO-PMI算法,对现有态度词典进行扩展,形成领域态度极性词典,从而提升后续态度极性识别的准确性。

PMI(Point Mutual Information)算法主要用于计算词语间的共现关系,通过统计两个语词在文本中同时出现的概率来衡量语义相似度。具体计算如公式(1)所示:

2.3.1 态度的极性匹配 态度的极性匹配算法基于Gensim的word2Vec模型和领域态度极性词典,利用抓取到的原始新闻数据集训练模型,再调用模型方法计算词汇与态度极性词汇的语义相似度,具体计算过程如下。

(1)

2.3.2 态度的强硬程度匹配 在模糊限制语分类词典的基础上,笔者假设模糊限制语的权重均等,新闻中的模糊词占比越大,说明该文态度越缓和;模糊词占比越小,说明其态度越强硬。计算模糊词比率的具体如公式(10)所示:

本实验中,设定K-Means算法的聚类个数为10.由表2可以看出,在聚类评价指标ACC和Purity上,IOCAP算法的各项指标优于其他算法,但在NMI指标上,要差于Spectral算法.K-Means算法和Spectral算法需要事先指定聚类个数,且由于K-Means聚类过程中有较大的波动,导致算法很不稳定,因此存在一定的限制.因此,IOCAP算法在Digits数据集上的聚类效果较好.

SO-PMI(Sentiment Orientation-Point Mutual Information)是一种利用PMI算法对词语情感倾向进行判断的方法,其基本思想是首先选取态度倾向明显的一组积极词Pwords和一组消极词Nwords作为态度种子词,然后计算候选词word1与积极/消极种子词的PMI之和,其差值即为该候选词的态度倾向。具体计算如公式(2)所示:


(2)

式中,SO-PMI(word1) 为候选词word1的态度倾向值; PMI(word1,P word) 表示候选词word1与某积极种子词P word的点间互信息; PMI(word1,N word) 表示候选词word1与某消极种子词N word的点间互信息。

最后,根据设定的阈值t ,判断词语的态度倾向。若SO-PMI(word1) 大于t ,word1被划分到积极态度词典,反之,则被划分到消极态度词典。

综上,从态度极性出发,2017年的美国政府态度以积极态度为主,直至2017年12月,态度极性骤然反转,消极态度明显增强;2018年1—10月期间,新闻文本所表现出的消极态度明显,且并无减缓迹象,所表现出的积极态度有间断性减弱,但总体上积极态度占比高于消极态度。

2 .3 态度匹配算法

态度匹配算法主要分为两部分:态度的极性匹配与态度的强硬程度匹配。

(三)互联网时代的发展代替了固有的人力收集资料成本高、效率低、局限大的缺点,使得更多的数据可以直接在网络平台上高效、便捷的收集,既节省了时间,也节省了成本,尤其提高了效率,降低了出错率。突破了时间与空间的局限性。为管理会计工作的人员提供了一个便捷的环境,不失为管理会计的一大机遇。

1)对实验数据集News中的每一篇新闻进行分词,设分词结果集合为NewsWords,NewsWords∈(NW1,NW2,NW3,…,NWn ), 其中,NWn 为第n 篇新闻的分词结果集合,n 为实验数据集所包含的新闻数量。 NWn ∈(Wordn1 ,Wordn2 ,Wordn3 ,…,Wordnm ),m 为第n 篇新闻所包含的词汇总量。

表1 模糊限制语分类情况(部分)

设积极态度词典为Dic_pos,Dic_pos∈(PosWord1,PosWord2,PosWord3,…,PosWordx ),x 为积极态度词的数量;消极态度词典为Dic_neg,Dic_neg∈(NegWord1,NegWord2,NegWord3,…,NegWordy ),y 为消极态度词的数量。假设态度词典的中态度词权重均等,依次计算每篇新闻中的词汇与态度极性词典的匹配结果,具体如公式(3)~公式(6)所示:

Sum_sim_pos(word)=

(3)

Sum_sim_neg(word)=

(4)

(5)

(6)

采用测力锚杆开展持续性观测[21],来监控锚杆是否对围岩起到应有的作用、评估锚杆支护质量。通过锚杆承载性能监测,得出强力锚注支护试验段巷道锚杆承载力随时间逐渐增大并趋于稳定,整体承载力较为均匀,顶板至两帮锚杆承载强度依次降低,顶板承载力达到130 kN,肩窝处锚杆承载力118 kN,帮部锚杆承载力为98 kN,均完全在锚杆可承载范围之内。由此验证了锚注支护质量是合格的,支护参数设计是合理的,取得了较好巷道支护效果。

对前面1~8道工序的铸造生产过程进行分析,计算制砂任务与造型任务的制砂能力MCSand-making与造型能力MCModeling。

南京地铁与南京理工大学等研究机构联合对该维修集约范式开展了理论研究和工程应用,取得了可借鉴的成果和参考经验,并在进一步发展之中。

(7)

3)计算每篇新闻文本的积极态度比率与消极态度比率,具体如公式(8)~公式(9)所示:

(8)

(9)

式中,WordPn 和WordNn 分别为第n 篇新闻文本的积极态度词集合和消极态度词集合;m 为第n 篇文本的词汇总量; Pos_raten 和Neg_raten 分别代表第n 篇新闻的积极态度比率和消极态度比率。

2)按照公式(7)确定词汇的态度极性。若Ave_sim_pos(word)>Ave_sim_neg(word), word表达积极态度,反之则表达消极态度。

式中,PMI(word1,word2) 表示word1与word2的点间互信息; P (word1 & word2) 表示word1和word2共同出现的概率; P (word1) 和P (word2) 分别代表word1和word2在文本中出现的概率。

(10)

式中,WordHn 代表第n 篇新闻文本的模糊限制语集合;m 为第n 篇文本的词汇总量;Hed_raten 表示第n 篇新闻的模糊词比率。

3 实证研究

3 .1 数据采集与处理

笔者使用“trade”作为检索词,在白宫官方网站(https://www.whitehouse.gov/)的新闻大类中进行检索,检索日期为2018年10月15日,得到2017年1月20日至今的相关新闻共计1088篇。接着使用八爪鱼对上述检索结果进行采集,采集完的文本数据导入到Excel中进行管理。考虑到此次实证研究旨在识别美国就贸易摩擦问题对别国的态度,笔者采用人工筛选的方式对检索结果进行清洗,最终得到相关新闻文本175篇。

在进行数据预处理前,笔者对原始数据进行了简要分析,分别按年、月、日对新闻数量进行了统计。据统计,2017年美国就贸易摩擦问题对别国态度的相关新闻总量为56篇,远落后于2018年1—10月期间的相关新闻总量(119篇)。从新闻发文量的月度数据可以看出,2017年除了11月份发文量较多外,其余月份的相关新闻数量占比均在5%以下;而2018年3—10月的发文量占比均在5%以上,其中,2018年3月和6月的发文量占比高达9.71%。此外,从日度数据可以了解到,2017年日均发文量仅为0.16篇,2018年1—10月的日均发文量为0.47篇,新闻文本在时间序列上的分布不具备连续性,新闻数量为0的天数有505天,2018年3月22日白宫发布相关新闻的总数最多(5篇)。通过上述统计分析,我们可以了解到贸易摩擦问题早在2017年就有萌芽趋势,爆发在2018年,2018年3月、6月是较为重要的时间节点,后文将结合新闻态度的极性与强硬程度做进步一探讨。相关新闻月度数量占比情况与日度数量统计图见图2、图3。

图2 相关新闻月度数量占比雷达图

图3 相关新闻日度数量统计图

笔者对现有态度词典中态度词的词性分布进行了描述性统计分析,发现形容词、名词、动词和副词的占比之和达到98.85%,具体分布情况见表2。因此,我们在预处理阶段筛选出形容词、副词、动词和名词,作为态度词典的候选词汇集合。

表2 语言学态度词典中态度词的词性分布情况

3 .2 态度词典构建

依据SO-PMI算法,对现有语言学态度极性词典进行扩展,扩展后的态度极性词典见表3。

其中,word_sim(word,PosWord) 代表某篇新闻中的词汇word与积极态度词PosWord的语义相似度; Sum_sim_pos(word) 代表某篇新闻中的词汇word与积极态度词典中全体态度词的语义相似度之和; Ave_sim_pos(word) 表示某篇新闻中的词汇word与积极态度词典中全体态度词匹配生成的平均语义相似度。同理,word_sim(word,NegWord) 代表某篇新闻中的词汇word与消极态度词NegWord的语义相似度; Sum_sim_neg(word) 代表某篇新闻中的词汇word与消极态度词典中全体态度词的语义相似度之和; Ave_sim_neg(word) 表示某篇新闻中的词汇word与消极态度词典中全体态度词匹配生成的平均语义相似度。

表3 扩展态度极性词典(部分)

3 .3 态度匹配与可视化

为了揭示美国就贸易摩擦问题对别国的态度,本文对官方新闻文本的态度进行了自动识别与处理,具体过程主要分为态度极性匹配与态度强硬程度匹配两个部分。由于实验所用的新闻文本数据在时间维度上的分布具有间断性,因此笔者以1个月为时间间隔,将每月态度极性词汇数量、模糊限制语数量分别进行累加,形成最终的结果,2017年9月的新闻发文量为零,故将该时间段剔除。

3.3.1 态度极性匹配与可视化 态度极性计算能直观展示文本所蕴含的积极与消极态度的情况,进而反映美国官方就贸易摩擦问题对别国的态度,首先绘制单位时间间隔内的新闻文本积极态度、消极态度的占比折线图,见图4、图5。

图4 积极态度词占比情况折线图

图5 消极态度词占比情况折线图

由图4可知,相关新闻中积极态度词占比排前三的月份分别是2017年1月(18.37%)、2017年10月(18.31%)以及2017年7月(17.83%),占比最低的两个月是2018年1月(7.67%)和2018年2月(7.66%)。从趋势线的走势可以发现,2017年的相关新闻积极态度占比情况较为稳定,除2月占比低于均值外,其他时段的积极态度词占比均高于平均水平;相比之下,2018年的相关新闻积极态度词占比有较大波动,且大部分低于平均水平。具体来说,新闻的积极态度词占比从2017年12月起开始直线下滑,并于2018年1月和2月跌落至谷值,2018年3月、7月和8月积极态度词占比情况有短暂回升,随后又继续跌落至均线以下。因此,美国就贸易摩擦对别国的积极态度在2017年12月前相对稳定,2017年12月是重要拐点,2018年积极态度波动较大,且占比水平低于2017年。

由图5可知,相关新闻中消极态度词占比排在前三位的时间区间分别是2017年12月(11.66%)、2017年8月(10.79%)以及2018年7月(10.78%),占比最低的两个时间区间分别是2017年4月(4.83%)和2017年7月(6.21%)。从趋势线的走势看,2017年除8月和12月外,其他月份新闻的消极态度词占比基本处于均线以下水平,8月与12月的占比情况达到峰值水平;2018年新闻中的消极态度词占比情况比较稳定,除7月外,其他月份的占比情况均在略高于均线的位置小幅波动。据此,我们可以获悉美国白宫就贸易摩擦对别国的消极态度在2017年上半年相对并不明显,下半年的8月和12月,美国政府的消极态度有所显露,2018年期间政府消极态度较为稳定,除7月外,没有大幅增减。

上文分别分析了新闻中积极态度词和消极态度词的占比情况,并对其走势、重要拐点做了简要阐述,为了更加直观地揭示文本中的政府态度极性情况,本文绘制了积极态度与消极态度词占比差值面积图,见图6。经统计,2017年1—11月期间,新闻文本的态度极性以积极态度为主,虽有波动,但态度极性较为稳定,同年12月,态度极性迅速反转,积极态度占比减小,消极态度占比增大,积极态度与消极态度词占比差值到达谷值(-1.30%),该时间区间内消极态度占主导地位。2018年1—2月期间,积极态度占比持续下降,消极占比与2017年12月的情况相当,新闻文本中的消极态度仍然明显,3—10月期间,相关新闻的消极态度占比情况没有明显的减缓趋势,反倒是在7月份有所增长。2018年的新闻态度极性虽以积极为主,但其占比优势明显低于2017年,且消极态度占比一直维持在稳定水平,没有减缓趋势,而积极态度占比的增长仅出现在了3月、7月和8月,说明2018年新闻文本的消极态度具有稳固性与持续性,绝大多数时间区间内的

图6 积极态度与消极态度词占比差值情况面积图

积极态度有减弱趋势。

2.2.2 模糊限制语词典 模糊限制语主要分为词汇模糊限制语和策略模糊限制语[27],本文重点关注词汇层面的数据挖掘,因而采用Hyland对词汇型模糊限制语的分类模式,该模式下的词汇模糊限制语包括情态助动词、动词、副词、形容词、名词(见表1)。

图7 新闻文本中模糊限制语占比情况折线图

3.3.2 态度强硬程度匹配与可视化 在进行态度极性识别的同时,本文通过统计模糊限制语的占比情况来观测政府态度的强硬程度,并绘制了单位时间间隔内新闻文本中模糊限制语占比折线图(见图7)。据统计,美国白宫2017年3月发布的新闻中所包含的模糊限制语占比最大(3.42%),2018年1月的相关新闻中模糊词占比最小,为0.86%,说明在2017年3月期间,美国白宫就贸易摩擦问题对别国的态度最为缓和,在2018年1月期间最为强硬。从整体上看,2017年第一季度的新闻文本表现出缓和的态度;2017年第二季度到第三季度,模糊限制语占比在均线以下波动,直至2017年第四季度,其占比变为均值线以上,但缓和程度远远小于同年第一季度;在2018年第一季度,模糊词占比折线在均线上下来回波动,其中,2018年1月占比跌至均值,说明这段期间美国官方态度波动较大,1月份时政府态度最为强硬;其后几个月的态度趋于缓和,模糊限制语占比升至均线以上,但在2018年10月,文本中的模糊限制语占比再次低于均值水平。由此,我们可以获悉美国白宫就贸易摩擦问题对别国的态度在2017年第一、四季度,2018年第二、三季度期间较为缓和,在2017年二、三季度,2018年第一季度期间较为强硬,其中,2018年1—2月期间波动最为剧烈,强硬程度达到极值点,这一期间内态度最为强硬,2018年10月份,态度再次由缓转强。

总的来说,2017年第一季度的新闻文本所表现出的官方态度积极且较为缓和;第二、三季度的官方态度为强硬的积极;到2017年第四季度末,新闻中的消极态度逐渐占据主导地位,但消极态度较为缓和;进入2018年,第一季度官方的积极态度持续减弱,消极态度维持在稳定水平,且态度强硬程度情况波动剧烈,1月份的政府态度最为强硬;第二季度新闻文本的积极态度持续减弱,消极态度维持在稳定水平,态度较为缓和;第三季度积极态度先增后减,消极态度也有一定程度的增强,总体态度较为缓和;到2018年10月,积极态度较前期有所减弱,且态度强度由缓和转向强硬。

3 .4 模型评价

本文基于扩展态度极性词典和模糊限制语词典对新闻文本中的态度词进行自动识别,进而分析文本所表达出的官方态度与立场。为了对模型进行验证,笔者采用准确率(P )、召回率(R )与F-measure(F 1值)作为评价指标,准确率是态度极性词的积极、消极词划分的正确率;召回率代表积极态度词与消极态度词的查全率;F -measure是准确率与与召回率的加权调和平均,用于反映模型整体效果。具体计算过程如公式(11)~公式(13)所示:

一是明确实验实训课程设置的主要方向。考虑到财政学专业学生毕业后的工作选择需要,实验实训课程可以设置基础理论验证和实务操作两个主要方向。验证基础理论方面,主要涉及到研究分析财政收入、财政支出与GDP总量、增速之间的逻辑联系,研究分析财政收支与经济社会发展其他宏观因素之间的关系,研究分析财政税收与收入分配、经济增长、社会稳定等因素之间的关系。实务操作方面,主要涉及到政府预算编制、政府采购等财政收入支出管理以及税收信用管理、税收筹划、税收风险管理、企业财务处理、企业会计处理等涉税实务管理内容。在校内实验实训课程开设期间,基础性理论课程宜开设在第五学期,实务操作性课程宜开设在第六学期。

(11)

(12)

(13)

实验选取10名情报学研究生,让他们在预处理后的白宫新闻文本集合中任意挑选10篇文本,并对其中的积极态度词和消极态度词进行标注,形成10份人工标记数据;接着结合特定新闻文本集合的模型匹配结果,得到10份P 、R 、F 1值数据;最后进行算数平均,以反映模型评价效果。评价结果见表4。

表4 模型评价结果

从准确率看,积极态度词的匹配准确率略高于消极态度词匹配准确率;从召回率看,积极态度词的匹配召回率相较于消极态度词优势明显;从F 1值来看,积极态度词和消极态度词的F 1值分别为87.02%、79.53%,说明该模型的整体效果较好。

随着计算机网络技术的快速发展,在对考虑隐性故障的继电保护系统可靠性进行分析时,也可借助先进的科技手段,构建电网智能监控故障体系,切实提升电力运输时的经济效益、社会效益及服务效益。

4 结论与展望

随着大数据技术的日益成熟,基于文本挖掘技术的态度自动识别在准确性、时效性等方面均有较大优势。

在碰撞核中的函数b(cosθ)是一个非负的、隐式的、局部有界的函数,在很长的一段时间里,数学家所作的工作都是基于这么一个条件:

在理论层面上,本研究丰富了政府态度识别的研究方法,为研究人员提供了新的思路。目前国内外的政府态度识别研究大多采用量表法和推理法,需要耗费较多的人力与时间成本,智能化程度不高。本研究从态度极性与态度强弱程度两个维度出发,在评价理论和模糊限制语理论的基础上构建领域态度极性词典与模糊限制语词典,以白宫新闻文本作为实验数据集,使用基于word2vec的态度匹配模型,对实验文本的态度极性和态度强硬程度进行自动识别,为政府态度的后续研究扩宽了研究思路。

在应用层面上,本研究利用政府态度自动识别模型对新闻文本进行训练与挖掘,通过使用该模型,用户能实时获取基于时间序列的政府态度极性与强硬程度等信息,有利于决策者快速做出决策。分析人员与决策者可以利用这一技术实时掌控态度的变化与走势,进而高效获取文本中蕴含的有价值的决策信息。

因篇幅有限,本文没有提供沿线相关国家的现行测绘标准目录,只提供了一些国际、区域标准组织的现行标准目录,介绍了对我国有借鉴意义的一些国家的标准化工作概况。同时,根据笔者搜索的资料及我所编译的《“一带一路”沿线国家测绘地理信息标准化工作现状译文辑》,总结“一带一路”沿线国家的测绘地理信息标准化工作的主要特点,表现在:

同时,本文也存在一些不足。首先,政府态度自动识别模型中的消极态度词匹配效果有待改善,可能会影响态度识别结果的准确性;其次,采用人工筛选的方式筛选中性态度词可能存在人为偏差;最后,笔者在进行实证分析时以一个月为时间间隔,粗略地识别出的政府态度极性与强硬程度变化趋势,后续研究将缩短时间间隔,进行更细粒度的分析,增强识别的针对性。

参考文献

[1] 菲利普·津巴多,迈克尔·利佩,津巴多,等.态度改变与社会影响[M].北京:人民邮电出版社,2007:27-33.

[2] 约翰·洛克.政府论(下篇)[M].北京:商务印书馆,1964:59-60.

[3] 章志光.社会心理学[M].北京:人民教育出版社,2008:194-195.

[4] 王世伟.略论国家高端科技智库的功能定位[J].情报学报,2018,37(6):590-599.

[5] 赵雅莹,郭继荣,车向前.评价理论视角下英国对“一带一路”态度研究[J].情报杂志,2016,35(10):37-41.

[6] PIVCEVIC S,MANDIC A,SALJA N.Government and business community attitudes towards cruise tourism development[J].Geographica Pannonica,2018,22(4):285-294.

[7] HARUN R,CHICIUDEAN G,SIRWAN K,et al.Attitudes and perceptions of the local community towards sustainable tourism development in Kurdistan Regional Government,Iraq[J].Sustainability,2018,10(9):2991.

[8] ROISELAND A,PIERRE J,GUSTAVSEN A.Accountability by professionalism or managerialism? Exploring attitudes among Swedish and Norwegian local government leaders[J].International Journal of Public Administration,2015,38(10):689-700.

[9] 叶海林.莫迪政府对华“问题外交”策略研究——兼论该视角下印度对“一带一路”倡议的态度[J].当代亚太,2017 (6):24-47,150-151.

[10] 伍穗龙.美国对受政府控制投资者国际规制的态度演变——兼论其近年来的规则和逻辑[J].中国流通经济,2016,30(7):42-48.

[11] SZALONTAI B.The “sole legal government of vietnam”:The bao dai factor and soviet attitudes toward vietnam,1947-1950[J].Journal of Cold War Studies,2018,20(3):3-56.

[12] 李尚昊,朝乐门.文本挖掘在中文信息分析中的应用研究述评[J].情报科学,2016,34(8):153-159.

[13] 魏伟,郭崇慧,陈静锋.国务院政府工作报告(1954—2017)文本挖掘及社会变迁研究[J].情报学报,2018,37(4):406-421.

[14] 赵洪,王芳,王晓宇,等.基于大规模政府公文智能处理的知识发现及应用研究[J].情报学报,2018,37(8):805-812.

[15] 刘如,张惠娜,杜丽萍,等.基于情报3.0工作思路的自动简报系统设计与实现[J].情报学报,2018,37(2):172-182.

[16] W·兰斯·班尼特,杨晓红,王家全.新闻:政治的幻象[M].北京:当代中国出版社,2005:3.

[17] 仰和.新闻发布制度与现代政府[J].国际新闻界,2004(3):16-21,77.

[18] 高菲,白贵.政府传播中新闻发布渠道的多元化问题[J].河北学刊,2006(6):220-225.

[19] RODRIGUEZ M J G.The linguistic expression of attitude in opinion discourse:The appraisal theory[J].Rla-Revista De Linguistica Teoricay Aplicada,2011,49(1):109-141.

[20] 司显柱,庞玉厚.评价理论、态度系统与语篇翻译[J].中国外语,2018,15(1):96-102.

[21] MARTIN J R,WHITE P R R.The language of evaluation[M].Palgrave Macmillan UK,2005:42-45.

[22] 田海龙.政治语言研究:评述与思考[J].外语教学,2002(1):23-29.

[23] MCNAIR B.An introduction to politicalcommunication[M].London:Routledge,1999.

[24] 陈林华,李福印.交际中的模糊限制语[J].外国语(上海外国语大学学报),1994(5):55-59.

[25] VARTTALA T.Hedging in scientifically oriented discourse:exploring variation according to discipline and intended audience[D].University of Tampere,2001.

[26] 周红,钱纪芳.模糊限制语——表达礼貌的语言策略[J].外语教学理论与实践,2008(2):25-30.

[27] HYLAND K.Hedging in scientific research articles[M].Amsterdam and Philadelphia:John Benjamins Pub.Co,1998:102-103.

An Empirical Study on Government Attitude Recognition Based on News Text Mining

Abstract :[Purpose/significance] The government news text,as one of the important information released by government departments,can effectively explain government policies and government behaviors,embody government attitudes.The automatic identification of government attitudes based on news text mining helps intelligence personnel to quickly understand government attitudes,the basic situation and development path,which have certain reference value for intelligence analysis.[Method/process] Based on the evaluation theory and hedge words,the domain attitude polarity dictionary and the hedge language dictionary are constructed.The news text of the US White House website is used as the experimental data set,and the word2vec-based attitude matching algorithm is used to the news text.The polarity of the government attitude and the degree of attitude toughness are automatically identified,and finally the reliability and validity of the model are analyzed.[Result/conclusion] The government attitude recognition model has a good recognition effect.Introducing text mining technology into government attitude recognition is conducive to broadening the research ideas and methods in this field,and improving the timeliness and scientificity of decision-making.

Keywords : news text;text mining;open government data;government attitude;attitude recognition

DOI: 10.16353/j.cnki.1000-7490.2019.09.015

*本文为国家社会科学基金重点项目“基于全生命周期的政府开放数据整合利用机制与模式研究” (项目编号:17ATQ006)和中央高校基本科研业务费专项资金重大培育项目“大数据环境下的政府信息服务研究”(项目编号:CCNU16Z02002)的成果。

作者简介: 段尧清 (ORCID:0000-0002-8991-5842),男,1966年生,教授,博士生导师。研究方向:电子政务,信息管理研究。何思奇 (ORCID:0000-0002-8186-6775,通讯作者),女,1993年生,硕士生。研究方向:电子政务,数据挖掘。林平 (ORCID:0000-0003-0283-6824),女,1995年生,硕士生。研究方向:电子政务,数据挖掘。

作者贡献声明:段尧清 ,提出整体研究思路与框架,论文修改。何思奇 ,数据收集与分析、论文起草与修改、论文最终版本修订。林平 ,数据收集与分析。

录用日期: 2019-04-25

标签:;  ;  ;  ;  ;  ;  ;  

基于新闻文本挖掘的政府态度识别实证研究论文
下载Doc文档

猜你喜欢