基于观点的情报感知方法研究 *
周京艳1,2 刘 如2,3张惠娜1,2 李 蕾4
(1.北京市科学技术情报研究所 北京 100044;2.北京科技战略决策咨询中心 北京 100044;3.中国科学技术发展战略研究院 北京 100038;4. 北京邮电大学计算机学院 北京 100876)
摘 要: [目的/意义] 基于观点的情报感知方法,将观点作为情报分析素材的基本单元,采用技术手段挖掘观点意涵及其所隐含的逻辑关系,可以弥补情报分析中对观点类情报价值判断的遗漏。[方法/过程] 界定了观点素材的意涵,梳理了观点素材的加工表示方法,推导出观点素材的情报价值判定规则,构建了基于观点的情报感知分析模型。[结果/结论] 基于观点的情报感知,结合了知识图谱和观点挖掘的方法,将观点作为承载情报信息的知识单元,为情报分析提供了一种全新的方法。
关键词: 情报工作;情报分析;情报感知;情报素材
0 引 言
2019年政府工作报告首次提出拓展“智能+”的先进生产模式,情报工作由此进入深化大数据、人工智能等研究和应用的阶段。而随着算力的升级和算法的成熟,基于智能技术集成的决策辅助机制逐步形成。这为情报工作带来了以自动化提升工作效率的工具革命,以及以智能化提升决策科学性和精准化的决策革命。在这种形势下,为情报感知智能化赋能成为情报工作者的使命。
情报感知是情报专业人员在常规性信息采集、加工和分析处理过程中,综合运用各种知识工具完成对情报用户需求、情报对象内容和情报任务组织的认知、解读和表达,是在情报工作中搜集、选择处理并解释信息以获得对利益相关者当前情况的了解并预测未来发展的过程[1]。作为一种理念、一种思维,情报感知贯穿于对情报需求、情报对象和情报任务的感知、刻画、响应等各环节。大数据时代,海量的情报源使得以人工判读为主的情报感知遇到瓶颈。因此,运用计算技术深度分析和挖掘文本,使情报感知技术向机器化和智能化方向发展,是未来情报感知发展的趋势。刘如、王延飞等认为,第四范式下的情报感知,不仅仅需要情报人员进行主动的意义建构,还需要依仗机器感知的强力辅助[2]。智能化的情报感知技术可以弥补人脑在面对海量信息时的自然局限,能够辅助情报人员快速高效地完成情报工作[3]。
大数据时代的到来,使得情报感知从泛化的感知相关数据发展到对精细化的感知分支数据。而无论是科技文献还是网络文本,情报感知的主要对象分为两种:事实数据与观点数据[4]。事实数据可以通过主题词表示,这是目前大多数搜索引擎的主要技术,但目前的技术难以满足观点检索的要求。随着观点挖掘技术和图谱技术的发展,观点抽取技术成为重要的情报感知手段,引起了情报人员的关注。
观点对于情报分析至关重要。决策者希望了解现有政策或拟议政策的公众意见,科研人员则希望找到有关领域的研究进展和发展趋势。观点可以使决策者和科研人员迅速应对快速变化的社会、经济和政治环境。在国际社会中,每个政府都希望监测其他国家的社会问题,了解这些国家对相关事件、议题的看法。此外,不同于以往的政府决策,当代政府在做决策时可能不会再进行传统的民意调查,更多是通过网络获取公众观点。
观点抽取是以各种文本为挖掘对象,利用自然语言处理以及数据挖掘技术,从大量文本中获取有价值的信息。目前理论界对观点抽取的相关研究较多。关于观点抽取在情报工作中的运用,黄晓斌、周珍妮分析了观点挖掘在竞争对手分析中的作用,并构建了一个基于观点挖掘的竞争对手分析模型[5]。但是,对于机器感知助力情报感知的路径与方法,尤其是基于观点抽取的情报感知方法,尚缺乏研究。基于这一现状,本文以观点素材为研究对象,总结了观点素材的语言规则,构建了基于观点的情报感知分析模型,希望通过技术助力情报分析,实现快速态势感知、以智能工具支撑精准决策的目标。
a.表示总结的引导词。在科技文献中,作者会在分析、论述一些内容之后得出一个结论。为了让结论引人注意,一般会采用一些表示总结的词语。这些词语成为识别观点句的引导词。常见的如:“总而言之……”“由此可见……”“总之……”“分析得出……”“从……可以看出……”“综上所述……”“研究发现”,等等。通过构建表示总结的词库可以识别这部分观点句。
1观点素材的意涵、表示与判定规则
1.1观点素材的意涵 观点是观察事物的角度或所持的态度,或者对事物、问题的看法。在大数据环境下,一个观点无法说明问题,而观点以知识单元的形式抽取出来并形成观点知识库,就可以描绘出一张信息拼图。我们将观点素材界定为:将观点作为表达和处理知识的最小单位,即以观点作为承载信息的通用单元形式。基于观点素材的概念,我们将构建以观点素材为基元的观点分析系统,以句子级要素为单位抽取信息,以概念、属性、关系的认知逻辑为框架,获得结构化的观点素材数据,以支撑下一步的情报感知活动。
1.2观点素材的加工表示 观点挖掘的研究开拓了情报感知的智能分析方法。观点素材加工是通过规则的制定,以观点作为最小知识单位来感知情报的新方法。在实际的情报感知过程中,实现规范的观点素材表示(Opinions Representation),需要将观点的感知要素映射为三元组形式:
a.采用双引号直接引出或者引用某人的观点。“双引号”的作用之一是表示引用他人的语言。作为一种规范,双引号为观点识别提供了一条重要的规则。
其中,Opinions-Holder代表观点持有者;Opinions-Element代表观点元素,表示观点持有者对实体的看法、观点和评价,包括观点内容的重要信息,具体内容由情报感知需求而定,实体可以是产品、服务、组织、个人、时间、问题或者某个主题;Opinions-Sentiment代表观点态度,表示观点持有者对实体的态度和情感,是观点中隐含的重要情报信息。
根据观点的表达习惯,观点的态度可以分为肯定、否定、中立。肯定类观点是观点持有者对观点元素持肯定态度。在情报分析中,肯定观点意味着观点持有者将会有进一步的行动。例如,如果决策者对一项新技术持肯定态度,那么他们很有可能对这项技术进行布局,如制定鼓励技术发展的政策。否定类观点是观点持有者对观点元素持否定的看法。中立类观点指观点持有者对观点元素持中立的态度。此类观点的语言特征不是非常明显。不过,根据我们的人工阅读与统计发现,该类观点在情报资料中比较少见。本文主要对肯定和否定两类观点素材的语言规则进行总结。
并发症发生率,观察组(13.64%)显著低于对照组(34.09%),比较差异有统计学意义(P<0.05)。 见表 2。
1.3观点判定规则 一个完整的观点通常是以句子为表达单位的。在情报领域,针对观点句的研究包括观点句识别、观点句内容识别和观点持有者识别。观点有一定的语言规则,以下基于不同文本对观点规则进行总结。
一个是前面提到的分税制问题,再有一个就是中央与地方的职能究竟该怎么样进行定位?我们经常讲财权和事权相匹配,“做多少事拿多少钱”,这应该是合理的。但是现在存在中央与地方政府责任划分不甚清晰,事权和财权划分不合理,以及中央与地方的转移支付不规范的问题。很多转移支付都是专项转移支付而不是一般性的,不是根据这个特定地区的财政经济、公共事业的发展差异来进行公共事业的均等化方式来分配的。
a.观点图谱是知识图谱的一种形式,即将观点作为图谱的节点,以符号形式描述物理世界中观点及其提出者之间关系,以“观点-实体-观点”三元组的形式,以及实体之间相互关系和属性联结起来,构成网状的观点知识。在情报工作中,我们经常遇到的任务是通过度量知识网络中不同的观点和观点属性,帮助情报人员理解观点及其实体。而观点图谱就是以网络度量的方式,帮助理解某些情报信息。例如,在某科技领域,谁是某观点的中心角色(具有影响力的人物)?哪些科研人员是具有共识的?如何找到这些相似的个体或者组织?情报人员依据不同的目的,选择合适的观点抽取策略,提取所分析观点的关系矩阵,选择合适的可视化方法,展现观点图谱。
表 1基于网络文本的观点规则及举例
Opinions Representation={Opinions-Holder, Opinions-Element, Opinions-Sentiment}
试验梁主要尺寸:总长4 500 mm,简支跨度4 200 mm;混凝土板宽700 mm,厚70 mm;钢梁高200 mm,下翼缘宽400 mm,上翼缘宽60 mm,上、下翼缘板厚8 mm,腹板厚6 mm;所选栓钉直径为13 mm,高50 mm,完全连接结合梁中共布置70个栓钉,不完全连接结合梁中共布置42个栓钉,连接度为60%;钢梁均采用Q235钢,混凝土C30。各试验梁截面尺寸见图1。
b.以观点引导词引出观点句。网络文本中间接引用他人观点时一般不会使用双引号。在这种情况下,观点句的引出往往会使用观点引导词。观点引导词如:说、道、认为、指出、提出、觉得、判断、解释、表示、陈词、建议、主张、反对、否定、否决、暗示、透露、承认、否认、肯定、认可、赞成、确认、提倡、决定,等等。构建观点句引导词库可以迅速完成网络文本的观点句识别工作。
崔:齐科里尼的学习经历可谓极其丰富,他曾与来自布宜诺斯艾利斯、属于“阿根廷学派”的保罗·丹扎(Paolo Denza)学琴,这样的经历让他与阿格里奇、巴伦博伊姆这样的拉美钢琴家有共同语言。随后,他又和法国钢琴学派的鼻祖玛格丽特·隆(Margurite Long)学习,而他自己又是意大利人,您认为在以上诸多钢琴学派或风格中,对您影响最大的是哪一种?
其三,知识付费时代即将到来,数字报纸有望获益。艾媒咨询数据显示,2017年中国移动支付用户规模均以较高的速度增长,2017年中国移动支付用户规模预计达5.60亿人。同时,近两年中国内容付费用户规模呈高速增长态势,2017年内容付费用户规模有望达到1.88亿人。纸媒能否把握契机,实现数字技术的突破和用户黏度的增强,对搭建和维护数字报纸的“付费墙”至关重要。
1.3.2 基于科技文献的观点表达判定规则 与网络文本相比,科技文献的观点可以分为作者观点和作者引用他人观点两大类,它的规则更为复杂。但是作为一种正式的、规范的学术性文本,科技文献的观点句仍然具有较为明显的语言特征(见表2)。
根据情报感知的定义,基于观点素材的情报感知可以理解为:采用机器实现观点自动处理的智能感知理论、方法和技术,通过在情报态势感知、情境感知、数据感知各个阶段的运用,赋能情报工作者,使他们在情报工作中以智能化方式提升效率。
b.表示因果的引导词。解释原因和得出结果的内容是观点的重要组成部分。因此,表示因果关系的词语成为识别观点句的重要引导词。常用的有:“因此……”“所以……”。通过构建表示因果关系的词库可以识别这部分观点句。
1.3.1 基于网络文本的观点判定规则 互联网时代,网络文本中蕴含了大量的观点素材。这些观点素材为我们了解观点持有者的态度提供了依据,对情报工作具有重要意义。网络文本的观点具有以下规则(见表1)。
c.直接展示作者观点。常用的句型有:“笔者认为……”“分析发现……”“文章提出了……”“我们认为……”。通过构建直接展示作者观点的句库可以识别这部分句子。
d.表示本文观点的引导词也可以描述作者引用他人的观点。这种情况常常出现于对研究现状进行描述的句子中。不过,引用他人观点时通常带有人名或者文章篇名,如“武夷山指出……”“李广建等研究发现……”。通过命名实体识别技术可以将引用他人观点与本文作者观点区分开来。
e.采用角标表示引用。在科技文献中,还有一种情况是作者仅仅引用了他人的一个观点,文章中也没有指出是采用了何人的观点。在这种情况下,我们很难通过命名实体识别技术来识别。不过,根据学术表述规范,这种情况下一般会采用注释的形式表示出来。因此,我们可以通过角标来识别。
表 2基于科技文献的观点表达判断规则及举例
1.3.3 观点态度判定规则 基于观点的三元组表示,除了文本的观点信息识别,我们还需要总结和制定观点态度的规则,使基于观点素材的情报感知更具科学性和通用性。我们重点总结了肯定和否定两类观点知识元规则。
a.褒义词,即采用褒义词对论述对象直接表示赞同和认可。根据相关研究,在观点句中,观点倾向和情感词、评价词本身的褒贬倾向性一致[6]。
表 3肯定性观点判定规则及举例
第一,肯定类观点态度规则。肯定类观点态度具有以下语言规则(见表3)。
b.积极倾向引导词。观点句多是由一些引导词引出,这些引导词带有明显的情感倾向,即积极倾向性引导词表示作者肯定、认可的态度,消极倾向性引导词则表示反对、不认可的态度。积极倾向性引导词如:“可喜的是”“幸运的是”“值得关注的是”“值得重视的是”“实践证明”,等等。
c.递进关联词。在有递进关联词的句子中,往往肯定是后半部分。常见的递进关联词如:“不但……而且……”“不仅……还(更)……”“不光……也……”。
d.采用双重否定引导词或双重否定句式。在汉语中,以双重否定的形式表示肯定的语意是一种常见的表达,而且其肯定的程度甚于一般的肯定句。常用的双重否定引导词如:“不可否认”“不得不承认”,等等。
第二,否定类观点的语言特征。否定类观点具有以下语言特征与规则(见表4)。
表4 否定类观点的规则及举例
a.贬义词,即以贬义词直接对论述对象表示不认同。
b.消极倾向引导词。如:“表面上看”“遗憾的是”“不幸的是”“似乎”“看上去”“存在的问题是”“客观地来看”“客观地说”“值得商榷的是”,等等。
c.转折连词后紧跟否定词。如:“不过”“但是”“然而”“却”,转折连词之后如果出现否定词、贬义词等,那么这个观点句多表示否定的观点。
2基于观点的情报感知分析模型构建
基于观点的情报感知是一种全新的情报分析方法,其核心目的是减少情报感知偏差对决策的影响,使观点与事实之间的界限逐渐模糊。图1展示了事实、观点感知、决策之间的逻辑关系,基于观点的情报感知可以有效降低决策的不确定性。
图 1事实、观点感知、决策之间的逻辑关系
对于情报工作来说,科技文献和网络文本中的文字信息分为事实与观点。基于事实数据,我们通过对事理逻辑的表示和解读[7],构建了情报事理图谱的映射模型,辅助情报人员对事实数据进行科学判读。本文在情报感知流程的框架下,以情报感知源的处理、情报感知的过程、情报感知的应用三个阶段,构建基于观点的情报感知分析模型。图2展示了基于观点的情报感知分析模型。
在智能情报工作模式的发展趋势下,构建具有普适性的、以观点挖掘为视角的情报感知分析模型,可划分为感知源处理、感知过程和感知情报应用三个阶段。需要指出的是,该分析模型尚不能对所有观点进行分析,仅适用于符合判定规则的观点数据。
2.1感知源处理阶段 虽然情报数据呈爆炸式增长,但智能技术却可以让数据变得更加聚焦。观点对于情报感知的影响在大数据时代日益重要,它为决策活动分析提供了新的视角。科技实体对客观描述的感知信息和对主观表述的认知信息会以一定的规则呈现在科技文献或者网络文本中,情报工作者可以通过总结和制定规则,将观点进行规范化处理,生成方便分析和应用的观点数据。感知源处理阶段作为分析模型的起始阶段,是从信息链出发的。在实际的情报工作中,观点主题的选取由决策者提供,或者由情报人员通过决策需求判读所得。感知主题确定后便开始对感知源进行遴选和分类。这一步是情报工作的第一个阶段,之后便进入观点的识别和抽取阶段。
图 2基于观点的情报感知分析模型
2.2感知过程阶段 情报感知阶段的观点数据相对分散,需要基于制定的规则定义、关系定义、属性定义等,将数据进行序化和分类处理,采用自动标签、自动归类、自动关联等方式,形成观点摘要,为下一步的观点图谱、观点检索、关系发现、意图理解等信息增值做准备。
在农业基础设施建设过程中,小型农田水利工程的建设是提升农业综合生产能力的关键前提条件,也是我国小康社会建设的关键保障基础。在这一前提下,小型农田水利工程的建设,为我国农业发展以及农村经济水平的提升起到了很好的助推作用,继而提升了粮食生产能力[1]。另一方面,由于我国经济水平的限制,传统的农田水利建设工作开展质量并不理想,大部分农田水利基础设施已经退化,亟待进行改进和更新,这也是小型农田水利工程建设的重要性所在。
b.观点智能检索建立在观点图谱的基础之上,以结构化的语义观点库,通过信息检索的方法,从观点数据中找出与查询主题相匹配的主观信息以及在该信息中所体现的对于该观点的态度[8]。由于同一主题下的观点在大数据面前具有高度分散性,但又有很强的关联性,因此观点检索的关键是对观点属性的自动标签和自动归类。在情报工作中,观点智能检索有助于情报人员快速找出某科技领域的相关观点,以及带有观点的相关文档和提出观点的人物、机构。
c.关系发现是以情报分析的视角对不同的科技实体进行关联分析的一种方法,尤其是在科技领域,观点相悖或者观点相似的科技实体具有很大的情报研究价值。本模型通过观点属性的匹配关联实体,进而发现隐含的科技实体关系,辅助情报分析。例如,通过对AI技术的观点态度,可以将提出观点的人分为AI技术的乐观派与悲观派;通过对政策的评价观点,可以发现对该政策的支持者与反对者。
(2)当环境温度为恒定时,求得混凝土测点A处中心点和顶部温度的变化规律;得出在不同厚度的监测点温度变化,其余条件如(1)设置。
d.意图理解是对观点信息更加深入的分析方式。科研人员等科技实体在文献或者网络文本中,经常会发表对一些事件或者科技领域的展望、预期和推测。意图理解就是通过对事件或者科技领域的舆论动向和反馈的挖掘,找出其中蕴含的情报信息,为决策提供预测预警依据。
2.3感知情报应用阶段 在感知情报应用阶段,基于观点的情报感知方法不同于传统的基于文献自动摘要的情报感知方法,它能够为决策者提供更加直接和客观的情报支撑,包括:可以细化人物画像,帮助识别竞争对手;可以帮助决策者了解相关实体对政策的评价;可以帮助情报人员掌握科技动态和热点;可以预测相关话题的战略目标,支撑决策。
在感知源处理、感知过程和感知情报应用的三个阶段完成之后,对感知情报应用的反馈数据在感知源处理阶段,重新补充介入,进一步完善情报分析策略,使情报感知在反复循环的过程中变得更加精准。同时,决策者对感知情报的应用反馈,可以有效的支撑情报精准推送服务,从而以智能化和个性化的服务支撑和引领决策。
值得关注的是,测试是在很低的SHR条件下(重量比1.02)进行,一般情况下会限制催化剂的活性和选择性。因此,预期测试中副产物生成量会升高,同时为了保持恒定的转化率需要高更高的入口温度。
3 小 结
本文提出了观点分析构想,总结了观点判定规则,并构建了基于观点的情报感知分析模型,为实现情报工作的“智能+”的快速生产模式打下基础。基于观点的情报感知,通过机器对观点的自动识别与分类,可以分析情报目标对象的意图,并预测其下一步行动;通过热点话题和热点事件的检测和提取,可以实现快速的态势感知,能够有效识别竞争对手、了解政策评价、掌
为大力宣传水法,普及水法律知识,促进水法规的贯彻实施,水利部于1988年6月确定每年的7月1日至7日为“中国水周”,集中开展水法规宣传活动。考虑到“世界水日”与“中国水周”的主旨和内容基本相同,从1994年开始,水利部将“中国水周”的时间调整到每年的3月22日至28日。两项活动时间的重合,加大了水法规宣传活动的力度。
握科技动态、预测战略目标,从而实现以智能工具支撑精准决策的目标。
在护理之前,两组患者的生活质量评分差异无统计学意义(P>0.05),护理后,观察组优于对照组(P<0.05)。见表2。
名师出高徒,教师作为教育前线的先行者,在很大程度上决定了学生知识技能掌握水平,学生的安全工程管理能力与教师的工作能力是密切相关的。要做好教师的思想道德教育,避免给学生输入太多功利性的思想,要致力于培育出高思想觉悟的新型人才,为祖国安全工程行业繁荣发展奠定基础。
在本文中,我们基于对观点规则的归纳总结,辅助感知情报,具有一定的准确性和可解释性,但是效率相对低下。在接下来的工作中,我们将考虑结合基于嵌入的知识推理,提高观点抽取效率。我们知道,观点与事实是文字信息中最有价值的情报数据。因此,我们将结合针对事实数据的事理图谱相关工作,对观点与事实进行综合研究,真正实现“智能+”的情报感知模式,以快速精准决策服务于国家安全与发展,完成新时代情报人的使命。
构建校企合作师资培训平台的设计目标就是通过对骨干教师或专业带头人开展教科研能力的培养,使其成为具备创新科研能力的专家型学术带头人,掌握科学的研究方法,提高其发现、分析和解决课题研究中实际问题的能力,使教师的潜能得到充分发挥,促进教师教科研整体素质的提高,从而推动职业教育教科研工作的全面发展。
参考文献
[1] 陈美华,王延飞.情报感知的条件辨析[J].情报理论与实践,2018(5):5-10.
[2] 刘 如,王延飞,吴晨生,等.第四范式视野下的情报感知:现实与困惑[J].情报理论与实践,2018-12-14(网络首发).
[3] 赵柯然,王延飞.情报感知的方法探析[J].情报理论与实践,2018(8):11-16.
[4] Liu B . Web data mining[M].Springer Berlin Heidelberg, 2011.
[5] 黄晓斌,周珍妮.观点挖掘在竞争对手分析中的应用[J].情报资料工作,2010(5)89-93.
[6] 姚天昉,程希文,徐飞玉,等.文本意见挖掘综述[J].中文信息学报,2008(3):71-80.
[7] 刘 如,周京艳,李佳娱,等.基于数据科学思维的情报事理逻辑揭示与科学解读[J].情报理论与实践,2018(8):22-27.
[8] 余传明,安 璐.从小数据到大数据——观点检索面临的三个挑战[J].情报理论与实践,2016 (2):13-19.
The Study of Information Awareness Based on the Opinion
Zhou Jingyan1,2 Liu Ru2,3 Zhang Huina1,2 Li Lei4
(1. Beijing Science and Technology Information Research Institute, Beijing 100044; 2.Beijing Decision-making Consultant Center,Beijing 100044; 3.Chinese Academy of Science and Technology for Development,Beijing 100038; 4.Beijing University of Posts and Telecommunications, School of Computer Science and Technology, Beijing 100876)
Abstract :[Purpose /Significance ]Information awareness based on the opinion knowledge element, which viewed opinion as the smallest unit of knowledge to intelligence analysis and used technology to mine intelligence such as opinions and logical relation, was beneficial to mining the information value among opinions of texts.[Method /Process ]This paper defined the concept of opinion knowledge element, proposed the knowledge presentation method, summarized the rules of opinion, and constructed the intelligence perception analysis model based on opinion knowledge element.[Result /Conclusion ]Information awareness based on the opinion knowledge element that combined the knowledge graph and opinion mining, viewed the opinion as the smallest knowledge unit to express and manage, and provided a useful method to information analysis.
Key words :information work;information analysis;information awareness;information material
收稿日期: 2019-05-19
修回日期: 2019-06-03
基金项目: 2018年度北京市重点研发计划 -国际科技合作专项“面向网络互动信息与内容关联的多文档情感态度摘要”(编号: Z181100001018 035)的成果之一。
作者简介: 周京艳 (ORCID: 0000-0003-0599-0130),女,1986年生,博士,助理研究员,研究方向:情报分析;刘 如 (ORCID:0000-0002-3672-6458),男,1982年生,硕士,助理研究员,研究方向:科技情报;张惠娜 (ORCID:0000-0001-7835-8115),女,1978年生,博士,副研究员,研究方向:科技情报;李 蕾 (ORCID:0000-0002-3204-6527),女,1974年生,副教授,研究方向:自然语言处理。
通信作者: 刘 如
中图分类号: G350
文献标识码: A
文章编号: 1002-1965( 2019) 12-0035-05
引用格式: 周京艳,刘 如,张惠娜,等.基于观点的情报感知方法研究[J].情报杂志,2019,38(12):35-39,47.
DOI :10.3969/j.issn.1002-1965.2019.12.006
(责编:刘影梅;校对:白燕琼)
标签:情报工作论文; 情报分析论文; 情报感知论文; 情报素材论文; 北京市科学技术情报研究所论文; 北京科技战略决策咨询中心论文; 中国科学技术发展战略研究院论文; 北京邮电大学计算机学院论文;