大数据环境下多媒体网络舆情并发获取的数据驱动机理研究*
● 黄 微,许烨婧,刘 熠
(吉林大学管理学院,吉林 长春 130022)
摘 要: [目的/意义]网络舆情并发获取的数据驱动机理有助于快速、高效、准确获取舆情数据,把握舆情走向。[方法/过程]在探讨并发获取相关研究的基础上,对大数据环境下多媒体网络舆情并发获取的特征、数据源进行了分析,从数据源形成、线程管控、监视累积、采集存储、数据触发5个方面展开舆情并发获取的数据驱动机理论述,并深度解析机理与数据源、过程、机理间的相互作用关系。[结果/结论]充实了大数据环境下多媒体网络舆情并发获取的相关理论研究,为决策者有效管控舆情态势提供可靠的理论依据。[局限]研究缺少大数据环境下多媒体网络舆情并发获取数据驱动的定量分析。
关键词: 大数据;多媒体;网络舆情;并发获取;数据驱动
大数据环境下的并发获取是借助大数据、云计算、负载均衡等技术对热点、新闻、话题等进行并发处理、并行计算以获取精准化信息,并发获取对新一代搜索引擎提出了更高的要求。传统网络舆情信息并发获取主要采取以主题驱动的垂直搜索引擎加以实现,即在获取网络舆情信息内容的同时,将该舆情信息内容与事先设定主题的相关性进行比较,通过主题相关性判断和过滤,达到获取主题相关的舆情信息内容的目的[1]。如基于转发和评论信息集合的浏览型信息获取方法[2];利用多智能代理技术实现基于用户、网站和数据库的特定信息协同获取方法[3-4];面向网页URL相关度的主题爬虫网络舆情信息获取方法[5];利用专业搜索工具Spider的Web扫描信息获取方法[6-7];研究语义相关性舆情信息协作过滤与获取方法[8];通过优化协作能力函数提高内容获取效率[9];基于蚁群算法与协同工作的智能代理信息获取方法[10]等。
上述方法虽然针对大数据网络舆情信息并发获取问题展开了相关分析,但均没有涉及并发获取的数据驱动方法。传统的信息获取方式不利于大数据环境下多媒体网络舆情的获取、处理、运用、追踪,舆情信息获取的精准度和有效度较低。大数据环境下多媒体网络舆情各个构成元素的不断变化,加剧了网络舆情的复杂化、多变化,增强了网络舆情信息检测、识别、获取、追踪的难度。对并发获取的数据源和数据驱动机理进行分析,有利于实现高质量获取网络舆情热点话题信息。因此,本文从数据驱动的角度出发,分析大数据环境下多媒体网络舆情并发获取的数据驱动机理,以期为网络舆情并发获取体系的建立和完善提供基础理论支持。
1 大数据环境下多媒体网络舆情并发获取的特征
大数据环境下呈现的数据海量性、形态多样性、运行高速性、低价值密度性、数据来源真实性[11]以及多媒体技术的集成性、灵活性、控制性、智能性、交互性[12]等特性促使网络舆情在参与主体上更加多元化、规模化、活跃化,客体更加刺激化、广泛化,本体呈现形式上更加丰富化、多样化,网络舆情更具纷繁性、敏感性、突变性,对网络舆情信息的获取带来了极大的挑战。针对此种情况,本文提出了大数据环境下多媒体网络舆情信息的并发获取,其特征主要体现在以下几个方面。
1 .1 大数据环境下多媒体网络舆情并发获取运行的非线性
大数据环境下多媒体网络舆情信息的巨量性、形式多样性等对舆情信息获取的数量和质量提出了更具挑战性的要求。在此情境下,单线程、单处理器已无法满足网民日益增长的信息获取需求,多处理器、分布式存储系统等软硬件技术的发展,促进了网络舆情的并发获取进程,其多线程、多任务同时进行时所体现的原子性、有序性、可见性、一致性、非线性[13]等特性为舆情信息的大规模、多形式、高质量获取提供了较为可靠的运行支持。
果然,田铭稍稍调查的结果就把他气得想推翻桌子,什么失恋,痛苦过往,纯属子虚乌有,范青青就是来自这个城市的大富大贵家庭,在美国混过两年,现在是家咖啡店老板,她挂名不经营。
1 .2 大数据环境下多媒体网络舆情并发获取阶段的自适应性
大数据环境下多媒体网络舆情的结构化、半结构化、非结构化等数据以图片、文字、声音、视频、符号等形式遍布于互联网络空间,其数据种类的多元性、形态的多样性,对网络舆情的并发控制、数据获取、数据测量等阶段增加了不同程度的复杂性、不确定性。借助强大的大数据技术、多媒体技术、分布式处理技术,在具体的网络舆情并发获取过程中,并发获取的执行是根据不同的时间、数据类型、任务等展开具有一定自适应性、智能性的规范操作,能够根据特定时间内的任务安排进行针对性的分配、调度和协调,以达到顺利完成某一时期、某一阶段多形态舆情信息的并发获取。
1 .3 大数据环境下多媒体网络舆情并发获取任务执行的时序性
大数据环境下多媒体网络舆情信息的快速增长性与扩散性十分明显,比如平昌冬奥会中国队遭争议性判罚事件,瞬间刷爆整个网络,可见网络舆情信息并发获取加快速度的重要性。网络舆情事件的出现、网民舆情态度的变化、观点的聚集、媒体的传播扩散、程序运行的有序性等都对网络舆情信息并发获取的速度产生直接或者间接的影响。其中,网络舆情信息并发获取任务执行的顺序性是快速获取有效信息的内因,主要体现在其规范信息并发获取的各个阶段进程,在同一时间内单个处理器上的程序在物理上是逐一执行的,而非是同时进行,在多个处理器上的程序在物理上是同时执行的,即同时进行,这在一定程度上大大提高了核心处理器的资源利用率,提高信息的高速获取能力。
1 .4 大数据环境下多媒体网络舆情并发获取负载技术的均衡性
岐山臊子面,面要薄劲光,汤要酸辣香,吃时一定要煎稀汪。一只碗里只有几根面,一筷头就挑完了,忙不迭送入口中。这就是“稀”,汤多面少,味道才不会被稀释。汪指油大,油浮在面上,下筷子前必得先吹一口气,浮油飘到碗边,筷子才顺势挑起面来。平凹吃了一次岐山面,舌尖和胃肠就被彻底征服。1991年,平凹《浮躁》获了美国的奖项,访美途经香港,主人招待他吃西餐,结果他挑了一大盘面。到洛杉矶时,导演吴天明招待他,竟然端上来的是岐山面,这让已经离开祖国多日的平凹胃口大开。要知道岐山臊子面到灯红酒绿的美国都市吃,别有一番风味。
2 大数据环境下多媒体网络舆情并发获取的数据源分析
依据大数据环境下多媒体网络舆情的变化特征和相关研究,本文将网络舆情并发获取的数据源分为四类:舆情主体、舆情客体、舆情媒体、舆情本体[15]。对四类舆情数据源进行分析,形成驱动网络舆情信息并发获取的信息资源集合。
2 .1 舆情主体数据源分析
3.1.4 并发获取数据采集存储机理 大数据环境下多媒体网络舆情信息并发获取的数据采集存储一般包括如下几个环节,初始网络舆情数据源的形成,舆情数据的多线程运行,以及在此过程中的舆情数据监视累积,舆情数据源的抓取,访问成功后舆情数据的存储,舆情索引数据库的建立[26]。在多媒体网络舆情数据源抓取环节,crawler一般以单个或一组URL为搜集起点,通过HTTP协议遍历数据源的文档,当文档被取回后,其所包含的信息被用来建立舆情信息文档索引,其中所包含的超链接将被crawler用于访问新文档,随着新文档被取回,新的超链接被发现,如此循环,从而实现大数据环境下多媒体网络舆情数据源的采集存储。在此基础上,预处理搜集的原始网页舆情信息,并将不同类型的文件、数据库、符号等要进行格式标准化,建立索引,通过关键信息提取,构建舆情索引数据库。如图4 所示。
2 .2 舆情客体数据源分析
舆情客体是网络舆情引发的导火线,能够瞬间吸引大批量网民的关注,迅速刺激网络舆情的形成与传播扩散。大数据环境下多媒体网络舆情的客体主要指网络舆情所指向的事件、热点、话题、新闻等对象,能一定程度上反映网络舆情主体的关注重点、偏好,有助于更好了解社情民意,及时发现一些涉及不同行业、领域所存在的问题。舆情客体包括主题名、主题类型、信息源、发帖量、阅读量、转载量、评论量、点赞量、发布时间、评论时间、抓取时间等[17]。在此基础上,通过网络调查和数据采集建立舆情客体数据源集合。如表2所示。
表1 舆情主体数据源分析
注:数据属性、对象、元素的下标均为对应英文缩写。
表2 舆情客体数据源分析
注:数据对象、元素的下标均为对应英文缩写。
2 .3 舆情媒体数据源分析
舆情媒体主要是舆情主客体之间存储与传输信息的中介性媒体。当前环境下,网络舆情主要以“三微一端”的微博、微信、微视频以及新闻客户端作为舆情迅速扩散和发酵的集散地。舆情媒体包括媒体的追踪量、发布量、用户量、转发量等,构成舆情媒体的数据源集合[18],如表3所示。
2 .4 舆情本体数据源分析
舆情本体主要是网络舆情主体根据客观存在的自然现象、非自然现象、社会民生、突发事件、热点话题等在微博、贴吧、论坛以及各大网络媒体上以各种形式来映射其态度、情感、意见等具体内容的图、文、声、像。大数据环境下多媒体网络舆情本体表示出更强的智能性、灵活性与便捷性,能够快速、生动地反映网民的各种观点与意见。其中,文本类型的媒体在现有的舆情分析中使用较多。舆情本体数据源通常以单一、叠加或者复合的方式展示不同的显示效果,形成不同的本体数据源集合。
表3 舆情媒体数据源分析
注:数据对象、元素的下标均为对应英文缩写。
3 大数据环境下多媒体网络舆情并发获取的数据驱动机理及关系分析
大数据环境下多媒体网路舆情并发获取的数据驱动机理关系从数据驱动机理与舆情数据源、舆情数据驱动过程以及机理间的作用关系几个层面展开论述。
3 .1 网络舆情并发获取的数据驱动机理解析
3.1.2 并发获取线程管控机理 在大数据环境下的计算机网络系统中,核心处理器遍布网络的各个节点,网络舆情并发获取时需要执行并发操作的程序可同时被分配到多个处理器上,进行实质性的同一时刻多个舆情信息任务程序同时运行,实现舆情数据的并行运算,每个核心处理器处理一个可并发执行的舆情数据程序,多个舆情数据任务程序可同时运行[21]。同一时间内,一个核心处理器情况下,逻辑上同时运行,实际上是分别按顺序执行的,即并发获取的数据流处理是按时间顺序进行的。当同时出现主体、客体、媒体、本体四个线程的时候,每个线程均分成不同的程序块按顺序执行,如图2所示。大数据环境下多媒体网络舆情并发获取的线程管控可通过信息发布系统CMS、图片服务器与应用服务器分离方法、数据库集群方案、缓存技术、镜像技术、负载均衡技术等实施,是实现大数据环境下海量舆情信息并发请求、高压负荷访问的重要解决途径[22]。
外卖逐渐深入大学生的生活,这与其便利性优点有着不可分割的关系,未来外卖行业应针对不同性别、不同阶层和不同消费等级的人群做出更加鲜明的决策,制定更多外卖实施方案,吸引更多的顾客[8].
图1 大数据环境下多媒体网络舆情并发获取的数据源形成机理
3.1.1 并发获取数据源形成机理 大数据环境下多媒体网络舆情并发获取的数据源形成机理是指网络舆情并发获取中的各数据源相互刺激、反应、传播、作用的一个过程。大数据环境的多维性为舆情客体、舆情主体、舆情媒体、舆情本体提供了强有力的平台支持,网络舆情客体数据流的吸引、敏感、突发、多元、公共等特性都直接或间接刺激舆情主体的主观反应,主体通过参与、活跃、聚集、极化、突变将自己的舆情倾向、意见、观点、态度依托媒体平台实时快速的交互、表达。当这些信息通过一定累积或者叠加则达到舆情爆发的极点,这些信息将以间接/直接、显性/隐性的方式在百度、腾讯、新浪等网络媒体上大肆传播、覆盖、扩散并产生舆情场。该阶段舆情信息会得到一定储存、整合与应用,其出现频率、表达形式、内容相似程度、敏感程度均以不同的方式反作用于舆情客体,作为新一轮的网络舆情数据源,如此循环往复,直到网络舆情的消退,如图1所示。
图2 大数据环境下多媒体网络舆情并发获取的线程管控机理
3.1.3 并发获取数据监视累积机理 网络舆情数据监视与累积主要是对源自舆情主体、舆情客体、舆情媒体、舆情本体的数据流进行实时扫描、侦查、监视与累积的过程,尤其是对敏感数据流、非常规数据流重点监视,为数据累积提供数据参考依据。大数据环境下,网络数据、信息的急速增长为数据存储带来了巨大挑战,网络硬件的存储空间资源仍是比较紧张。数据累积是根据舆情主体、客体、媒体、本体的出现频率或者最近时间段内出现的所有过往信息流进行计算的一个过程,以确保存储最有效的信息。在数据累积阶段,通常包含三种缓存计算方法,分别是FIFO,LFU,LRU。FIFO是基于时间序列先进先出的一种缓存算法,即当数据缓存空间达到饱满状态时,需把最先进入缓存空间的数据剔除[23]。LFU是基于访问次数的一种算法,即将最近不常用的、不常出现的舆情数据剔除[24]。LRU是基于数据访问的最近最少使用的一种缓存算法,即将最长时间不访问、不使用、不出现的舆情数据剔除[25]。根据大数据环境下多媒体网络舆情所呈现的特征,一般采用LRU算法。网络舆情并发获取的数据监视累积机理如图3所示。
图3 大数据环境下多媒体网络舆情并发获取的数据监视累积机理
舆情主体主要是指网络舆情生产、传播与扩散的行动者,在信息需求、检索、表达、传递、获取、认知等行为上具有主动性、灵活性,是占有主导地位的群体。舆情主体有自然属性和社会属性,自然属性数据包括性别、年龄、学历、职业等;社会属性数据包括网名、ID、网龄、关注数量、发文数量、粉丝数量等[16]。大数据环境下多媒体网络舆情并发获取的主体数据源,如表1所示。
3.2.1 大数据环境下多媒体网络舆情并发获取的数据源与数据驱动机理关系 网络舆情并发获取的数据源包含舆情主体、舆情客体、舆情媒体、舆情本体,数据驱动机理是舆情数据源的依存联结之所在,大数据环境下多媒体网络舆情并发获取的数据源与数据驱动机理的关系如图6所示。
图4 大数据环境下多媒体网络舆情并发获取的数据采集存储机理
图6 大数据环境下多媒体网络舆情并发获取的数据源与机理关系
3.1.5 并发获取数据触发机理 大数据环境下多媒体网络舆情并发获取的数据触发机理包括数据处理、数据测量、数据生成、数据过滤、数据判断几个环节。数据处理阶段,主要对舆情的主体参与度(P)、客体热度(H)、媒体影响度(I)、本体融合度(F)进行测量。当主体参与度、客体热度、媒体影响度、本体融合度均处于极低状态时,可以不进行数据测量;当参与度、热度、影响度、融合度均较高时,直接测量数据。通过数据分析与测量,自动生成数据计算结果,并将不同的数据进行分类,以此为依据判别网络舆情的数据是否触发了网络舆情的主体、客体、媒体、本体的临界值,若其中任意一个或多个计算结果达到临界值,则直接触发网络舆情的并发获取且存储结果。若计算结果均没有达到临界值,则不触发网络舆情的并发获取进程,直接返回数据源开始新一轮并发获取进程,如图5所示。
一个月零三天后,也就是6月10日,《沮水巫音》被列入国家级非遗保护名录,这对保康来说,是一件大好事,极大地提升了保康的文化内涵,打响了文化品牌。我第一时间打电话把这个好消息告诉给王述金,电话的那头传来的是老王悲喜交加的哭泣声。
图5 大数据环境下多媒体网络舆情并发获取的数据触发机理
3 .2 大数据环境下多媒体网络舆情并发获取的数据驱动机理关系
根据网络舆情的形成过程[19]和信息获取的过程[20],本文将从网络舆情数据源形成机理、线程管控机理、监视累积机理、采集存储机理、数据触发机理这几个方面进行大数据环境下多媒体网络舆情并发获取的数据驱动机理分析。
早期关于影响审计服务成本的研究,主要包括企业的规模、业务的复杂度、应收账款比率等,这些因素也成为影响审计定价的主要变量。2006年后,风险导向审计模式在我国推行,会计师事务所的风险意识有所提升。所以了解到企业内控存在缺陷时,会计师事务所会投入比之前更多的人力,耗费更多的精力和时间,审计成本也自然增加。随后,学者们开始从风险角度研究审计定价。李越冬等(2014)发现内部控制与外部审计是相互替代关系,事务所会对存在重大企业内控缺陷的公司要求更高的费用。洪琳(2016)的研究也表明,主要的企业内控缺陷与审计费用之间存在显著的正关系。
大数据环境下我国网民规模不断扩大,网络数据流量呈现几何级增长,这对网络舆情并发获取过程的顺畅运行带来了新的挑战[14]。一旦巨量舆情数据流无法在并发获取过程中得到有效调度、分配,则会产生多线程、多任务下的数据流负载失衡的现象,将导致网络舆情并发获取的执行和控制难度大大提升,降低网络舆情信息并发获取的效率。大数据技术、负载均衡技术、分布式处理系统等的不断改进和广泛应用,均对大数据环境下多媒体网络舆情信息并发获取的各阶段、各任务、各流程数据负载的均衡性产生影响,尤其是线程分配、队列协调、信息调度提供可靠的技术支持,促进并发获取得以稳定高效地运行。
图7 大数据环境下多媒体网络舆情并发获取的数据驱动过程与机理关系
网络舆情客体包括具体的事件、讨论的热点或者话题以及新闻等对象,其相对应的数据源包括名称、类型、来源、数量等。发帖量、阅读量、转载量、评论量、点赞量是舆情客体的呈现,也是舆情主体观点能动的体现,同时也是媒介承载的直观体现。网络舆情主体包括舆情发布主体、浏览主体、转载主体、评论主体、管控主体,其数据源涵盖昵称、性别、年龄、粉丝数量、发文数量等信息。央视、百度、腾讯、新浪、凤凰等媒体承载了相应的媒体追踪量、媒体发布信息量、媒体用户量、媒体转发量等,舆情媒体对舆情信息交融起着十分重要的中介作用,它是舆情信息出现、产生、扩散、衍进、聚集、跃变的集散地。舆情本体则以直观、多形态、多形式的方式对与舆情相关的图片、文字、符号、声音、视频呈现累积。整个过程从社会化、外显化、综合化、内隐化的角度揭示了显性舆情信息与隐性舆情信息的相互转化与发展变化,对网络舆情并发获取的数据分析具有十分重要的作用。其中,舆情的社会化是共享个人观点与意见,蕴含并生产新的隐性舆情信息的起点;舆情的外显化是将隐性的舆情信息通过不同形式展现、演绎显性化的结果;舆情的综合化是将不同的显性化的舆情信息在媒体上传播、扩散,此过程会蕴藏新的舆情信息,该阶段较容易引起舆情主体的共鸣,是舆情爆发的高危阶段;内隐化是显性舆情信息转变为隐性舆情信息的拐点[27]。在大数据环境下,网络舆情事件的出现,其本身所具有的吸引性、易敏性、公共性、突变性会刺激舆情话题、热点的生成,引发舆情并发获取的数据源形成机理,数据源一旦形成便会刺激并发动作,即产生舆情线程管控机理,其贯穿于网络舆情数据驱动机理的始终。针对这些已出现的舆情话题,不同的舆情主体所呈现的态度、行为均有所不同,其参与程度、活跃程度、聚集程度都会根据事态的衍进而存在差异,舆情并发获取的监视累积就十分必要。舆情主体的交互会引起网络舆情在媒体上的传播,在此过程中舆情会因为媒体的影响力、扩散度、覆盖度、依存度而得到全面的发酵,其产生的舆情交融,会不断衍生一系列新的舆情热点主题,包括其进一步扩散、衍进、聚集、跃变等,从媒体呈现的舆情信息初始值开始进行数据访问,数据抓取与存储,从而驱动舆情并发获取的数据采集存储机理。通过对已抓取的多形态呈现的舆情信息的敏感性、相似性、出现频率、展现形式等进行数据测量、数据生成、数据分类、数据判断驱动舆情并发获取触发机理。存储与筛选已触发的结果,同时反馈未触发的数据结果。
以弗兰西斯·培根为代表的经验主义哲学及其归纳主义方法论,特别是以笛卡尔为代表的理性主义哲学及其直观演绎方法,对近代初期的科学从以整个自然界为对象的博物学,提升为分门别类的研究,发挥了至关重要的作用,于是形成了以精密分析为主要特点的近代西方分析科学的各个学科。既然如此,不同学科的研究对象必定是自然界的个别和局部,一般不会跨越各自的对象领域。以研究机械运动规律为宗旨的牛顿经典力学,就是这种分解分析思维方式最成功的体现。
3.2.2 大数据环境下多媒体网络舆情并发获取的数据驱动过程与机理关系 网络舆情的数据驱动机理贯穿于网络舆情信息的形成、控制、监视、采集、测量等整个阶段,实时影响网络舆情信息并发获取的生成、管控、监控、爬取、触发过程。大数据环境下多媒体网络舆情并发获取的数据驱动过程与机理关系如图7所示。
网络舆情数据源形成期间,在网络舆情事件、热点、话题等客体的出现和驱动下,刺激舆情主体做出一些反应,形成自己特有的观点和意识,并参与舆情讨论,借助媒体承载他们的态度倾向和情感状态,通过微博、微信、论坛等媒体渠道传播扩散,以图片、文字、符号等方式表征。在这个过程中体现了客体自身吸引性的强度、主体活跃性的程度、媒体发酵性的浓度、本体聚合的优度。从生成到管控阶段,体现了舆情数据并发请求、多线程处理、多程序块运行到结束以及新的并发线程出现的过程,管控阶段贯穿数据并发获取的始终,特殊情况下数据源可以直接进入监控环节。从线程运行到监控环节,能监测到舆情客体被关注的冷热程度,通过数据访问、数据解析、数据抓取、数据文档构建、索引构建、数据抽取等完成数据的采集与存储。在数据爬取与触发环节,对已采集的数据分别测量其客体、主体、媒体、本体,根据阈值高低整合测量结果,以生成、过滤、分类、判断、匹配等一系列方式判断常规数据和非常规数据。若是非常规数据则直接触发多媒体网络舆情并发获取进程;若是常规数据则直接将结果反馈到数据源循环处理。这样的过程不断循环往复,发现非常规数据则实时并发获取。
通过具有较高实效性高的土壤采集方法对土样进行采集操作,结合不同类型作物和土壤的研究结果证实,不同区域土壤的实际肥力也存在一定差异,同时,为了满足大豆种植所需要的肥力水平,需要对化肥的调配比例、使用时间和品种也进行针对性的选择。依据农家肥料的具体情况,选择实际使用的化肥量,一般每公顷大豆种植区域可通过分层法施加15t左右的农家肥,其中,首先的施肥深度为5~10cm,再次施肥深度为10~15cm,经适当的施肥方式,能够最大限度提高化肥的使用效果,保证肥力提升3~5%左右。
3.2.3 大数据环境下多媒体网络舆情并发获取的数据驱动机理间的作用关系 大数据环境下多媒体网络舆情并发获取的数据源形成机理、线程管控机理、监视累积机理、采集存储机理、数据触发机理共同作用、相互影响,其关系如图8所示。
图8 大数据环境下多媒体网络舆情并发获取的数据驱动机理间的作用关系
网络舆情客体的出现、舆情主体的交互、舆情媒体的传播、舆情本体的融合共同引发网络舆情并发获取的数据源形成机理,形成一定数据流,引发多线程程序的运行,产生线程管控机理。在此过程中,舆情数据不断累积与更新,存在关注度特别高的舆情话题,也存在关注度比较低的舆情话题,舆情话题被关注的冷热程度是舆情数据监视与累积机理最直观的体现。舆情数据源形成机理同时作用于线程控制机理和监视累积机理,它们之间都是一脉相承的,在数据源的监视累积过程中,会将一部分暂时无效的舆情数据反馈到舆情数据源展开新的循环。通过对媒体上舆情信息的抓取与采集,测量舆情数据,以此作为评判是否触发网络舆情并发获取的条件,并将未触发舆情并发获取的数据反馈到舆情数据源处开启新的舆情并发获取数据驱动过程。这五大机理之间相互联系,不可分割,共同作用于网络舆情并发获取的数据驱动机理,影响网络舆情并发获取的数据精准性,为大数据环境下多媒体网络舆情并发获取的数据驱动模型提供了理论参考。
4 结论与展望
本文详细分析大数据环境下多媒体网络舆情信息并发获取的数据驱动机理。将舆情主体、舆情客体、舆情媒体、舆情本体作为舆情并发获取的数据源,依托当前较为成熟的技术平台,从数据源形成、线程管控、数据监视与累积、数据采集与存储、数据触发等几个方面对并发获取的数据驱动机理展开论述,了解网络舆情并发获取的数据驱动过程及机理间的相互作用关系,为网络舆情并发获取的应用研究给予理论支撑,为决策者实时动态把握舆情的变化提供方向引导。未来将开展网络舆情并发获取的数据源动态筛选与实证研究,丰富和完善网络舆情信息并发获取的理论和应用体系。
参考文献
[1] 岳宗林.基于垂直搜索引擎的舆情分析平台[D].济南:济南大学,2017.
[2] 朱爱菊.从对人的关注和浏览中获取信息——新浪微博中的信息组织与信息获取机制分析[J].情报杂志,2011,30(5):161-164.
[3] 梁莹,徐福缘.基于多Agent的专利资源协同获取模型研究[J].情报理论与实践,2009,32(8):118-120.
[4] 康宁.基于分布式多Agent系统的二层专利数据库信息获取系统研究[D].北京:北京工业大学,2012.
[5] 殷聪,黄炜.网络群体性事件的源信息获取研究初探[J].现代情报,2012,32(7):173-177.
[6] 徐晓哲.基于多Agent的Internet上构件获取技术研究[D].哈尔滨:哈尔滨工程大学,2007.
[7] 孙书玲.高职高专信息用户网络免费资源的获取与利用[J].牡丹江大学学报,2008(11):156-157,159.
[8] 杜亚军.多Agent主题爬虫协作策略的研究与分析[J].西华大学学报:自然科学版,2013,32(1):31-38,50.
[9] 冯祖光.多Agent间协作与竞争机制的研究[D].成都:西华大学,2015.
[10] 夏火松.多Agent分布式的市场营销知识获取结构[J].计算机工程,2003,29(7):178-180.
[11] 陈军成,丁治明,高需.大数据热点技术综述[J].北京工业大学学报,2017,43(3):358-367.
[12] 张琰.探索多媒体技术发展[J].电脑编程技巧与维护,2015(1):21-22.
[13] CSDN.并发特性[EB/OL].[2018-09-12]https://blog.csdn.net/claram/article/details/51683881.
[14] 黄伟志,汤莉,刘军,孙宏.基于主动队列管理的Linux并发服务器模型及负载均衡算法的研究[J].电子技术应用,2006(7):19-21.
[15] 黄微,李瑞,孟佳林.大数据环境下多媒体网络舆情传播要素及运行机理研究[J].图书情报工作,2015,59(21):38-44,62.
[16] 刘健,毕强,李瑞.微博舆情信息传播效果评价指标体系构建研究——基于模糊数据包络分析法[J].情报理论与实践,2016,39(12):31-38.
[17] 李文杰,化存才,何伟全,张芳.网络舆情信息的综合评价指标体系构建与模糊评判模型[J].情报科学,2015,33(9):93-99.
[18] 金鑫.多媒体网络舆情危机监测指标体系构建研究[D].长春:吉林大学,2017.
[19] 安俊.“大众麦克风”时代网络舆情形成过程及特征分析[J].通化师范学院学报,2016,37(10):142-145.
[20] 薛丽敏,吴琦,李骏.面向专用信息获取的用户定制主题网络爬虫技术研究[J].信息网络安全,2017(2):12-21.
[21] 汤小丹,梁红兵,哲凤屏,汤子瀛.计算机操作系统[M].西安:西安电子科技大学出版社,2007.
[22] LU S,PARK S,SEO E,ZHOU Y.Learning from mistakes:a comprehensive study on real world concurrency bug characteristics[C]//EGGERS S J,LARUS J R,eds.Proc.of the Architectural Support for Programming Languages and Operating Systems (ASPLOS).ACM,2008:329-339.
[23] CUMMINGS C E.Simulation and synthesis techniques for asynchronous FIFO design[M].USA:Sunburst Design,Inc.,2002.
[24] 张轮凯,宋风龙,王达.一种针对片上众核结构共享末级缓存的改进的LFU替换算法[J].计算机应用与软件,2013,30(1):1-6,10.
[25] 张恒瑞,王红.Cache替换算法LRU和2Q的深度分析[J].现代计算机(专业版),2017(4):17-19.
[26] 赵晶璐.Web中文信息获取的算法研究[D].重庆:西南大学,2009.
[27] SUPAROEK C,NOAWANIT S.Design and development of SECI and moodle online learning systems to enhance thinking and innovation skills for higher education learners [J].International Journal of Emerging Technologies in Learning,2018,13(3):154-172.
Research on Data Driven Mechanism of Concurrent Acquisition of Multimedia Network Public Opinion under Big Data Environment
Abstract : [Purpose/significance] Study on the>Keywords : big data;multimedia;network public opinions;concurrent acquisition;data driven
DOI: 10.16353/j.cnki.1000-7490.2019.06.008
* 本文为国家自然科学基金面上项目“大数据环境下多媒体网络舆情信息的语义识别与危机响应研究” (项目编号:71473101)和吉林大学研究生创新研究计划项目“大数据环境下多媒体网络舆情的危机等级预警及响应研究”(项目编号:2016049)的成果。
作者简介: 黄微 ,男,1967年生,教授,博士生导师。研究方向:信息资源管理。许烨婧 ,女,1988年生,博士生。研究方向:信息资源管理。刘熠 ,男,1989年生,博士生。研究方向:信息资源管理。
作者贡献声明:黄微 ,研究命题及研究思路的制订,论文指导及论文最后版本修订。许烨婧 ,论文撰写及修改。刘熠 ,论文资料搜集。
录用日期: 2018-12-20