泛公共云环境下社会科学信息的视角与方法研究_大数据论文

泛公共云环境下的社会科学情报视角与方法研究,本文主要内容关键词为:社会科学论文,视角论文,情报论文,环境论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

大数据时代的到来,给以模拟数据为研究对象的社会科学情报研究方式带来了新的挑战。维克托·迈尔·舍恩伯格预测,数字化数据存储已经占据了人类信息存储总量的98%以上,其余的2%主要存储在各个图书馆里,由报纸杂志、书籍、图片等模拟数据组成[1]。而由生产部门、公共管理部门和互联网上发布的数据诸如文档、表格、网页、音频、图像和视频等每年正以全球网络数据储存总量50%的速度增长,这些数据大多数是碎片化的半结构性或非结构性数据,并不在传统的社会科学情报方法和工具的掌控中,如何从中提取到有价值的数据却并不容易。例如,一方面工商、税务、银行、交通、通信等各部门每天自然产生的数据流存储于本系统内或私有云中,外部不能获取;另一方面通过互联网搭载的虚拟社会每天产生的通信和信息数据如同洪水般涌现,情报工作者利用百度、谷歌等搜索工具无法做到监测或全面掌握所需要的情报。后者可称之为来自泛公共云的情报。所谓泛公共云是指通过互联网可合法公开获取到的数据,是各网站发布的信息和通信数据的总和。泛公共云具有量大、多样化、快速化、价值高和密度低等大数据时代的主要特征[2]。本研究认为,根据大数据的特征,社会科学情报方法必须做如下转变:一是数据分析尽可能占有全部数据而不是抽样数据;二是数据对比注重的是多样性和丰富性,而不是一味追求精确度;三是了解海量数据之间的相关度胜于对因果关系的探索等。为了实现这三个转变,本研究认为情报撷取要在泛公共云中锁定核心价值目标,选准服务维度,即为政府提供决策情报、为企业提供竞争情报、为科研提供知识创新情报服务。为达到此目的,本研究提出利用数据挖掘、自然语言处理、模式识别和机器学习等智能技术方法,构建社会科学情报智能监测采撷平台,以适应泛公共云环境下社会科学情报工作的需要。

1 泛公共云环境下社会科学情报撷取方法的发展趋势

1.1 从模拟数据中撷取为主向互联网海量数据撷取为主转变

一直以来,查找文献资料是社会科学情报研究的主要方式,这可能与情报学是由文献学过渡而来有关。文献综述成为社会科学研究报告范式中不可或缺的重要组成部分,也成为社科情报工作者的主要研究对象。但是,在大数据时代,由数据说话如同由事实说话一样,成为这个时代的价值取向,如何根据大数据的海量特征为人类提供度量、分析、预测服务成为是否能利用数据或驾驭数据产生价值的关键。显然,这个时代赋予社会科学研究的使命和特性决定了我们的研究材料不仅是源于已经发布的各种图书、期刊、论文等文献综述上,而且还应通过互联网从海量的直接的动态地反映全貌的实践删数据,如从企业工商数据、政府管理数据、社交网络数据、个人网页数据及社会大众的意识形态、社会事件、潮流趋势等数据中撷取情报,为文献综述提供事实数据。只有这样才能使我们对社会经济情报的观察和研究立足于全局而不至于滞后于形势。

1.2 从文献数据来源的单一性向文献数据来源的多样性撷取情报转变

近20年来,情报撷取方法主要从结构化的模拟数据库查找,情报来源的单一性往往成为许多社会科学研究报告说服力不强、利用价值不高、产生社会影响力不大的硬伤。大数据时代的多样性主要由新型多结构数据组成,如期刊网、报刊网、图书网、外文网、统计网、行业数据、网络媒体、个人博客、社区论坛、社交网络、会议言论、新闻媒体、图片影视以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型都可以用于社会科学研究的对象材料。数据的多样性大大丰富了社会科学的研究视野或为决策报告提供了有力的决策参数。如本研究曾将“六一”儿童节儿童去向设置为关键词进行实验,从互联网上检索记录分析中发现家长带儿童去看楼市的居多,进而可推测不同楼市的被关注度。从专家博客、论坛、新闻采访、会议发言等多种网络渠道收集关于创新的观点或对某一事件判断的数据,情报显得更直接、更真实和更具时效性。

1.3 从以人工线性搜索情报数据为主向机器非线性定制情报数据收集为主转变

所谓人工线性搜索是指单兵作战为主的利用计算机在谷歌、百度等搜索引擎开展点对点的情报收集工作的方式。在大数据海量、有价值的情报密度低的环境下,这种情报撷取手段往往仅是获得一些只言片语或部分数据库的文献数据,很难达到在规定的时间内完成指定区域目标数据收集的全覆盖样本等于总本的要求。所谓机器非线性定制是指一种基于云计算平台的集数据挖掘、网络爬虫与反爬虫、机器学习、模式识别等为一体的人工智能搜索系统,可以同时向多点多样性不确定性目标收集情报。如谷歌从全美国的海量互联网用户检索系统提取关键词(比如温度计、流感症状、肌肉疼痛、胸闷等)的分析中发现流感区域人群预测并获得确认,监测报告结果公布的相关度至少早于疾病控制与预防中心的统计报告一周的提前量。这一发现主要归功于谷歌采用的“谷歌流感趋势”智能监测工具。实践证明,采用高效率的机器收集海量数据而不是抽样数据调查,更接近事实或有说服力,这也是社会科学情报撷取方法值得借鉴的。

2 泛公共云环境下社会科学情报撷取方向的选择

2.1 政府决策情报

社会科学情报研究的一个主要方向是为政府决策提供情报服务。在大数据背景下,政府的管理和服务手段受到新的挑战。一方面互联网改变了政府单方面控制媒体话语权的格局,开启了政府与“草根”双方持有话语权的格局。“网络的崛起,给了每一个公民一个可以向社会表达的‘麦克风’,而网聚的力量又使昔日被忽略,甚至被轻视的那种‘一盘散沙’式的民意得以集中表达。”[3]政府已经将网络民意列为国家治理的重要参数。对网络舆情的社会经济动态实行监控应交给类似社会科学研究机构的第三方去完成,社会科学情报机构应成为帮助政府处理危机管理的第三只眼。从国际风云变幻的历史事实证明,每一次经济危机或政治风暴都能从网络舆情中发现先兆,重视情报,及时准确地将采集、整理、分析出来的有价值的信息提供给决策层判断,将危机防患于未然,舆情监测活动成为决策机构的基础和关键所在。另一方面,公共管理部门与工商部门的数据一直存在信息孤岛现象,整合信息资源由社会科学情报专业机构提供分析服务是未来急需开发的具有价值的数据资源。社会科学情报的专业性在建立互联网舆情监控平台对收集舆情、处理危机的过程中有着不可替代的价值[4]。在大数据的背景下,建立政府宏观经济运行的大数据情报收集监测系统并结合计算机仿真工具为政府或企业提供经济预测、预警或为税收提供社会化服务将会发挥积极的作用。

2.2 企业竞争情报

所谓企业竞争情报是指有关竞争环境、竞争对手和竞争策略的情报研究,是企业为获得或维持竞争优势而采取决策行动所必需的信息[5]。竞争情报服务是信息(知识)服务发展到一定阶段的特殊高端的知识密集型服务,是组织根据需求通过合法手段对竞争环境、竞争对手和竞争策略的信息(知识)变动进行监测、收集、整理、分析、研究,最终形成情报或策略,以适当的方式进行传播,以直接服务于决策者,是信息(知识)服务的最高境界[6]。本研究提出的企业竞争情报是以第三方出现的一种利用竞争情报工具,根据企业需求提供的网络调查、数据收集、品牌战略、危机预警、决策支持、标杆学习、品牌保护等服务。在大数据的环境下,通过对服务器日志的挖掘,收集消费者的上网购买行为、消费习惯和爱好,公众对企业和竞争对手产品的评价、建议等,可以得到访问对象的偏好等,帮助企业提供调查数据和分析报告,也可收集对企业不利言论,为企业提供危机公关案例等服务。

2.3 科学研究情报

所谓科学研究情报,一般是指收集科学文献的工作。通过情报系统将研究对象的前期档案及前沿研究成果的来龙去脉弄清楚,情报格式以一次文献资料为主,再加上一个文献综述,按逻辑关系或历史阶段编排成情报研究报告。在大数据的背景下,从互联网上收集科研情报成为一种主流方法,如对专业数据库网站、博客、社交网络、论坛、媒体等进行挖掘,更容易发现第一手情报。但是,高效开采网络情报需要智能工具协助完成,否则不能满足时实获取前沿大数据情报的目的。用数据说话,是大数据时代社会科学情报研究的主要方向。

综上所述,在大数据背景下实现社会科学情报方向的上述三个定位,情报参数需要提供大样本,而在规定的时间完成大样本的情报收集,传统的人工收集往往是难以完成的,需要智能机器定制的自动采集工具来协助完成。构建网络环境下的情报智能监测采撷系统平台将成为社会科学情报方法、手段创新的首选。

3 泛公共云环境下社会科学情报智能监测采撷平台的建构

知识管理原则:重复的工作应让机器去完成,让更多的时间留给创新的人,社会科学情报工作也是如此。利用人工在互联网上搜索情报,是一个效率低下、极为枯燥的重复劳动,如何让情报工作者在纷杂的网络环境中解放出来去做组织情报、分析情报、提取知识的工作,将情报的海量收集让智能机器去完成,让计算机系统发挥高效、自动、全面、精确的功能,解决人工所不能解决的问题。建立社会科学情报智能监测采撷平台对于解放社会科学情报生产力具有里程碑的意义。下面以作者主持的广东省社科院信息中心与广州阔拓信息科技有限公司联合研发的项目——社科情报采集监测平台为例作实证说明。

3.1 架构模型(见图1)

图1 核心情报云处理平台

3.2 系统结构图(见图2)

图2 社会科学情报智能监测采撷平台

3.3 核心平台系统组成

3.3.1 自动信息采集系统

以精确信息采集引擎为核心,按专题设置,向Internet全网络发出采集要求,用人工参与和智能信息采集结合的方法完成信息收集任务。抓取最全面的正确信息,自动寻找首发信息源、自动去重、自动获取信息在全网络下的影响因子。可以同时并发采集数千个影响程度大、传播面广、参与度高的网站、论坛、博客,同步检索各大搜索引擎,如Baidu、Google、搜狗等;实现“访问穿透”,对于需要注册、登录的网站、博客、论坛,通过对特定的URL的描述,实现自动进入;规避身份验证、验证码技术,抓取的频率限制、代理限制、地址过滤等反搜索引擎技术的限制,实现对尽可能多的互联网信息的自动访问和下载;对于网络上信息的动态变化采用机器学习技术,采用不同的策略,根据网站结构,指定探测和下载策略。可定向的分钟级网页抓取,利用有限的带宽、计算资源和存储资源,对目标范围内的信息实现高效的抓取。

(1)自定义URL来源及采集频率。用户可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔1分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。

(2)支持多种网页格式。可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),还可以采集网页中包含的图片信息。

(3)支持多种字符集编码。采集子系统能够自动识别多种字符集编码,包括英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。

3.3.2 数据抽取及清理系统

对收集到的信息进行预处理,最终才能变成可用的情报,如页面解析、文件编码处理、正文自动识别与提取、文章自动去重、文章相似度判别、格式转换、数据清理,数据统计。对于新闻评论,需要滤除无关信息,标题自动识别与提取、垃圾信息过滤、自动摘要、自动分类、热点发现、高效索引、海量信息存贮等。保存新闻的标题、出处、发布时间、内容、点击次数、评论人、评论内容、评论数量等。

(1)网页解析。包括文件编码的识别和处理、网页结构的识别和分解、JavaScript代码的识别和处理、超链识别和处理等。

(2)文章自动去重。网页从不同的采集源获取,可能会采集到大量重复信息,自动识别和去除这些重复的信息,以避免不必要的冗余和资源消耗。

(3)正文自动识别与提取。自动对网页中的正文内容进行识别和提取,无需制定和维护模板。

(4)标题自动识别与提取。多种算法自动识别文章标题并进行提取。

(5)垃圾信息过滤。可以通过制定垃圾词、垃圾URL连接(支持正则表达式),以及自动敏感信息、不良信息识别等方式,去除采集到的垃圾网页或者与主题无关的网页。

(6)正文相似度判别。根据正文相似度判别方法,对不同网页的正文内容进行比较分析,判断正文内容的相似度,从而识别出有转载关系的文章或者内容相似的文章,分析新发表文章、帖子的话题是否与已有主题相同。

(7)高效索引。对采集到的有用信息建立高效的索引,从而提供快速的搜索服务。

(8)海量信息处理。从网络上采集来的信息必然是海量的,如何对这些信息进行高效的存贮,并对用户的请求进行快速响应,是一个非常重大的挑战。

平台必须实现的分布式存贮服务能够应对TB级海量信息,对信息搜索和浏览请求实现秒级快速响应,同时能提供安全的备份服务,让采集到的信息安全无忧。

3.3.3 功能

(1)监控专题设置。对于政府、企业以及本单位的不同情报需求,自定义设置不同的监控专题,根据监控专题中的关键词、网站的设置对互联网进行不间断的扫描,分钟级采集情报入库。对单一用户设置监控关键词,是指该用户所涉及的所有需要监控的舆情可能包含的关键词,而设置不同的监控专题,监控专题中包含的关键词是对采集到的舆情进行匹配的导向,是将采集到的舆情分类进行入库展示,以达到扫描最全面,分类最精确的目的(见图3)。

图3 监控主题列表

监控专题的设置是整个系统的根本,在设置专题的时候需要输入监控的关键词、重点监控的网站、过滤词。关键词支持词频、逻辑“or”和“and”的关系(见图4)。

图4 设置关键词

(2)监控源设置。系统监控所有搜索引擎,配置数十万监控源,覆盖全网。对于特殊网站或者重点网站、论坛、博客、微博,需要重点监控的,要能够自主添加监控源(见图5)。

图5 定向监控源设置

(3)过滤词设置。滤词的设置是在保证采集全面性的前提下,采集情报出现误采,系统通过去“噪”,根据过往情报自动添加过滤词,以增强精确度。情报人员自主添加过滤词是弥补系统去“噪”需要积累情报时间过长的问题,通过经验,人工观察可以第一时间添加过滤词。过滤词的设置要选择其所在的位置(见图6)。

图6 过滤词设置

(4)词性设置。系统内置部分负面判断词是进行舆情基本研判的凭借。但是不同的政府、企业监控在正负面判断上是不同的,因此在面对不同的用户时间要能够将词设置成为不同的词性,以应对不同的需求。情报人员要在管理后台的界面直接可以设置,而不需要进行程序操作(见图7)。

图7 文章性质词设置

(5)热词管理。目前的人工监控基本按事态进展进行。而预测甚至于预知,需要依靠情报人员的经验和极其丰富的想象力才有可能在事件的最初阶段,甚至未成型阶段:发现问题。很多事件是以无章法的非常用词来代表的,例如“我爸是李刚”、“毒牛奶”等,因此系统要能够捕捉到网络中爆发程度高的新词,这里称为热词。根据相关性设置,不依赖于词库和组词规则,能够达到发现这类网络不规则新词或短语的结果。在热词的发现过程中会出现常用词的误选,要通过人工协作来屏蔽掉,在长期使用中不断提高预测的概率(见图8)。

图8 热词列表

(6)舆情管理。系统对采集同来的情报,将自动分析其内容,从中提取出日期、媒体的类型、转载的数量、摘要、高频词、所属地区等要素,以便情报人员快速查看。另外,通过分类查看、组合检索、全文检索等方式快速查看情报。高频词是指在该情报中出现频次较高的词,点击具体的高频词,可以显示其他含有该高频词的情报。转载数是该情报被不同媒体的发布数量,点击具体的转载数字,从弹出转载地址的列表查询。要对舆情进行倾向性判断变化,重点关注操作。

(7)微博监控管理。微博往往成为网络舆情的首发源,对其监控是重中之重。系统设置可将新浪、腾讯、网易、搜狐等微博平台作为数据源,通过注册机器人建立自动账号模拟人工登录,通过探测指针侦测运营公司屏遮规则,以智能突破机制进行穿透,连续地将监测关键词多线程导入搜索接口,以获得最终查询结果。对采集到的微博言论,根据独有的语义分析算法,判断其正负,揭示其传播路径和趋势(见图9)。

图9 微博账号设置

(8)情报报送管理。该模块控制对不同级别用户的舆情的查阅、分发、关注、报送,以系统的形式全面体现组织情报管理的制度规范。设置对某一级别用户或者指定的用户进行舆情发送,让其通过邮箱等形式第一时间获得需要关注的内容。定向发送的内容可以是某一条舆情,也可以是某一个专题。当其中出现需要关注的热点事情,舆情会按照预先设置发送到目标对象(见图10)。

图10 信息播报

(9)用户管理。系统要设置用户权限管理模板,对所有用户可以设置多级管理权限和阅读权限。对不同专题、不同功能皆可以进行自由的权限组合,保证情报管理的分级传播、责任管理。

4 结语

在大数据环境下,社会科学研究趋势将一改传统的抽样调查方法,需要社会科学情报提供全景式的大样本情报数据,样本等于总本的情报撷取方法,需要利用云计算和数据挖掘、自然语言处理、模式识别、机器学习等人工智能技术,集成工具创新来实现情报的高效汇集、海选、精选、加工和显示功能。同时,情报智能工具的创新实现又将会反作用于传统的情报方法,促进情报方法创新。本研究第三部分提出的情报撷取工具还仅是试验阶段,仍然存在许多局限性,在人机不断深度融合的情况下,坚持以人为本的创新始终是情报方法与工具创新的源泉。大数据时代的来临为人类感知、度最、预测社会变化提供了新视野和新工具,要适应这一变化,社会科学情报方法、工具的创新也不可回避。各种情报智能工具的涌现,都在不断推进情报生产力的解放。如何顺应大数据带来的变革潮流,创造性地利用数据说话,为创新服务,这是社会科学情报方法创新值得研究的。

收稿日期:2013-09-06

标签:;  ;  ;  ;  

泛公共云环境下社会科学信息的视角与方法研究_大数据论文
下载Doc文档

猜你喜欢