计算实验方法及其在情报学中的应用,本文主要内容关键词为:情报论文,学中论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着互联网和电子信息的不断普及与深入,以及物联网、云计算等信息通信技术的迅速发展,信息动态变化的速度和规模已经达到一个前所未有的水平。信息科学领域日益凸显的复杂性向传统的情报学研究方法论提出新的挑战。当前主要的情报学研究方法主要偏重于还原论,这些方法对于解释信息系统整体性现象及动态演化的复杂性来说是不够的。情报学需要借鉴、吸收、集成、融合不同学科的理论、工具、方法与技术,特别是自然科学的技术和方法。基于计算技术、复杂系统理论、人工社会和演化理论的计算实验方法应运而生,为情报学领域的研究提供了一种新的研究方法。
1 计算实验相关理论
计算实验是以综合集成方法论为指导,融合计算技术、复杂系统理论和演化理论等,通过计算机再现管理活动的基本情景、微观主体之行为特征及相互关联,并在此基础上分析揭示管理复杂性与演化规律的一种研究方法[1]。计算实验的相关理论主要包括复杂系统理论、人工社会和综合集成研讨厅体系等。
1.1 复杂系统理论
复杂性思维和对复杂性的探索,不断加深了人们对社会系统自身复杂性的理解和认识,社会系统的复杂性主要包括人的行为的复杂性、社会机构的复杂性、要素间关联的复杂性以及环境的复杂性等[1]。
对于一个系统,根据组成子系统以及子系统种类的多少和它们之间的关联复杂程度,可分为简单系统、简单巨系统和复杂巨系统。其中,子系统种类很多并有层次结构,且关联关系很复杂的,称为开放的复杂巨系统(或简称复杂系统)[2]。复杂系统/开放复杂巨系统具有系统组成关系复杂、系统行为复杂、系统的子系统间以及系统与其环境之间交互关系复杂和能量交换复杂等特点,典型如军事体系对抗系统、复杂制造系统、复杂工程系统、生物系统、宏观和微观物理系统、复杂化学与化工系统、人体系统、天体系统、经济系统等,对它们的研究已经成为人类发展至关重要的课题[3]。国外复杂系统研究比较有代表性的是霍兰提出的复杂适应系统(CAS),国内则以钱学森提出的“开发复杂巨系统”为研究对象,相比于简单系统,复杂系统具有自适应性、不确定性、涌现性、开放性和演化等特征。
目前关于复杂系统的研究主要使用仿真建模的方法,涉及遗传算法、神经网络、布林网络、元胞自动机、蚁群算法、基于Agent的建模、基于“人工生命”的综合分析法等理论。从系统工程的理论来看,情报学领域的许多应用符合复杂系统的标准,如网络舆情分析、互联网群体协作和竞争情报系统等,这些领域涉及众多子系统且子系统之间的关联错综复杂,尤其是加入了具有智慧的人的行为,难以用简单系统的线性加以分析描述,所以需要从复杂系统的角度加以考虑。
1.2 人工社会
人工社会概念的提出为计算实验方法及应用提供了新的角度和高度。美国兰德公司(Rand)的Buiider和 Bankes在20世纪90年代初提出了人工社会这一概念,主要是为了研究信息技术对社会冲击的影响,主要方法是利用计算机生成各种人工社会,从而研究不同信息技术、设施和能力对它们的影响[4]。
人工社会的研究源于“仿真社会”(Simulating Societies)的研究,人工社会的核心方法主要是基于代理的建模、模拟和分析方法。人工社会的代理方法主要由3部分组成,即代理、环境和规则。代理即人工社会中的“人”,具有自己的内部状态、行为规则,并可以随着时间、交流和外部世界的变化而变化。环境或空间是代理赖以生存的地方,是它们“生命”的舞台,可以是实际的物理环境,也可以是虚拟的数学或计算机过程,一般表示为存有代理食物的场所所形成的网格;规则是代理、场所本身,代理之间,场所之间,代理与场所之间“行事处世”的准则和步骤,从简单的代理移动规则到复杂的文化、战争和贸易规则[5-6]。
1.3 综合集成研讨厅
学术界一般认为,综合集成研讨厅起源于系统工程的提出。1990年,钱学森等人在《自然》杂志上发表了《一个新的科学领域——开放的复杂巨系统及其方法论》[2],提出了“开放的复杂巨系统”的概念以及从定性到定量的综合集成法。人机结合从定性到定量的综合集成研讨厅体系,是钱学森等提出的处理复杂巨系统问题的方法论[2,7-10],其主要的工程研究方法是综合集成法[11]。即在研讨厅体系的指导下构建处理具体问题的综合集成研讨厅系统。
钱学森在综合集成法的基础上概括出了人机结合、以人为主、从定性到定量的综合集成研讨厅的理论框架。其主要内容包括以下几个方面:①几十年来世界学术讨论的 Seminar;②C[3]I及作战模拟;③从定性到定量的综合集成法;④信息情报技术;⑤“五次产业革命”;⑥人工智能;⑦虚拟现实;⑧人机结合的智能系统;⑨系统学。这个理论框架把综合集成法中的个体智慧明确上升为群体智慧。综合集成研讨厅是专家们同计算机和信息资料情报系统一起工作的“厅”,是把专家们和知识库、信息系统、各种人工智能系统、每秒几十亿次的计算机等按照作战指挥厅那样组织起来,成为“人机结合”的巨型智能系统[12]。
上述3种理论都是将人的行为加入到复杂的社会系统研究中,但是侧重点有所不同,复杂系统理论从系统论的视角出发将人类行为统作为复杂系统的子系统,从子系统之间关联关系出发考虑社会系统的结构与演化规律;人工社会则更加强调通过计算机技术的仿真对人类社会相关问题进行研究,研究人类社会的普遍规律;综合集成研讨厅系统则把人的思维与活动作为影响系统演化的主要因素,强调人的智慧对系统的决定作用。对于人在系统中的角色以及人的智慧对系统演化的作用的理解差异决定了3种理论研究方法的差异,从而推动了计算实验方法的产生。
2 计算实验理论与方法
计算实验是近年来兴起的用于研究复杂社会系统的新方法,它通过在计算机上构建现实社会系统的模拟系统,以此来研究社会系统的演化规律、系统与环境的交互机制及系统动力学原理,它是一种区别于传统建模方式的情景建模方式。盛昭瀚认为计算实验是以综合集成方法论为指导,融合计算技术、复杂系统理论和演化理论等,通过计算机再现管理活动的基本情景、微观主体之行为特征及相互关联,并在此基础上分析揭示管理复杂性与演化规律的一种研究方法[1]。
从应用上来看,计算实验可以对复杂社会系统进行两个层面的研究:一是对系统空间结构进行分析,探寻系统内部的结构特征和主体空间活动的规律;二是对系统在特定时间段的演化进行研究,分析社会系统演化的历史经验,通过并行的模拟系统来与现实社会系统进行交互验证,指导现实系统决策,并对系统的演化过程进行预测。
计算实验可以说是应用复杂系统理论对社会系统进行仿真的方法,与传统的仿真相比,计算实验更加注重对社会系统中人的行为的识别与描述,用更多的主体规则来代替量化数据的计算,强调模拟系统时空的演化而非现实的模拟。在处理难以量化的数据时,将复杂对象量化、分类、编码,对大的问题细分后编码描述。
无论系统仿真还是计算实验,都是通过模仿实际系统来研究真实系统。在此意义上讲,两者都是仿真技术。计算实验中的被试系统的计算模拟,主要基于代理方法和相应的面向对象的编程技术产生人工对象,通过人工对象的相互交往自下而上地“主动”产生被试系统的各种行为[5]。在计算实验方法中,传统的计算模拟变成了“计算实验室”里的“试验”过程,成为“生长培育”各类复杂社会经济系统的手段,而实际系统只是这个“计算实验”的一种可能结果而已。因此,计算实验不同于计算仿真遵守实际系统是唯一现实存在的理念,把逼真实际系统作为目的,并把实际系统作为检验仿真结果成功与否的唯一参照和标准,追求“真实”;计算实验认为计算模拟也是一种“现实”,是现实系统的一种可能的替代形式和另一种可能的实现方式[1]。
计算实验强调从复杂系统的演化过程出发对系统进行研究,其实现的基本流程包括5个环节(见表1)。其中重点是确定研究的基本假设,研究假设的主要任务是确定主体的属性及主体的行为规则,需要研究者对特定领域的深刻理解,方能从复杂的社会问题中抽取出可用复杂系统描述的主体,而对于主体的理解也决定了模型的准确程度,因而这一步骤需要综合专家知识来进行主体建模。难点是建立可计算模型,在确定主体相关的假设之后,需要根据复杂系统理论建立系统模型,确定主体之间的关联和系统的演化规则,将复杂的主体交互行为用规则来进行描述。
3 计算实验方法在情报学中的应用
情报学是以信息为主要研究对象,以信息的运动规律和应用方法为主要研究内容。随着信息系统复杂性的不断提升,将计算实验方法引入到传统的情报学研究中具有一定的必要性和迫切性。本文分别从网络舆情、互联网群体协作演化和企业竞争情报3个方面探讨计算实验方法的具体应用和可行性。
3.1 计算实验在网络舆情中的应用
互联网的发展,为民众抒发内隐的情绪和态度提供了一个理想的表达渠道,形成了形式多样化的网络舆情信息,这些具体形态的舆情信息,隐藏着民众的情绪,真实地体现了民众的社会政治态度。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁:一方面,国内外敌对势力经常利用互联网,别有用心地煽动不良情绪或发动串联,以期影响我国社会稳定;另一方面,当某些社会突发公共事件发生后,容易造成在网络上的小道消息流行,这就势必会引起公众不理性的判断和行为混乱,从而酿成严重的后果。鉴于此,政府要求加强网络文化建设和管理,重视网络社情民意,对网络舆情的重视程度越趋强烈。
作为一个新兴的社会科学与自然科学交叉的研究领域,网络舆情研究引起了社会的广泛关注和重视,如何从海量的网络信息中发现网络舆情并进行预警、监控和管理成为社会管理者关注的重点。
目前,学者普遍认为网络舆情是指通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,表现了公众的社会政治态度,主要通过BBS论坛、博客、新闻跟帖、转帖等实现并加以强化[13]。国内外对网络舆情的研究大体可以分为基础理论研究、支撑技术研究和应用系统研究3个层面。
舆情是群体行为交互涌现的结果,其形成和传播过程是一个典型的复杂系统演化过程,可以使用社会计算的方法加以研究。从研究模式来看可以从两方面加以考虑:一是从空间层面对舆情的网络结构进行分析,将参与主体映射到物理空间,考察舆情网络结构的特征及不同阶段舆情的网络拓扑结构,分析主体交互行为对舆情网络结构的影响;二是从时间层面对产生舆情的社会系统演化进行研究,构建正在发生舆情事件的平行系统,通过对系统的结构、属性和交互行为进行分析,对比舆情发展过程,指导舆情监控,并根据舆情演化过程修正虚拟系统规则,实现对舆情的同步管控。具体需要考虑的关键问题包括:
1)舆情社会系统的抽象。舆情的发展是一个动态演化的过程,在模型设计时需要考虑在特定舆情发展的不同阶段的环境条件、系统边界、参与主体和系统结构等特征,构建舆情系统的整体框架模型。环境条件主要考虑舆情系统受外界的约束,比如舆情传播的途径有差异,有的舆情是以微博为主要途径传播,有的则是以论坛讨论形式传播;系统边界需要界定舆情的范围,区分哪些讨论内容归属于舆情系统,哪些讨论不属于舆情系统。需要根据舆情的参与主体的角色差异来进行主体建模,确定主体类别,还需要考虑舆情系统的结构特定,确定舆情系统主体之间的关联关系。
2)舆情系统主体的描述。确定舆情系统中各参与主体的属性特征,按照舆情系统演化阶段可将参与主体划分为信息制造者、信息传播者、信息浏览者、信息评论者等不同的角色,需要对每一类角色进行抽象,获取其基本属性,可包括主体的记忆、偏好、知识、信息等内容,并确定主体自演化的规则来描述不同角色之间动态转化的过程。
3)主体之间交互规则的表达。在考虑主体环境约束的条件下,将主体行为抽象为可表示的规则,确定主体之间的交互规则,比如回帖、转发等行为,并界定每一类交互规则的产生条件,执行过程等内容。
4)使用复杂系统建模工具实现舆情系统。将上述舆情系统使用多主体建模加以实现,并展现为可视化的实验结果,以实现对某一类舆情任务的动态监控和并行观察。
3.2 计算实验在互联网群体协作演化中的应用
互联网群体协作(以下简称群体协作)是在Web 2.0时代到来以后迅速发展起来的一类社会化应用模式(这一点与微观层面的社会计算较为相似)。以Wikipedia, Facebook,Delicious等为代表的多种群体协作平台逐渐得到社会公众的广泛关注,同时,这类平台背后的协作模式,也促使了许多著名公司在产品研发流程,甚至是组织结构上产生改变(如宝洁、IBM)[14]。群体协作的特点在于:①海量用户,多样化的知识背景。②自组织的、志愿性的贡献。③有针对性的协同创作,其创作作品(如文本、图像、软件等)对其自身和广大的社会大众有意义。
从过程视角来看,群体协作主要包括协作前(如成员召集等)、协作中(如冲突协调等)和协作后(如任务绩效评估等)3个阶段,而社会计算方法的引入能够从这3个方面对群体协作起到全面的研究或辅助作用。从研究角度,社会计算能够以低成本的方式(几乎不需要历时性调研)模拟群体协作的全过程,随着参数的逐渐引入和调整,各个过程性因素对于群体协作绩效的影响程度逐渐明晰;从实践角度,社会计算尤其能够帮助群体协作平台的设计者进行协作规则的制定。
在第一阶段(协作前),通过社会计算实验进行模拟,能够对用户之间进行团队匹配,形成最优化的团队配置,提升团队绩效,并且以用户推荐、团队推荐、任务推荐等方式提升平台内推荐模块的效果。计算实验在该阶段的优势在于能够精确为每一位用户建立其各自的模型,而非传统的归类法则。
在第二阶段(协作中),任务协作过程主要是用户之间的协调和用户自身的贡献行为,其中可能涉及用户的跨团队流动、角色演化、兴趣迁移、分阶段激励、冲突解决途径和方式、任务分配与重组等问题。但是,这其中每一项规则的改动都意味着协作平台面临一定的成本,包括时间成本和不良后果。在传统环境下,测试所需的过程一般为建立克隆系统或者划分出独立子系统,邀请志愿者进行试用以确认该改动的有效性。但是,该种相对漫长的测试常常不能满足群体协作的特点,如成员流动性高、团队规模大等,由此会导致结论的不稳定性。而计算实验能够在此阶段迅速模拟出实验平台,依靠实际的用户资料迅速构建足够数量的模拟主体,在调整计算参数和演化规则后快速得到对比结论,能够对决策辅助起到支撑作用。
在第三阶段(协作后),将计算实验模型与用户反馈相结合,在多次使用和评估之后,模型的内置流程和参数配置逐渐接近真实环境,在未来的预测工作中能够取得更好的效果。
在构建具体的计算实验模型时,需要注意:
1)群体协作系统的边界界定。能够纳入到计算实验建模中的系统均需要有明确的边界。但是,群体协作系统是Web 2.0环境下社会化软件的一个重要分支,而社会化软件的突出特点是以用户为中心,各个社会化系统之间追求互联互通、相互影响,边界的概念日益模糊。基于此种特点,群体协作系统在进行边界定义时不能仅仅考虑参与的主体和行为规则,环境因素的参数设定将会变得更加动态且复杂,例如突发事件的影响以及相似任务在其他社会化软件中的分布情况等。
2)群体协作系统主体的建模。涉及的主体主要包括用户、任务两种。群体协作用户背景的多样性决定了用户建模的复杂性。用户模型的领域需要涉及其知识背景、操作经验、协作风格、驱动因素以及团队归属等。各类属性的初始参数可以随机生成,也可以根据现有平台的数据资料进行得出。群体协作用户的团队归属为多对多的映射问题。即任何用户均可以参加或退出任何团队。尤其在用户的退出机制上,需要考虑到多种情况,如子任务决策不符合个体预期所造成的挫败性退出、大量低质贡献造成的强制性退出。任务模型也需要仔细刻画任务的工作量、子任务构成、任务类型,甚至考虑到该任务在群体协作平台内部的可见性。
3)群体协作系统主体之间的交互规则设定。主体之间的交互规则主要涉及用户和用户之间、用户和任务之间以及任务和任务之间的规则。用户和用户之间的规则主要涉及个体声誉和小群体声誉对于个体行为的影响(如妥协),发生冲突事件时(如观点不一致)用户之间的沟通问题。由于现实中群体协作系统大多数并不为实名,因此用户之间的人际关系影响可以不纳入考虑。用户和任务之间的规则主要涉及最佳团队的匹配(推荐)问题、单次贡献大小的随机性、任务属性变化对用户行为的激励(压抑)问题等。任务和任务之间的规则主要是任务之间的竞争性,例如在维基百科中的文章质量评选。
4)群体协作计算实验系统的监控。为了评估各类参数及规则对于群体协作绩效的影响情况,各类输出显得十分必要。必要的输出应该包括:团队规模分布、用户社区声誉分布、团队角色分布、任务质量及完成度等。
3.3 计算实验在企业竞争情报中的应用
竞争情报是指组织或企业在面对其所处环境的变化(如技术变革、竞争对手动向、市场变化等)而做出的一系列预判活动,目的是支持组织或企业决策,使自身在持续的发展和竞争中保持优势。竞争情报的过程一般而言可以分为确认需求、收集信息、信息分析和结果发布等几个阶段[15]。随着信息技术的发展,出现了相当数量的竞争情报支持系统或模块用以辅助情报分析过程,典型的如情报信息的自动采集系统[16]、可视化展示系统[17]以及统计分析系统[18]等。但是,竞争情报分析是一个多因素复杂决策过程,导致了在现有信息技术发展水平下的各类竞争情报支持系统无法真正融入到分析决策中,而只能起到收集、运算和展示等基础的作用,以解决在人工分析中出现的诸如情报遗漏、收集效率低、情报选择存在个人偏见、分析结果理解性差等问题。此外,由于竞争情报受制于人工分析,情报分析人员的工作状态(如薪酬满意度、对企业文化是否认可、身体状况)、经验背景等因素也会强烈影响情报分析的准确性,同时,该类人员的隐性知识的保存也是企业所必须考虑的。
计算实验对于竞争情报的辅助作用集中于情报分析部分,为自动情报分析技术逐渐替代人工判断提供了机遇。企业或组织利用计算实验具有以下优势:①计算实验能够克服情报判断过程中的人为失误,计算实验模型的合理性由此成为唯一影响分析结果准确性的因素。②提升分析效率,能够在短时间内进行多次调整和分析,并给出多方位评估结果。传统情况下,当情报分析人员需要分别评估各种条件组合情况下所带来的影响结果时,需要进行大量的重复工作,效率很难提升。在计算实验模型中,各种条件均以“规则”的方式存在于模型中,分析人员只需要对条件进行勾选和搭配即能得到多种分析结果。③计算实验模型能够以“规则”的方式存储情报分析人员的隐性知识,极大简化知识的积累和继承。随着计算模型知识的积累,其准确度也在逐渐提升。在传统环境下,企业常常对于隐性知识的管理感到束手无策,有的采用限制人员流动的方法,有的则采用技术文档积累的方式。使用“规则”形式存储隐性知识,不仅能够降低企业对于相关人员的依赖性,也能够在短时间内搭建分析模型,而非从大量的文档记录中进行总结。
竞争情报系统的计算实验模型构建将对分析结果负责,主要难度在于各种因素的纳入和影响评估。在构建具体的竞争情报计算实验模型时,需要注意:
1)竞争情报系统的边界界定。从系统功能角度来看,计算实验模型并不是一个能够独立存在的系统,而是需要将其与现有的各个竞争情报子系统相互连接,以完成原始数据采集或结果展示等工作。此外,情报分析人员仍然需要人工建立情报分析目标以及计算实验模型的调整。从系统范畴角度来看,竞争情报系统的边界取决于企业自身供应链位置和掌控能力的设定,例如,某些企业为全供应链模式,或者处于供应链顶(中、尾)端。边界的设定直接影响计算模型中纳入的分析因素的数量,从而影响分析结果的准确性(如产生错误的决策导致牛鞭效应)。此外,外部因素,如汇率风险、政策风险也需要进行考虑。
2)竞争情报系统主体的建模。涉及的主体主要包括现实中的行为主体和客体两种。竞争情报系统中的行为主体可能包括企业自身、关联企业以及能够影响市场行为的政府、组织和社会大众。而行为客体则可能包括企业的产品、其他企业互补(或竞争)的产品等。如果需要分析政策工具的使用和影响,也需要将政策工具(法律、规章)单独进行行为客体建模(否则可以作为“规则”对待)。以牛奶行业竞争情报为例[19],行为主体包括原材料供应商、加工企业、流通企业、政府、消费者等,而行为客体包括原材料、半成品、成品(牛奶)、互补品(如冰棍、奶酪)、竞争品(如豆浆)等。
需要注意的是,在对主体建模时,需要对每个类型的主体建立一定的前提假设(如企业在经济利益和社会责任之间的权衡、产品的有效期),以使得模型贴近现实环境。
3)竞争情报系统主体之间的交互规则设定。主体之间的交互规则主要涉及供应链企业之间、企业和政府、政府和公众、企业和公众、企业和产品、产品和产品之间的规则。企业之间的宏观规则如竞争对手、战略同盟,而微观的规则如货品供应、定价、风险补偿等。企业和政府的规则主要是政府对于企业的监管,例如当牛奶中的有害物质超过政策规定的标准时,将会触发政府的监管行为。政府和公众的规则如公众举报触发政府的监管行为。企业和公众的规则如当企业拒绝整改或者产品持续不合格时,引发公众的拒买行为,造成企业库存增加。企业和产品之间的规则主要涉及产量、原材料的配比、售前和售后策略。产品和产品之间的规则主要是设定互补品(或竞争品)之间的市场影响规则,如牛奶销量降低1%,豆浆销量提升2%等。总之,交互规则的设定必须参考现实的规则和政策,并且需要站在各个主体的立场上,如企业追逐利润、公众注重质量安全等。
4)竞争情报系统计算实验的结果输出。计算实验模型的输出主要是概率模型的展示,即在各种条件组合或者参数配置情况下,企业所面临的风险如何变化。
4 结束语
海量的媒体数据带来了社会、经济、文化等方面的巨大改变,之前的信息技术和信息理论已渐渐不能满足大数据时代带来的需求,计算实验方法应运而生。本文介绍了计算实验的相关理论,包括复杂系统理论,人工生命和综合集成研讨厅方法,重点介绍了计算实验方法的具体实现,最后将计算实验引入到传统情报学的研究中,如网络舆情,互联网群体协作和企业竞争情报,以期为情报学领域的研究提供一种新的研究方法。
标签:舆情分析论文; 网络舆情论文; 用户研究论文; 情报学论文; 群体行为论文; 网络模型论文; 代理理论论文; 建模软件论文; 社会网络论文; 团队协作论文; 企业协作论文; 用户分析论文; 网络协作论文; 网络行为论文; 信息集成论文; 代理模式论文;