信息的社会分析:来源、理论与应用_复杂网络论文

信息的社会性分析:起源、理论与应用,本文主要内容关键词为:社会性论文,起源论文,理论论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G350[文献标识码]A[文章编号]1003-2797(2009)04-0036-08

复杂网络现象是广泛存在于人类社会活动各领域的一种现象。近年来,科学家揭示了复杂网络不同于随机网络和规则网络的特殊规律,并建立了各种模型模拟其演化过程。本文在分析复杂网络现象的形成和演化机制的基础上,指出了导致这种机制的人类行为规律,并认为人类活动所衍生出的各种复杂网络中的个体都具有相似性质,将其定义为社会性。而信息作为人类信息活动的产物,其演化和分布规则也具有社会性特征,因此对信息的社会性的分析将会对情报学理论研究以及实际应用产生重要的推动作用。

1 社会性概念的引入:从复杂网络现象谈起

1.1 复杂网络现象概述

复杂网络现象作为人类社会广泛存在的一种现象,人们对于其背后形成机制和演化方式一直具有浓厚的研究兴趣。进入新世纪以来,以Watts和Strogatz关于小世界现象的研究[1-2]以及Barabási和Albert关于无标度网络的研究[3]为标志,科学界对于复杂网络现象的研究进入了一个集中爆发期,通过对于来自不同领域的大量实际网络的拓扑特性进行了广泛的实证性研究,人们得出了实际网络普遍遵循的一些基本规律,发现了实际网络与规则网络和随机网络的本质区别,从而揭示了各种人类社会的复杂网络现象背后隐藏的一些规律。以下部分简要介绍随机网络、复杂网络和规则网络这三种基本网络模型之问的本质区别:

(1)规则网络与随机网络。在对网络结构建模的研究过程中,科学家最早的工作是将网络结构划分为规则网络和随机网络。一般把一维链,二维正方晶格等称为规则网络。规则网络是指平移对称性晶格,即任何一个格点的近邻数目都相同[4]。在N个顶点中随机连接M条边所构成的网络就叫随机网络。生成随机网络的方法是,给一个概率p,对于C[2N]中任何一个可能连接,都尝试一遍以概率p的连接,则M=pC[2N][5]。

我们知道,规则网络和随机网络是两种极端情况,前者描述网络极其规则的特征,而后者描述网络极其不规则的特征。事实证明,这两种网络结构模型都不能很好地反映实际网络,因为现实生活中的大量网络,既非规则网络,亦非随机网络。通过研究发现,两种网络的静态集合量具有明显差异:规则网络的特征是平均聚集系数高而平均路径长度长,随机网络的特征是平均聚集系数低而平均路径长度小。从实际意义来看,高平均聚集系数反映了网络中的事物“自发走向有序的态势”;小的平均路径长度特征则反映了网络“演化速度快的特征”[6]。

(2)小世界(Small World)网络。小世界网络来源于社会学中著名的六度分割问题,即世界上任意两个陌生人仅通过六个两两熟悉的中间人就可以联系起来。规则网络虽然具有高聚类特性,但其平均路径长度很高,因此不属于小世界网络。另一方面,随机网络虽然具有小的平均路径长度,却没有高聚类特性[7]。这两种网络都不能再现真实网络的一些重要特征,因为通过大量实证研究发现,现实生活中的网络往往具有较小的平均路径长度和较高的聚集系数。这是因为在现实生活中,人们通常认识他们的邻居和同事(高聚集系数),但也会有少量意想不到的朋友,从而为通往另一个小圈子提供了捷径(低平均路径)。从极限的情况看,如果人们只认识身边的人,那么这样的网络就具有某种规则网络的特征,如果人们只认识本该与自己毫不相关的人,却不认识身边的人,那么这样的网络就具有某种随机网络的特征。

因此,小世界网络与随机网络和规则网络的区别就在于,小世界网络具有较高的聚集系数和较低的平均路径长度,而规则网络具有较低的聚集系数和较高的平均距离,随机网络具有较高的聚集系数和较低的平均路径长度。

(3)无标度(Scale Free)网络。回顾随机网络,网络中的所有节点具有的连接数都大致相同。如果把网络中所有节点拥有的连线数进行统计分析,可以看到这种统计曲线符合正态分布。而大量实证分析发现,实际网络往往是少数几个超级节点拥有了多数的连线,而大部分节点则拥有很少的连线。如果我们把所有节点所拥有的连线数做统计分析,则分布曲线是一条直线或者幂函数曲线。这也就是复杂系统中常常见到的幂律。这样的网络被称为无标度网络,因为这样的网络局部与整体是自相似的,因此放大这个网络的任意部分会发现它和整体面貌很相似无法分辨当前的放大标度[8]。无标度网络包括Internet网络,电影与电视剧演员合作网络,科学家合作网络,人类性关系网络,蛋白质互作用网络,语言学网络等[9]。

无标度网络的度分布符合幂律函数P(k)~k—r,该函数中仅有一个反映系统的参数,这个参数与系统的尺寸、系统的边数都无关,与系统初始参数也无关,对于不同拓扑结构的网络它是个不同的常数。随机网络的度分布符合正态分布。规则网络的度分布则是一个常数。

通过大量实证分析,人们发现,不但现实世界中的大量网络都同时具有小世界特性和无标度特性,虚拟信息空间的种种网络,比如博客网络[10]、文学人物关系网络[11]等等,也具有这种性质。这些网络的三种基本静态几何量与随机网络和规则网络都存在着明显的区别。那么究竟是什么内在机制造成了这种有趣的现象呢?

1.2 复杂网络现象的模拟机制与行为学解释

为了探讨复杂网络现象形成的背后机制,我们首先要弄清小世界网络和无标度网络形成的机制,在这方面,科学家们做出了卓有成效的工作,很好地解释和模拟了两种网络的形成和发展。

(1)小世界网络的构建机制。Watt和Strogatz发现,仅需通过对规则网络进行一些简单的改动就能使其获得规则网络和随机网络两方面的特征,这样得到的网络恰恰介于规则网络和随机网络之间。改动的方法是,对于规则网络的每一个顶点的所有边,以概率p断开一个端点,并重新连接,连接的新的端点从网络中的其他顶点里随机选择,如果所选的顶点已经与此顶点相连,则再随机选择别的顶点来重连。当p=0时就是规则网络,p=1则为随机网络,对于0<p<1的情况,存在一个很大的p的区域,同时拥有较大的聚集系数和较小的平均路径,既小世界网络。

考察WS小世界模型的形成机制,可以发现,其基本思想恰恰是模仿了人类社会的一种组成机制,即社会成员除了和身边的成员保持密切联系外,也会(近乎随机地)认识一些其他朋友。人们做出这种举动的缘由可以归结为“从近原则”,也就是说,在达到某一目的的过程中,人们总会设法寻找达到某一点的最近的途径,而不是“按部就班”地一步步达到目标。

(2)无标度网络的构建机制。Barabási和Albert分析了无标度网络遵循幂次定律的原因。他们认为随机网络未能反映现实网络的两个重要特征:第一是增长性:即现实网络是由持续不断地向网络加入新的节点演化而成,而随机网络模型则假设在建立连接之前能够得到所有节点的清单,节点数在网络的整个形成过程中是固定不变的;第二是择优连接性:随机模型假设在添加新边时概率是均匀的,然而许多系统并非如此,在实际网络中,节点往往倾向于连接哪些最“优秀”的结点。在此基础上,Barabási和Albert提出了模拟无标度网络生长机制的BA模型。研究表明,BA模型的两个要素,优先连接和生长,是导致网络具有无标度特性的充分条件[12-13]。

在BA模型的形成机制背后,隐藏的是人类生活的另一个基本法则,即“择优原则”。也就是说,人们在选择行动目标的时候,总是优先选择“最好”或对自己最有利的目标,而不是不加选择地“随机”地选择行动目标。

1.3 社会性:复杂网络现象背后无形的手

“从近原则”和“择优原则”这两个人类社会的基本行动原则,深深地扎根在人类行为模式的深处,并融入了人类日常生活和工作的方方面面,当人们从事人际交往和社会活动的时候,当人们在设计交通网、航空网、电力网、计算机网等各种网络的时候,当人们在从事商务活动、传播信息的时候,甚至当人们在撰写文章、遣词造句的时候,这两项原则都在无形中影响着人们的行为。这就导致了这些活动所衍生出的网络,比如人际关系网、交通运输网、航空网、电力网、互联网、经济网络、信息传播网、语言学网络等等,呈现出了种种相似的特性,也就是具有了复杂网络的特性。

由此可见,由于人类种种行为背后所固有的模式,这些由人类行为衍生出来的种种复杂网络的结点,就具有一种与人类社会的结点相似的性质。由于复杂网络中结点的这种共性是由人类的社会性决定的,因此,我们把它称之为社会性。例如,当人们在社会交往的时候,社会网络的结点——人——就具有社会性。当人们设计计算机网络的时候,计算机网络的结点——计算机——就具有社会性。当人们遣词造句的时候,语言学网络的结点——词汇——就具有了社会性。

1.4 信息的社会性与社会性分析

从上面的论述可以看出,作为人类信息活动的特殊衍生物,信息也同样具有社会性。因此,我们在研究信息的时候,信息的社会性这一维度就不应该被忽视。但在情报学的研究领域中,对于信息的社会性层面的东西,或者说信息之间的关系网络中所包含的语义的认识却不够深入。正是由于我们对于信息的社会性缺乏足够深入地认识,在我们的潜意识中,总是把信息当作一种冷冰冰的、单调的、互相独立的单位,而缺乏那种当考察人的时候所表现出来的对于人的社会性的认同和重视。而事实上,数据的社会性是值得考察,并且大有可为的。

当然,考察信息的联系,或者说考察信息空间的体系架构从来就是情报学理论研究中的一个重要传统,比如引文分析技术。但是,这里所说的社会性,或曰关系网络中的语义,并不是简单的微观层面上信息个体之间的关系,而是一种更加宏观的,从整个信息空间来加以考察的社会性[注1]。

为方便论述,首先对本文所阐述的社会性分析概念进行界定。首先,在认识论层面上,它是一种研究信息和信息空间的新思想,它将信息空间看作和人类社会具有相似的分布和演化特征,信息空间不再是由相互孤立的结点线性组合成的数据,而是一种具有特定的社会结构的虚拟社区,这种思想在处理网络时代去中心化的、自组织性的信息空间时变得尤为重要。其次,在方法论层面上,社会性分析是一系列定量考察的技术和定性分析的思想的组合体,它需要广泛借鉴情报学、统计学、社会学、复杂网络、传播学等学科的研究方法,它运用社会网络分析(SNA)、数理统计、数据挖掘、自然语言理解、复杂网络分析等技术方法对信息空间进行量化考察,并运用情报学、社会学、传播学、心理学等不同学科的理论对观察到的现象进行定性分析和预测。以下部分将详细阐述信息的社会性分析对于情报学理论和应用研究的重要意义。

2 社会性与情报学理论:跨越鸿沟的新路径

2.1 情报学研究的传统取向:序化与转化

中国情报学研究传统中,一直存在所谓“序化”与“转化”的取向之争。按照文献[14]的观点,所谓信息的序化,指信息组织、信息检索、信息构建、信息管理、信息系统等研究领域;而信息转化,则指如何将信息转化为知识、情报和谋略的情报研究(Intelligence Analysis),或曰信息分析(Information Analysis)。

考察中国情报学研究界的具体情况,不难看出,情报学研究中的两大取向分别来源于情报学实践的两大领域,即图书文献机构和科技情报机构。从本质上说,前者的工作着眼点在于使用户更有效快速地获取信息,因此这一领域的研究更侧重于信息的序化,并在此基础上进行信息的挖掘和分析工作;后者的工作着眼点则在于为决策服务,因此这一领域的研究更侧重于对信息的分析判断和预测能力,这些机构虽然也从事信息资源建设和检索工作,例如查新服务等,但并非其“正业”[15]。从文献上看,主张推进信息“转化”取向的文献也大多出自科技情报机构的学者之手,如文献[14-17]等。

由于这两种研究取向和情报学两大应用领域之间存在内在渊源关系,从某种程度上说,“序化”与“转化”传统之争的演变,是和中国图书情报事业发展的趋势相一致的。举例来说,在20世纪90年代初期中国科技情报事业转型为科技信息事业的时候,情报学研究中的“序化”倾向便比较明显,比较有代表性的事件就是信息管理学科体系的兴起以及各研究机构、高校院系的改名和教学体系的调整。而随着近年企业知识管理和竞争情报研究的逐渐兴起,情报学研究中的信息“转化”取向便日趋明显,比较有代表性的事件便是对于情报学和Intelligence关系的思考[18-19],以及关于情报学名称的种种理解,如“Intelligence Science”、“Infortelligence Science”、“Inforknowlligence”[20]等等。

中国情报学研究中的序化与转化之争,虽然从某种程度上说,是源自于中国情报学界的机构分布的特殊国情,但并非只存在于中国的情报学界,而是一种普遍存在于国际情报学研究界的领域之争。Saracevic根据White和McCai[21]的聚类分析结果,指出情报学研究中存在两大领域[22]:第一类学者主要关注文献的分析研究,文献的结构,把文本作为内容发生的客体进行研究;不同人群的交流,特别是科学交流;情报的社会方面,情报利用,情报搜寻行为,各种信息理论及相关论题,可以称之为“情报分析”。第二类学者则主要关注情报检索理论和算法、实用的情报检索方法和系统、人机交互、用户研究、图书馆系统、OPAC及相关的论题。可以称之为“情报检索”。现在情报分析与情报检索之间存在鸿沟,情报学的任务就是填平这道鸿沟。他认为,“待这两端成功相连之际,便是情报学这门学科羽翼丰满之时”[23]。可以看出,萨氏所指出的两大领域中,情报分析着重于对信息的分析,和中国情报学界的信息转化传统相对应;情报检索着重于对信息的组织和提取,和中国情报学界的信息序化传统相对应。

由此可见,信息的序化和转化是情报学理论研究的两大基本取向。从本质上看,技术理性与人文价值,一直以来都是情报学的双重语境[24],转化与序化其实就是情报学研究中关注人文和关注技术这两种价值观的在具体研究工作中的折射,前者更强调知识的生成,后者更关注信息的处理。无论是中国情报学界的种种争论,还是国外学者的文献聚类分析结果,都反映出这两大研究取向之间存在的隔阂和互不相容。这种隔阂导致了情报学研究对象一直在信息与知识之间摇摆不定,并导致情报学研究边界的模糊和研究领域的不断游离,出现所谓“游离的学科”或“学科的游离”局面[25],出现泛化与扩张、虚化与抽象、异化与困惑等趋势[26]。

2.2 情报学研究两种取向的对比分析

从研究对象和研究方法这两个科学研究的基本维度出发,分析情报学研究的这两种取向,可以看出,序化传统的研究对象面向数据,研究方法则是线性的排序、索引、分类等等方法;转化传统的研究对象则面向主体,研究方法是非线性的挖掘、预测、分析、综合等等。

从研究面向的对象这个维度分析,可以看出,序化和转化是两种截然不同的研究传统,虽然二者的研究对象都是“客观知识”,但一个面向数据,一个面向主体,因此对于“客观知识”这一概念内涵的理解截然不同,这也是情报学研究理论中对于信息、情报、知识、智能等概念争论不休的根源所在。从研究采用的方法这个维度分析,可以看出,序化和转化两种研究取向都囿于自身固有的研究方法而难以相互借用和转化。

对于序化传统而言,研究者把信息当作一种单调、独立、两两正交的单位,然而信息作为人的活动的产物,是“信息生产者按一定的结构形式有意汇集在一起的符号集合”[27],在其分布和传播中具有某种潜在的社会性因素。序化传统缺乏那种当考察人的时候所表现出来的对于人的社会性的认同和重视,因此在相关研究中,对于信息的社会性层面的东西,或者说信息之间的关系网络中所包含的语义的认识不够深入。

另一方面,对于转化传统而言,研究者把关注对象局限于面向用户,力图基于“接受者的意像结构以及此结构的改变”提供服务,然而正如贝尔金[28]曾指出的那样,情报学研究并“不关注情报生产者的意像结构以及如何构造文献的结构”。因此,传统的转化取向关注的“人”的因素是不全面的,只关注信息用户,却忽略了信息的生产者和传播者的因素,因此其结果也必然不是最理想的。

2.3 跨越情报学研究鸿沟的路径分析

由此启发我们,如果想实现Sarasevic所预言的两大领域的联系,也可以从研究对象[注2]和研究方法这两大维度出发进行分析。具体而言可以有两种途径,即面向主体而采用线性方法和面向数据而采用非线性方法。

第一种途径的典型代表便是知识管理,知识管理的本质是实现对人和组织中显性于隐性知识的序化工作,其研究对象是主体、采用的方法则依然是线性方法,其目的是构建知识地图,实现知识的有序化管理。因此,知识管理是介于序化和转化之间的一种研究方法,它以对知识的显性化和外化(转化)为起点,以知识的组织和共享(序化)为目的,其联系的路径是从转化走向序化,最终会成为联系情报学两大领域的一条纽带。

第二条路径的典型代表则是本文所提出的社会性分析,社会性分析面向数据,但采用非线性方法,目的是从数据中寻找出数据背后的社会学意义,相比转化传统,它更关注对信息的生产者和传播者的知识与行为因素的挖掘。这种挖掘以结构化、有序化的信息(序化)为起点,以挖掘出的智能化、人性化的知识(转化)为终点,因此是一种从序化走向转化的路径,它将成为联系情报学两大领域的另一条纽带。

图1显示了第二和第四象限的序化与转化之间存在两条途径,即通过第一象限的知识管理和第三象限的社会性分析两种方法。

3 社会性与情报学应用:以信息检索为例

信息检索作为情报学理论诞生以来的一个核心领域,考察社会性分析在这一领域的应用,对于论证社会性分析理论对于情报学理论的推动意义具有重要作用。本部分试图从社会性分析对于信息检索中的信息相关性理论(处理)、信息组织理论(输入)和信息排序理论(输出)三大部分基础理论的改进意义进行阐述,并结合现有研究中的一个相关案例进行说明。

图1 跨越情报学两大领域的联系途径

3.1 信息相关

运用社会性分析视角考察信息的相关性的时候,信息对象之间的相关性既包括信息对象本身内容的相似,比如向量空间中的余弦夹角等,也包括信息对象之间联系的紧密程度,比如博客空间的好友关系、网页之间的链接关系等等。在考察信息对象的联系的紧密程度的时候,其考察程度也不再仅仅局限于两两数据对象之间的社交关系的紧密性,而是综合考察数据对象在整个数据空间中的位置的相似性。

例如,在如图2所示的一个简单的学校人际网络中,老师T1和学生S1、学生S2关系很密切,老师T2和学生S1、学生S2关系也很密切,但是T1和T2之间的关系却并不密切(见图2)。这个时候,如果我们考察微观层面的T1与T2的关系,会发现这二者之间社会关系很弱,但是如果我们把视角放大到宏观的层面,从这个社会网络的整体去把握,我们就会发现,T1和T2都和固定的一群学生们关系密切,证明这二者之间具有相同的社会地位。因此社会关系是微观的,不足以说明节点的社会性,而社会地位这一概念是宏观的,可以说明结点的社会性。

图2 一个简单的校园人际网络

文献[29]以中文博客信息空间为研究对象,初步探索了运用社会性分析视角考察博客之间相似性的方法。该文分别使用自然语言处理的方法和社会网络分析的方法考察了博客的语义性相似性(考察博客的言论兴趣)和社会性相似性(考察博客的社会地位),最后发现二者之间存在明显的相关性。同时,该文还比较了单纯的好友关系(包括互访、订阅、好友、评论等等)和语义性相似度,发现二者不存在相关性。也就是说,在对于博客这个特定的信息对象而言,内容相关的博客其社会性质也相似。但这种社会性质是指“社会地位”而不是“社会关系”,前者是宏观的,后者是微观的。因此,考察信息的社会性时,只考虑个体的、孤立的、微观的联系是不科学的,必须在整个社会的宏观层面上加以考察,才可能取得较好的效果。这和图2所举的例子的结论也是一致的。

3.2 信息组织

当前的信息组织主要是基于内容的方法,这种方法的实现,除了人工之外,就是采用自然语言处理的方法,但前者成本太高且速度难以提高,后者精度不够且系统开销依然过大。在面向海量网络信息的时候,基于内容的信息标引、分类、序化的方法遇到了瓶颈。究其原因,就是因为网络特殊的组织体制造成了网络信息生产和组织的去中心化特征,在这种情况下,网络信息分布呈现出越来越明显的非线性特征。而情报学中线性和序化的思想传统是与传统的文献组织相适应的,在面对非线性的网络信息的时候,难免出现力不从心的现象。

在这种情况下,Web2.0思想诞生了。它试图利用网络信息的自组织特征来自发地进行网络信息组织工作,例如标签、圈子、订阅等等。这种非线性的、去中心化的思想恰好与网络信息的自组织结构特征相适应,因此很快获得了互联网用户的青睐,获得巨大的成功。

但是从本质上讲,Web2.0目前的信息组织方式所利用的信息之间的微观的、自发的社会联系依然是低层次和零散的,因此其结果依然是混乱和难于控制的,这就像现实社会中,单单依靠社会主体之间的联系所形成的无政府主义的社会必然是混乱的、效率低下的社会。因此,有必要在网络虚拟空间中引入与现实社会中的社会组织和政府机构类似的管理和宏观组织体制,这就是信息的社会性分析所做的事情。

对于这一点,文献[30]也作了初步探讨,并得出了一些和上述思想相一致的实证结果。例如,博客的语义相似性只与考察了博客的宏观社会地位的社会性相关,而与微观的好友关系(包括互访、订阅、好友、评论等等)无关。这说明Web2.0思想中单纯考虑信息对象微观层面上的“社会关系”是自发和非控制的,因此其对于改善信息组织的效果也是有限的。只有充分的考虑信息的社会性,引入一些宏观的控制体系,才有可能发现一种对现有信息组织方法的效果具有较大提高作用的方法。

更进一步讲,当前关注互联网信息组织和控制的研究者可以分为两大类。一类是计算机和情报学学者,这些学者更关注互联网信息的序化和宏观考察,其关注的主要对象是数据,采用的是线性的技术的方法,这类研究在面对互联网信息的非线性特征的时候出现了瓶颈;另一类是社会学和传播学学者,这些学者更关注互联网信息的传播过程和网络主体,其关注的主要对象是人,采用的是非线性的人文的方法,这类研究在面对互联网信息的匿名性和去人性化特征的时候也出现了瓶颈。这种情形和情报学理论流派中的序化与转化之争差相仿佛。因此,通过对数据进行非线性考察的社会性分析方法很可能是协调和联系这两类研究传统的一种理想途径,即通过对匿名的信息背后的社会性的宏观考察,得出一个基于人类行为的社会性背景之下的信息分布场景。同时,由于互联网主体的匿名性,使得对主体使用非线性方法考察的研究路径难以行得通,不存在第二条联系路径(如图3所示)。

图3 互联网信息组织的两大传统的联系路径

3.3 信息排序

信息排序算法是保证信息检索输出结果准确性和可用性的重要因素,尤其是在以海量网络信息为处理对象的搜索引擎研究领域,一个好的排序算法几乎是决定搜索引擎被用户接受与否的唯一因素,这方面的一个典型案例是google的PageRank算法。而PageRank又来源于情报学理论发展的一个重要成果,即引文分析思想。很多人可能会把引文分析作为信息社会性应用的一个典型案例。但是引文分析的缺陷恰恰就在于对于信息的社会性认识的不足。其原因正如前文所说,引文分析在考虑信息之间的关系的时候,只是考虑了个体信息之间的微观层面上的联系,而没能把这种联系放在一个宏观的世界中去加以衡量。

比如,引文分析认为所有的论文是同等重要的,因此所有的引文也是同等重要,但是如果把“论文”这个特定的信息作为一种社会性对象来加以对待的话,我们很容易就会想到应该把论文的“社会地位”这个概念引入进来,也就是说,在“论文社会”里,存在一些居于中心地位的“领导性”论文、处于边缘地位的“被领导”的论文、具有联结几个领域的桥梁作用的“中介性”论文,还有许许多多封闭的论文“小圈子”。通过社会网络分析的方法,把这些不同角色的论文识别出来,赋予不同的权重,这样所得到的具有不同权重的引文关系,就要比单纯的引文分析科学的多。

而PageRank作为引文分析在互联网时代的衍生品,却在某种程度上考虑了网页的社会性。简单地说,一个页面的PageRank大致取决于以下3点[31]:①链接数:从一般意义上讲,一个网页被其他网页链接指向的次数越多,则越重要;②链接是否来自推荐度高的页面:来自比较重要的页面的链接被认为具有更高的可信度;③链接源页面的链接数:如果链接来源网页包含的链接越多,则该网页所包含的指向其他网页的链接的重要性越低。因此,我们说PageRank算法在某种程度上考虑了网页的社会性因素。在面对互联网如此复杂的链接关系的时候,PageRank之所以能取得不错的效果,其对于信息的社会性的考虑是很重要的一个因素。惟其如此,在PageRank在面对愈演愈烈的搜索引擎作弊行为而愈来愈穷于应对的时候,通过不断修改排序算法,而不从改进算法的基本思想入手,是难以取得一劳永逸的效果的。只有重新诉诸信息的社会性,通过识别小团体、异常个体等社会性分析方法,才有可能较好地解决这些问题。

除了信息检索领域的信息排序外,社会性分析的思想在涉及信息对象排名的广泛领域都有其应用空间。文献[32]在基于高校网站之间的超链关系所进行的大学排名试验中,进行了一些相关实证分析,结果发现考虑了社会性的社会网络分析中的一些指标,如“临近度声望”指标要好于单纯的入链度等,引入超链权重对“临近度声望”进行修正后的新指标的效果又要好于“临近度声望”指标。因此,在信息排序领域,充分考虑信息的社会性,对于改进现有排序算法的效果具有重要意义。

4 总结

情报学从产生到不断发展壮大的六十年,同时也是人类面对信息爆炸和信息生态日益恶化而不断探索的六十年。在情报学的研究历史中,技术理性与人文价值,一直以来是情报学的双重语境,并从中衍生出了信息的序化和转化传统之争,这说明探讨人与信息的关系一直是其情报学研究所关注的核心问题。面对数字化时代的种种挑战,如何在人和数据之间找到一个联系的纽带,如何在情报学关注人和关注数据的两种传统之间找到平衡点,已成为突破情报学理论研究瓶颈的关键问题。

信息的社会性作为一种扎根于人类信息行为的基本规律的属性,提供了在情报学研究中融合信息生产者与传播者的因素的条件,从而在数据和信息之间架起了一道天然的桥梁。同时,也弥补了信息的转化传统中只关注信息使用者的不足。基于此,信息的社会性分析必将成为情报学研究的各领域所关注的重要问题,信息的社会性也应当成为情报学语境中信息一词的应有之义。

注释:

①关于引文分析的改进,将在本文第三部分详细加以论述。

②需要指出的是,两种研究取向的研究对象本质上讲都是客观知识,但正如前文所说,两者对于“客观知识”的理解不同,因此认为他们具有不同的研究对象。

标签:;  ;  ;  ;  ;  ;  

信息的社会分析:来源、理论与应用_复杂网络论文
下载Doc文档

猜你喜欢