社会化搜索研究述评,本文主要内容关键词为:述评论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 近些年来,随着互联网技术的迅猛发展,社会化信息系统作为一种新型的网络平台不断涌现,互联网的应用模式逐渐从传统的“人—机”交互模式转变为“社会化”交互模式,人们借助社会化信息系统进行交互,享受交友、通信、协作、共享和发布内容等多种服务,逐渐成为各种规模庞大、关系复杂、内容丰富的在线社会网络的成员。 互联网中不断产生的海量用户生成内容给传统的信息检索方式带来新的挑战。传统搜索引擎通过爬虫软件采集互联网中庞大的数字资源,并通过不断更新索引,让用户能够尽可能早地从新增加的数字资源中检索到满足自身的信息。然而,由于爬虫软件信息抓取的时滞性,导致用户通过搜索引擎获得的信息通常比较陈旧。同时,由于传统搜索引擎爬虫软件的抓取范围往往不涉及微博、社交网站上的用户生成内容,导致许多信息在互联网上存在,但是用户却无法通过搜索引擎获取,而这些信息通常比较新,往往更能满足用户的信息需求。随着社会化应用的逐渐普及,人们开始借助社会化信息系统获取最新、最准的信息,人们对信息的筛选与判断也不再仅仅依赖于主题,有时也会参照在线社会网络中好友的意见和情感。因此,传统信息检索方式已经无法满足用户高效、便捷、及时、准确地获取信息的需求。在这种背景下,社会化搜索(social search)应运而生。 信息搜索领域于2004年前后提出“社会化搜索”概念及发展方向。2004年,Davies在文献中提到“social search”这一术语,并将社会化搜索定位于利用社会网络平台找人[1],但是没有对其进行定义。基于这种观点,利用www.friendster.com寻找约会对象,利用www.linkedin.com寻找好友、好友的好友都属于社会化搜索。同年,Barry Smyth等人推出I-SPY系统[2],Jung等人推出SERF系统[3]。这些系统通过将用户过去成功的搜索案例存档,以便向未来寻找类似信息的用户推荐相关资源,属于传统意义上的协作式信息检索系统,但是由于基于这些系统的信息搜索过程带有一定的社会性,因此它们也被部分人归为社会化搜索系统。2005年底,美国Judysbook.com网站注册“Social Search”的商标并提供社会化搜索服务。这种名为社会化搜索的信息搜索方式对用户提供针对自身站点信息资源的搜索服务,但是用户可以在信息搜索结果中看到其他用户对于同一结果信息的评论与评价,并以此为参考完成信息的判断与筛选。这是一种将用户集体智慧用于搜索的服务模式,是社会化搜索的早期方式。从2010年起,传统搜索引擎开始朝着社交方向发展,因为微博、社交网站、问答等社交化网络服务产生的优质内容越来越多,价值越来越大,已经逐渐发展为不可忽视的内容产生地和传播平台。谷歌、百度等公司开始通过各种方式将主流社交网站的内容作为信息资源的一部分,用户通过搜索引擎可以检索到这部分内容。但是,这种方式依然是社会化搜索的初级阶段,只是将传统搜索引擎注入社会化因素,是为抢占社会化搜索市场的权宜之举,更加完善的社会化搜索引擎技术正在蓬勃发展之中。2011年2月,美国专利商标局授权给Facebook一份“策划搜索”(curated search)专利,搜索结果可以按照其在用户社会网络中的流行程度来进行排序。 近几年,越来越多的学者致力于社会化搜索研究,取得了许多研究成果,程时端等人对相关成果进行了综述[4]。本文将从情报学的角度对社会化搜索的研究现状和目前采取的关键技术进行述评,以期为我国这一领域的进一步研究提供一些有价值的参考信息。 2 社会化搜索的概念与内涵 作为最近几年发展起来的信息搜索新技术,人们还没有为社会化搜索给出一个被普遍认可的定义。现有的多个定义从不同的角度透视社会化搜索的本质,均有一定的合理性。 Cassidy将社会化搜索简单地定义为基于人的搜索[5],认为通过信息系统众多用户的集体智慧可以获取和改善搜索结果。 Judy's Book将社会化搜索定义为利用其他用户对于同一项目的评论与评价信息实现信息判断与筛选的搜索方式。该定义将社会化搜索看成是社会网络与传统搜索技术的结合。通过Judysbook.com网站,用户可以找到最优惠的价格、折扣与优惠券,也可以找到相关的企业、专业医生等实体或人物。2011年11月,该公司建立新的网站Snappd.it,它使企业能够通过Facebook和Twitter等社交媒体网站与他们的用户或客户建立更好的关系。 Google公司将社会化搜索定义为“一种使用用户交互行为与贡献来量化检索结果相关度的网页搜索方法”[6]。该定义将社会化搜索看成是注入社会化元素的网页搜索引擎。 Kaineci将社会化搜索定义为一种在相关性判断算法中考虑搜索查询发起人的社交关系图(Social Graph)的网页搜索引擎[7]。该定义强调了社会网络在检索结果排序中的作用。 天玑社会化搜索组将社会化搜索定义为“通过搜索形成一个有共同爱好的人际圈子,又通过搜索每个人的爱好和收藏为用户提供一个更为准确的信息”[8]。该定义将社会化搜索看做是个性化搜索的延伸。 部分学者对社会化搜索与传统的网页搜索进行了深度比较。Horowitz等[9]认为:传统网页搜索是为了查找能够满足用户需求的文档或资源,而社会化搜索是为了查找能够满足用户需求的人;传统网页搜索中用户对资源的信任程度依据资源权威度进行计算,而在社会化搜索中,用户对资源的信任程度依据用户之间的社会关系强度进行计算。Teevan等[10]认为:Twitter等社会化搜索工具的搜索结果包含很多用户生成内容,而网页搜索结果主要是基本的事实和导航内容;Twitter等社交网站推出的社会化搜索工具实时性强,信息多与人相关。 总体来说,“社会化搜索”是一个不断发展的术语。考察各种定义可以看出,社会化搜索的本质是利用社会化信息系统,包括在线社会网络、社会化媒体、社会化标注系统等,将搜索引擎技术与用户的社会关系图(Social Graph)结合起来[11],以达到提高搜索质量与相关度的目的。社会化搜索不同于协作式信息检索,后者是指在信息检索代理之间通过共享和交流信息等方式进行协作,共同完成信息检索。社会化搜索也不同于社会化信息搜寻,它们两者在内涵与外延方面均有交叉,但是不尽相同。Croft等[12]认为社会化信息搜寻行为是社会与他人的互动搜索行为;Chi等[13]认为,社会化信息搜寻既包含社会化交互,也包括对社会化资源的利用;Evans等[14]认为任何包含社会化交互和协作的信息搜寻都是社会化信息搜寻;Cao等[15]认为社会化信息搜寻是社会网络与搜索引擎的结合。这些观点均强调社会化交互在信息搜寻过程中的重要性,但是在内涵与外延方面存在明显差异,其中Cao将社会化信息搜寻等同于社会化搜索。 3 基于社会化信息系统视角的社会化搜索分类 信息搜索涉及三个方面,即信息资源、用户需求以及信息资源与用户需求的匹配。我们认为,这三个方面的社会化改造形成社会化搜索。也就是说,信息搜索工具如果在内容来源、资源标注、需求表达或相关性判断与结果排序等方面体现了社会性,那么它就是社会化搜索工具。现有的社会化搜索系统大多是搜索引擎与已有社会化信息系统的集成,大体可分为两大类,即基于社会化标签的社会化搜索和基于社会化媒体的社会化搜索。本节将基于这两个视角对社会化搜索的研究进展进行分类述评。 3.1 基于社会化标注的社会化搜索 标注(Tagging)是指用户对互联网上的内容以关键词或标签的形式进行标记和分类的过程,标注信息有利于互联网信息资源的组织、过滤和搜索。用户在为网络资源创建标签的同时建立了自身与资源之间的关系,体现了自身的兴趣偏好。在社会化标注系统中,包括社会化书签系统,多个用户对同一资源进行标注的同时,实现了对网站内容的分类形成了以资源为中心的社区。这些社会化信息都是可用于优化信息搜索系统的重要素材。 标签数量在一定程度上反映了一个页面的流行程度。部分学者利用这一特性优化信息搜索算法。例如,Bao等[16]构建Social Sim Rank算法计算标注信息与Web查询之间的相似度,用于寻找标签之间的潜在语义关系,构建Social Page Rank算法,基于社会化标注信息估计Web页面的流行程度,从用户的角度来描述页面的质量,衡量页面的静态排名。 标注信息体现了标签创建者的兴趣偏好。部分学者利用这一特性完善用户配置文件(User Profile),进而达到优化个性化信息搜索的目的。用户配置文件用于描述用户的基本特征,可分为用户需求配置文件、用户判断配置文件、多标准配置文件等类型[17],它们分别用于描述用户的需求或兴趣中心、用户对一组文档的判断结果、用户的人口统计数据(如姓名、性别、年龄、职业、住址等)、用户的各种特性(如需求、判断、人口统计数据等)。Wang等[18]通过挖掘用户在社会化书签系统以及博客平台上的公开活动,实现个性化的社会化搜索服务。其实现的基本步骤如下:从社会化书签系统、博客等社会化信息系统中提取用户兴趣,为每个用户建立并维持用户配置文件(profile),用向量的形式表示用户兴趣,向量的每个元素对应一个词以及用户对该词的兴趣度;系统收到来自用户的查询请求,将查询转发给搜索引擎,搜索引擎返回一系列与查询相关的页面,每个页面对应1个相关度值;系统从用户配置文件中提取用户兴趣向量;对搜索引擎返回的前n个页面,系统基于该页面与用户兴趣向量的匹配程度为其计算兴趣度值;对每个页面,综合其相关度值和兴趣度值计算出最终分值;系统根据页面的最终分值选出要返回给用户的结果列表;系统根据用户对搜索结果的反馈作调整。Zhou等[19]提出一种基于用户配置文件的个性化查询扩展迭代算法,该算法所用的用户配置文件由网页搜索系统通过挖掘用户标注过的资源以及用户对资源的注释信息(社会化资源)而生成。Jiang等[20]基于社会化搜索的原型,定义了用户标签反馈分值这一概念,并以该概念为基础设计了一个基于标签反馈的网页排序算法。实验表明,新的排序算法能够更好地满足用户的真正需求。 利用标签信息构建起来的资源关系网络具有小世界现象[21],可以用于信息导航或者构建有效的资源发现算法。例如,Amitay等[22]利用社会化书签系统包含的文档、人员和标签之间的关系信息,结合微博平台包含的用户社会网络信息来改善搜索引擎性能。他们提出一种基于面搜索(faceted search)的方法,即返回每一个搜索的所有相关项目,包括文档、人员和标签等,并允许所有的项目都被用来作为搜索项。这些给出的项目具有导航功能,可以有效提升信息搜索的效果。Benna等[23]提出一种基于协作式社会化标注的社会网络构建方法,网络节点是用户、标签作者簇、文档,边是用户与用户、用户与标签作者簇、标签作者簇与文档之间的链接,然后提出利用该社会网络进行查询扩展、资源发现、资源排序的方法。 社会化书签系统的核心数据结构是folksonomy,即分众分类,由社会性书签服务中最具特色的自定义标签功能衍生而来。Folksonomy由用户、标签、资源以及三者之间的关系组成,具有个人自发定义生成分类标签、分类标签由所有用户共享、用户群体的定义频率决定资源的类别归属等特点。利用这些特点可以构建新型的社会化搜索算法。例如,Rawashdeh等[24]利用社会化标签,提出一种可以提高检索的准确度与覆盖范围的个性化搜索方法。该方法首先确定资源之间和标签之间的相似性,其次建立用户—标签关系模型和标签—资源关系模型,系统根据特定用户给定的查询,将标签无缝地映射到资源,从而帮助用户找到最有吸引力的媒体内容。 现有的基于社会化标注的社会化搜索系统在设计及内容展示方面还不够完善,有待改进。Muralidharan等[25]采用眼动跟踪和采访的混合实验方法研究网页中的社会化标注(social annotation)信息对信息搜索者的影响,发现:在某些情况下,在搜索结果网页上显示的社会化标注信息对搜索者没有产生作用。搜索者会忽视来自陌生人或具有不确定专业知识的、不太熟识的朋友的信息。搜索者希望能够搜索到来自懂行的朋友的观点或评论,或者来自具有相同爱好的朋友留下的是否感兴趣的信号,或者朋友们共同感兴趣的其他主题。导致搜索者忽视社会化标注信息的主要原因是搜索者在处理搜索页面时所表现出来的特殊关注模式:搜索者首先关注标题和URL地址,然后转而关注能够搜索到一个好结果的信息片段和注释,并点击链接。另外,自上而下的阅读习惯、信息片段中嵌入的朋友照片太小以及用户面向任务的心态等因素,也会使得现有搜索结果网页上的社会化标注信息被搜索者忽视。现有的基于社会化标注的社会化搜索系统在用户体验方面有待改进。 3.2 基于社会化媒体的社会化搜索 社会化媒体是指允许人们撰写、分享、评价、讨论、相互沟通的网站,也被称为社交媒体。有些社会化媒体以发布信息与传播信息为其主要功能,如问答系统、博客、微博等,有些则以交友、寻人为其主要功能,如领英、QQ、人人网等。通过社会化媒体形成的反映人与人之间社会关系的网络被称为在线社交网络,或在线社会网络。有些社会化媒体中的社会网络是显性的,如由QQ平台上的好友关系形成的社会网络;有些则是隐性的,需要通过一定的方式进行挖掘,如大众点评网上的用户通过点评与回应行为形成的用户关系网络。 社会化媒体中的用户生成内容、社会网络均被人们用来实现和优化社会化搜索。社会网络研究领域的成果为社会化搜索技术的实现提供了理论和方法方面的支持,如:社会网络分析法(SNA),主要用来建立社会网络模型,研究分析在线社会网络的社会关系结构、用户交互行为模式以及社会关系结构与用户行为模式的相互影响作用等;弱连接理论,主要用来指导搜索算法与排序算法的设计。成功的社会化搜索主要利用弱连接,而非强连接[26]。 利用社会网络的结构特征可以设计高效的搜索新算法和排序新算法,从而可以提高搜索系统的性能。例如,Kirsch等[27]给出一种基于社会网络的检索结果排序技术,其方法是:首先从SIGIR会议论文集1978—2003年的论文数据中抽取作者合作信息,生成基于合作关系的社会网络,并利用PageRank算法计算每个网络节点的分值,然后再后网络节点的分值计算文档的分值(每篇文章包含多个作者),最后利用文档的分值与文档—查询相关度的乘积对检索结果进行排序。Dalal[28]提出了一个集个性化、社会化、实时协作于一体的自适应网页搜索引擎,该引擎基于某用户对其他用户或群体的绝对或相对信任度以及该用户和其他用户或群体的配置文件修改该用户的偏好向量,从而实现社会化搜索。扩展的社会网络不仅包含人与人之间的关系,还包括人与文档等其他实体之间的关系,可以为优化搜索和排序算法提供更多的支持信息。Carmel等[29]探讨利用用户在社会网络中的个人关系对搜索结果重新排序。他们构建三种社会网络,即分别以用户之间的熟悉程度、用户之间的相似程度、用户之间的熟悉程度和相似程度为基础构建社会网络,然后基于社会网络,针对特定用户,定义一个计算查询与文档、人物、标签、群组等实体相关程度的公式。实验结果表明,基于这三类社会网络的个性化搜索系统效果显著优于基于主题的个性化搜索。Haynes等[30]在传统的搜索方法中引入对社会距离的度量来改善搜索结果的排序效果。 Kashyap等[31]推出基于社会网络的社会化搜索系统SonetRank。该系统以类似团体内用户的相关反馈为参考依据为特定用户返回个性化的网页搜索结果。该系统建立并维护一个包含丰富信息的图模型,被称为社会化感知搜寻图,包括团体、用户、查询和点击的结果信息,其个性化方案使用单个用户的个性化文档偏好、与用户查询相关的社会团体内用户集体的文档偏好、网络中其他用户的文档偏好三种信号信息。Khodaei等[32]探讨利用用户生成数据、用户行为数据以及用户在Web上形成的社会关系来提高网页搜索的效率。他们基于用户之间的关系、每个用户的重要性、用户对网页文件的操作行为等参数提出一个新的社会化相关性排序方法,并与常规的文本相关性排序方法进行组合,以提高信息搜索的效果。算法中的查询包括两部分,一部分是显性的文本部分,用关键词序列反映用户需求,一部分是隐性的社会化部分,对应提交查询的用户以及他所处的社会网络。作者定义了四种相关度,即用户相关度、文本相关度、社会相关度、社会—文本相关度,其中社会—文本相关度是文本相关度与社会相关度的加权之和。用户行为揭示了文档与用户之间的关系,在社会化媒体上,这类行为包括发信息、转发信息,等等。Kleinberg[33]定义用户之间的相关度(User Relatedness)、用户的重要度(User Weight),并利用用户之间的相关度、用户的重要社会关系中具有相同行为的用户信息定义查询与文档之间的相关度的计算公式,以此来实现文本排序以及社会化搜索。 利用社会网络可以找到关键性的人物,从而可以由人找到信息,高效地完成信息搜索任务。例如,Guo等[34]提出一种混合式的社会化搜索模式,系统在收到用户的查询之后,返回经过排序的、可能会给出正确答案的回答者列表。文中给出主题相关排名算法、社会关系排名算法两种新算法来计算搜索结果的排序,主题分类标签被定义来控制这两种算法计算结果的权重。Horowitz等[35]实现了一个社会化搜索引擎,即Aardvark。用户使用Aardvark时可通过即时消息、电子邮件、网络输入、短信或语音等方式提问,然后Aardvark利用提问用户的扩展社会网络找到最有可能回答这个问题的人。确定用户的本次排名的主要因素是主题专业知识(用户与查询的相关概率),用户与用户之间连通性(这个分值由提问者和回答者彼此对联络和相似性的感知而产生,其作用是量化提问者和回答者所感受到亲情和信任程度,并在互动过程中满足彼此对会话行为的期望)和可用性(综合是否在线、是否活跃、是否能够正确回答等因素选择可以优先推荐的回答者)。 拥有明显的社团结构是在线社会网络的一个重要特征。社团结构是指整个社会网络由若干个组或簇构成。每个社团内部节点之间的连接非常紧密,各个社团之间的连接则相对来说比较稀疏。部分研究者将社会化搜索定义为有社团用户参与的信息搜索。他们寻找检测社团结构的方法,并利用社团属性来改善搜索结果。例如,Briggs等[36]提出一种分布式协作网页搜索模型CWS,以协作的方式,利用社团搜索者形成的对搜索结果的推荐来补充搜索引擎返回的结果。Moody等[37]修改递归邻居均值聚类算法RNM,在修改的RNM算法基础上采用K-means算法识别拥有社团属性的子群,并分析子群成员对搜索结果的预测能力。 随着社会化搜索技术的发展,部分学者开始尝试将社会化搜索与其他类型的搜索进行整合。例如,Li等[38]基于用户社会关系的、个性化的多样性搜索方法,使计算机能够更好地理解用户的搜索意图和兴趣,从而返回一个个性化的、多样性降低的结果集。其中,多样化搜索是一种有效的搜索解决方法,它通过呈现各种结果,使得每个人至少满足其中的一个结果。 4 结语 与传统搜索引擎不同,社会化信息系统既拥有海量的用户数据,包括用户的身份、用户之间的关系、用户的在线活动等信息,又拥有海量的用户生成数据,充分利用这些数据可以显著提升信息搜索系统的性能以及用户体验。因此,社会普遍看好社会化搜索的发展前景,各种社会化搜索系统纷纷面世。但是,相对于社会化搜索实践,社会化搜索理论方面的研究比较薄弱,有待深入。2010年,Evans[39]等整合意义建构和信息搜寻行为方面的模型,给出一个规范性社会化模型(canonical social model),用于描述搜索任务之前、期间、之后三个阶段的用户活动。该模型提示个体搜索者在搜索过程中何处的显性和隐性共享信息可能有价值,对研究新的社会化搜索技术具有一定的指导意义。另外,现有的社会化搜索系统获取实时信息的能力较弱。在社会化信息系统中,用户生成内容瞬息万变,现有社会化搜索系统大多定期从在线社会化信息系统中抓取数据资源,获取的信息具有一定的时滞性,搜索结果的实时性能有待提升。 随着时间推移,社会化搜索将与移动应用融合。由于手机设备的处理能力较弱,对带宽和屏幕显示也有一定的限制,使得移动搜索对精确性和个性化的要求更高,分析用户在社会化信息系统中的特征与行为,能够为用户提供更加实时、精确的个性化结果。 收稿日期:2014-05-13社会化搜索研究述评_社会化搜索论文
社会化搜索研究述评_社会化搜索论文
下载Doc文档