基于任务的个性化信息检索用户模型,本文主要内容关键词为:信息检索论文,模型论文,用户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 研究背景 个性化信息检索是指通过一定的技术手段满足用户的个性化信息需求的理论和实践。个性化信息检索作为提高信息检索系统绩效的途径受到学者们的关注。 实现个性化信息检索通常有两种途径:一种方式是依靠用户自身提供的信息驱动,称为适应性(Adaptability)个性化途径;另一种方式,系统通过对用户特征的适应而自动提供相应的资源和服务,称为自适应(Adaptivity)个性化途径。前一种方式,又称显性获取方式,需用户的主动配合才能实现个性化服务,现实中难以取得理想的运行效果;后者则不需要用户的配合,系统通过对用户行为特征信息的收集或分析用户浏览的历史记录信息,自动为用户建模,构建用户兴趣模型,实现个性化服务,因而又称为隐式获取方式。后者是当前国外个性化信息检索的主流方向[1]。 用户模型是对用户在某个时间段内相对稳定的信息需求的描述[2],在个性化服务中发挥着关键作用。当前,构建用户的兴趣模型是许多学者们研究的方向,然而,用户兴趣的不稳定性和易变性影响了用户兴趣模型功能的发挥[1]。一些研究虽试图通过用户的认知特点分析个性化信息检索,但探知用户的认知特点并非易事;而针对不同的任务,同一用户认知特点也不同。因此,试图通过探知用户的认知特点以构建用户模型存在一定的困难。因此,寻找更有效的用户模型构建途径是学者们的重要任务。 任务研究是近年来情报学研究的重要领域,产生了一系列研究成果。这些成果除揭示任务与用户信息行为、信息类型、信息组织之间的关系外,试图提升个性化信息检索的程度与质量也是其目的之一,如Li Yuelin和Belkin[3],Liu Jingjing[4]及Liu Chang[5]等的研究。 一些学者指出,任务相对于用户的信息需求而言,是更为稳定的变量[6];同时,对任务的研究,常常能将结果直接转化成信息检索实践[7],能充分体现科学研究的社会价值。因而,本研究试图从用户任务入手探讨个性化信息检索,重点关注用户模型的构建。考虑到用户的任务不同,其信息需求、认知特点、行为特征则不同,本研究拟结合个性化信息检索已有的研究成果,采用隐含的、系统自动实现的方式,通过对用户任务的分类、考虑不同任务类型的个性化信息需求、交互需求,记录与识别用户与信息检索系统交互过程中的行为特征,并基于这些特征,从理论上探讨构建基于任务的用户模型,以帮助改善个性化信息检索的绩效。 2 个性化信息检索用户模型研究 Fragoudis和Likothanassis指出,作为个性化信息检索的基础,用户模型在个性化服务系统中有着重要的地位[8]。当前用户模型的研究,主要集中在用户模型的来源、组成、构建以及实施上。 2.1 用户模型的获取 2.1.1 获取来源:客户端与服务器 用户模型通过客户端和服务器收集个性化信息。客户端数据主要通过提交表单和使用浏览器插件获得,如Shen Xuehua等提出了一个可以及时在线捕捉用户反馈信息的UCAIR客户端控件[9]。从服务器中获取用户兴趣数据主要是通过分析用户日志以及使用协同过滤技术推荐实现,如段建勇提出了一种基于查询日志的用户兴趣发现方法,并将兴趣作为查询词赋权重的聚类算法[10]。高嵩等使用基于协同过滤技术的方法解决信息检索中的排序名单问题。在大数据背景下,基于大数据日志分析的用户模型前景广阔[11]。 2.1.2 获取方法:显式获取和隐式获取 用户模型的获取按照在系统获取用户信息时是否需要用户主动配合分成显式获取和隐式获取两种方式。 显式获取通过用户主动提交表单以及反馈等来获取用户个人兴趣、人口统计学数据等,信息比较客观。但在一定程度上给用户带来负担,其效果取决于用户的积极性。Zigoris等[12]使用贝叶斯模型对显式反馈作用进行研究时发现,基于显式反馈的预测价值偏小。除了通过传统的注册表单获取,2013年中搜上线的图片搜索5.0增加了由用户自己为图片添加标签的功能,直接对检索系统的标引产生作用,拓宽了显式获取的渠道[13]。 隐式获取方式不需要用户的直接参与,因而成为主要收集手段。Fu Xin提出了网络搜索的隐式反馈模型,模型包含检索状态、战略表现、战术表现和分析镜面4个层面,Fu Xin的研究通过实证数据明确了隐式获取研究应关注的不同方面,并指出网络检索隐式反馈的研究路线[14]。然而,隐式获取需要对其所获得的信息进行解释,结果不免模糊。此外,从客户端进行隐式获取技术难度虽小但是精确度不高,而从服务器获取则主要是对服务器端的日志信息进行分析,对服务器性能要求高。隐式获取的主要方法是通过日志挖掘以及基于智能代理技术的协同信息检索系统实现[15]。 日志数据来自浏览器插件和服务器的日志记录,包括访问日志、查询日志、检索历史记录以及下载记录,用以识别用户的行为和检索内容,但是无法获取用户书签信息和直接打印的数据。服务器日志数据包括上网IP、提交问题、检索时间和点击信息。Hollink等分别分析了语法日志和语义日志数据[16];王继民等使用国内某大型学术网站的300余万条日志数据,研究用户提问、搜索会话和搜索时间等,以探究用户的移动搜索行为特征[17]。然而,Joachims等通过使用眼球跟踪和隐式反馈分析,指出基于点击的用户模型获取方式存在偏差[18]。当前,基于日志数据的模型构建已投入检索实践,如2005年Google推出了一项“my search history”服务,直接使用用户的检索记录,以帮助提高个性化检索的效率[19]。 协同推荐是构建用户兴趣模型的又一途径。协同推荐的核心思想是用户的兴趣偏好可以通过对具有类似行为或偏好的用户群进行分析和预测得出。隐性协同信息检索系统通过代理技术对用户的检索信息进行自动收集和处理[20]。这种方法还有助于用户模型的匿名性研究,以回避用户隐私问题。Annotate!是典型的协同系统,可以为用户提供数据和元数据线索来指导检索任务的开展[21]。2011年5月微软宣布必应检索与Facebook合作,使用好友信息来完善事实检索,这种微博时代诞生出的社交化搜索正在实践领域中方兴未艾[22]。 2.1.3 获取内容 1)内容信息。内容访问模式主要通过提取用户提问、关键词表、浏览过的网页、网络标签、下载或者收藏的文档等实现,Luxenburger等提出一个包含任务、提问和文档的关系函数,并通过实验证明其有助于查询语句扩展和结果重排[23]。此外,用户模型还分析用户、文档、提问三个检索实体之间的关系,包括用户和文档的关系,比如协同过滤推荐;文档与文档的关系,典型技术应用就是通过PAGERANK计算网页权重;提问与文档的关系,如Ji Ming等提出按照任务导向构建提问和网页模型,只要有同样任务的提问和网页就放在一起,实验证明这样可以显著地提高用户检索效率[24]。此外,还有一些对特殊意义内容的研究,Lagun等提出使用地理信息相关反馈技术,提高检索质量[25]。 2)行为信息。行为访问模式通过对访问行为的分析形成,如点击流、页面驻留时间、鼠标点击量和鼠标滚动时间等,均能准确反映需求并能量化为数值。用户检索的历史信息在检索开始时有利于个性化检索,当前行为在后续检索中起重要作用。由于问题在变化,而且历史信息有很多噪音,随着查询推进,历史信息对个性化检索影响作用不大[26]。2011年的百度世界大会上,百度宣布的新版本具备基于用户行为特征向用户智能推荐的功能[27]。 2.2 用户兴趣模型组成与构建 用户兴趣的内容包括用户人口统计学数据、用户个性、偏好,等等。用户兴趣能体现用户自身的特点,从而影响检索过程以及结果的选择。按照用户兴趣的时间属性,用户兴趣被分为长期兴趣和短期兴趣。短期兴趣是通过对先前查询和最近返回的文档以及近期用户行为所形成的用户近阶段的兴趣。长期兴趣是指通过查询历史和历史网页浏览形成长时间段的用户兴趣。郑庆华等认为学习兴趣是与用户知识结构、领域知识结构和学习认知规律以及相似群组学习经验有关的,长期和短期的兴趣在一定条件下可以相互转化,并且长期兴趣会随着时间而消逝[15]。长期和短期的界定并没有时间上确切的划分。Liu Xiaozhong和Turtle将11天之前的信息作为历史信息来计算检索词权重,将10天之内的信息作为当前信息以修改检索语句[28]。也有学者针对高校图书馆按照兴趣内容将专业群体表现出的稳定特征视为长期兴趣,将一些由于特殊情景导致的临时偏好视为短期兴趣[29]。用户特有的检索行为也是用户模型构建的重要部分。Yuan Weijing的实验结果表明,用户指令的特征、表达语言的模式和检索速度是与检索经验有关的[30]。此外,即使同一行为其意义也不尽相同,从检索行为中分析用户检索偏好更能有针对性地应用用户行为特征提供个性化服务。 常见的用户模型的构建方式有:基于向量空间模型、基于评价矩阵、基于神经网络和本体等。Calegari提出一种基于YAGO本体的用户个性化本体生成方法,通过对YAGO本体库进行知识抽取,结合用户个性检索信息形成个性化本体库并且对词语赋权,实现用户模型的语义构建,最后使用定量和定性的方法验证结果,证明这种基于本体的方法能够形成更好的用户模型[31]。2012年Google引入了知识图谱的功能来支持语义的搜索[32]。同时用户模型需要不断地反馈和更新,Liu Xiaozhong和Turtle使用基于向量和基于语言模型的实时排序系统,指出基于语言模型的系统是最优排序方法,同时发现网络检索效率与算法中历史信息的数量相关性不大[28]。 在用户模型的构建中,如何能够在不涉及用户隐私的前提下尽可能地为用户提供个性化服务也是一个值得思考的问题。此外对于系统的新用户,只有积累一定信息以后才能进行个性化检索,也就是所谓的“冷启动”问题,依然悬而未决。姚晓娜等提出一个以数字图书馆的学术产出为研究对象,挖掘学术产出、用户兴趣模型和复用本体之间的映射关系来建立用户模型的方法,试图解决这一问题[33]。 尽管用户兴趣模型在个性化信息检索与服务中扮演了重要角色,然而,用户兴趣的不稳定性和易变性导致用户个人兴趣的动态性,从而为跟踪用户的兴趣变化带来了困难。 2.3 用户任务与信息行为研究 基于任务的研究在情报学领域越来越受到重视,越来越多的学者关注任务在用户信息搜寻过程中扮演的角色。Kirtsis等指出,用户需求是任务的主观反映,具有不稳定性。事实上,信息需求来源于用户任务,任务相较于信息需求,更为客观、稳定,他们同时验证了从任务中提出查询词的检索结果更优[34]。 国内外有不少探究任务与信息检索之间关系的研究。有通过任务与文档、提问之间关系进行研究的,比如White通过文档变化的临界时间表示任务的变化,并基于这个临界时间来扩展查询语句,但这更适于多用户对某一任务的检索,针对同一用户一系列任务的检索效率反而下降[35]。查询语句的长度取决于任务描述的长度和检索者的特征,识别任务描述和网页内容之间的匹配可以促进对目标答案的检索[36]。Freund针对软件工程领域展开研究,探讨不同任务类型与文档类型二者之间的关系。研究揭示了两者之间的一些宏观与微观的模式,而不同的工作任务是影响两者之间关系的重要因素[37]。此外,Freund通过问卷调查以及实验的方法进行研究,发现用户信息有用性感知与用户任务类型有关[38]。Wu I-Chin提出一种基于用户任务阶段推荐相关文档的信息过滤技术以支持用户的长期需求[39]。2011年,Wu I-Chin提出一种基于显性和隐式反馈的信息过滤技术以实现对用户特定、长期的需求支持的方法[40]。 一些学者关注任务与搜寻行为之间关系的研究,如针对软件工程领域,Freund通过访谈等方法发现任务与检索行为之间的关系[41]。Ingwersen指出任务计划阶段和任务完成阶段的情绪表达最多,且情绪波动较大[42]。Li Yuelin和Belkin提出了基于分面的任务分类法,以指导信息搜寻领域的任务相关研究。该分面法较全面地分类了与信息搜寻相关的不同任务类型[43]。基于该分类法,Li Yuelin和Belkin使用任务的“产品”“客观复杂度”来构建任务类型,验证了工作任务与交互信息检索行为之间的关系,研究结果表明客观任务复杂度对信息行为影响显著,但如要完全解释信息行为与任务之间的关系,仍需分析任务的多个分面。该研究同时表明,任务作为用户信息搜寻的原动力,显著影响用户交互信息检索行为的不同方面[3]。Barsky和Bar认为检索评价和任务的复杂度负相关,某项任务被认为是复杂的,是因为用户只掌握少量任务信息、需要付出更多的检索努力。郭桑等指出工作任务的性质、阶段和时间会影响用户任务计划以及信息查询策略,搜索任务的来源、类型、复杂度以及灵活度会影响不同任务之间的转换[45]。 近年来,在情报学领域,任务成为一种新的个性化信息检索的途径,即基于任务的特点和不同属性实现个性化信息检索。Li Yuelin和Belkin提出可基于任务的主要属性,如任务复杂性、任务困难程度等实现个性化信息检索[43]。Liu Jingjing的一系列相关研究延续了这一思路,针对任务困难程度与用户行为之间的关系展开研究,试图通过用户行为或任务类型预测任务的困难程度,从而帮助信息检索系统更好地支持用户的个性化信息检索。进一步的研究发现,对于平行任务(Parallel Task),任务阶段有助于预测文献的有用性[47]。通过隐含反馈探知用户的需求,是实现个性化信息检索的重要手段,停留时间是隐含反馈的指标之一。White和Kelly通过研究停留时间和用户及任务之间的互动,探讨停留时间是否可以预测文献的有用性,研究表明,停留时间的确可以预测文献的有用性,从而为个性化信息检索提供了可能的切入点[48]。Liu Jingjing的研究也表明在不考虑任务类型的情况下,总的文献停留时间是文献有用性的有效预测指标[46]。Liu Chang针对不同任务类型及搜索的不同阶段,利用用户的交互行为特征实现个性化信息检索[5],即通过不同任务类型中用户表现的多种行为特征,构建文献的有用性预测模型;通过观察用户的搜索行为构建任务类型的预测模型。该研究为最终构建个性化信息检索系统提供了理论和实证支持。 3 基于用户任务的个性化信息检索模型 本文拟基于已有的研究成果,结合传统的信息检索模型,提出一个基于用户任务的个性化信息检索模型,如图1所示。 图1 基于任务的个性化信息检索用户模型 图1表明,用户任务是用户信息检索的出发点,任务激发用户的问题及解决问题的信息需求,基于此,用户形成查询语句,借助客户端提交查询请求,系统自动标引用户的查询语句,并与系统的标引数据库进行匹配,输出检索结果。用户判断检索结果的相关性,如结果相关,满足其信息需求,用户便完成检索任务,退出检索系统或进行下一个检索任务。如不相关,用户便会重新思考其问题与需求,重新构建查询语句,如此循环往复,以最终完成检索任务。图1中的①描述了传统的信息检索的检索模型,其本质是用户与IR系统的交互过程,系统提供了有限的支持和帮助。图中的②描述了基于任务的个性化信息检索用户模型:通过隐式获取方式,系统识别和记录用户与系统交互的内容和行为特征(即①的流程),并基于这些特征推知用户的任务特征,判断用户的任务类型。由于并非所有的任务都需要个性化信息检索技术的支持,如导航性搜索任务[1],因而,模型将判断任务的类型及其是否需要个性化检索技术的支持,如不需要,则退出用户模型,只是完成①的流程即可。如需要个性化信息检索技术的支持,用户任务数据库将启动。该数据库包括任务类型及适用的个性化检索策略。如任务数据库中存有与该任务相似的任务,则直接采用其个性化检索策略;如是新任务,则需考虑适用的个性化检索策略,并将之加入到用户任务数据库中。基于不同的任务及需要,个性化检索策略可作用于用户的查询语句、匹配过程及结果的排序及输出,以帮助完成①的流程。 该用户模型与传统的信息检索过程相融合,采用隐式获取的方式,不需考虑用户为新用户或旧用户,只需考虑用户任务的特征和类型,从理论上可解决用户兴趣模型中的“冷启动”问题。此外,其区别于以往的用户模型,强调任务而非用户兴趣的重要性。同时,其强调用户与系统交互的内容和行为与任务特征的关系、任务特征对任务类型的预测、任务类型与个性化信息检索策略之间的关系及用户任务与个性化检索策略的数据库。这些构成了基于任务的个性化信息检索用户模型的主要元素。已有的研究一定程度上揭示了任务特征和类型与用户信息行为之间的关系及任务与文献类型之间的关系,为该模型的成立提供了理论支持。同时,由于用户任务的特征和类型具有一定的稳定性,不同类型的个性化检索策略可应用于不同类型的任务,这为构建用户任务与个性化检索策略数据库提供了理论上的可行性。 4 结束语 本文在综述个性化检索用户模型研究的基础上,提出一个基于用户任务的个性化信息检索模型,突出了用户任务、交互行为、任务特征、任务类型等在个性化检索系统中的作用。其中,用户模型由用户交互行为、任务特征、任务类型、用户任务数据库等组成。用户任务被认为是用户检索的直接来源,也是信息系统主要的挖掘对象。此外,该检索模型可以为检索系统中用户任务的研究拓展思路,比如从用户模型的获取来源深入地研究任务与检索内容以及行为之间的关系。 然而,本文仅提出基于任务的个性化信息检索用户模型的理论构想,要构建该模型,仍需解决以下主要问题:①系统应该记录和识别哪些可以预测用户任务特征的交互内容与信息行为?②任务该如何分类和定义才可有效地支持个性化信息检索?③哪些任务特征可以预测不同的任务类型?④哪些任务类型需要个性化信息检索技术的支持?⑤哪些个性化检索技术可以有效地支持哪类任务类型?⑥该模型如何实现? 以上将是本研究未来要着重解决的问题。为此,不同类型的研究方法,如实验、深度访谈等将用于数据的收集,以回归分析和结构方程模型分析等方法构建任务类型预测模型,分析个性化检索策略与任务类型之间的关系等。只有如此,才可能实现基于用户任务的个性化信息检索。标签:信息检索论文; 预测模型论文; 用户研究论文; 关系模型论文; 类型系统论文; 用户需求论文; 用户分析论文; 文献检索论文;