用户需求模式协同构建的初步探索,本文主要内容关键词为:需求论文,模式论文,用户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G350 文献标识码:A 文章编号:1007-7634(2009)09-1296-05
1 用户需求模式与查询(式)的关系
查询(式)是信息检索研究的核心要素之一,用户需求模式则是信息过滤研究的一个核心要素。二者有何区别和联系呢?简单来说,它们之间最基本的差别源于信息检索和信息过滤的差别。
(1)信息检索关注单一用户一时的查寻目的和查询,信息过滤关注用户或用户群体为满足其目的或兴趣而对系统的长期反复利用(的行为特征)。
(2)信息检索界承认查询式作为信息需求表示在适用性方面存在的问题,信息过滤领域则认为用户需求模式是用户兴趣的恰当说明。
(3)信息检索关注文本的采集和组织,信息过滤关注文本向用户或用户群体的分发。
(4)信息检索关注相对静态的数据库中的文本选择问题,信息过滤关注动态数据流的文本选择或淘汰问题,
(5)信息检索关注用户与文本之间在单一的查寻情境下的交互,信息过滤则关注一系列信息查询情境下的长期变化。
信息检索与信息过滤之间存在的上述差别,导致查询(式)与用户需求模式之间也存在一定的差别。二者在用户方面的差别主要表现在用户需求的表示方面:在查询中,用户需求信息由用户生成,更接近自然语言,形式化程度低;在用户需求模式中,用户需求信息由系统生成,是结构化的数据,形式化程度高。另外,在语义方面,有关查询和用户需求模式的实证研究证明,意义上相似的查询(式)和用户需求模式在同一数据集合中的检索结果有较高的重合[1]。事实上,在现在看来,信息检索和信息过滤的差别并不十分明显。因为,“信息过滤的研究者同样需要在用户信息方面做很多工作:用户的信息可能是什么?如何识别、表示和更新用户信息?”随着信息检索界对用户研究的深入,它对用户需求模式的理解也在不断深入。因此,在认清二者差别的同时,需要开展促进二者之间融合的研究。
以往有关查询与用户需求模式的融合的研究,其首要目的是利用用户需求模式改善查询,并提供更为个性化的查询结果。Robert R.Korfhage是早期的代表学者。Korfhage认为改善查询(式)的传统方法是将查询移向相关文献丰富的空间,而利用用户需求模式来改善查询(式)则提供了空间中另外的焦点,使得整个检索框架更加灵活[2]。这一过程也可以是双向的。Luz M.Quiroga和Javed Mostafa二人试图利用用户的相关反馈来改善用户需求模式。他们认为用户需求模式的构造有三种策略,分别为显式、隐式和混合式。其中,隐式构造需要利用用户的相关反馈,以形成用户需求模式的持续更新[3]。在他们二人的早期研究中,使用显式和混合式策略构造的用户需求模式,其信息获取效果更好,而只利用用户相关反馈的隐式构造策略则不如显式和混合策略效果好;而更为深入的研究结果显示,在某些特定的模式下,只有混合策略的效果显著[4]。总之,查询(式)和用户需求模式之间存在差别。认清这些差别,在理论和实践上都有意义。同时,也应当看到,二者的差别主要是形式上的,而非语义层面的。在语义层面,二者可以相互融合,相互利用。
2 用户需求模式构建的一般方法
有关用户需求模式的定义较多。其中,林霜梅等人从系统实现出发给出了更为明确的定义:“用户模型不是对用户兴趣的一般性描述,而是一种面向算法的、具有特定数据结构的、形式化的描述[5]。”用户需求模式的构建(Profile Acquisition)方法是用户需求模式研究中的核心问题。
2.1 用户需求模式构建研究的基本框架
曾春等人在讨论用户需求模式构建时,列举了5个需要考虑的问题[6]:
(1)有没有现成的标准?
(2)收集什么数据?收集的数据用于什么目的?
(3)如何收集数据?根据什么信息源来收集?
(4)收集的数据如何组织?
(5)用户信息能否自适应地更新?
提出上述5个问题是很有意义的,它为用户需求模式研究提供了一个框架。这里选择其中较为核心的问题进行简要的讨论,并提出第6个问题,在本文第3节中加以回答。
(6)构建用户需求模式用于什么环境?包括学科发展环境、用户群体特征和对环境的应变。
2.2 基于内容和基于规则的用户需求模式构建方法
一般的说,构建用户需求模式有两种基本方法:基于内容的方法和基于规则的方法。Tsvi Kuflik和Peretz Shoval介绍了5种常见的基于内容的用户需求模式构建方法:①用户生成、②由系统通过自动标引生成、③用户与系统生成、④由系统通过人工神经网络的方法生成和⑤从用户Stereotype继承[7]。其中,较为特殊的是使用Stereotype的方法。梅海燕认为“一个Stereotype是对一个给定类别的用户的形式化的描述,它代表了用户的特征,常用于表征一类通常情况下发生的相关信息、知识、目的和特性,而且与具有这些特性的一些用户有关[8]。”本体作为基于规则方法的一种高级形式,目前也得到了研究者的关注。袁兴宇等人列举了五条使用本体构造用户需求大纲的原则,包括词汇选择、同义词处理、描述粒度和关联关系四个方面[9]。
2.3 协作过滤和利用Stereotype生成用户需求模式
信息过滤有两种基本形式:基于内容的信息过滤和协作过滤。前文所讨论的信息过滤及其用户需求模式的构建方法大部分属于基于内容的信息过滤;而协作过滤有较大差别,毛颖等列举了协作过滤的主要特征[10]:
(1)不是推荐与用户以前喜欢的文档相似的文档,而是推荐相似用户喜欢的文档。
(2)不是计算文档的相似度,而是计算用户的相似度。
(3)一个纯粹的协作过滤系统并不分析文档——事实上用户所看到的文档只是一个唯一性的标记符而已。
较之基于内容的过滤,协作过滤与信息检索之间的距离较远。基于内容的过滤所研究的问题确实是传统意义的信息检索的对偶问题;而协作过滤则不然,它体现的是一种社会化的“圈子”,这在Web2.0的环境下,其促进信息交流乃至知识交流的意义更加明显。目前国际上最大的Web2.0交友网站Facebook将其个人页面称为Profile,其意义便在此。如果我们跳出信息获取的范畴,在更为宽阔的信息交流乃至知识交流的范畴来讨论用户需求模式的问题,其重要性显而易见。然而,协作过滤也有其弊端,归纳起来有:①Early-rater,②稀疏和③“灰羊”三种问题[11]。但这并不妨碍协作过滤的广泛应用及其对信息交流乃至知识交流的促进作用。回到用户需求模式这一问题,严格地说,Facebook中的Profile应视为Stereotype。尽管早期研究认为基于Stereotype的结果不够精确,随着协作过滤研究的发展,Stereotype又逐渐受到学者重视,因为它是构建基于用户协作过滤的用户需求模式的主要方法,且其开销要远比基于内容的过滤小[7]。此外,在特定的信息交流环境,基于Stereotype的方法比基于个人规则的方法的效果要好[11]。Kazunari Sugiyama比较了使用隐式相关反馈、纯粹浏览历史和改进的协作过滤的用户需求模式构建,发现基于协作过滤的用户需求模式达到最好的精确度[12]。
2.4 基于网络用户浏览行为的用户需求模式构建
在互联网得到普遍应用的今天,有关网络用户行为的研究越来越多,越来越深入,其最终目的是为网络用户提供更优质的商业化信息服务。所以,将有关网络用户行为的研究成果应用于用户需求模式构建,是一条值得探索的新路径。它将促进用户需求模式研究的实用化。在这方面,现在已经有人开始了一些探索。例如,张玉连和王权采用两阶段的方法,先从用户浏览行为入手对网页进行初步处理,再对内容进行加工,得到用户需求模式[13]。赵银春等人则在此基础上分别对用户的浏览内容和浏览行为进行了形式化和赋权值的工作,进而构造用户需求模式[14]。在实现策略上,李蕾和周国民提出了采用Ajax技术的方案[15]。然而,现有的研究基本上局限于对个体用户的浏览内容和浏览行为的分析,没有突破信息检索领域中已有的相关反馈技术、检索历史分析等传统框架。另一方面,由于涉及隐私等问题,用户对于在网络搜索引擎上以用户(而不是匿名)的身份搜索持有谨慎态度;加之开销问题,为每个用户建立需求模式目前并不十分可行。
3 基于群体知识的用户需求模式协同构建
3.1 探索协同构建的意义和可行性
(1)信息检索和信息过滤融合程度日益增强,个性化检索研究的发展,同时使用查询和用户需求模式来实现个性化、高质量的信息获取服务,已成为关注的重点,并为探索用户需求模式的系统构建提供了实践基础。
(2)Web2.0技术的出现和应用,使广大网络用户可以从信息检索环境扩展到更为广阔的信息交流或知识共享环境中。以Facebook(www.facebook.com)和校内网(xiaonei.com)为代表的Web2.0站点的提供的用户个人页面包含有大量的用户个人信息。前面已经指出,这类Profile实质是一种Stereotype。利用Web2.0站点提供的信息交流和知识共享环境来探讨和实现用户需求模式的构建,将具有明显的知识优势和协同优势。
(3)各种各样的网络用户行为研究,产生了大量的有关用户需求、认知、行为和利用模式等方面的数据和发现。这些研究成果对构建用户需求模式具有潜在的利用价值。不过,在现阶段,要将这些研究结果完全实现形式化,还有很大难度。但是,其中一些基本的研究结果还是有可能应用于用户需求模式的协同构建中的。
3.2 群体知识——群体性评价证据的利用
在许多网络信息服务设施(如搜索引擎、门户、Web2.0站点等)及其服务过程中,存在着用户各种对资源和服务的群体性评价。如果能够找到这种群体性评价的证据,就有可能对其作进一步地抽象,最终形成形式化的、可应用于用户需求模式构建的信息和知识。
证据一,我们在研究用户网络搜索过程中的语言使用时发现,用户对于相关词的利用有群体性的评价。部分被试用户认为搜索引擎显示的提示词是网络用户搜索时使用较多的查询式,使用这样的查询式更为可靠,更容易地找到所需信息。这种群体性的评价不仅可以用在提示词利用方面,也可以为改善检索结果提供必要的帮助。网络用户通过提示词共享其(专门)知识和搜索知识,而这种群体性评价过程则是将知识进行固化的过程。由于在协作过滤中,用户的需求模式与检索或过滤的文档无关,更多的是一种质量和偏好的判定。从这种意义上讲,提示词的选择与用户需求模式协同构建的目的相同。
证据二,我们在对北大未名BBS的团购活动进行研究时得到的。团购版版面是参团者(团员)获取团购商品信息的主要渠道,同时也是存储团购版众网友群体性评价和信任信息的主要载体。未名BBS团购版的版面不仅是团购业务开展的平台,还是评价和建立信任的平台。在这样的环境中,用户是近似实名的,至少存在一个ID与之对应。群体性评价的结果不仅可以用来判断团购活动发起者(团长)的信誉、产品的质量,还可以通过版面对相关产品反映热烈程度等因素对热门产品高频开团,客观上起到对相关产品信息的推送和过滤作用。对未名BBS团购版的团员和团长均可以构建相应的Stereotype乃至用户需求模式。团员之间直接聚类较为困难,但是与团长及其销售的产品关联进行聚类,可以改善相关信息的提供。这个证据更加直接,也更加贴近日常生活。至少是在校大学生网络购物行为中信息利用和相关知识共享的最有力的证据之一。
上述两个证据可以从一个侧面说明,随着网络信息交流的发展,用户与网络上其他用户借助一定手段进行隐性信息交流和知识的交流的现象已越来越普遍,并为许多用户所接受。在这样的环境下,进行用户需求模式的协同构建是可能的。
3.3用户需求模式协同构建的原则
(1)突破信息获取的研究框架,扩展信息检索和信息过滤相关研究的范式,最终目的是知识共享和充分交流。要促进信息检索和信息过滤二者的融合,并积极地吸纳其他相关研究(如机器学习)的成果。用户需求模式的恰当表示是一个复杂的问题,需要相关研究结果的支撑。
(2)用户需求模式应在网络用户研究结果形式化过程中逐步实现。如果对单独的用户建立需求模式存在困难,可对识别的用户群体建立用户需求模式。尽量避免在用户研究结果形式化表示过程中的信息损失。在一定的需求模式的粒度水平上,应尽可能地提供有效信息。
(3)协同构建的用户需求模式只作为一个评判标准或手段来利用。使用时要与其他标准或手段(如查询和基于内容构建的用户需求模式等)结合起来。因为协同构建的用户需求模式会存在协作过滤不可避免的问题,将其作为唯一手段在系统运行初期可能无法吸引用户,其实际效果也很难快速达到最佳。
(4)需要考虑网络环境快速变化可能会对用户需求模式的构建(包括协同构建)带来冲击。尽管上面第2节所讨论的框架、方法和用户需求模式本身在相当长的一段时间内会保持稳定。有机地接受并利用已有的研究成果是协同构建用户需求模式的前提。随着研究的深入,所有这些原则都基于一个基本的事实:网络作为分布式、高异构的计算机辅助信息交流(CMC)平台,极大地促进了用户之间的信息和知识交流;各种(广义的)文献,包括网页、多媒体、社区和服务等仅仅作为媒介或者环境而存在,其最终目的是人与人之间的知识共享和交流。
4 结语
基于上述的研究和分析,我们认为:信息检索和信息过滤研究融合程度的提高,深化为个性化和知识性服务;Web2.0平台的运行机制在一定程度上有助于用户需求模式的协同构建;用户对搜索引擎提示词的利用与认知与用户需求模式的协同构建的基本原理一致;恰当地应对网络环境变化的原则是:突破信息获取的研究框架;在形式化过程中应尽可能少地损失信息;只将协同构建的用户需求模式作为一个促进知识共享与交流的因素;有机地接受并利用已有研究成果。
收稿日期:2009-02-26