网络文本信息过滤的意义与模式初探_自然语言处理论文

网络文本信息过滤的意义及其模型初探,本文主要内容关键词为:模型论文,文本论文,意义论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G354;TP391文献标识码:A文章编号:1003-6938(2007)04-0037-06

CLC number:G354; TP391Document code:AArticle ID:1003-6938(2007)04-0037-06

针对互联网庞杂的文本信息流,如何有效地组织和管理这些信息并快速、准确、全面地从中找到用户所需要的信息是当前信息技术领域面临的一大挑战。传统的文本信息检索要求用户提交查询关键词来查找与之匹配的信息,这种单纯基于关键词的检索技术由于不具备智能性,不能学习用户的兴趣,尤其是对具有特定专业兴趣的用户,所输入的相同关键词只能得到相同的检索结果。针对这一状况,面向Internet的文本信息过滤技术可有效解决信息的供给与获取之间的矛盾。因此为了满足用户的真正需求,过滤无用、不良、有害信息,研究网络文本信息过滤技术具有非常重要的意义。

作为一个崭新的研究领域,网络文本信息过滤研究走过了一个不断深入的过程:早在1958年,Luhn就提出了信息过滤的设想模型“商业智能机器”,对信息过滤相关理论进行了初步探讨;[1] 1969年,SDI(Selective Dissemination of Information选择性信息分发系统)引起了人们的广泛兴趣,并导致了美国信息科学协会SIG-SDI(选择性信息分发系统兴趣小组)的建立;[2] 1982年Denning在《美国计算机学会通讯》杂志首次提出了“信息过滤”的概念,拓宽了传统的信息生成与收集的谈论范围;[3] 1987年,Malone等人在研制的系统“Information Lens”中提出了三种信息选择模式;[4] 1991年美国新泽西州Rutgers大学通讯学院的Nicholas J.Belkin教授在Morristown创建了第一个信息过滤实验室,从而推动了对文本信息过滤的研究;Belkin和Croft阐述了“用户角色”(包括用户兴趣及兴趣表示)在文本信息过滤系统中的地位及其在系统交互中的作用,从而为文本过滤模型的研究打下了基础;[5] Yang和Chute实现了基于实例和最小平方利益的线性模型文本分类器。[6]

国内对于网络文本过滤方面的研究比较晚,但随着因特网的迅速发展和个性化信息需求的不断增加,在此方面的研究已经取得了一定的进展。目前国内已有许多机构在文本过滤领域进行了积极的研究,但大多采用统计方法,比如基于向量空间模型的方法来研究易于实现、过滤速度快且不依赖具体领域和语言的文本过滤系统,也有部分机构采用基于理解的方法比如自然语言技术、人工智能技术、语言学等理论研究如何提高文本过滤的性能和精度。另外一些学者也在基于语义框架的中文文本过滤模型和基于向量空间模型的文本过滤系统上进行了有益的探索。[7] [8]

在国际对网络文本过滤方面的研究上,著名的国际文本检索会议TREC(Text Retrival Conference)自1992年来就文本信息过滤中的信息过滤系统性能评测与任务定义上倾注了极大的热情,[9] [10] [11] 对于文本信息过滤的形成和发展提供了强有力的支持。此外国际主题检测和跟踪会议(TDT,topic detection and tracking)历来将文本过滤作为很重要的研究内容,该会议比较重视文本过滤的理论技术以及系统评测研究。上述研究与探索在很大程度上促进了文本过滤的发展。

目前国内外关于文本信息过滤的研究基本上可以概括为两个方面的内容:其一是关于用户模型研究,即用户模板(user profiles)的构建及其算法;其二是基于文档与用户需求的匹配技术研究,即用户模板与文本的匹配技术(filtering methods)。这两个方面是文本信息过滤的两大关键技术。文章在阐述信息过滤一般应用模型的基础上提出了基于网络的文本信息过滤模型,分析了网络文本信息过滤模型的应用特征及其重要组件如用户模型、文档模型、用户反馈,并着重讨论了常用的布尔逻辑模型算法、概率模型算法和向量空间模型算法三大匹配技术,最后就用户模型和匹配算法两大技术应用存在的问题总结并提出了一些改进意见。

1 研究意义

实施网络文本信息过滤技术有助于减轻用户的认知压力,它在基于个人或用户群信息偏好的描述下为用户提供所需要的信息,也着重删除与用户不相关的信息,从而提高用户获取信息的效率。网络文本过滤可根据用户信息需求的变化为其提供稳定的信息服务,能够节约用户获取信息的时间,从而极大地减轻用户的认知负担,起到减压阀的作用。

解决和优化文本信息过滤模型中的两大关键技术即用户模型技术和匹配技术,对于大规模网络文本信息过滤具有重要的意义:

(1)文本过滤模型可以根据用户的信息需求偏好或群体推荐来过滤信息,并且把用户可能感兴趣的内容推送给用户,为提供选择性信息服务的单位开展定题服务SDI(Selective Dissemination of Information)提供方便。

(2)对终端用户而言,可以用文本过滤功能的代理程序来接受原始文本流(如Email和Newsgroup),并从中选择用户可能感兴趣的内容。[12]

(3)可以基于机器学习理论,采用文本学习和分类等技术进行不良文本信息过滤,无需用户反馈和群体合作。

(4)在信息管理领域比如在档案管理领域,文本过滤系统可以自动地确定信息所属的类别。

(5)对个性化信息服务起到推动作用。由于文本过滤模型的反馈机制具有自我学习和自我适应能力,可以动态地了解用户兴趣的变化,可以越来越明确地掌握用户的信息需求,从而为用户提供更有针对性的信息。

(6)可以对网络信息的流量、流向和流速进行合理的配置,使网络更加畅顺。对于用户来说,由于剔除了大量的不相关的文本信息的流入,可以避免塞车现象。

(7)研究与开发具有自主版权的文本信息过滤系统软件,对于提高我国网络和人工智能的研究和应用水平、保障网络信息安全、维护信息环境、促进Internet技术在我国的健康发展具有重要意义。

2 网络文本信息过滤模型

2.1 信息过滤模型

图1是信息过滤(IF)的一般模型图。[13] 在图1中,一个或一组用户由于工作、学习、生活的需要产生了信息需求,这种需求在较长的一段时间保持相对的稳定。用户对特定信息的需求是信息过滤的前提。用户信息需求必须以计算机能够识别的形式表示出来,这就是用户需求模板(Profile),也叫用户过滤模型。对于用户需求模板,可以是正向的,也可以是反向的,即既可以用于揭示用户希望得到的信息,也可以用于描述用户希望剔除的信息。

图1 信息过滤一般模型

在该模型中,对动态的网络信息不作预处理,只是当信息流经过滤系统软件时才运用一定的算法将信息揭示出来,用户模板和资源模型在匹配时将用户不需要的或不感兴趣的信息剔除,选取用户需要的信息并按相关性的大小程度提供给用户。为了提高信息过滤的效率,系统通常还根据用户对过滤结果的评价,利用相关反馈机制作用于用户需求模板,使用户能够更加清晰地提出信息需求,使用户需求模板的描述变得越来越明确。

反馈模块主要用于处理用户的反馈信息并依据反馈信息进一步精化用户模型,并保存以便下一次用户注册登录时直接读取到精化后的模型。用户对返回的文档集进行评估,由系统根据这些反馈信息进一步修改用户兴趣文件,以利于下一次的过滤。

匹配算法和用户需求模板描述方法、信息的揭示方法是相互关联的,常见的匹配算法有布尔模型、向量空间模型、概率模型、聚类模型等,主要任务是过滤不相关的信息,选取相关的信息并按相关性的大小提供给用户。在整个模型中,用户需求模板的生成、信息揭示、匹配算法和反馈机制是最为关键的部分。为了提高实用性,往往会在这些关键部分进行必要的人工干预,如对动态的信息流作预处理、人工修改用户需求模板等。

2.2 网络文本信息过滤模型

参考图1信息过滤模型,可以创建一个基于Web的文本信息过滤模型,如图2所示。

图2 文本过滤模型

从图2来看文本信息过滤系统主要包含文本表示模块、文本过滤匹配模块、用户(兴趣)模板生成模块、反馈模块等。其中文本表示模块主要针对采集到的信息提取其中的特征信息,按照一定的格式来描述,然后作为输入信息传递给过滤匹配模块;用户模板生成模块是依据用户对信息的需求和喜好来生成,它根据用户提供的学习样本或主动跟踪用户的查询行为建立用户兴趣的初始模板,再根据用户反馈模块不断更新用户模板;文本过滤匹配模块就是将用户兴趣模板与信息表示模块中的信息分析表示的结果按照一定的算法进行匹配,并按照匹配算法决定将要传递给用户的相关信息项;用户得到文本过滤的结果后,对其进行评价并反馈给用户模块,用户模块通过不断跟踪学习用户兴趣的变化及用户反馈来调整甚至更改用户需求表达,以求不断实现正确过滤无用信息的目的。

以下简要介绍模型中各部分的主要技术:

(1)文本表示。包括将Web中的有效文本信息提取出来,对于中文文本过滤来说,涉及到中文的分词、停用词处理、语法语义分析等等过程。常用的方法是建立文本的布尔模型、向量空间模型和概率模型等。

(2)用户模板的建立。用户模板空间常按照倒排索引的方式存储用户信息,建立用户模板的方式有建立关键字表和示例文本,而常用的技术有建立向量空间模型、预定义关键字、层次概念集和分类目录等。

(3)用户模板与文本的匹配。最常用的方法有布尔模型、向量空间模型和概率模型。

(4)用户反馈。用户反馈分为确定性反馈和隐含性反馈。确定性反馈指的是二元(是或否)反馈,另外还有分级打分的方法。利用这些反馈信息,应用机器学习方法,完善用户模板。

综合以上介绍分析,可以将网络文本信息过滤的工作概括为两个方面:一是建立用户需求模型,即用户模板,用于描述用户对于信息的具体需求。建立用户需求模型的主要依据是用户提交的关键词、主题词或示例文本;二是匹配技术,即用户模板与文本的匹配技术。简单地讲,文本过滤模型就是根据用户的查询历史创建用户需求模型,将信息源中的文本有效表示出来,然后根据一定的匹配规则,将文本信息源中可以满足用户需求的信息返回给用户,并根据一定的反馈机制,不断地调整改进用户需求模型,以期获得更好的过滤结果。

从技术角度来看,文本信息过滤的关键技术是获得用户信息需求(用户模板的建立)和解决信息过滤算法,即信息过滤技术研究应当集中在解决用户模板的表示及根据模板对文本流进行评价(ranking)的方法上。为提高信息过滤系统的性能,应加强对过滤匹配算法和用户模型的研究与实践。

3 网络文本信息过滤匹配算法

当用户访问网络文本信息流时,信息过滤系统往往运用相应的匹配算法,比较用户需求模板与网络信息文档从而决定取舍。匹配算法和用户需求模板描述方法、信息的揭示方法是相互关联的,常见的匹配算法有布尔模型、向量空间模型、概率模型等,主要目标是剔除不相关的信息,选取相关信息并按相关度大小提供给用户。

3.1 布尔模型

英国数学家George Boole于1847年发明了处理两值逻辑运算的布尔代数,在其后的搜索领域中,布尔逻辑运算被广泛用以过滤数据库中的无关记录,形成了如今在过滤系统中常用的布尔模型。布尔模型(Boolean)是基于集合论和布尔代数的一种过滤方式,用布尔表达式表示用户的检索式,查询串通常以语义精确的布尔表达式的方式输入,如,通过对文献标识与查询串的逻辑比较获取文献,是一种常用的严格匹配模型。

在文档型网络信息系统中,Boolean模型定义关键词查询只有两种状态,出现或不出现在一篇文档中,这样就导致了关键词权重都表现为二元性,例如。查询串q是一个传统的布尔表达式,文档于查询串的相关度定义为:[14]

其中1p∞,一般取值为[2,5]。通过选用不同的d、c和p将获得不同的检索结果。特别是当p取∞,d[,1]取值为0或1,C[,i]都为1时,p范数模型即变为布尔逻辑模型。

布尔模型的主要优点是:实现简单,速度快,易于描述结构化信息。因此现今的大部分搜索引擎系统比如Yahoo、InfoSeek等仍然主要采用布尔模型来过滤信息流。其缺点是:虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求转换为布尔表达式,实际上把大多数查询用户的查询信息转换为布尔表达式并不那么容易,常常表示得很不精确,难以反映特征项对于文本的重要性;另外过于严格,缺乏定量分析与灵活性,这往往会漏检许多能够满足用户需求的文本;最后,由于其匹配策略是基于二元判定标准(binary decision criterion),对于一篇文档的查询来说,只有相关和不相关两种状态,缺乏对文档相关性排序(ranking)的概念,这就在一定程度上限制了其过滤功能。

3.2 概率模型

由于布尔检索文本信息相关判断的不确定性和查询信息表示的模糊性,导致了人们采用概率的方法解决这方面的问题。概率模型方法最早是由Maron和Kuhns(1960)提出的,该模型在INQUERY系统环境中获得比较好的检索质量。概率模型是基于概率排序原则的,是一种基于贝叶斯(Bayse)决策理论的自适应模型,其提问不是直接由用户给出,而是通过某种归类学习过程构造一个决策函数来表示提问。[16]

文档D与检索q的相关度排序函数为:

概率模型的优点在于:该模型考虑了词条、文档间的内在联系,利用词条之间以及词条与文档间的概率相依性进行信息过滤,文档可以按照他们相关概率递减的顺利来排序;缺点在于:开始时就需要把文档分为相关和不相关的两个集合,实际上这种模型并没有考虑关键词在文档中出现的频率(因为所有的权重都是二元的),而关键词是相互独立的。

3.3 向量空间模型

向量空间模型(Vector Space Model,VSM)是由G.Salton等人在20世纪60年代提出的信息检索模型,是效果较好、近些年来被广泛应用的一种方法,在信息过滤系统中具有广泛的应用。最典型的向量空间模型原型系统是康奈尔大学的SMART(System for the Manipulation and Retrieval of Text)系统,它提供源代码开放下载,目前已经被成千上万的研究者所采用。[18]

向量空间模型(Vector Space Model)把文本表示成n维欧式空间的向量,并用它们之间的夹角余弦作为相似性的度量。在向量空间模型中,首先要建立文本向量和用户查询的向量,然后对这些向量进行相似性计算(匹配运算),在匹配结果的基础上进行相关反馈,以优化用户的查询,提高检索效率。具体步骤如下:

(1)首先把文档分解成若干词语,去掉出现频率较高但又没有实际意义的词语,比如“虽然”、“但是”等等,此时文档D(Document)就可以由一系列实词建立的n维向量空间来表示,

(3)然后利用余弦相似度定理,判断该文档与描述用户兴趣的文档之间的内容相关度,即两个文档向量之间的夹角余弦值即可得出这两篇文档之间的相似性(夹角越小相似性越大)。通常用户至少提供一个关键词形成用户模板,以此表明用户的兴趣取向,权重大小由输入的先后顺序决定。在进行向量匹配时,用户模板在检索时可被看成是由n个词语组成的向量。首先得到同时包括这几个词的文献,然后一一比较,描述文件向量和文献向量的相似程度,最后根据相似程度把命中的文献排序返回给用户。

经典的夹角余弦cosθ计算公式为:[19] [20]

向量空间模型可将文本和查询简化为项及权重集合的向量表示,从而把检索操作变成向量空间上的向量运算,其权重计算可以通过简单的频数统计来完成,通过定量分析,匹配文本和查询。在这个基础上,引入各种成熟的统计方法,更大程度地挖掘文本中蕴涵的语义信息,如主成分分析、因子分析、聚类分析等等。具有较强的可计算性和可操作性的特点,特别是随着网络信息的迅速膨胀,其应用已经不仅仅局限于文本检索、自动文摘、关键词自动提取等传统问题,还可以应用到搜索引擎、个人信息代理、网上新闻发布等信息检索领域。在向量空间模型中,文档的内容被形式化为多维空间的一个点,把文档以向量的形式定义到实数域中,能够使用模式识别和其它领域中各种成熟的计算方法,极大地提高自然语言文档的可计算性和可操作性,因而在文本过滤中获得广泛应用并取得良好效果。

向量空间模型的缺点在于项之间线性无关的假设,在自然语言中,词或短语之间存在着十分密切的联系,即存在“斜交”现象,很难满足假设条件,对计算结果的可靠性造成一定的影响。此外,将复杂的语义关系,归结为简单的向量结构,将会丢失许多有价值的线索。

4 结束语

在文本信息过滤模型中,文本信息过滤匹配算法与用户模型是两大关键技术,但是在应用中都存在一些问题。首先在信息过滤匹配算法中,不论是前面提到的布尔逻辑算法、概率算法,还是向量空间算法都存在着瓶颈问题。主要表现在:相关度过滤算法过于依赖文本统计分析方法,缺乏信息质量过滤算法语义分析等;[21] 其次在用户模型中,目前的文本过滤系统在建立用户模型时主要存在两个明显的缺陷:过分依赖于用户对信息需求的表达和单纯依赖于通过关键词或主题词来描述用户的需求。

针对信息过滤算法存在的不足,需要从理论上提出一些改进措施,比如引入潜在语义索引算法,可以通过加强概念匹配、建立信息质量评价机制等方法进一步完善信息过滤算法,以期达到文本信息过滤系统可以真正实现信息质量过滤的目的,最终为用户提供与其信息需求最相关的信息;针对用户模型存在的问题,目前国内外许多学者提出了基于本体的用户模型构想或者基于概念扩充的方法,[22] [23] 通过概念与概念组成的知识来表达用户需求,来解决其中过分依赖于用户的表达和依赖于关键词的问题,扩充用户模板与文本的全局匹配相似度,使之更加全面地反映用户的信息需求,实现用户模型与信息源精确匹配,最终实现个性化信息推荐服务,向用户推荐那些目前其尚不知道但应该知道的信息。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

网络文本信息过滤的意义与模式初探_自然语言处理论文
下载Doc文档

猜你喜欢