网络不良信息过滤研究_语义分析论文

网络不良信息过滤研究，本文主要内容关键词为：不良信息论文,网络论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

自1995年以来，互联网在我国得到迅速普及，它不仅推动了社会经济的发展，也给我们的学习、工作和生活带来了极大的便利。与此同时，我们也看到，互联网上信息庞杂多样，既有大量进步、有益的信息，也有不少反动、迷信、黄色等不健康的内容。网络不良信息的泛滥给社会发展造成了精神污染，它的出现主要有两个原因：其一是出于政治目的，国内外敌对势力在互联网上发布的旨在颠覆国家政权的信息，以达到不可告人的政治目的；其二是出于经济目的，许多网站提供色情等不良信息链接以引起网民的好奇，从而吸引更多的人登录自己的网站，这样做能够提高点击率，最终赢得更多的经济利益。

1 网络不良信息过滤特点

网络不良信息是指互联网上出现的违背社会主义精神文明建设要求，违背中华民族优良文化传统与习惯，以及其他违背社会公德等的各类信息，包括文字、图片、音频和视频等。网络不良信息具有广泛性、快捷性、多渠道性、隐秘性和社会危害性等特点，对其进行过滤也不同于一般信息的过滤。不良信息过滤与一般信息过滤相比，有其自身的特点：首先，文本倾向性判断比较困难，一般信息过滤中比较容易得到用户感兴趣和不感兴趣两方面的样本，而在不良信息过滤中，正面样本通常较容易获取，负面样本则较难获取，致使负面样本数目较少，负面样本难以判断。其次，一般信息过滤所过滤的信息表达形式稳定，易于利用关键词和词频统计方法进行文本表示，而不良信息制造者往往采取更换表达形式来逃避过滤，增加了过滤难度。

2 网络不良信息过滤方法

2.1 网络内容分级

当前，就网络内容规范途径而言，除了以计算机软件作为规范网络内容的手段之外，内容分级是一个备受关注的焦点。网页内容分级就是对网络信息分等级、分类别地进行过滤的方法，它预先按照一定的分级标准对网页或网站进行分级，当用户访问时根据分级标记决定能否访问。分级可以由自我分级和第三方分级两种方式完成。自我分级是由网页作者针对自己网站的内容，在不同的向度下给予适当的标记，并将等级标签嵌入网页原始码或表头中。第三方分级是由第三方组织机构针对网站内容给予各向度之分级，分级标签则是透过标签机构(Label Bureau)分发。用户在使用时可通过下载过滤系统分级档案，并在浏览器中设置不同的向度，在浏览网站时，浏览器会依据用户设定的向度级别，筛选出合适的网站信息。

2.1.1 国外网络内容分级标准据调查，国外在基于内容分级方案中，“多方标记和分级模式”(Multi-Party Labeling & Rating Model,MPLRM)占据了主导地位。MPLRM遵循W3C(World Wide Web Consortium)所提出的“互联网内容分级平台”(Platform for Internet Content Selection,PICS)技术标准。PICS技术标准协议，完整定义了网络分级所采用的检索方式，以及网络文件卷标的语法。PICS技术标准并不是绝对的，它的最大目的是让整个开放的互联网有可以遵循的标准，这个标准有点复杂，主要是定义了一些标签。PICS系列规范中的“PICS Label Distribution Label Syntax and Communication Protocols”规定了PICS标记的一般格式。一个网页的PICS标记的一般格式包括：以URL作为标记的分级机构；与分级信息有关的属性-值对；提供实际分级信息的属性-值对。其一般格式为：

(PICS-1.1

〈service url〉[option…]

labels[option…]ratings(〈category〉〈value〉…)

[option…]ratings(〈category〉〈value〉…)

…

〈service url〉[option…]

labels[option…]ratings(〈category〉〈value〉…)

[option…]ratings(〈category〉〈value〉…)

…

架构符合PICS标准的分级系统是首先需要考虑的，其中首要的是需对过滤对象的内容提出不同的向度和级别。一般而言，所提出的向度大多为不雅语言、性、裸体、暴力、邪教、赌博等向度，也可以衍伸次向度，而级别通常为4～6级。目前，以PICS为核心研发的相关分级系统已不少，在众多引用PICS技术标准的平台中，又以网络分级协会(Internet Content Rating Association,ICRA)的推广最为有力。使用ICRA分级系统为网页做标签的步骤如下：

1)创建文档标签。首先标签系统会先要求网站作者填写网址，以确保系统所做标签与网站一一对应。其次，系统会要求完成问卷，以便为自己的网站分级，分级体系如表1所示。

2)创建附加标签文档。如果单一的标签无法对整个网站分级，还需要为网站的副站点进行分级，这项工作可以通过做附加标签完成。如新浪网包含有新闻、健康、育儿、聊天等副站点，通过ICRA系统可对各个副站点做不同的标签。

3)上传标签文档。上传标签文档前需要先提供Email，让系统把标签副本和相关信息发送到该Email中备用。上传标签文档可以由系统来完成也可以自己来完成。通过系统完成只需向系统提供建站时由ISP分发的FTP的详细说明即可。

4)将网站内容与标签相连。这一步必须要由网站作者来完成。网站作者会收到一封包含一个链接标签以及一个PICS标签的电子邮件，示例标签如下：

Link Tag

〈link rel=" meta" href=" http://www.example.org/labels.rdf" type=" application/rdf+xml" title=" ICRA labels" /〉

PICS Tag( to support legacy systems)

〈meta http-equiv=" pics-label" content=' ( pics-1.1" http://www.icra.org/pics/vocabularyv03/" l gen true for" http://www.example.org" r( n 0 s 0 v 0 l 0 oa 1 c 0) ) ' /〉

将邮件中收到的两个标签嵌入网站中的每一个网页的HTML代码的〈head〉部分即可完成网站的分级工作。

2.1.2 国内网页内容分级标准我国对网页内容分级标准的研究比较晚，比较有影响的是祝智庭教授提出的网络教育内容分级标准(Chinese E-learning Content Rating Standard,CHERS)。CHERS旨在为我国网络教育内容分级提供统一的尺度，它遵守PICS技术规范，具有以下特点：

1)适合中国国情，以代表我国利益的文化、理论、价值取向为出发点。

2)用二维的内容分级方案，即同时采用内容分级维和年龄分级维。

3)内容分类更加全面，除了对色情、暴力等网络信息进行过滤外，还可过滤不良语言、恐怖、军国主义、邪教等网页内容。

4)CHERS不仅仅具有阻挡不良信息的功能，而且还具有推荐信息的功能，它可借助先进的技术手段把中华民族优秀文化传统“推”给广大中国学习者，乃至全球的学习者。

CHERS采用了两维的分级方案，将内容分级与年龄分级纳入一个分级标准中。内容分类分级维分为两大取向：推荐、过滤。每一取向又分为若干子类，设置了编号，从A到U。推荐取向包括的子类有：中华民族优秀文化传统、中国新时期主旋律、优秀教育内容等5项，编号分别为A到E。过滤取向包括的子类有：不良语言、烟酒药物、谣言、恐怖、暴力血腥等14项，编号从F到T。其中在“推荐”和“过滤”取向中均包含“未定义”子类，这是为今后预留的。每一子类通常设置5个等级，0～4级分别表示此内容的强烈程度。年龄维则规定了各年龄层适合及禁止浏览的网页内容。

2.1.3 网络内容分级方法评价优点有：①分级法过滤网络不良信息可以灵活地配置过滤模板，深入地反映用户的思想观点和价值观念，是未来一段时间内比较可行的一种方法，尤其是当网页作者、ISP、ICP能主动采用标准的分级体系进行分级，将会扩大分级处理的覆盖面，对过滤不良信息、净化网络环境将产生较大影响，并可以降低互联网的管理成本，简化互联网管理体系。②采用人工分级方法过滤信息错误率相对较低，并可以准确地对图像、视频等多媒体信息准确分级。③目前网络信息的分级标准都是建立在自愿的基础上的，力求避免涉及到公民的言论、通信自由等法律问题，并且维护了网络上的言论自由与多元化价值观。缺点有：①自我分级的质量难以保证，因为该方法要求网页作者主动参与到信息过滤中来，而这与网页作者希望更多人浏览其网页的初衷是相违背的。如果网页作者欲通过网页恶意传播不良信息的话，用户对其是无法控制的。②分级法要求网络用户必须向网站提供准确的信息，比方说年龄和爱好等，网络用户只需更改年龄就很容易逃避分级过滤的要求。

2.2 URL过滤

据Gartner统计，2005年全球URL(Uniform Resource Location)信息过滤市场增长23.6％，达到3亿美元。URL过滤是目前阶段及今后一段时间中可以实际采用的技术。在因特网上，使用统一资源定位符URL来标志互联网上的各种文档，可使每个文档在整个因特网范围内具有唯一的标识符以便用户选择使用。正是由于URL的唯一性，可以利用URL过滤互联网上的信息。

2.2.1 URL过滤原理 URL过滤主要是通过对互联网上各样信息进行分类后，精确地匹配URL和与之对应的页面内容，形成一个预分类网址库。在用户访问网页时，将要访问的网址与预分类网址库中的网页地址进行对比，以此来判断该网址是否被允许访问。

通常情况下，需要维护两种类型的列表，一种为“黑名单”(Black List)，包括禁止访问的目标网站的URL；另一个为“白名单”(White List)，包括允许访问的目标网站的URL。URL地址列表一般由管理者或第三方根据一定的标准来收集和编制。由于互联网上的不良信息资源每天都在不断地增加和变化，因此URL列表还需要不断地更新和丰富。

2.2.2 实施URL过滤实施过滤时，首先将从用户请求数据包中提取的URL与“白名单”列表进行匹配，如果匹配成功，则说明用户的请求是合法的，用户可以浏览该网页；如果匹配不成功，则进行进一步的非法URL匹配，把请求中的URL部分与“黑名单”列表进行匹配检测，如果匹配成功，说明用户所请求的信息不合法，这时，可返回给用户警告提示，禁止用户访问该网页。当匹配再次失败时，说明用户请求的URL在URL数据库中无法找到对应项，标记该URL为可疑(Suspicious)，等待审核，但还是可以按合法URL请求一样的方法来处理。

2.2.3 URL过滤方法评价优点有：①URL过滤由于有人工的参与，过滤准确率较高。②URL过滤实现简单，过滤成本低。缺点有：①URL过滤依赖事先开列出的特定网址，而网站取舍与否主要依靠过滤公司所雇人员对网站所做出的主观判断及组织。这种方法虽然精确，但相对较耗时和费成本，且这种主观选择会因人而异，加上网络每天都有新的网站和网页诞生，每天都有网址变更，因此，依靠人工选择评鉴的速度会远不及网站变更及增加的速度，因而对非法URL的覆盖程度不高。②URL过滤仅仅将互联网站区分为允许访问和拒绝访问两种类型，但不能对图像搜索的结果进行分类。一些不良网络信息的提供者可以采取了回避某些敏感词汇的办法，将不良文本嵌入到图像文件中，或直接以图像文件的形式出版等方法，从而可以轻易地逃避URL过滤。

2.3 文本内容过滤技术

上述方法实现简单，但其最大的缺陷就是过滤过于规则化，无法动态地辨别文档的实际含义，只要满足过滤规则就会被过滤掉，文本内容过滤技术能较好地克服这一缺点。基于内容的文本过滤相似于信息检索，往往采用与信息检索类似的技术，已有一些算法用来分析文档的内容，主要有关键词匹配法、潜在语义索引法和神经网络法。

2.3.1 关键词匹配方法关键词匹配法中较常用的模型是布尔逻辑模型和向量空间模型。

利用布尔逻辑模型进行过滤就是给定一系列的具有二值逻辑的特征变量，其来源词从文档中抽取，是用来描述文档的特征的，如关键词或索引词等，有的也可以是时间、作者的姓名等个性信息。在过滤过程中，它以文献中是否包含关键词作为取舍标准。通过布尔操作符把表示文档信息的特征变量构成布尔表达式，以此作为检索与过滤的依据。

在一个查询中，如果两个查询关键词之间用布尔操作符AND相关联，则表示这两个关键词必须同时包含在过滤文档中；如果两个查询关键词之间用布尔操作符OR相关联，则表示这两个关键词只要其中一个包含在过滤文档中即可。过滤时，用户将提取请求的页面关键词提交给系统，系统通过交集运算来判断是否要过滤掉该页面。布尔模型结构简单，容易实现，但其无权重设计使得过滤结果很难控制。

基于向量空间模型的关键词匹配法是以特征向量为基础，将文本内容转换成向量方式，然后以用户需求向量与过滤文本向量的夹角余弦来衡量文本同用户需求的相似度。在以向量空间模型构造的信息过滤系统中，用字项标识文档。如一个不良信息文档D，用一个m维向量来表示，其中m是能够用来表示文档内容的字项总数。给每一个字项赋予一个权值，用它来表明它的重要程度。设文档的向量公式表示为：

由公式(2)可知，若两向量的夹角变小，则相似程度随余弦值而变大，待过滤文本符合过滤需求的可能性增加。设定过滤阈值，当Sim(D，P)≥时，其D所对应的内容符合过滤需求，该文档则应禁止浏览。

这两种基于关键词的过滤方法虽然实现简单，实时性强，但它只能根据关键词进行简单的机械匹配，系统难以理解文本的含义，因此对于相似文本很难区分。例如有关性文化、性保健的内容与色情文本在关键词方面非常相似，给识别和过滤带来很大的误差。

2.3.2 潜在语义索引算法使用关键词匹配过滤的天然缺陷是上下文背景信息不足，过滤的准确率不高。潜在语义索引法则在一定程度上解决了传统词汇匹配方法中的歧义和同义问题。同义现象是指文本中使用不同的词汇来表达同一概念，这样会在过滤的时候有些相关文档会被遗漏。歧义现象是指一个词往往具有多种不同的含义，其过滤结果往往是一些无关文档被保留下来，因为虽然两篇文献使用的词汇相同，但实际上两者含义却不一样。潜在语义索引是一种概念检索方法，它试图解决单纯关键词匹配方法中的上述两个问题，以挖掘文本的潜在的语义内容。

潜在语义索引法是利用矩阵的奇异值分解(Singular Value Decomposition,SVD)来捕捉相关联文献的“潜在”结构的。对于奇异值分解来实现信息过滤的原理是给定一个字项文档矩阵X，X有r(表示文档集中关键字项的个数)行C(表示文档集中文档的数量)列，对X进行奇异值分解得：

其中T、D分别是具有标准正交列的r×k矩阵和c×k矩阵，S是一个k×k角阵。X[，K]是对X的一个近似，它是最接近X的k秩矩阵，保持了X中所反映的词语和文本之间联系的内在结构，又去掉了语言的多义性。

潜在语义索引法是基于文档集中潜在的语义关系构造一个索引项文档空间，所相似主题的文档在该空间中对应的位置点，相距很近，则可以通过对所待过滤文本和过滤模型向量，并根据设定的阈值来进行信息过滤。

潜在语义索引法具有丰富的表述能力，其过滤精度较关键词匹配法有了提高；但该方法的算法复杂，系统执行慢，其过滤性能也会随着新词的加入而下降，缺乏直观意义，不便理解。

2.3.3 神经网络算法利用神经网络技术过滤旨在模拟人脑的神经系统结构与功能，把用户兴趣表示成一个人工神经网络。神经网络算法过滤信息的基本思想是在其内部存储可行模式的整个集合，这些模式可被外部唤起，即使外部提供的资料不足也可以在内部重构。神经网络可以实现响应、自我组织，学习抽象和遗忘功能。当神经网络被训练好之后，输入定制领域内的新模式识别问题，它可以输出有关这种模式的相关信息，即神经网络的输入为文本特征向量，输出为评价向量。经过训练的神经网络可实现文档向量到评价向量的映射，把代表不同文档的特征向量映射为相应的评价向量。图1中表示待过滤文本的N个特征向量通过神经网络映射到M个主题，每个小圆圈代表一个处理单元(相当于神经元)。表示文本的特征向量。表示对每个第j个主题来说，第i个关键词的权重，且。若某个文本的第j个评价值大于第j个阈值，说明该文本符合第j个内容，同一文本有可能同时符合多个主题，最后对评价值大于阈值的输出所对应的权值进行修正。

神经网络过滤方法模拟了人脑对信息进行过滤的原理，并结合各种数学算法来实现信息过滤功能，具备一定的容错性和柔韧性，在较少人为干预的情况下，实现自我更新和完善。但该算法非常复杂，执行速度慢，还不符合目前的实用要求。

2.4 多媒体信息过滤技术

现代网络不良信息不仅仅是以文本的形式出现，还包括大量的多媒体信息。多媒体信息不仅包括文本信息，还包括图像信息、音频信息和视频信息，因此多媒体信息的过滤要比文本信息过滤困难得多。目前对多媒体信息过滤主要有两种方法，第一种是基于文本的多媒体信息过滤，第二种是基于内容的多媒体信息过滤。

2.4.1 基于文本的多媒体信息过滤基于文本的多媒体过滤方法是目前多媒体信息过滤最常用的方法。其过滤原理是以关键词的形式来反映多媒体物理特征和内容特征，并对抽取出的关键词进行著录或标引，建立类似于文本文献信息检索系统的索引数据库，过滤时通过文本匹配来完成。

基于文本的多媒体信息过滤是文本过滤方式的延续，不需要进行新的过滤技术的开发研究，其实施比较简单，实现成本也比较低。然而，完全基于文本的多媒体过滤技术存在严重问题。首先，目前的计算机视觉和人工智能技术都无法对多媒体信息自动地进行文本标注，而必须依赖于人工。人工标注不但费时费力，而且不可避免地带有主观性。其次，多媒体信息中所包含的丰富的视觉特征往往无法用文本进行客观描述。

2.4.2 基于内容的多媒体信息过滤基于内容的多媒体信息过滤是目前多媒体过滤研究中最活跃的领域，其过滤流程是：首先要从多媒体数据流中提取能代表原始信号的数据形式，即特征提取。多媒体数据中的特征可以是从图像与视频中提取的视觉特征，如色彩、纹理和运动等，也可以是从音频中提取的听觉特征，如音调、音质和音高等。由于多媒体信息是时间序列流，因而我们不能对长时间的视频或音频直接处理，需要先把连续多媒体数据流分成不同长度的数据片段，然后对分割出来的多媒体物理单元进行识别分类，至于分成哪些语义类由过滤系统事先定义，再对识别出来的语义类建立索引。当用户浏览多媒体信息时，系统会将需要浏览的多媒体信息与索引库中的多媒体物理单元进行相似度的匹配，如果相似则禁止用户浏览。

多媒体信息是多种媒介的综合，它们缺乏明显的结构，过滤起来涉及的计算量很大，从目前看，计算机的处理能力尚不能达到多媒体过滤对速度的要求，这将有待于计算机技术本身的突破。

3 网络不良信息过滤实现途径

目前，网络不良信息过滤主要有4种实现途径。

3.1 通过运营商过滤不良信息

通过网络运营商过滤网络不良信息，就是网络运营商在宽带网络的路由器端直接设置不良网站的过滤标准，用户无须在个人电脑上做任何设置和修改，也不需要安装终端软件，通过一个指定账号拨号上网就能实现。如中国电信在2004年开始推广的“绿色上网”业务。该业务采用一种国际领先的拦截技术，能够在电信网络上对有害网站进行拦截，并针对每天新增加的数百万个不良网站进行跟踪，并保持同步更新和屏蔽。通过这一技术，可以屏蔽数百万个色情、暴力、毒品、赌博和邪教等不良网站的信息内容。

通过运营商来过滤网络不良信息的优势在于从源头上封堵了不良网站，减轻了用户的负担。其缺陷则是它只能过滤部分已知的不良网站，而且需要按月付费。

3.2 通过电脑厂商过滤不良信息

通过电脑厂商过滤网络不良信息就是品牌电脑厂商针对家庭电脑所推出的一些内置不良信息过滤功能，其实就是电脑厂商预装了不良信息过滤软件。据了解，在日本和韩国，许多针对家庭的品牌机都内置了过滤网络不良信息的功能，在新加坡则有20％的家庭采用了这种方式来防止青少年受网络不良信息的侵害。在我国，网络文明工程委员会早在2002年就启动了“绿色行动”计划，推行建立“网络文明工程绿色电脑”生产服务体系，即要求电脑厂商在其产品上配置安全过滤软硬件设施，并随即附送网络文明培训教材。

许多家长出于了解程度、价格、电脑操作水平等原因，失去了使用软件保护子女的机会。而通过电脑厂商内置不良信息过滤设备，避免了软硬件销售环节的脱离，同时可以得到电脑厂商在售后服务中的指导。

3.3 通过网络应用程序过滤不良信息

有些网络应用程序如Web浏览器、搜索引擎、电子邮件、新闻组等附有不良信息的过滤功能，用户可以自行设置来过滤不良信息。如IE浏览器的内容分级审查功能则是利用前述的网络内容分级过滤方法来过滤不良信息。用户只需打开IE浏览器，从菜单的“工具”栏进入“Internet选项”，再从“内容”中点击“启用”即可看到分级审查页面。其分级向度为性、裸体、语言和暴力，分级级别为0～4五个等级。用户根据自己的需要来设置即可达到过滤不良信息的目的。该过滤不良信息的方式给用户提供了很大方便，但是却限制了用户必须使用特定的应用程序。

3.4 通过软件过滤不良信息

通过在电脑终端安装过滤软件来实现对网络不良信息的过滤应该是较常见的一种方式。现有不良信息过滤软件往往综合URL过滤、文本内容过滤、图像过滤等多种技术，它不仅能像网络运营商那样过滤已知的不良网站，还能按照关键词过滤一些不良画面。过滤软件可以对计算机屏幕出现的词汇进行逻辑判断，当电脑上出现不良文字和图片时，软件就会自动关闭掉这些信息窗口，从而完成对不良信息的查杀。中文过滤软件从20世纪末开始起步，目前市面上的软件已达几十种之多，较著名的有“网络爸爸”、“美萍反黄专家”等。

过滤软件在功能上非常强大，但在用户终端电脑上自行安装过滤软件等于让用户自己限制自己，是不现实的。而且软件由各个用户自己进行设置，无法统一，因此也难以实现有效管理。在实际应用中也必然会出现许多非技术性问题，而使这些产品形同虚设。

当前，信息过滤技术在过滤网络不良信息方面尚未达到预期的目的，过滤的准确率还比较低。网络不良信息过滤技术还有待进一步研究，包括文本倾向性的判定、信息过滤的智能化、多媒体信息过滤等。随着技术的进步，网络不良信息过滤方式与技术将不断增多也将不断完善，从而真正实现“绿色上网”。

标签：语义分析论文; 文本分类论文; 文本分析论文; 多媒体论文; url论文;

网络不良信息过滤研究_语义分析论文

猜你喜欢