网络信息的自动分类问题,本文主要内容关键词为:网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
目前搜索引擎或门户网站的分类导航系统基本都是以人工为主进行网站信息筛选、分类和 维护,因此有较高的质量保证。但是由人工进行管理除了人力开销很大以外,网站信息的收 录范围和数量、网站信息的更新速度都受到很大制约,随着互联网上的信息以几何级数增长 ,这个矛盾将会更加突出,分类导航系统的自动标引和维护将是今后发展的方向。本文讲的 网络信息分类,是针对网站的整体、针对文本信息而言的。网站没有严格的定义,通常是指 互联网上独立进行信息服务或发布信息的、由若干网页组成的集合,其显著特点是一个独立 运作和管理单位。在它的网页集合中,首先被浏览器显示、起提纲挈领作用的网页称为主页 或首页,一般以index.html命名。但有时也习惯把没有独立服务器或规模较小的网站称为主 页,如“××个人主页”、“××单位主页”。
1 网络信息与传统文献的差异
网络信息由于与传统文献存在很多差异,所以自动分类的步骤、技术也有所不同。从自动 分类这个角度来考查,网络信息与传统文献的重要差异表现在以下几个方面:
1.1 动态与静态
网络信息是一种动态信息,它包含的知识内容始终处在变化之中,不论对一个网站还是一 个网页来说,既有知识总量的增减,也有某一篇具体文章内容的变化,如同版本可以随时变 更。另外网络信息的一个重要特征——它的地址尽管相对稳定,但也处在变化之中。传统文 献一旦形成,就永远处在静态之中,版本的变化则以新的文献形式出现,不会在原来的物理 形态上变化,传统文献也没有“地址”这个特征。
1.2 开放与封闭
网络信息是以节点为中心分布式的开放信息系统,它的知识范畴可以随着它的超链(Hyper li nk)而不断生长,任何一个网站、网页都不同程度地与互联网上的其他信息相关联;网络信 息的开放性还表现在它与用户具有互动的关系。网络信息的开放性也是动态性的一种表现。 传统文献则是封闭的知识系统,不会与其他知识系统交换信息。
1.3 非线性与线性
网络信息的显著特点是以超文本形式存在的,各种信息不是线性的排列,可以随着节点任 意跳转。传统文献的知识是用线性的方式组织的,只能按照固定的次序阅读。
1.4 不规范与规范
传统文献,不论是图书、论文、专利还是技术标准,它的文档结构都已经逐步规范化,如 图书有书名、版权记录、提要、目次、正文、序跋等,版式也相对固定,这对自动分类很有 帮助。网络信息尚没有统一的、共同遵循的数据描述规范,一个网页所提供的对判断其知识 内容、知识类别有用的信息存在着很大的差异,还有不少是干扰判断的信息,这对自动分类 是有影响的,增加了提取信息主题特征的难度。 1.5 多媒体与单一媒体
网络信息是以多种媒体形式存在的,文本、图形、图象、动画、音频、视频应有尽有,图 形、图象等附带的文本信息是自动分类的主要依据。传统文献是以一种媒体形式存在的,印 刷型文献附带的磁盘、光盘等是一种独立的文献形式。
2 自动分类的类型和程序
网络信息的自动分类,就是由计算机辅助人或代替人对分类的对象进行整理和分析,并归 入已确定分类体系的相应类目。自动分类是建立在语词共现原理的基础上,通过抽取网络信 息的内容特征并进行统计分析,判别出最能代表其信息内容的语词,然后与分类体系的语词 类集进行相似性分析,确定该信息属于那一个类或几个类,赋予一定的分类标识(语词的、 分类号、某种代码)。
2.1 网络信息自动分类的类型
网络信息自动分类根据目的性,可分为自动聚类和自动归类两种类型。有时也将自动聚类 和自动归类作为自动分类的两个过程。
2.11 自动聚类
就是由计算机系统对待分类文本进行分析并提取有关的特征,然后对提取的特征进行比较 ,根据一定的规则将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大 致相等。自动聚类目的是为编制分类法、维护分类法,在已有信息中定义符合实际情况的类 。在网站的非主要分类体系中,也可以用自动聚类的方法自动生成栏目内的类别。自动聚类 要以相应的词库和规则为基础,主要方法有数值矢量法、系统聚类法、图分类聚类法、逐步 聚类法、模糊等价聚类法、引文聚类法等。
2.12 自动归类
一般也称为自动分类,就是计算机系统对待分类文本进行分析并提取有关的特征,然后与 既定分类系统中对象所具有的公共特征进行相关性比较,将对象归入特征最相近的类中。自 动归类的目的是把各种未整序的信息纳入已建立的分类系统之中。主要用于搜索引擎或网站 分类导航系统的管理和数据实时更新。自动归类根据使用的技术通常分为基于词的自动分类 (词典法)和基于专家系统的自动分类(知识法)两大类,也有人把界于两种技术之间的称为基 于信息的自动分类。
基于词的自动分类。是目前较成熟的使用较多的自动分类技术,核心是把从待分类文本抽 取的代表知识主题的语词与分类系统中代表各个类目含义的语词进行相符性比较,把分类对 象归入相符程度最高的类中。基于词的自动分类要以分类系统与分类规则、词典为基础,主 要应用文本分词技术、词频分析技术、权重评价技术、相似度分析技术。
基于专家系统的自动分类,也就是基于人工智能的自动分类。专家系统是一种在特定知识 领域内,以人类专家的水平,去解决该领域问题的计算机程序,一般由知识库和推理机组成 。知识库储存由专家那里获取的某领域的专门知识,推理机具有推理功能,根据知识推出结 论。基于专家系统的自动分类,在文本中抽取分类特征时具有自然语言理解能力,抽取最能 代表信息中知识主题的概念,再将分类对象的特征与知识库类别特征进行比较时,能模仿专 家的思维推理、判断,它的自学习功能还会不断完善知识库。基于专家系统的自动分类,核 心是知识库和知识表达,知识库是人工建立的分类体系、语义网络和分类规则等,知识库的 规模影响着系统的智能水平。知识的表示有逻辑表示、特性表示、框架表示、语义网络表示 、过程表示等。由于不同知识领域使用不同的知识表示方法,通常把一个综合的知识库划分 成若干专业知识库。
基于信息的自动分类。抽取文本分类特征时不局限于词,是一种有选择的概念抽取,只抽 取对分类有用的信息,对上下文敏感,可处理没有关键词的文本,对互联网信息适应性好。
2.2 网络信息自动分类的程序
网站的分类导航系统是“分类法-分类目录-分类组织的网络信息”,以及相应软件、硬件 是一个整体。网络信息的自动分类大致包括信息采集、文档表示、抽取分类特征、相似性匹 配、网站信息整理等步骤:
1.网络信息的搜集由网络机器人(Robot)按一定的规则和策略往复循环地进行,也可以把机 器自动搜集与人工搜集结合起来,采集后的信息存放在临时数据库中。
2.对网站的主页信息进行加工,去掉其中无意义的标记、文字,形成主页的文本。
3.对主页的结构布局进行分析,根据HTML标识分清各个组成部分,如主页的标题、文摘、 关键词、总目录、栏目的标题及子目录等,以判断网站的主题范围。
4.对文本进行分词,抽取表达网站主题内容的语词。
5.通过分析语词在网页的重要程度、词频统计,给出语词的权值,根据权值的大小决定哪 些语词作为网站主题内容的特征项。
6.将抽取的特征项与分类知识库所形成的矢量空间模型进行相似性匹配,以能涵盖各特征 项的类目为主要类目(包括交叉类目),再找出与其他特征项相匹配的类目为次要类目(包括 交叉类目)。这是自动分类的关键一步。
7.通过人工或计算机编制网站的提要及其他说明标识。
8.把经过标引、著录的网站存入索引数据库。
9.把该网站加进分类导航系统,并自动进行排序。
3 网络信息自动分类若干问题的思考
3.1 人和机器的分工问题
由人工进行网站信息的搜集和标引所建立的分类导航系统,要比通过计算机自动搜索、自 动标引建立的导航系统质量高,因为对事物的逻辑分类要比抽取语词建立字顺索引复杂得多 , 起码短期内人工智能是无法和人脑相比的。因此,网络信息的分类系统应当把人工的工作和 计算机的工作结合起来,根据各自的优势进行分工,合理的人机分工可以充分发挥各自的优 势,使网络信息的分类既高质量又高速地进行:
从内容范围上分工。由于各主题范畴、各学科领域的信息在语义、语法等方面差异很大, 类目的等级关系判识的难易程度也不一样,可把人工智能容易完成的主题范畴以计算机为主 、人工为辅来进行;对于重要的主题范畴以人工为主,计算机为辅。
从对象上分工。网站信息的分类以人工为主,网页及全文信息的分类以计算机为主。
从智能程度上分工。由计算机完成复杂主题或新主题的定类初步判断,人工完成最后的判 断;计算机提出增加新类或删除旧类的建议,由人工进行最后判断;以人工为主完成分类规 则的修订与维护、专家库的维护。
从工作性质上分工。由计算机完成文本预处理、文本分析、分词、抽词、统计、词典维护 、信息著录等巨大数据计算以及事务性工作。
3.2 网站信息的分析和提取问题
传统文献的自动分类是依据人工录入(或扫描/转换)的规范文本,所以分类的特征只需在文 本本身中分析。在网络信息自动分类中,“文字的重要性”是抽取分类特征的主要依据。文 字的重要性一是表现在某词使用的频率,二是文字信息在网页中的表现形态,三是网页信息 对“重要文字”的支持程度。只有将这三方面的因素综合考虑,才能科学地确定它们的权值 ,使自动分类建立在客观真实的基础上。要注意下述几方面的问题。
1.全面分析网站内容的知识范畴。正如传统文献分类时要通过提要、目次、章节的分析概 括文献的整体主题一样,网站的分类也要综合分析它整体属于什么知识范畴、各个局部属于 什么知识范畴。
2.页面中有〈title〉、〈mita〉等标记,描述页面的标题〈title〉、页面描述〈descrip tion〉、关键词〈key words〉等,是分析整体主题重要的依据。
3.网页中有大量对判断主题内容无意义甚至干扰的文字,如广告、“加入书签”、“留言 ”、“调查”等应预先加以剔除。有时网站的首页并无实质性信息,如同传统文献的扉页, 应当加以忽略,以其次页为分析的主要依据。
4.主页导航条(通常以框架的形式或固定页面形式出现)、栏目的划分及标题的文字相当于 第一级目录结构,重要性大体与关键词相当。
5.文字在网页中的位置、字体字号、特殊标志,往往是反映某文字不同的重要性。
6.网站首页信息的真实性和丰富性对判断一个网站的真实主题和质量十分重要,仅仅扫描 首页的文本是不够的,至少要对其第二个层次进行检查。例如各个一级标题下是否链接有网 页,链接的层次越多,包含的信息越丰富,否则可能是未完成的或虚假的信息。首页链接的 网页地址如果是在自己网址后展开,说明它自身的信息丰富,如果大量指向其他网址说明它 自身信息匮乏(专门导航的网站除外)。
7.除了文本信息资源外,网上还有大量图形、图象、音频、视频、程序等有价值的信息, 自动分类时也应当充分予以揭示,否则不能反映网站的真实主题和价值。鉴于多媒体信息描 述和检索的复杂性。可采用非文本文件附带的少量文本信息与文件类型相结合的方法判断, 比如与“汽车”链接是大量的bmp、jpg、gif文件,那么“汽车图片”就可以作为分类特征 项,wav、mp3、mid等文件也是如此。通过网页设计常使用的目录,如:download、gallary 、album、photo、pics、image、mp3等再结合目录下的文件类型分析也是检查非文本资源的 途径 。除了html、txt文件外,网上还有XML、PDF、CAJ等格式的资源,网页信息抽取系统只有具 备识别多种文本的能力,才能全面地抽取网页的主题特征。
8.专业数据库是网上非常有价值的资源,当一个网站或网页链接着若干数据库,应当给予 充分的重视。
9.一些在传统文献主题分析和标引时可以忽略的语词,在网络信息抽取和分类中可能很重 要,例如机构、公司、地区、人物、情感、明星等,因为在网络信息分类法中,这些往往是 聚类的标准。
除此之外,在抽取网页主题特征、设计权重时,网站的类型、网站的性质也是一个影响因 素,因为不同类型的网站在网页设计上各有自己共性,表现文字重要性的手法也有共同之处 。
3.3 分类知识库的构造问题
在网络信息自动分类中知识库起着至关重要的作用,从网页文本抽取的主题特征要与知识 库中的类目所表达的主题进行相似性比较,只有对网页文本主题的表达和对类目主题的表达 都达到真实、准确、明晰的程度,才能实现精确的自动分类。
1.分类知识库要有完备的词典和语料库的支持。不管是网络信息文本还是分类体系的类目 ,它们的知识内容都是依靠概念——语词来表达、传递,要把各个作者、用户、系统关于某 一概念使用的不同语词,进行翻译、转换、沟通,就必须借助词典来完成,象同义词典、关 键词词典、词性词典、停用词词典等各自发挥着不同的功用。
语料库是大量能代表某一领域的语言现象的真实语言材料的集合,经过加工的熟语料库进 行了词性标注,句法标注,语义标注,词汇的固定搭配、语义特征、词间的约束条件等都可 以由语料加工获得,为消除词汇的歧义提供依据。在语料库支持下的词典将更能发挥自然语 言和人工语言间的翻译和转换功能。
与一般机读数据库标引和检索系统使用的词典不同,用于网络信息标引的词典及知识库是 处在实时更新状态中,与自然语言的发展变化始终保持着同步。
2.知识库的主要部分是分类法的语义网络系统和分类规则及其关系模型,全部类目的含义 、类目间的等级关系、类目间的交叉关系、类目间的链接关系等得到最完整的描述。网络信 息分类法在用户界面只显示类目名称和所属的网站信息,类目的含义是靠等级的限定和承接 上级类名内涵实现的,例如“陈娟红→模特→服装→生活服务”,没有上一级的限定就无法 判断此处“陈娟红”的真实含义,而在分类知识库则根据每个类目字面就能独立判断其主题 内涵及外延。
(1)知识库是一个主题的分类系统,也就是分类主题一体化的术语系统,每个类目都是一个 主题,类名即主题词,所有主题按知识领域聚类并编列成等级相关系统。每一个主题既有字 顺属性又有类别属性,从而可以方便地进行分类与主题的转换。
(2)分类标记。在用户界面不需要分类标记,但在知识库可以用分类标记作类目的代号,记 录类目的属性、特征、位置、链接,便于系统进行判断、运算和转换。分类标记以严格等级 制的数码编号为宜,可使用千分法以保证足够的灵活性和容量,由计算机根据类目体系直接 配号和修订无须人工干预。使用分类标记也有利于类名修改,类名修改后类目的属性、地址 、链接无须变动。
(3)类目含义的表示。一是用概念规范类名,如“商业经济”规范为“经济 金融 贸易” 使之与其外延相符;二是使用若干主题词组成主题词串进一步描述类目的知识范畴,作为相 关性比较的依据;三是列举该类包括的全部主题概念(不包括属于下级类目的)。信息文本的 自然语言经关键词库转换为规范语言后,再与类名、主题词串、包含的主题概念进行相关性 比较。
(4)类目关系的表示。类目的等级隶属关系由类目树结构和类目的级别限定。类目的交叉关 系。一个主题按其主要属性归入一个主要类目后,可以再按其他属性归入各相关类目并给以 分类标记、指向其主要分类标记。主要分类体系与次要分类体系的对应相关类目也以分类标 记相连接,这样一个新网站只要归入主要类目,也同时在各个相关类目、各次要分类系统下 显示。
(5)分类规则。主要是处理上位类和下位类的外延包含关系,以及一个主题概念同时出现在 若干类目的归属判断。前者可通过设定一个阈值,当信息的主题范畴超过多大范围时,自动 沿等级逻辑上推到合适的类目。后者主要通过主题词串的组合和上位类的限定来判断。
(6)由于各个知识领域的信息在语词、语义、语法等方面都存在着差异,为减少建立统一知 识表示模型的难度,可采用按大的知识范畴分别建立数据的方法降低自动分类的难度,如计 算机与网络、科学技术与工程、社会科学与人文科学等知识库。
(7)建立样本库。计算机的推理判断是模拟人的思维方式和过程,建立足够大的样本库让计 算机从人对文本和类别之间相关性判断来学习这种词汇转换,即学习文本用词和标记类别之 间的关联,是提高自动分类准确度的必要手段。