摘要:当前,Deep Web中蕴含着高质量的海量信息并且其数量还在不断地增长,由于Deep Web具有分布、异构、自治等特点,用户高效、快捷地获取自己感兴趣的信息面临巨大挑战。然而,将Deep Web数据源按领域分类是解决这一挑战的基础。因此,研究Deep Web数据源的组织问题具有重要意义。本文提出了一种新的深层网络数据源分类方法以及改进的查询接口相似性度量方法,实现了按照现实领域自动组织大规模深层网络数据源的目的。
关键词:深层网络;数据源自动分类;表单特性;查询接口标
1 介绍
以深层网络查询接口集成关键问题的研究路线为背景,基于国内外深层网络数据源分类的相关研究成果以及大量深层网络数据源的统计和分析,本文提出了一种新的算法TAF-SSCC,该方法结合了半监督K-Means方法与分类方法,并且它既利用了表单属性可视化特征,又利用了页面主题特征;提出了一种基于领域主题特征词的查询接口标记方法,该方法解决了初始点选择好坏的问题;提出了一种自动构建领域主题特征词词典的方法,同时利用属性同义词词典很好地解决了属性标签间的异名同义问题;本文还提出了一种改进的接口相似性度量方法,用于深层网络数据源的分类。
深层网络数据源分类是指按照现实世界的领域组织数据源,以便用户高效地获取自己所感兴趣的领域信息,从而为数据集成的其它任务完成预处理操作[1]。由于用户获取后台Web数据库的内容信息只能够通过查询接口来访问,因此本文深层网络数据源的分类问题等价于对深层网络查询接口的分类,后面所述的数据源没有特别说明均指查询接口[2]。
2深层网络数据源分类的相关研究
定义 1(深层网络领域隶属度DMD):指深层网络查询接口title标记中某个term刻画该领域的能力,即术语term隶属于该领域的程度。
定义 2(深层网络领域主题特征词DTT):指深层网络查询接口title标记中能够描述某个领域主题的词或词语。
定义3(基于领域主题特征词的深层网络接口模式ISDTT):ISDTT是一个二元组(T,F)。T为title标记包含的领域主题特征词集合,即,其中ti表示title标记中出现的领域主题特征词,1≤i≤n;F为查询接口表单属性集,即,其中表示查询接口表单中的属性标签,1≤j≤m。
定义4(深层网络领域主题特征词集):,其中, >>...>,为:领域主题特征词隶属于该领域的隶属度分数,1≤j≤k。
定义5(深层网络领域主题特征词词典DTTD):DTTD={TD1,TD2,…,TDn},其中,TDj表示领域Dj的领域主题特征词词集,1≤j≤k。
3.深层网络DTTD和ASD词典的构建
构建领域主题特征词词典与属性同义词词典目的在于:形式化描述查询接口模式、标记策略模块进行查询接口标记、辅助度量接口相似性及后分类模块再次分类。在文本领域中,针对术语的自动化抽取的研究已经非常成熟,大体上分为三类:基于规则的方法、基于统计的方法和基于规则与统计相结合的方法。由于基于规则的方法在构造规则库时费时费力并且覆盖面窄,而基于统计的方法则依赖于语料库的规模。因此文本领域中术语的抽取往往采用基于规则和统计相结合的方法。
对于某一个领域而言,尽管查询接口数不断激增,但其属性个数却是保持在一个相对稳定的水平,即对一个领域来说,属性个数是收敛的。因此,属性同义词词典(ASD)的半自动化或自动化构建具有一定的可行性,但是这将面临两大挑战。
第一自动化抽取深层网络数据源的属性标签;尽管HTML标准协议中提供了一个使描述信息与单个表单元素相关联的“Label”属性,但是该属性使用的并不广泛。通常来说,表单属性标签的布局形式多种多样。如:标签可能放置在表单元素的上面、左边、右边、下边、元素内部等;而且一个标签可能关联多个表单元素,此外标签放置在表单标记的外面。因此,表单布局设计的多样性以及表单元素和标签之间嵌套关系的多样性使得自动识别出相应的属性标签成为一项挑战。现已存在的方法大部分采用启发式的方法或者是人工指定抽取规则,这些方法均无法完全实现自动化抽取,而Hoa Nguyen等人提出了一种基于学习的自动抽取方法—LABELEX。该方法使用学习器来识别属性元素-标签映射,然后利用分类器派生映射来改进抽取准确率。本文采用LABELEX方法实现查询接口表单属性标签的自动化抽取。
第二自动化构建属性间的模式映射关系。尽管根据前面的观察可知,每个领域的属性都是收敛的,但是自动识别属性间的匹配关系也是一项艰巨的任务,本课题组针对查询接口的模式提出了基于本体的深层网络模式匹配方法,简称为本体匹配法,该方法利用领域本体进行属性扩展,提出扩展属性模型,然后利用扩展属性模型进行模式匹配。本文采用课题组的本体匹配法,并结合人工验证实现半自动化模式匹配。
综上所述,本文进行人工参与的半自动化建立属性同义词词典具有一定的可行性。本文构建属性同义词词典的步骤主要如下:1、利用Hoa Nguyen提出的LABELEX法自动化抽取深层网络查询接口的属性标签;2、采用本课题组的本体匹配法对已自动抽取的查询接口属性标签进行模式匹配,同时结合人工验证
4 结论
目前关于深层网络数据源分类的研究主要集中在结构化的数据源,几乎没有同时考虑结构化与非结构化的数据源的相关研究。此外,大部分研究都集中在数据源的表单属性结构上,为此,本文从表单属性和主题方面来解决深层网络数据源自动化组织的问题,基于主题和表单属性,本文设计了深层网络数据源分类系统框架,提出了一种改进的深层网络查询接口相似性度量方法,创新地提出了一种查询接口标记策略,从而解决聚类过程中的初始点选择问题,此外,本文还构建了领域主题特征词词典和属性同义词词典。
参考文献:
[1]Velardi P,Missikoff M,and Basili R.Identification of relevant terms to support the construction of Domain Ontologies.In Proceedings of the ACL 2001 Workshop on Human Language Technology and Knowledge Management.200
[2]H He,W Meng,C Yu,and Z Wu.Automatic extraction of web search interfaces for interface schema integration.In Proceedings of WWW,2004,414-415P
论文作者:童海红,梁英飞
论文发表刊物:《基层建设》2019年第25期
论文发表时间:2019/12/9
标签:数据源论文; 属性论文; 领域论文; 接口论文; 方法论文; 表单论文; 网络论文; 《基层建设》2019年第25期论文;