非结构化信息管理与检索的发展现状_结构化方法论文

非结构化信息管理与检索的发展现状_结构化方法论文

非结构化信息管理和搜索的发展现状,本文主要内容关键词为:信息管理论文,结构化论文,发展现状论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 关键词全文检索技术日显局促,亟待突破

世界范围的WWW正以目前每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,在从Web或数据仓库中找到你所需要的内容却并非进展迅速,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月Nielsen Norman Group发布的2004 Web可用性调查结果显示,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%,经验丰富的用户这一数字可以达到50%[1]。 最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据Forrester Research的统计表明,非结构化信息的数量正在以每年200%的速度增长。一般员工大约要花费35%的时间寻找工作所需的非结构化信息[2]。由此可见,搜索引擎必须采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具,能同管理结构化信息一样,有效地管理我们的非结构化信息。

2 有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出

2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为“智能搜索”,这样的搜索引擎一直以来都是人们的梦想,或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术[3]。一旦它成功,桌面搜索的格局自然也会跟着发生翻天覆地的变化。

如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

2005年元旦刚过Blinkx进入中国市场,其中文测试版已经“竣工”。目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统[5]。

Autonomy公司是Blinkx公司的股东之一,Blinkx的核心技术也来自Autonomy,因为这种密切关系,Blinkx被认为是Autonomy的“样板工程”。此前,Autonomy一直像汽车发动机一样隐藏在幕后。Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声显赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且,Autonomy还是一个“历史悠久”的IT公司,同时在美国和英国上市,拥有超过1.47亿美元的现金。

3 Autonomy的模式识别技术,可以帮助用户发现一些事前不知道的相关信息

目前,人类研究的信息搜索技术有四个方向:关键字搜索,模式识别,语义分析,神经网络。除了关键词搜索比较成熟外,其他三项技术还处于待开发状态。模式识别的代表者就是Autonomy,语义分析和神经网络两个技术方向目前尚无压倒性的代表者,一年半载不会有突破性的研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。

采用“模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索,可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果有“大海”这个词,这篇文章有可能和企鹅有关,但是“大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄露”等这些词,这篇文章是在谈论污染和企鹅的概率就会很高。虽然整篇文章里没有“企鹅”这个词,但是很多相关度较低的词出现在一起就会带来很高的相关度,并且缺少某个描述词对其产生的结果影响微乎其微。

如果说传统的“关键字”搜索方法为“search”(搜索)的话,autonomy采用的“模式识别”方法则应该称为“discover”(发现),因为它可以让用户找到一些事前他们不知道的信息[6]。Autonomy产品中提供的“聚类”功能正是“从搜索到发现”的最佳表现。

目前,Autonomy在国外比较成功的应用案例集中在媒体、政府机构、金融和信息产业等需要集中处理大量非结构化数据的领域。2003年3月,Autonomy进入中国市场,目前主要集中在电信和政府市场。Autonomy追求建立符合企业内部数据管理需求的平台,可将放在不同位置的不同类型的数据进行有效梳理。Autonomy曾经在美国安全局、美国国防部、美国航天局、英国警察署和美国陆军有过成功应用[7]。对于网络上出现的大量的有害信息,Autonomy可以做到事前发现,从而帮助政府机构采取及时地反应。例如,政府有关部门要打击网上非法买卖违禁药物,使用“摇头丸”、“兴奋剂”等关键词搜索出来的内容多数是关于药物危害、打击犯罪等方面的正面文章,而出现“兴奋”、“购买”、“单价”等关键词的文章,则与非法买卖违禁药物的相关度最高。通过这种非关键词搜索的“模式识别”搜索,政府监控部门可以有效打击日益猖獗的网上犯罪。所以政府机构和一些需要对信息进行监控的机构是该系统在中国的潜在市场。

4 Autonomy的技术特点和优势分析

Autonomy软件设计的原则是无需用户改变已有的使用习惯,甚至无需改变已有的用户界面,它支持所有传统的检索和设置方式,包括关键词、逻辑语言、布尔语句等,同时提供给用户更多、更简洁的定义方法,如对所需信息的自然语言描述、文章概念的定义,还可以通过反馈的文章作为例子来训练个人聚焦和频道。此外,它能够通过自身软件架构的灵活性去适应已有的系统架构,嵌入到已有的应用中去,在用户熟悉的界面之下提供新的功能。Autonomy中最关键的部分就是它的动态推理引擎(Dynamic Reasoning Engine,简称DRE),其中信息的概念分析、内容提取、概念模式识别、相关度计算等关键工作都是由该动态推理引擎完成。当用户发出搜索指令后,它可以通过相关方法从互联网、企业内部网、终端计算机等不同位置的信息源中找到与用户要求最匹配的信息[8]。它的技术特点主要有如下几点:

4.1 自动内容综合和精炼

Autonomy能操作的信息同样包括各种结构化、半结构化和非结构化数据,如RDBMS的表格、Lotus Notes等结构化数据,以及HTML页面、Word文档、电子表格、电子邮件非结构化数据等。而且它可以综合及理解丰富的多媒体内容,包括音频、视频、图像文件等。综Autonomy能够自动综合来自200多种不同格式数据源的内容。所有综合后的文件如有任何改动都可以在Autonomy的基本结构和数据源之间保持同步。

4.2 个性化操作

Autonomy的自动建档功能可以准确理解个人和企业用户的使用习惯和兴趣爱好,并能进行追踪。根据直接档案和隐含档案可以生成每个用户的多侧面概念型档案,它们可以自动追随用户当前的兴趣,而无需用户多次填写任何形式的表格。Autonomy自动的个性化解决方案可以将用户与有共同兴趣的档案或有间接关联的档案匹配起来。

4.3 信息自动分类、聚类定义、索引

Autonomy独有的自动信息聚类避免了手工分类的麻烦,可以将相关网站信息进行全自动分类,能实时、客观地反映每个科学门类的信息变化,这与其他的模板式自动分类机制有着本质的区别[9]。Autonomy的架构可以识别信息之间的主要关系,从而实现内容间的交叉索引对照,无论是什么文档,Autonomy都可以在操作层识别出与其相关联的资料。此外,Autonomy还可以对内容中最主要的概念进行总结,可以根据原始查询的上下文环境进行总结,并且将最适用的动态摘要提交给指定需求。最关键的是Autonomy的这一切工作都无需人工干预自动进行,对企业应用来说,这一点相当有吸引力。

4.4 主动匹配和信息地图

像涉及安全方面的应用可能有非常广泛的信息搜索需求,从网站上最酷的新闻到刚刚播放的电视画面,都可能与安全问题相关。利用Autonomy的主动匹配功能,可以在用户日常工作中充分利用整个企业的信息系统为各个相关部门的相关人员提供有价值的信息。主动匹配可以将典型的文档或者以数字为中心的用户界面转变成以任务为导向的智能界面,也就是说它能自动识别用户当前的问题,并确定相关信息。

Autonomy还可以自动生成二维或三维的信息图,将某一时间段的所有信息通过形象的图像展现在用户面前,帮助用户准确、及时地把握世界各地的最新资讯。例如它的最新功能可以跟踪一系列的邮件信息,告知检测者每个邮件的流向和被转发目标。它还可以将连续的信息图生成信息走势图,观察出多个时间段的信息走势,从而用户能一眼看出某一个阶段内的信息发展趋势。这是任何其他搜索系统目前还无法提供的功能。

5 企业非结构化信息搜索的商机,引得众多IT巨头纷纷加入搜索战团,处理非结构化信息的桌面搜索模式成为竞争焦点

企业网络的搜索比网络的搜索复杂很多,企业信息通常是以各种不同的格式(如电子表格、PDF、HTM网页,甚至多媒体文件)存储在各个不同的地方。同时,企业客户要有可靠的存储系统,还有协作工具、安全工具等。所以企业搜索需要具备更聪明的功能,能从各种不同的信息来源做信息的收集和关联。

企业非结构化信息搜索的商机,引得众多IT巨头纷纷加入搜索战团,处理非结构化信息的桌面搜索模式成为竞争焦点。世界头号软件厂商的微软、IBM、Autonomy、Yahoo、AOL等和Google正在开展直接的竞争,于2004年末2005年初纷纷推出了各自的企业搜索产品。

标签:;  ;  

非结构化信息管理与检索的发展现状_结构化方法论文
下载Doc文档

猜你喜欢