知识发现在查新咨询中的应用_相关性分析论文

知识发现在查新咨询中的应用_相关性分析论文

知识发现在查新咨询中的应用,本文主要内容关键词为:知识论文,查新论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在网络环境下,如何更好地利用网上知识开展有效的科研查新论证服务,是当前查新咨询领域中的难点之一。传统的科技查新,主要根据用户提供的查询条件,从手工检索系统和相应的文档数据库中检出相关的知识或信息,进而求证科研成果的新颖性、创造性与实用性,这已难满足用户的要求。基于网络环境下知识发现技术的应用,给科技查新工作注入了生机和活力,为查新领域开辟了一个全新的服务空间。从发展趋势看,它将逐渐影响或改变查新咨询服务的观念和工作方式。

知识发现(knowledge discovery)是在新的技术环境下产生的,有着广泛应用前景的新领域,其所研究的主要目标是采用有效的技术方法,从大量现有的或历史的信息集合中挖掘、发现并找出未经厘定的、经过分析研究最终可以理解的有用知识,并用不同的方式显示出来,以利于信息管理、查询优化、决策支持的应用。在国际上,知识发现技术在健康、科学数据分析等领域得到广泛应用。在查新咨询工作中,依据课题的属性或学科体系去发现与挖掘网络中的相关知识,其内容组成可概括为以下部分:

1 网络信息的挖掘

网络信息的挖掘是指围绕查新课题的要求,在已知数据库的基础上分析数据的内在特征,并以此为依据,在网络中进行有目的的信息搜索与提取。根据fraulywj和shepiro GP等人的定义,信息挖掘就是数据的挖掘,而数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识。这些知识对查新课题来讲是隐含的、事先不知道的、潜在的有用信息。利用网络进行信息挖掘的手段和方法很多,但比较有前途的、优良的分析与挖掘技术主要限定在:

1.1 OLAP(联机分析处理)与DM(数据挖掘)技术

OLAP与DM是基于数据仓库技术而发展起来的信息分析与挖掘工具,在实际应用中各有侧重。前者是验证型的,后者是挖掘型的。OLAP建立在多维视图的基础上,根据已有的模式将直接源自数据仓库中的不同信息源中大量相关信息联系起来,以给分析与使用人员一个清晰、一致的视图。OLAP主要有两个特点:一是在线性(on-line),即对用户的请求做出快速响应;二是可以应用多种统计分析工具与算法,对数据进行多维分析(multi-analysis)。DM是建立在各种信息的基础上,重在发现隐藏在大量原始数据深层中对人们有用的知识。抽取的其中知识必须具有可信、新颖、有效、易于理解的特点。DM具有几种知识处理的技术方式,它们是:联合,根据信息的内在机理揭示信息的关联程度;分类,目的是把新的知识记录分配到预先定义好的类系中;聚类,按照类似性、多族性、类间相似性的原则,对数据集合进行分组。这其中DM要涉及到两个主要过程,即模型的建立过程与未来结果的预测过程。在这些过程中,会应用到多种相关技术。如统计分析等技术方法,是最早使用的且容易理解的技术方法;神经网络,是随着技术的发展近年人工智能中最流行的工具,人们可通过数学的方法认识其工作过程;决策树,是一种简单概念演绎的数学方法;遗传算法技术,则是利用自然选择和遗传结合的特点来对微生物的进化加以研究的技术方法;此外还有模糊逻辑法,简单地说,是一种数学公式的新解方法;基于记忆的推理(memory-based.reasoning)技术,是一种通过与同类比较给数据库记录分类的技术;混合方法,将以上各种不同的方法按分析需要混合使用。

1.2 OLAM(On-Line Analytical Mining)技术

OLAM是OLAP和DM相结合的产物。OLAM兼有OLAP多维分析的在线性、灵活性和DM对数据处理的深入性。因而可在更高层次上满足查新网上信息分析与挖掘的需求。应该讲OLAM目前还处在研究试验阶段,但是,针对OLAM的发展趋势和基本结构,已显示出极其丰富的内涵和活力。主要是:OLAM建立在多维数据库和OLAP的基础之上,能对任何想要的数据进行挖掘;用户对挖掘算法具有动态选择的权力;具有强大的基于多方位的挖掘算法;能够最大限度满足查全率与挖掘准确率,具有较高的灵活性和良好的扩展性。

1.3 智能信息捕捉技术

本技术主要使用智能信息捕捉器,依赖于成熟的caching web技术,立足于某一领域的信息需求,以自动捕捉、采集、整理课题查询所需求的信息为目的,按着领域知识规则进行分类,建立相应的数据库,根据确定的捕捉需求,查找信息源登记表,然后根据信息源提供的信息目录筛选信息源。信息源确定以后,按着逻辑要求自动组织搜索,最后过滤冗余信息,智能概念抽取,最后生成概念摘要。

1.4 一般网络挖掘技术

Internet网上的检索工具很多,适应范围也各不相同,根据查新课题的属性,大体可以分为4种类型,即适用于Telent的Hytelent;用于查找Ftp信息的Archive;用于Gopher的Veronica;用于www(万维网)的检索工具。目前最常用的还是www检索工具,已有数百个www搜索引擎(search engine)在Internet上投入运行,是Internet知识发现的主要工具。www查询引擎可分为范围层次的查询引擎(list-based search engine)和词语查询引擎(word-based search engine)两大类,为弥补分类法和主体法的不足,范畴层次查询引擎主要有: Yahoo、Infoseek、GNN、Galaxy、www、virtullibrarv等。这类搜索引擎适合一般查新课题的使用,虽然查全率较高,但查准相对较难;词语查询的搜索引擎主要有:webcrawler、lycos、Altavista、Opentext、Excite等,它们适合具有检索技能的用户使用,不仅查准率较高,而且检索结果按相关程度予以排序输出。

2 网络信息的序化

从网上挖掘到的信息,通过相应的软件可直接下载到设计好的数据库里,按照一定的标准,进行必要的排序与整理,以备查新课题咨询论证的选用。其有序化的过程主要包括两个方面:

2.1 信息的归纳与组织

信息的归纳组织过程通常分为两个阶段,即序化阶段和优化阶段。信息的序化是按照科研课题的属性将无序的信息组织成有序的信息过程,它包括两层含义:一是把与查新课题没有必然联系的信息,为了利用上的方便加以组织;二是把本质上与查新课题内容具有必然内在联系的信息,按照其自身的客观逻辑规律,加以组织。信息的优化则是在序化的基础上,针对某种要求,依照结构功能化原理,对信息进行再序化的过程。它是对下载的查新信息序化的继续和升华。在实际操作中,信息序化和优化往往没有明确的界限,它们是一个辩证的统一整体。

序化组织的具体操作应依据信息的内容,信息的组织内容主要有三个层次,它们分别是语法信息、语义信息和语用信息,以及与其分别对应着信息形式、信息的内容、信息的效用三个层次。这些层次也就构成了组织查新咨询信息方法的主要层次。语法信息组织,依信息的形式特征为依据对信息进行序化归纳。遵循方便性、多向成族性和标准化原则;语义信息组织则要遵循目的性原则、实用性原则和个性化原则;语法信息组织最重要的特征是标准化,予以信息组织最重要的是能够反映事物的本质属性以及事物之间的联系和区别。它们不仅有序化的功能而且还兼备引导和认识的功能,语用信息组织的主要特征是能够反映和满足课题的信息需求,是一种应用性的信息组织方法。

2.2 信息的判别

查新咨询项目依赖于经过系统化组织的网络挖掘信息,以及信息相关性的组织与密切相关性的分析。而相关信息与密切相关信息的确定,则与查询人员对相关信息和密切相关信息的理解与掌握程度有关。但就相关信息和密切相关信息的准确定位,还必须结合查新咨询课题与之对应的信息类型与学科范围做出分析评价。就相关信息而言,是指是否和查新项目的整体概念相吻合,也就是将查新项目的名称和研究内容作为整体分析,提取其典型的信息特征,然后去匹配与查新课题信息特征相对应的挖掘信息;就密切相关信息而言,主要是指与查新课题研究方法、研究过程、研究结果的信息特征基本吻合及相同的信息。

3 网络信息的应用

挖掘信息经过分析组织,在查新咨询中得到应用,其领域主要限定在查新课题的选择到应用的论证。信息咨询论证服务的内容,主要取决于信息论证目标所处挖掘序化的信息系统和环境,以及影响系统和环境的相关因素。但一般运用网络信息来论证服务的课题内容主要有:

3.1 课题选择的论证

实现科研攻关课题的前提是要做到准确选择课题。信息论证咨询服务为保证实现科研正确选题,要点在于筛选出与科研课题密切相关的、对深入研究有重大影响的基础学科、应用学科及工程技术领域中的网络信息,并在此基础上,提供该课题完备的信息佐证。通过调查研究,运用不同的信息分析技术,弄清课题的难点、顶点、热点和起点。难点的内涵是为提高科研课题的科学性,搞清顶点可明确课题所处的水平状态,清楚热点是要把握课题新颖程度,摸清起点是为掌握实际达到的国内国际水平。其最终目的是为使科研选题瞄准前沿领域,保证科研决策有预见性。

3.2 课题的论证

科研课题一旦确立,必须尽快实施。信息论证的要点就是保证在科研进程中少走弯路,把握住正确的科研方向。此时运用网络信息咨询论证的要点主要放在课题设计的合理性、技术路线的可行性、科研条件的完备性、不同科研阶段的进展及实效性方面。考虑到课题实施过程中的复杂性和系统的不稳定性,使用网络信息论证咨询的目标体系也必须是动态的、逐步充实的过程。其核心则是紧紧抓住系统中的不稳定因素,诸如课题条件的变更,课题相关的专业信息,阶段性研究报告的可信性、可行性等。在技术手段上也应提供技术性、工艺性的网络信息服务,跟踪国外相关研究报道,不断地对科研过程中技术路线进行修正。

3.3 课题研究效果的论证

科研课题的最高形式是科研成果的实现。作为课题最终研究的结果或是一种产品、一种实验方法、一种新的用途、一种新途径,已经得到确定和使用。此时利用网络信息服务的目标则是要依据业已确定的各种指征来进行匹配分析。其主要有:成果的先进性、创造性、新颖性、实用性四个方面。新颖性主要采用相同信息排斥法来确定立题目的,其解决问题的手段及获得的预期效果与已有技术信息是否相同,相同,则说明缺乏新颖性;先进性则采用横向比较、纵向比较以及时间参量等信息分析论证其研究成果是否符合发展趋向;创造性则要依据要素省略原则、领域转用原则、组合难度原则等技术方法信息进行分析论证,审视科研成果实质上的技术进步;实用性则基于社会效益信息和经济效益信息两个方面进行分析论证。

3.4 课题成果转化的论证

科研成果的转化主要是实现其价值的转换,尽快形成生产力。利用网络信息对科研成果转化的分析论证常常借用信息模型来反映论证服务的过程。其中包括四个基本信息要素:一是成果本身,成果自身的特征信息将直接影响转化方式和采用者行为;二是传播与渠道,即成果信息传播的渠道与方式;三是社会系统中的部门,转化过程中涉及的个人、团体、组织和部门等;四是时间,用以度量转化速率,反映采用者的变化信息,分析转化的时间效应信息。四项基本要素共同组成了成果转化中的网络信息服务体系,按照科技推广的客观规律,网络信息咨询服务必须把握需求导向与多重效益相统一的原理,最终实现科技活动、技术商品与技术市场需求协调一致的信息咨询论证分析目的。

综上所述,查新咨询服务的主要任务是如何找到与需求相吻合的网络相关信息。为了增强其准确性、有效性以及快捷性,研究与实践网上优良的信息挖掘技术,即知识发现技术,是可靠的信息资源保障条件之一。通过对网络信息的厘定分析,组织序化,使查新咨询论证课题实现服务智能化、便捷化、高效化,对查新工作的深入开展必将产生极大的促动作用。

标签:;  

知识发现在查新咨询中的应用_相关性分析论文
下载Doc文档

猜你喜欢