基于内容和协作的科技文献过滤方法研究

基于内容和协作的科技文献过滤方法研究

白丽君[1]2003年在《基于内容和协作的科技文献过滤方法研究》文中进行了进一步梳理面对因特网上日益增多的在线可读文本,文本过滤旨在帮助用户获取自己感兴趣的文本,实现信息服务的个性化,因此它具有广泛的应用背景和较高的实用价值。 文本过滤的形式可大致分为两种:内容过滤和协作过滤。内容过滤主要采用自然语言处理、人工智能、概率统计等技术对文本进行内容分析,然后与用户模型进行相似度计算,主动将相似度高的文本发送给该用户模型的注册用户。协作过滤主要利用兴趣相似用户的评价进行预测和推荐。目前它已被成功地应用于个性化推荐系统中。但随着系统规模的扩大,它的效能会逐渐降低,暴露出矩阵稀疏性、扩展性和早期级别等问题。 本文首先对文本过滤的两种形式进行了描述,然后对协作过滤技术进行了较深入的探讨。针对协作过滤方法的某些缺点,提出了一种改进的过滤算法-基于信息项的协作过滤算法。该算法有效地解决了稀疏性和扩展性等问题。本文还提出了一种结合内容过滤和协作过滤的文本过滤方法,该方法充分利用两种过滤技术的优点,有效地解决了早期级别等问题,使过滤系统的性能得到了提高。最后,本文介绍了用户兴趣模型构造方法,即显式反馈学习和隐式反馈学习方法以及实验系统中用户兴趣模型的叁种刷新依据(注册RG、查询QY、反馈FB)。 为了对我们提出的改进的协作过滤算法和结合过滤方法进行评价,我们研制了一个中文计算机科技文献自动过滤原型系统。实验结果表明,改进的协作过滤算法优于基于用户的协作过滤算法;结合两种过滤技术后的系统具有更好的性能。

银平[2]2007年在《科研服务平台PKUSpace中科技文献推荐子系统的设计与实现》文中指出信息技术技术的飞速发展与数字资源数量的爆炸式增长,使传统的以关键字为检索为手段的信息获取技术日益不能满足人们的需求。在这种情况下,个性化推荐系统应运而生。推荐系统是实现个性化服务的一项重要内容,其最大的优点在于收集用户特征资料并根据用户偏好(profile),为用户主动进行个性化的推荐,并且跟踪用户兴趣变化,实时更新推荐。本文设计并实现了科技文献推荐子系统,该子系统是北京大学与惠普合作项目PKUSpace的一部分,并得到了自然科学基金“资源服务中间件”的部分支持。PKUSpace致力于建立一个科研服务与交流平台,提供技文献的存储、共享、检索、导航等基本功能,并融入web2.0因素,提供协同标签,阅读笔记以及个人文献视图等功能,在此基础上,提供标签挖掘以及文献的个性化推荐服务。目前应用最广泛的推荐技术包括基于内容的推荐技术和协作过滤推荐技术,这两种技术都有各自的优点与不足,很多系统通过结合这两种技术来达到好的推荐效果。结合考虑PKUSpace提供的功能以及科技文献的特殊性,本文提出一个以协同标签为基础,结合科技文献的内容信息以及科技文献的引文信息,并融合了基于内容过滤与协作过滤技术的组合推荐框架。本文的新思路在于:将协同标签应用于推荐系统中。协同标签是web2.0系统中常用的组织资源的方式,本文采用的算法能够适用于所有提供了协同标签功能的系统。通过标签来表示用户的兴趣,这利用了标签的内容信息,而目前多数利用标签的推荐系统只是简单的利用用户是否对资源作标签这一信息来判断用户是否对资源感兴趣。通过用户作标签的文献的内容信息以及文献的引文的内容信息来扩展用户兴趣。以用户对资源的兴趣度来表示用户模型与资源模型的匹配以及用户对资源的评分,兴趣度的计算以基于向量点积的方法替代传统基于向量夹角余弦的方法。以多种方式组合协作过滤推荐技术与基于内容的推荐技术,并能够调整两种技术所占的权重,以适应系统规模的不断扩大。

宋立荣[3]2008年在《基于网络共享的农业科技信息质量管理研究》文中进行了进一步梳理信息质量(IQ)是信息共享发展的前提,从信息共享的本质特征看,信息共享必须解决信息质量最优化、共享程度最高效等实质问题,才能实现共享信息的价值。随着我国各类科技信息共享工程的逐步推动,共享信息的信息质量问题也日渐凸现,已成为影响我国农业科技信息共享工作中一个突出制约因素,因此,深入认识农业科技信息共享中信息质量管理(IQM)的基本特点,建立有效的IQ管理机制,解决共享中IQ问题,对于促进我国农业科技信息共享可持续发展具有重要意义。本文以目前我国农业信息网络建设和科技信息共享实践中存在的信息质量问题为突破口,通过质量管理基本理念、网络信息资源管理理论认识,以及农业科技信息共享项目运行中的现状认识这叁者的结合,从信息质量内在结构和管理角度分析了农业科技信息共享中信息质量管理的特殊性。在此基础上,引入“信息质量约束(CIQ)”这一新概念,并以构建CIQ机制为框架,形成农业科技信息共享中信息质量管理的基本内容。即:通过对IQ控制研究、IQ管理策略分析、IQ评价指标体系探讨展开论文的理论研究;最后,采用案例进行比对分析和对策建议。本文是在农业领域中首次运用信息质量管理理论和方法来分析和解决农业科技信息共享中信息质量问题,论文在以下几个方面进行了创新性探索:1、在农业科技信息共享的信息质量管理中提出了“信息质量约束”概念和信息质量约束机制。“约束”包括两方面,一是需要增加投入来消除客观存在的不足的支持性约束;另一个是对影响信息质量因素所作的必要人为设置的限制性约束,以使共享系统按照预定方向进行。在此概念基础上展开深入分析,并构建信息质量约束机制,确保信息质量管理的有效实施。2、提出了农业科技信息共享中信息质量管理的基本分析框架。它包括叁部分:从宏观和微观两个层面进行信息质量管理的策略研究、从数据和数据库两方面入手分析信息质量控制方法,以及从信息质量本身和信息质量管理评价两个角度建立信息质量评价指标体系,使形成一个基本完整的信息质量管理循环系统。3、揭示了目前网络共享环境下农业科技信息的基本质量特征。从IQ的形式、内容和效用叁个方面结构分析入手,结合专家调查,认为目前农业科技信息共享中IQ基本质量特征主要集中在真实性、可达性和实用性等叁个方面。故在信息质量管理的策略分析、控制方法、评价指标选择等方面重点关注这叁个方面。4、简明地探索了农业科技信息共享中信息质量评价基本思路。信息质量评价应从信息质量本身评价和信息质量管理工作评价两方面进行,对前者,需针对不同需求(如针对农业科技信息总体评价、针对特定主题领域和针对某一专题领域这叁个层次)建立有所选择、有所侧重的评价指标体系;对后者,应针对宏观质量约束管理和微观质量约束管理分别建立评价指标体系,以便找出影响IQ的主要影响因素,选择必要约束要素及约束指标,修订约束内容,使达到有效监控信息质量管理实施效果的目的。本项研究紧密结合我国农业科技信息共享建设中的实际情况,形成的一些观点、办法和思路,期望能为我国农业科技信息共享建设及信息质量管理研究提供理论和实践的指导作用。

李荣陆[4]2005年在《文本分类及其相关技术研究》文中认为随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。 本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发,提出多种有效的解决或改进的方法和技术。同时,对文本分类技术的一个新的研究方向——文本流派分类,文本分类的一个重要应用领域——文本信息过滤,进行了研究。本文研究内容和创新工作主要包括以下五点。 (1)训练样本的选择 训练样本的选择对分类器的创建非常重要,非典型样本不仅增加了分类器的训练时间,而且容易给训练样本集中引入一些“噪声”。论文针对KNN这种常用的文本分类方法,分析了什么是它的典型样本,提出了一种基于密度的样本选择算法。根据样本ε邻域内的样本数目估计样本周围的密度,根据样本ε邻域内不同类别样本的数目确定类别之间的边界。裁剪高密度区域的样本,减少非典型样本的数量。同时,尽量保留类别边界部分的样本,以保证分类器的准确性。 (2)基于最大熵模型的中文文本分类研究 中文本文分类和英文文本分类有许多不同之处,文本特征的提取方式、稀疏程度都有所不同,所以分类结果亦有所不同。对于最大熵模型来说尤为不同,因为汉语的熵高于英语。论文从中文文本特征的生成方法入手,使用了分词和N-Gram两种文本特征生成方法,使用了绝对折扣技术对特征的概率进行平滑处理,对最大熵模型和Naive Bayes、KNN、SVM叁种方法的性能进行了比较分析。在实验中发现最大熵模型的稳定性不够好,所以将Bagging和最大熵模型结合起来,提高了最大熵模型的稳定性。 (3)使用层次分类改善平面分类的性能 不同于以往的层次化分类,论文中使用了一种本质为图的层次结构,利用这种层次结构解决平面分类问题,从而提高平面分类的查准率和查全率。在普通的类别层次结构中,同一父类的兄弟类别之间的混淆关系是对称的,但事实上类别之间的混淆关系不是对称的。论文从分类器的混淆矩阵入手,引入了混淆类别的概念。利用混淆类别构造的类别层次结构,从查准率和查全率的角度来考虑类别之间的关系,表达出了混淆关系的非对称性。

严炜炜[5]2014年在《产业集群创新发展中的跨系统信息服务融合》文中指出作为国家创新发展体系的重要组成部分,产业集群创新是提升区域创新能力、区域社会与经济发展水平的关键。尽管产业集群所具备的区位优势有利于协同创新活动的开展,但在产业集群创新实践中,分布式创新资源仍然缺乏有效的整合与组织利用。为满足日益复杂化、综合化的产业集群创新需求,避免创新资源的重复建设,减少集群各创新主体在创新活动中获取分散创新资源的工作付出,需要集群各创新主体在创新资源共建共享的基础上,以协同创新发展理念为指导,在信息服务层面以跨系统融合为手段,充分调用产业集群创新资源,并对信息服务按集群创新阶段性需求特征进行组织加工,以推进面向产业集群的跨系统协同创新发展。当前,国内外均逐渐开始重视对信息服务融合的探索,针对产业集群协同创新开展跨系统信息服务融合研究和实践,不仅是推动产业集群创新活动高效运作的迫切需求,也是实现区域创新发展乃至创新型国家战略的必然选择。本文在梳理国内外产业集群创新和跨系统服务融合研究现状的基础上,以产业集群发展中的创新交互关系演化与信息服务变革为指导,引出产业集群创新发展中的跨系统信息服务融合问题,明确面向产业集群的跨系统信息服务融合需求与发展定位,在探讨产业集群信息服务融合组织架构与技术实现方法的基础上,构建了产业集群信息服务融合平台,继而详细阐述了按知识创新价值链各创新阶段需求进行信息服务融合的实现方法,并通过对光电子信息产业和纺织服装产业进行案例分析,提出产业集群跨系统信息服务融合的推进策略。文中附有图80幅,表14个。全文约18万字,除绪论外共分为8个章节,内容如下:第1章,产业集群创新发展与产业信息服务的跨系统融合。产业集群创新对于区域科技创新发展和创新型国家建设具有重要推动作用。产业集群成员组织间的多元化创新交互关系体现出了协同演进的趋势,而依托于协同创新导向下的信息服务变革,信息服务跨系统融合将促进产业集群协同创新活动的有效开展。本章从产业集群创新结构与集群成员间的交互关系入手,从多学科视角揭示了产业集群发展之中集群协同创新的演进,继而以产业集群协同创新为导向,指出了面向产业集群的跨系统信息服务融合趋势,并论述了跨系统信息服务技术由数据整合向信息集成,并最终朝信息服务融合发展的过程。第2章,产业集群发展中的跨系统信息服务融合需求与定位。产业集群发展中的跨系统信息服务融合是个系统化工程,需要产业集群创新主体之间的协同参与,并进行科学的服务融合发展定位。本章在分析产业集群创新主体的差异化信息服务需求的基础上,探讨了协同创新导向下的产业集群信息服务融合组织需求结构,并分别利用系统动力学分析方法揭示产业集群跨系统创新服务融合的因果关系,利用结构方程模型分析方法验证影响跨系统信息服务融合行为的因素,从而明确了产业集群发展中的跨系统信息服务融合任务、功能定位与目标选择。第3章,面向产业集群的跨系统信息服务融合架构。依据产业集群协同创新中的跨系统信息服务融合需求与发展定位,跨系统信息服务融合需要分步、有序地开展。本章首先从资源要素和功能要素角度归纳了产业集群创新主体的信息服务融合要素;其次,在分析信息服务融合方式和特点的基础上,提出汲取信息融合、过程融合以及网站融合方式的优势,实现从信息、流程到布局展示的混合融合方式;进一步在信息服务融合的组织中,阐述了数据层面基于语义的数据融合方式,以及功能层面以产业集群知识创新价值链创新阶段为依托的跨系统信息服务融合架构模式。第4章,产业集群背景下跨系统信息服务融合的技术实现。为实现面向产业集群的跨系统信息服务融合,本章分别从分布式超媒体系统的架构风格的RESTful轻量级接口技术、基于元数据驱动的微件独立部件封装技术、具有流程逻辑性的管道框架体系等层面阐述了信息服务融合的技术实现方法。以此为基础,提出了面向产业集群的跨系统信息服务融合平台建设的目标和构建原则,并按信息服务融合平台的资源层、数据融合层、微件层和微件封装层的分层架构形式,提出了产业集群背景下的跨系统信息服务融合平台构架。第5章,产业集群创新导向的跨系统融合信息服务的协同推进。产业集群背景下的跨系统信息服务融合平台的利用最终是体现在平台所提供的融合信息服务之上。本章探讨了产业集群融合信息服务的协同推进,其是围绕产业集群知识创新价值链的知识创新、技术创新、创新传播与创新应用四个创新阶段而展开,分别论述了各创新阶段的融合对象与融合流程,并利用Yahoo! Pipes工具实现相应信息服务的融合组织。第6章,产业集群协同创新中的融合信息服务嵌入。融合信息服务在产业集群中的应用需要将其嵌入至产业集群协同创新流程之中。本章在分析信息服务关联组织与嵌入要求的基础上,提出适应于协同创新环节需要的主动式信息提供与知识交互服务流程,并按重组流程分别探讨了融合信息服务的关联与封装组织,同时还从个性化拓展和评价反馈角度分别探索了信息服务融合的个性化设计、定制与推荐,以及服务评价策略和改进措施。第7章,跨系统信息服务融合的方案实证。为从应用角度揭示信息服务融合在产业集群中的实施策略,本章选取光谷光电子信息产业集群和佛山纺织服装产业集群为例,进行了产业集群信息服务融合的方案实证分析,并分别探讨了各产业集群信息服务融合需求、融合设计与嵌入实施方式,为面向产业集群的跨系统信息服务融合实践提供支撑。第8章,总结与展望。通过对全文内容进行梳理和总结,提炼本文的观点与结论,指出本研究中的不足之处,并对该领域进一步的研究作出了展望。

李东林[6]2006年在《中文信息过滤技术的研究与应用》文中认为Internet的迅速发展在给人们的生活带来极大方便的同时,也带来了诸如“信息过载”“信息迷向”等问题,信息过滤技术应运而生。信息过滤就是根据用户的信息需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用和不良的信息。 本文首先介绍了信息过滤技术的提出背景、发展历史、研究现状和应用价值,随后综述了信息过滤的特点、模型,信息过滤系统的体系结构、分类、实现技术和评估方法。 文本是当前Internet上信息最主要的表现形式,中文文本过滤的相关技术是本文的研究重点。本文在对信息过滤系统的体系结构和文本过滤的原型研究的基础上,给出了一个基于向量空间模型的中文文本过滤的逻辑模型。 中文文本的特征项抽取和表示是中文文本过滤基础。获取中文文本的表示需要经过分词、停用词处理、特征项抽取和特征项权重计算等过程,本文对这几个过程进行了详细的研究并提出了一种基于位置加权的特征项权重计算方法。 用户信息需求是文本过滤的依据,本文探讨了获取用户信息需求的方式和方法,给出了向量空间模型下用户模板的表示方法,并对采用相关反馈技术进行用户模板的优化和更新策略进行了讨论。 针对中文文本层次结构的特点,本文提出了一种基于N层向量空间模型中文文本过滤方法,实验表明该方法比传统向量空间法具有更好的过滤性能。 在文本过滤中,查全率和查准率是一对矛盾。本文在引入了用户主题不相关配置文件和不相关阈值的基础上提出了一种两重过滤方法,并以此方法为基础设计并实现了一个基于N层向量空间模型的文本过滤系统,系统对流入文档进行两重过滤。实验证明,该方法提高了文本过滤性能。

徐小妹[7]2008年在《新时期国家农业图书馆信息服务发展战略研究》文中提出全面提升农业科技自主创新能力,建设创新型农业,把农业和农村经济纳入科学发展轨道,是实现农业和农村经济全面协调可持续发展的战略选择。国家农业图书馆作为推动农业科技发展、促进农业科技成果转换的重要保障,必须深刻认识当前形势、正确制定发展战略、充分发挥其信息服务职能。计算机、网络技术的发展带来了国家农业图书馆情报事业发展的黄金时代,国家农业图书馆应紧跟国内外图书馆发展技术,有效整合现有的技术、资源与人才,形成全方位的国家农业图书馆信息服务体系,为国家农业科技创新体系建设和新农村建设提供强有力的支撑。本文介绍了信息服务的基本理论,分析了我国国家农业图书馆信息服务发展的现状及所面临的挑战以及国家农业图书馆信息服务发展战略的影响因素,进行了用户需求分析。通过对国内外图书馆信息服务发展战略经验的借鉴,结合新时期国家农业图书馆信息服务发展的具体情况,提出了国家农业图书馆信息服务未来的发展战略,同时对于战略的实施给出了若干建议。本研究的主要结论包括:1、通过分析研究图书馆信息服务的基础和条件、内容与特点、国家农业图书馆信息服务的发展现状与面临的挑战,并借鉴国内外图书馆信息服务发展战略的成果,得出我国国家农业图书馆进行信息服务战略规划的必要性与紧迫性。2、对国家农业图书馆信息服务发展战略的影响因素进行了分析,从两个维度构建了国家农业图书馆信息服务发展战略的理论模型,为战略目标的定位和具体战略的构建提供了指导和依据;同时依据战略管理的实施步骤建立了国家农业图书馆信息服务战略管理过程模型。3、明确了信息服务发展战略的目标定位,提出了国家农业图书馆信息服务发展的战略重点,以及建设以用户需求为导向的面向知识创新的个性化信息服务体系的总体框架、原则和内容。4、提出了国家农业图书馆信息服务发展战略实施的对策与建议。信息资源、技术、财力、人力、管理、制度支持是国家农业图书馆信息服务发展战略实施的重要保障,应不断增强它们的支持力度,并注重在发展战略的实施过程中根据环境的变化对战略适时调整修正。希望本论文的研究结果能够为国家农业图书馆制定信息服务发展战略提供一定的指导,并且能够为其发展战略的具体实施提供一些参考,从而对国家农业图书馆信息服务的发展起到一定的积极作用。

丁家友[8]2015年在《知识生态视野下档案学知识网络计量研究》文中指出物理学家史蒂芬·霍金曾预言“21世纪将是复杂性的世纪”。这一科学预言已被21世纪十数年来世界科学的发展所证实。20世纪90年代以来围绕计算机和互联网层出不穷的信息科技创新使得世界范围内各种数据库、开放存取平台、虚拟学习社区等迅猛发展,极大地拓展了人类获取所需各种信息资源的渠道,人类社会实践活动和科学研究因此发生了革命性的变化。在这一背景下,网络科学这一由数学、物理学、复杂性科学、计算机与信息科学、生物科学、系统科学、社会科学等众多学科交叉融合形成的学科引起了国内外不同领域的广泛重视和参与。知识生态和知识网络作为其中的分支,在图书情报研究向知识管理方向发展的趋势下应运而生,成为知识管理研究中的重要领域。它们对于知识共享、知识资源开发利用以及知识创新与服务具有重要的理论价值和实践意义。在最近一个世纪的发展历程中,中外档案学领域的学者们从不同角度、运用各种研究方法,对档案学的理论和实践进行了探讨和分析,使得档案学的学科知识得到了一定的积累。在实践领域,以各种专业性的档案研究机构、协会等组织为依托,档案学学术共同体也不断发育和成长。这为我们考察档案学发展提供了知识客体和知识主体视角。而国内外科技文献数据库的日益完备和计算机技术的发展,则为我们从复杂网络和文献计量角度跟踪档案学知识网络发展状况和演化规律提供了良好的数据基础。为从知识生态学视角揭示档案学知识网络的内在特性和演化规律,本文主要采用计量学软件Bibexcel、SPSS和网络分析软件Gephi、Ucinet、 CiteSpace、Histcite等以及知识元和领域本体工具,以档案学领域引文网络、知识元网络为主要研究对象,采用科学计量学的研究方法,以复杂网络理论中节点度与度分布、度的相关性、平均路径长度、聚类系数等为参数,分析了档案学知识体系的属性、特征,以及它所反映的档案学学科演化规律。认为在未来发展的历程中,档案学需要在知识生态学的视野下提倡多元化价值取向,锻造学术共同体,进一步完善档案学的知识体系和学科范式,巩固档案学来自社会赋予的合法性。全文共分为七个章节:第0章引论部分对档案学知识网络相关的几大类概念进行了界定,对国内外相关研究进行了总结与评述,分析了借鉴移植知识生态学和知识网络理论到档案学领域的可行性,也明确了本文的研究意义、研究内容及研究的重难点。第1章结合前一章中档案学知识网络的属性和维度等相关概念,明确了档案学知识网络计量的理论基础、科学计量方法、规范等;分别从知识生态学中的知识场理论、知识生命周期理论和知识地图理论视角阐释了知识网络在描述档案学发展规律和学科知识演化机理的有效性,认为它们都从不同的理论视角,指导着档案学知识网络利用信息技术,以可视化的形式,呈现了档案学知识的内部螺旋发展和外部动态关联所组成的网状结构。第2章结合第1章档案学知识网络计量的理论基础和规范,对档案学知识媒介进行了计量与分析,明确档案学知识网络主体和客体计量的知识媒介范围,并基于档案学期刊与其他学科期刊间的引用关系,对档案学跨学科知识交流进行了分析,发现:档案学通过不断地吸收其它学科的营养并通过学科的内化,演变或产生新的研究领域,学科边界得以拓宽;在这个过程中,档案学的知识也向其它学科扩散,辐射自身的影响力,中国档案学学术共同体对档案学的自我认同感更强;但基于期刊计量和以期刊为基础的学科间知识交流分析,发现档案学知识生态系统的整体进化主要通过不同学科间的理论和方法等的相互借鉴和移植,即互补进化路径;而过度集中于人文社会学科的借鉴移植也使得中国档案学在学科规范、获取基础学科支撑方面显得薄弱,向规范科学发展的步伐还比较缓慢,即档案学尚未形成明显的学科内的自组织进化路径,整个档案学知识生态多元化亟待加强;档案学跨学科知识交流主要受专业术语和教育对档案学知识主体的隔离、跨学科成果评价与发表机制、学术共同体和学科组织框架的差异等因素制约。第3章旨在通过对档案学知识主体的计量分析,探讨构成档案学知识网络中知识主体节点的数量、联系以及其隐含的档案学知识主体进行知识生产、共享、传播和创新的行为规律。基于作者群体和高频作者分析,主要探讨了档案学知识主体的知识合作和共享行为。主要从档案学知识主体的合作网络、档案学知识的代际传承、知识主体的知识吸收等角度,结合计量过程中的相关数据展开定性分析,发现:档案学知识主体合作网络具有无标度特征,内部连通子网络具有小世界特征;档案学知识生态系统的健康可持续发展需要对应知识网络中不同节点类型的各种研究者和人才;档案学学术共同体的代际分界不再像过去那样明显,知识的纵向传递的主导地位逐渐让位于横向传递;学术共同体的成员都积极谋求跨学科、跨文化的交流与合作,尤其表现为不同时期档案学知识主体的知识吸收行为。第4章从共词和聚类两个角度进行了档案学知识客体(知识元)分析,从客体视角探讨了档案学知识生态系统中的知识吸收现象;提出在档案学知识元(叙词表)基础上建立档案学领域本体;探讨能够体现档案学领域知识的稳定性、遗传性与变异性的档案学知识基因,认为档案学知识基因控制着档案学领域学科、专业、研究方向的发育方向,能帮助档案学知识主体从知识进化角度探索档案学知识的本质以及其持续生成和繁衍的能力,从而为档案学知识创新提供生态理论支持。第5章本章沿袭前几章对知识生态系统叁元网络中知识网络和人际网络的分析思路,展开了对档案学知识生态系统中技术网络的讨论。简单阐述了如何在知识网络计量的基础上,寻求档案学知识网络中的重要知识主体节点,构建和谐的档案学知识生态系统的人际网络,建立档案学知识生态系统的内、外部知识网络,并结合各种信息技术,建立基本的档案学知识生态系统框架;并详细阐述这些信息技术对于档案学知识网络实体化的作用,即如何从技术网络的角度建设档案学专业知识库;探讨了档案学知识网络和专业知识库的应用范围和应用模式,认为可以基于档案学领域本体或知识基因对档案学知识体系进行划分;档案学知识网络可以变革档案学知识组织方式;可以将档案学知识网络和知识库应用档案学知识服务和学术评价等方面。第6章结论部分对全文进行了总结。认为科学计量学方法和知识生态学理论可以共同为档案学从经验科学向规范科学转变的过程提供更多合法性凭证;档案学知识生态系统的健康发展需要在学科范式转变的视野下,拓展档案学社会认知范围和知识主体参与程度,并建立档案学专业知识库,为学科发展提供知识服务;同时也提出未来可在档案学领域本体、词汇长尾等方面进行进一步的计量与分析。

谷波[9]2004年在《基于粗集模型的聚类方法及其在文献过滤系统中的应用》文中研究表明信息过滤(Infonnation Filtering)是一种个性化的、主动的信息服务机制,是对传统信息检索服务的有益的补充。信息过滤包括许多内容,如声音、图像和文本等等,在本文中,我们主要指对文献的过滤。聚类(Clustering)是将一组问题空间的对象按相似度进行分类,把相似的对象归为一类,尽可能使得类内的对象间的平均距离最小,而使类间的距离最大。本质上,聚类属于一种无监督的学习,将聚类技术应用于信息过滤中可以在一定程度上提高系统的过滤效率,同时也对信息过滤的查准率与查全率有积极的作用。将聚类技术用到文本信息过滤中,本质上属于文本挖掘范畴。 自然语言的不确定性和模糊性造成了计算机对自然语言处理的困难,由于粗糙集不仅具有描述不精确概念能力,而且还给出了对不精确度的度量,因此将粗糙集的有关理论用于对自然语言的描述有一定合理性。 本文在粗糙集理论的背景知识下,对于文本的粗糙集表承模型和基于此模型下的聚类在信息过滤系统中的应用,进行了深入的研究。所作的工作和创新点总结如下: 1.提出了一种新的文本表示模型,该模型基于粗糙集的对知识的等价划分的思想,试图保持文本的概念信息:定义了该模型下的粗糙相似度;并提出了基于该模型的计算文本相似度的方法。 2.将文本聚类技术应用到信息过滤中。对文档进行了聚类,在检索的期间,对用户提出的检索词先进行和每一类的类心比较,得到与之最近的类别,仅将属于该类别中的文档与用户提出的检索词进行运算,从而缩小了检索的范围,提高了检索的效率,也在一定程度上克服了检索结果的偏差。 3.将文本聚类技术应用到信息过滤中。借鉴了协作过滤的思想,不再把用户看成是独立的个体,而是看成按一定的相似兴趣联系的群体类,对用户模型进行了聚类,这样在发送文献时不再以单个用户模型作为计算对象,而是以用户兴趣类作为计算对象,同时进行文献推荐时也是以用户兴趣类作为推荐对象的,以期提高过滤效率和准确率。 实验结果表明,引入本文提出的基于粗糙集的聚类方法之后的信息过滤系统较原来的系统在性能上有所提高。

宋丹[10]2007年在《基于语义和链接的话题跟踪方法》文中研究表明作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻媒体信息中新话题的自动识别以及对已知话题的动态跟踪。话题识别与跟踪(TDT)技术可以把分散的信息有效地汇集并组织起来,使人们能够从整体上了解一个事件的全部细节以及该事件与其它事件之间的关系。话题跟踪作为话题识别与跟踪的一项子任务,是指根据给出的某一话题的一则或多则报道,把与该话题相关的报道联系起来。本文主要研究了话题跟踪,在借鉴国内外关于话题跟踪研究的先进技术的同时,也对新闻报道的自身特点进行了有益的探索。将语义和链接分析引入到了话题跟踪方法中,利用链接则对Web新闻网页的针对性更强,利用语义则对新闻报道内容刻画更形象具体。实验证明基于语义和链接的跟踪方法提高了跟踪的性能。Web新闻网页不同于传统的文本文档,一部分Web新闻网页以新闻图片和相关链接为主,而只有极少的文字内容,这使得传统的基于内容计算的话题跟踪方法很难发挥好的效果。因此,本文主要研究了链接分析在Web话题跟踪中的应用,提出了一种基于内容计算和链接分析相结合的针对Web新闻信息的话题跟踪方法。由于向量空间模型中的向量维数较高,重要的特征词经常会被区分能力较弱的特征词所淹没,且对事件表示不够形象直观,本文提出了一种利用语义框架来表示话题和报道的方法。最后,将话题跟踪方法应用于科技文献,使话题跟踪思想的应用不单单局限于新闻报道。讨论了适用于科技文献的权重计算方法。采用了基于同义词的话题模型扩充方法,跟踪过程中采用了一种利用引文关系的类KNN方法。实验证明这一应用比较合理。

参考文献:

[1]. 基于内容和协作的科技文献过滤方法研究[D]. 白丽君. 山西大学. 2003

[2]. 科研服务平台PKUSpace中科技文献推荐子系统的设计与实现[D]. 银平. 北京大学. 2007

[3]. 基于网络共享的农业科技信息质量管理研究[D]. 宋立荣. 中国农业科学院. 2008

[4]. 文本分类及其相关技术研究[D]. 李荣陆. 复旦大学. 2005

[5]. 产业集群创新发展中的跨系统信息服务融合[D]. 严炜炜. 武汉大学. 2014

[6]. 中文信息过滤技术的研究与应用[D]. 李东林. 辽宁科技大学. 2006

[7]. 新时期国家农业图书馆信息服务发展战略研究[D]. 徐小妹. 中国农业科学院. 2008

[8]. 知识生态视野下档案学知识网络计量研究[D]. 丁家友. 武汉大学. 2015

[9]. 基于粗集模型的聚类方法及其在文献过滤系统中的应用[D]. 谷波. 山西大学. 2004

[10]. 基于语义和链接的话题跟踪方法[D]. 宋丹. 大连理工大学. 2007

标签:;  ;  ;  ;  ;  ;  

基于内容和协作的科技文献过滤方法研究
下载Doc文档

猜你喜欢