数字参考咨询智能调度系统分析_分词技术论文

数字参考服务智能调度系统分析,本文主要内容关键词为:系统分析论文,数字论文,智能论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

浙江天宇信息技术有限公司协办

1 引言

在数字参考服务(Digital Reference Service,简称 DRS)的系统管理中,为了达到真正的智能咨询,重要的一环就是建立一套高效、实用的智能调度机制,实现咨询问题的调度管理。包括根据各方面的情况制定咨询提问的解析与分派,以及咨询结果的跟踪处理等方面的调度安排。调度系统是一个计算机智能系统,在DRS系统中相当个连接问题和答案的总机,它为每一个用户的问题确立最合适的知识资源,也就是寻找最合适的咨询专家或存放在问答知识库中的适用答案。调度系统的研究涉及调度策略、问答知识库、专家信息库的创建、检索查询系统的设计等。智能调度系统的建立将为数字参考服务的智能化实现奠定基础。

2 影响数字参考服务智能调度的因素分析

根据美国Syracuse学院院长,著名DRS研究专家 David Lankes提出的DRS五步骤模式,即提问接收 (Question Acquisition)、提问解析与分派(Triage)、答案产生(Answer Formulation)、跟踪(Tracking)、资源构建 (Resource Creation),以及美国著名的参考咨询系统 Virtual Reference Desk的工作流程(图1),DRS智能化调度的质量主要与以下几种因素有关:

(1)用户的提问:首先是用户的咨询问题是否符合本DRS系统的服务范围;再是用户的提问是否规范,问题表达是否清晰以及用户提问的方式等,这些都直接影响到调度系统对提问接收的效率以及提问解析与分派的质量。

(2)问答知识库:作为DRS系统本身创建和积累的数字参考资源,其数据的规范与否、质量的好坏、数量的大小等都对DRS系统智能化的程度起着很强的正相关作用。

(3)专家/机构信息库:DRS一个很重要的特点是由专家来回答用户的提问。在DRS系统的调度管理中,专家信息库起着关键的作用,它是调度系统对用户提问进行自动分派的依据。调度系统接收到提问后,将使用“最佳匹配”算法,从专家信息库中查找出最合适回答该提问的成员机构或个人,从而实现提问的自动分派。因此,专家信息库数据的标准与规范也是重要影响因素之一。

(4)调度系统的运行机制:能否建立一套高效、适用的调度机制,既能处理实时咨询,又能处理异步咨询和能协调系统资源的有效配置,这是提高DRS系统智能调度效率的关键。

(5)其他因素:如不同DRS系统或机构之间咨询合作所涉及到的互操作性问题,包括数据交换的结构和方法等,即系统或机构间遵循的有关协议也会对系统的智能调度造成影响。

图1 DRS的工作流程

3 数字参考服务的智能调度机制

在DRS系统的调度管理中,主要是针对咨询提问的解析与分派以及咨询结果的跟踪处理这两个环节。以下将对其中的调度策略与运行机制做具体分析。

3.1 提问的解析与分派

我们来看看“提问解析与分派”的工作流程:用户向DRS系统提出咨询问题,调度系统在接收到提问后,首先对问题的性质进行分析,确定提问的类型和所属学科,然后查询已有的、经过标准规范的问答知识库,看是否有现成的比较合适的答案;没有时则根据专家/机构的信息(学科专业、馆藏实力等),来确定最合适的、可能解答问题的专家;并且在专家库中,使提问按照其自身的性质和一定的规则,如用户需要、接收日期等排队等候回答。如果在自动匹配过程中没有合适的回答者,则该提问由人工分析模块进行处理。

在这个系统调度过程中,可以参考以下几种调度模式:

3.1.1 学科调度

系统接收到用户提问后,首先是对问题进行“自动预处理”,分析、提炼出反映问题性质的关键词,确定问题的类型与所属学科范围;进而,将提取的关键词或关键词的逻辑组成与问答知识库中贮存的数据进行匹配查询,有一致的检索结果则可以将答案返回给用户。

在智能DRS系统中,问答知识库和专家/机构信息库都是遵循一定的标准规范,经过统一描述的数据库。问题和答案元数据必须包含描述问题与答案性质的字段,如问题/答案类型、关键词、分类表、主题等。专家/机构信息库的描述元数据则要带有描述专家的学科专业或学科资历、成员机构的馆藏实力、资源优势等信息的字段。调度系统在检索问答知识库中是否有现成答案,以及确定最合适回答问题的专家时,首先使用按学科进行调度的方式,可以使调度工作便捷、高效。特别是在非实时咨询方式的系统调度中,对提问的自动分派处理主要可以根据此种模式进行。

在专家信息库中,系统根据问题的类型与学科范围,选择一批与提问匹配的专家/机构,并通过一定的算法,按分值大小顺序进行排列。系统首先将提问派发给排在第一位(分值最高)的专家/机构进行解答,如果该专家/机构不能回答,则选择队列中第二位派发,以此类推。同时,在一定的时限内,允许多个用户问题在同一合适专家处排队等候回答。

3.1.2 实时调度

对于实时方式的咨询,在实际运作过程中的调度机制有所不同,需要进一步分析。实时咨询一般是通过采用网络聊天(chat)、网络呼叫中心(web call center)等即时通讯技术开发的实时咨询软件加以实现的。目前,国外广泛应用于图书馆参考咨询领域的实时软件就有几十种,比较著名的有Virtual Reference Desk、24/ 7 reference、Virtual Reference Toolkit(VRT)、QuestionPoint等。国内有学者提出,以VRT为代表的标准实时咨询软件的基本功能是文字聊天、网页推送、同步浏览、咨询日志归档和提问转发功能[4]。

交流功能是即时技术的基础功能,其中最为常用的是聊天(chat)技术(声频、音频交流由于网络条件和技术因素的限制还有待加强,本文仅以文本聊天为例进行探讨)。在实时咨询中,用户和咨询员都是通过特定界面实现的文本文字的输入和传送来提出问题和接收问题,如何更好地完善提问接收以及后续的咨询接谈效率,对于服务效果而言相当重要。在实践中,实时咨询的调度主要可以根据时间及咨询员忙碌状态来进行调度。

(1)按时间调度。即系统按照预先设定的参数对接收的提问请求进行排队及路径处理。一方面,根据“First come,first serve.”的原则先到先得;另一方面,根据咨询员的值班时间把问题分派给在线的咨询员进行解答。同时,也允许一个咨询员同时为多个用户的不同需求提供帮助服务。

(2)按咨询员忙碌状态调度。即系统支持多个咨询员同时在线,将新的用户提问自动转到没有接待工作的咨询员;如果每个在线咨询员都处于忙碌状态,系统将提问转到用户人数少的咨询员处排队等候。

(3)变换咨询方式的提示。以上两种方式对用户是透明的,当实时咨询较为繁忙时,系统自动发送改变咨询方式的提示,提供用户自行选择:继续排队等候、转为非实时方式咨询。

3.1.3 合作咨询的调度

在联合DRS中,多个成员机构形成一个分布式的多咨询台的DRS网络来提供咨询服务,以解决单个机构因各种原因限制而难以解决的咨询问题。这种合作化DRS的系统管理与咨询作业的调度亦是建立系统调度机制应考虑到的重要环节。如QuestionPoint就是预先设定一些算法,由系统自动完成咨询作业的调度。这种合作咨询的调度主要有三个层面:

(1)对于提交到专家信息库的问题,首先进入的是本馆咨询馆员的信息需求队列列表,系统根据问题性质及馆员信息选择可以回答问题的馆员;如果问题得不到回答,则分配给本馆其他适合的咨询馆员来回答。

(2)对于本馆无法回答的问题,可根据本地区合作组的情况,将问题转交给合作组中的其他合作馆来回答。

(3)对于本地区无法回答的问题则提交给全球参考网络,在全球参考网络中,“请求管理器(Request Manager)”能够根据该问题的性质以及全球Question -Point成员馆的档案进行自动分配,将问题发送到最合适的图书馆。

3.2 咨询结果的跟踪处理

在提问的解答过程中,调度系统通过所记录的提问信息(问题状态)自动跟踪问题的处理进展,并判断处理过程的正确性;若正确性达到一定程度,系统将答案返回给用户;如果在一定时限内,被分派的问题没有得到解答,或者该提问没有正确地分派至适合的专家,调度系统将进行再分配处理。一旦提问被答复之后,调度系统将该问答信息集中,并对成功回答的提问进行编辑处理,形成可供浏览与检索的问答知识库。

其中,问题状态可以分为以下几种情况:

(1)新问题:所有用户新提交的问题。

(2)处理中的问题:指所有尚未结束的问题。

(3)转交的问题:所有需要进行再次分派或转交的问题。

(4)已结束的问题:所有已经结束的问题(包括成功回答的问题和不成功回答的问题)。答案状态主要是“待收割”和“已编辑”,分别代表回答的原始记录和经过标准规范的答案。

3.3 人工调度

虽然我们努力实现系统的智能化管理,但在实际运行过程中,出现系统无法自动对问题进行分析归类传送的情况总是存在的。或者,系统也会接收到一些比较紧急需要回答的问题,为此,在系统中建立智能调度的同时,建立一个应对特殊状况的“人工分析模块”,在必要时启动人工分析模块,由专业人员进行分析、解答。人工分析模块支持多个人员利用多个数据库分析问题的复杂性、答案的正确性,进行专家的确定、问题的传递以及知识库中问题与答案的编辑等整个信息处理过程。

4 数字参考服务智能调度实现的关键技术分析

建立一套高效、适用的智能调度机制后,接下来需要解决的就是实现智能调度所涉及的几个问题。

4.1 问答知识库、专家信息库的标准规范及数据库的创建

智能调度的基础是有效的数据库管理,数据的标准规范以及组织方式直接影响了智能调度的质量。

对成功回答的问题,系统将问答信息进行编辑处理,即利用元数据及标准化技术对数据进行标引,实现数据的规范化和可检化,从而建立可供浏览与检索的问答知识库。关于问答元数据标准,QuestionPoint以及KBIT数据库格式标准、问答交换协议QuIP,都对问题与答案元数据进行了描述,具体元素可参见文献[5]。总的来说,为实现智能调度,问答元数据需要包括问题/答案的类型、关键词、内容描述、状态、语言等字段。在问答知识库的构建过程中,则需要采用与平台、应用软件无关的标准化文档格式,以保持知识库结构的良好性,能够方便地实现对数据的处理,并进行知识库的创建和维护工作。利用扩展标记语言XML可以很方便地满足这些要求。关于如何利用XML进行知识库内容的描述笔者已有另文说明[6]。

专家/机构信息库:QP称之为成员馆档案。它是调度系统对用户提问进行自动分派的依据。对于没有现成答案的提问,系统将使用“最佳匹配”算法,从专家信息库中根据专家的信息(学科/咨询专长)或成员馆信息(馆藏、学科、咨询范围、咨询项目等)以及问题的性质等来确定最合适的、可能解答问题的成员机构或专家,一旦找到,系统将实现提问的自动分派。这是 DRS系统需要建立的另一个规范化的数据库。每个成员馆和咨询员/咨询专家都必须根据一定的规范填写信息表。QuIP协议用于描述参考咨询人员或机构信息的元数据是一个树型等级结构,包括信息描述、角色、控制信息三个根元素,具体如图2所示。QuestionPoint则规定,各成员馆在加入时,需要提交包括参考馆员能力水平、馆藏强项、学科优势、服务时间、地理位置、支持语种等有关数据。

4.2 自动分词与智能搜索

汉语的自动分词目前常用的主要有三种算法:基于字符串匹配的算法,基于知识的分词算法和基于同现频率统计的算法。因为基于字符串匹配的方法不能识别新词,基于知识的分词方法不易于实现,又由于 DRS系统中的领域知识有相对专业性较强的特点,所以在智能DRS系统中可以采用基于字符串匹配和同现频率统计相结合的统计分词方法来实现汉语的自动分词。该分词方法能利用上下文识别大部分分词,并解决一部分切分歧义的问题。经测试,该方法的分词错误率为1.5%[8]。

图2 QuIP人员或机构描述元数据

自动分词是智能搜索的基础。基于语义知识的智能搜索将信息检索从目前基于关键词的层面提高到基于知识的层面,建立一种基于内容的搜索引擎,通过搜索引擎技术与自然语义理解技术的结合,开发检索专用词典或是通过全文扫描和自动分词的处理,实现搜索引擎对搜索词在语义层次上的理解。在DRS系统中,所谓的理解包括对用户提问的理解和对问答知识库内容、专家信息库信息的理解,它允许用户用自然语言的形式提出咨询问题,智能搜索系统采用语义知识、自动分词技术等分析用户的问题,试图理解用户的请求,同时根据问答知识库的内容检索出与用户问题相匹配的答案,或者适合回答问题的专家/机构。这是一个基于知识的信息检索过程,它能够使系统检索匹配的过程定位得更快、更精确。

4.3 合作咨询的问答交换协议

分布式合作DRS的发展趋势将从校际合作、区域合作发展到全国、全球性的联合,在不同系统和不同地区间合作开展DRS时,只有遵照统一的协议来设计模型,制定数据表,交换数据,才能保证系统后续的发展与联合服务的顺利进行[10]。应用协议的构建是否合理,是否便于操作,对于合作DRS来说具有重要的意义。美国国家标准化组织(NISO)于2004年发布的数字参考服务标准——“Question/Answer Transaction Pro tocol”,简称Q/ATP,在世界各地受到了广泛瞩目。Q/ ATP主要是提供了合作DRS所涉及的数据交换的结构和方法。该协议包含协议模型(protocol model)、标识符(identifiers)、处理时限及失效时限(timers and lack of activity)、数据结构概要(abstract data structures)、XML方案、协议实施程序(protocol procedures)以及低层协议的映射七方面内容。其中,第一部分“协议模型”即对协议操作按照咨询问答处理中假定的场景进行分解说明,并考虑合作咨询中推荐、转交、关联和用户改变路径四种模式的系统调度方式。第四部分“数据结构概要”则通过大量的表格,详尽规定了整个咨询问答处理中用于交换的数据包(NetRef包)内容,包括问答信息的协议数据和机构/代理的档案数据。

收稿日期:2006-04-26

标签:;  ;  ;  ;  ;  ;  ;  

数字参考咨询智能调度系统分析_分词技术论文
下载Doc文档

猜你喜欢