基于人工智能的图书馆参考咨询系统研究
孙 萍
(平顶山学院 图书馆,河南 平顶山 467000)
摘 要: 探讨构建了一种基于人工智能的参考咨询系统模型,通过对咨询数据分词和分词向量化,利用词向量的余弦相似度作为评估依据,以实现为读者提供最接近的咨询结果,克服了传统的基于关键词检索的参考咨询系统不够灵活、无法处理自然语言检索需求的缺点。
关键词: 自然语言处理;人工智能;参考咨询
在20世纪50年代提出人工智能概念后,随着科学技术的发展,人工智能在机器学习、深度神经网络方面有了长足的突破研究,使其在图像识别、自然语言处理、智能搜索等应用方面有了广阔的发展前景。2017年人工智能被写入政府工作报告,政府全面推进人工智能产业发展,开展人工智能与各行业的融合服务。在国家政策支持及其广阔发展前景的影响下,人工智能已成为一门热门学科,推动了各学科与人工智能的交叉相融研究。图书馆作为数据、信息、知识的重要存储和管理机构,一直注重对前沿科学技术的吸收与应用。人工智能的深度发展也促进了图书馆的服务有了新的拓展,如:在入馆服务中采用人脸识别技术,信息服务指引可以采用语音识别技术;资源建设中利用人工智能方法构建基于图书推荐、图书评价等的图书智能采购系统;读者的个性化服务中采用智能搜索、自然语言处理、深度学习技术构建自动、精准的知识咨询服务等等。
2.儿童生活的游戏精神是儿童文学文本的主要价值取向。儿童文学中的“游戏精神”是沾染儿童天性的最纯真的“游戏精神”。挪威音乐家让——罗尔·布约克沃尔曾记录过很多在成人看来匪夷所思的游戏。一次在假日海滩,父母们舒适地享受着阳光和微风,然而猛然发现小家伙们不见了。最终他们发现在大人们休闲享受的阳廊下面,在木板和岩石挤压的幽暗角落,传出孩子们嗡嗡的谈话声和唱歌声。这就是儿童的生活,在游戏中生活。
人工智能技术的突破性发展,使许多图书馆探索运用人工智能技术来开发智能咨询机器人去实现实时虚拟参考咨询服务。人工智能中的图像语音识别技术实现了机器与人之间的交互沟通,让机器人“听懂”“读懂”用户的咨询需求;自然语言处理技术实现了中文语义识别,让机器人能够准确理解语义去进行检索;智能机器人基于大数据的“咨询大脑”和自主学习的能力,使智能机器人能够根据知识库内容、用户的历史服务轨迹,更精确地分析用户意图,解答用户日常咨询。这些技术的成熟发展,都为智能咨询机器人开展参考咨询服务提供了可能。目前高校图书馆开展智能咨询机器人研究当中,清华大学图书馆的“小图”[1]和 上海交通大学图书馆的“小交”是比较具有代表性的智能咨询机器人。智能咨询机器人应用可以减少图书馆员日常重复性的工作,提高服务效率,为读者真正提供7 ×24 h的自助化咨询服务。
1智能咨询机器人系统的关键技术
1.1 中文分词技术
机器人面对自然语言形式的咨询,它无法理解自然语言,那么首先要解决的问题是如何理解其语义并能准确提取出代表问题内容的主题词,这涉及到自然语言处理技术。自然语言处理是人工智能领域研究的重要方向,是一种崭新的人机交互技术,目的是让计算机能准确理解人类的语言和语义[2]。而分词技术又是自然语言处理研究的一个主要方向,通过提取能代表文档内容的词汇以及词汇上下文之间的关系,以便于计算机分析和处理数据。中文分词技术近年来取得了迅速的发展,如清华大学自然语言处理与社会人文计算实验室开发的thulac中文词法分析工具包,该工具包标注能力强大、准确率高,在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%[3]。分词是模型的基础和核心,后续的向量化和余弦相似度的计算都以此为依据,好的分词策略不但能提高模型的效率,而且还能提高文档相似度计算的准确性。
为了提高检索效率,需要缩小分词范围,在处理自然语言数据会自动过滤掉某些无分词意义的介词、连词、代词等等,这些字或词即被称为停用词。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。比如:“这个”、“她”等等。
1.2 相似度匹配
学期结束后,观察组学员的理论成绩及操作成绩均明显高于对照组(均P<0.05);观察组学员的教学满意度调查中教学计划、教学管理、专业认同项目评分均明显高于对照组(均P<0.05);教师态度、教师水平、学术期望项目评分与对照组比较差异无统计学意义。见表1,2。
笔者构建的参考咨询系统结构如图1所示,包含:前端和后端两个部分,前端采用MVC架构,负责检索交互接口的实现、参考咨询数据的对比分析和传送,后端负责知识库数据预处理、模型训练两个。
1.3 知识库的建立
3.1.2 即时应答。智能咨询机器人可以分流大量的简单问题的咨询需求,为读者提供全天候的咨询服务,不受时间和地点限制,真正做到随问随答即时性回复。
自然语言形式的咨询问题分词后,需要将分词转换为计算机可以处理的向量格式。计算机虽然具有超越人脑的数值计算能力,但是对于我们人脑能轻易识别处理的文字、图像、语音等数据则无能为力,这就需要我们在对数据进行处理前先把数据编码成计算机可以处理的向量数据格式。目前常用的词向量模型有word2vec、glove、bert等。其中word2vec是Google 2013 年推出的融合深度学习的思想开源工具包,能够将自然语言中的字词转为计算机可以理解的稠密向量,有效实现词向量简单高效获取。
2智能咨询机器人系统模型的构建
2.1 智能咨询机器人系统模型结构
词转换为词向量后,词的相似度匹配就随之转变为向量的近似度计算。常用的近似度计算有K近邻算法和余弦相似度算法。余弦相似度算法最常见的应用就是计算文本相似度。将查询语句进行分词和词向量转换后,在向量空间模型中,查询语句和知识库中的数据之间进行余弦相似度匹配,所有的余弦相似度降序排序,提取相似度大于设定阈值的知识库中的数据,就是与查询语句最相近的数据。
图 1智能咨询机器人系统模型
2.2 工作流程
3.1.1 灵活的服务接入。智能咨询机器人系统可作为后台服务方便的移植到网络服务系统中,也可以与微信、APP、QQ方便快捷接入,为读者提供友好的咨询服务。
2.3 模型的训练
模型的训练,可以完善智能机器人自主学习的能力,使其拥有强大的泛化能力,对新的实例输入也能推理出正确的输出,智能机器人表现得也越来越智能。在建立知识库时,随着语料样本的加入开启训练,将语料样本进行分词处理,分词转化为分词向量,所有知识库中的语料分词向量组成一个向量空间模型,结合深度学习和数据挖掘技术,对模型进行训练,准确率达到判定阈值后模型可以上线运行。
3结果与分析
3.1 智能咨询机器人系统特点
模型进行查询的思路:用户通过网站、微信、QQ等途径提交检索的问题,模型首先对查询的问题进行清洗,结合停用词表过滤掉某些无分词意义的介词、连词、代词等等;对问题进行分词;加载训练模型,利用模型生成TF-IDF词向量;然后进行余弦相似度查询,计算问题和知识库中所有语料的相似度,对所有的余弦相似度降序排序,提取相似度大于设定阈值的结果;最后根据结果显示语料库中相应的问题和答案。若有智能咨询机器人无法识别用户意图或无法匹配目标问题和答案时,可以自动转接至人工客服。
知识库作为智能咨询机器人的“咨询大脑”,处于核心部位,知识库的深度和广度决定了咨询机器人的聪明程度。知识库当中所包含的数据量越大、覆盖面越广、知识点组织规范化,机器人的智能表现越聪明。建立专业知识库是重中之重,目前常见的知识库种类有:①FAQ型知识库,它是从用户所提的常见问题中进行归纳总结,形成可供检索的知识库。②学科型知识库,高校图书馆是为教学科研服务的,可以针对高校学科优势建立专业的学科知识库。将该学科相关的馆藏资源、互联网资源、教师的科研项目整合构成的知识库。③地方特色型知识库,依据图书馆所在的环境、人文历史、地方特色建造的知识库[4]。构建了知识库要注意时时对知识库更新和完善,知识库只有不断丰富、完善,才能让机器人越来越智能;构建知识库时要注意读者的参与和反馈,允许读者补充不完善的问题,对于没有检索到的问题要及时的添加到相应知识库中去。
3.1.3 操作简单。智能咨询机器人系统界面友好,不需要安装任何客户端软件、插件,也无需注册登录账号,通过浏览器即点即问。
式中:pt+1是第t+1步的输入模;是尺度化因子,E(p0)为繁殖循环初始时刻小扰动的均方根误差,第t步繁殖结束时小扰动的均方根误差。
3.1.4 自主学习能力。智能咨询机器人拥有自主学习的能力,能即学即用。能够做到自我知识库的扩充,以智能搜索引擎为核心、多样的算法智能分析、采用数据挖掘技术从大量数据中挖掘相关知识,自动聚类关联相关问题。
两条剽悍大汉,把住牡丹池大门。左边的汉子一言不发,将手中锦缎包袱递给一旁的门童;右边的汉子同样一言不发,将一锭银子丢给另一个门童;这就表明,接下来的半天,这家浴池只接待一位客人,峋四爷。
3.2 问题与思考
智能机器人的应用还不是很普及,智能不是很高,有时会出现所答非所问的情况,还存在着不少问题。如知识库数据单薄,内容不够丰富,绝大多数是图书馆日常咨询内容,数据量也很少;自然语言进行分词时,语义识别不精准,分词没有进行同义词扩展;自主学习的能力还很薄弱等等。相信随着人工智能技术的发展,智能咨询机器人也会越来越智能,为读者提供更加主动、便捷的咨询服务,推动图书馆参考咨询服务进入智能时代。
[参考文献]
[1] 姚飞,纪磊,张成昱,等.实时虚拟参考咨询服务新尝试——清华大学图书馆智能聊天机器人[J].现代图书情报技术,2011,(4):77~81.
[2] 余正涛,樊孝忠,宋丽哲.基于问句语料库的受限领域自动应答系统[J].计算机工程与应用,2003,(36):28~30.
[3] THULAC:一个高效的中文词法分析工具包[EB/OL].http://thulac.thunlp.org/,2019-04-16.
[4] 樊晓峰.高校图书馆知识管理中的知识库建设[J].当代图书馆,2006,(1):50~51.
中图分类号: G250.7
文献标识码: A
文章编号: 1007—6921(2019)22—0122—02
收稿日期: 2019-07-04
作者简介: 孙萍(1976—),女,副研究馆员,研究方向:数字图书馆技术应用。
标签:自然语言处理论文; 人工智能论文; 参考咨询论文; 平顶山学院图书馆论文;