融合读者、相似度和位置信息的图书推荐系统模型研究*论文

融合读者、相似度和位置信息的图书推荐系统模型研究

郭苗苗1,吴了1,郭晨睿2

(1.长沙学院,湖南 长沙 410022;2.洛阳师范学院,河南 洛阳 471934)

摘 要:“新书推荐”“借阅排行榜”等图书推荐简单地将特定书目推荐给所有读者,忽略了读者之间的个体差异性。个性化图书推荐采用大数据和数据挖掘技术,预测读者的借阅行为,有针对性地向读者推荐图书,实现个性化服务。开发个性化图书推荐系统需要对影响图书推荐的各种因素进行数学建模。在现有技术的基础上,结合图书馆的应用背景,提出了一种融合读者、相似度和位置信息的图书推荐系统模型,该模型的建立有助于新一代图书推荐系统的开发。

关键词:图书推荐;系统模型;读者;位置信息

图书馆作为高校教学、科研的知识资源提供者,是在校大学生和教学科研人员获取知识的主要途径。但大多图书管理系统(ILAS、金盘等)一般不具备图书推荐功能,导致读者在面对海量信息资源时,如果采用传统的图书查找方法很难精准找到所需的图书;另一方面,当图书馆在新采购一批图书或数字资源后,感兴趣的读者并不能及时获取这一方面的信息,在一定程度上造成了图书资源的浪费。因此,图书馆需要综合考虑读者特性,利用数据挖掘技术,通过收集和分析读者的借阅习惯、喜好等信息,获取读者的阅读偏好,精准地向读者推荐图书,实现个性化推荐,提高图书的借阅率。个性化图书推荐系统结构如图1所示。

width=200.95,height=108.95

图1 个性化图书推荐系统结构框图

在进行个性化图书推荐时,需要在读者基本数据和后台知识的基础上建立读者模型,然后根据匹配规则对读者模型和图书馆的馆藏图书进行匹配,利用数据挖掘技术形成个性化推荐结果。由图1可以看出,在个性化图书推荐系统中,建立读者模型对推荐结果有较大的影响,因此,模型的建立至关重要。

1 常见的图书推荐算法

模型的建立离不开图书推荐算法。目前主要的图书推荐算法有:①基于内容的推荐算法,即根据读者过去的借阅习惯,为读者推荐与他过去借阅的图书内容相似的图书;②基于关联规则的推荐算法,即同一个读者借阅的不同图书可认为之间存在着某种关联,可以从借阅历史中搜索关联度最高的图书(图书集合)作为推荐的主要参考;③基于协同过滤的算法,即通过寻找当前读者借阅行为最相似的邻近读者,推荐邻近读者借阅的图书给当前读者[1-4]

协同过滤算法是个性化推荐中较成熟的推荐算法之一。协同推荐算法一般分为基于用户的协同过滤推荐、基于模型的协同过滤推荐和基于项目的协同过滤推荐[5],其中“以用户为中心”的基于用户的协同过滤算法在推荐系统中获得了广泛的应用。传统的基于用户的协同过滤算法将两个用户之间的影响当作对称的影响,也就是说对于任意的两个读者,彼此的影响是相当量的。然而,在现实借阅中这种影响并不一定当量对称,例如教师可能会对新生读者产生较大的影响,但是新生读者对教师的影响却较小。因此,传统协同过滤算法还有改进空间。

协同过滤的另一个好处是可以通过聚合类似读者的行为来发现读者的隐含偏好[6]。假设有M个读者和N本图书,读者集合可以表示为U={u1u2,…,um},图书集合可以表示为L={l1l2,…,ln},rij=1为读者ui借阅过图书lj,否则rij=0,则在推荐系统中,读者对图书的历史借阅数据就构成读者图书借阅矩阵RRmn。这样计算任意两位读者之间的相似性,就可以采用余弦相似度、Jacarrd相似度和Pearson相似度等方法。在上述3种方法中,当数据仅仅为0或1时,余弦相似度计算效果最佳。采用余弦相似度来计算读者之间的相似度,读者ui与读者uk之间的相似度ωki计算如公式为:

width=147.15,height=45.1

传统的基于用户(读者)的协同过滤算法计算读者ui对图书lj借阅的概率为:

使用随机生成的值来初始化读者的PageRank值,并使用迭代模型得到最终的每位读者PageRank值。在每次迭代t中,PageRank的值计算方法为:

width=85.15,height=38.8(1)

wuv的计算方式为width=95.15,height=38.2

图书馆的藏书数量很大,一个普通高校的藏书就有上百万册,由于学科分布广泛,大量跨专业、跨学科以及新型学科和边缘学科图书的存在,造成传统的图书推荐系统模型的数据稀疏,降低了推荐质量。因此,本文综合考虑读者、相似度和位置信息,提出了一种改进的基于协同过滤算法的图书推荐系统模型。

林泰安给人家写了不少状纸,得罪了一些人,后来就有人给族长传话,说他不是林家后代,而是他母亲娘家的人,是戴家的子孙。

作为智能手机蓝牙标签机,PT-P710BT 除了可以连接电脑进行编辑打印标签外,也可通过蓝牙与智能终端或平板进行连接。在APP Store中下载Brother P-touch Design⪻int 或 iPrint&Label软件,通过智能移动设备即可实现标签的设计、编辑和制作,尽享专属定制的乐趣。

1.1 一般资料 选择2014年5月至2015年8月愿意在本院保健门诊行系统健康管理的600例1月龄婴儿的母亲。母亲孕期、产时均无异常,婴儿情况和家族史无异常。

2 融合读者、相似度和位置信息的图书推荐模型

文中基于机器人操作系统对室内机器人的定位和导航技术进行研究和实现。利用ROS提供的开源功能包,在Rovio平台实现定位导航算法。该算法避免传统方法所需要的大量计算,提高了定位和导航效率。实验结果证明了利用SVM研究摄像机定标问题的可行性。优化判断标准的GNG算法对数据点云聚类,在保证聚类效果的前提下,取得了速度上的提升。最后卡尔曼滤波的应用也得到了实验结果积极的反馈,下一步的工作可以研究融合多数据来源提高定位精度。

融合读者、相似度和位置信息的图书推荐系统结构如图2所示。

width=314.9,height=187.2

图2 融合读者、相似度和位置信息的图书推荐系统结构示意图

图2中最左边虚线框中的内容为每位读者录入的数据来源,包括一卡通、教务系统、图书管理系统的数据库等,反映了读者的专业、就业创业倾向、个人喜好、借阅历史等信息。第二个虚线框对读者间的非对称影响、相似度、借阅历史(阅览历史)的位置信息信息等进行分析,以提高图书推荐的精准度。

2.1 非对称读者影响分析

给定读者和图书的借阅关系矩阵:

师市工会联合安监局组织举办了师市首批群监员岗前培训暨聘任仪式,安排部署群监员工作,讲解安全生产法律法规,解读《群监员管理办法》;2018年安全生产月期间,分片区举办了五期群众安全生产监督员培训班,600多名群监员参训;在五家渠电视台开办了“群监员走进演播室”访谈节目,让广大职工群众了解支持群监员工作,扩大社会效应;各单位工会也根据行业特点制定培训计划,组织本单位群监员学习安全生产法律法规和应知应会知识。两年来,共培训群监员5000人次,发放学习宣传资料30000余份,报送信息400余条。

R=[cul]mn(2)

式(2)中:矩阵的第u行、第l列的cul为读者u对图书l的借阅次数(含续借);m为读者的人数;n为图书的数量。因为读者借阅图书的时长有限,当读者往往不能在一次借阅时间内完成图书的阅读与理解,会存在续借行为,在这里,图书的逾期未还行为视为一次续借。借阅(续借)次数越高,表明读者u越喜欢图书l,如果读者u没有借阅过图书l,则cul的值设置为0。

需要计算读者u对其所借阅过的图书l的平均借阅次数width=14.4,height=19.4,其计算公式为:

width=61.35,height=30.7(3)

式(3)中:nu为读者u借阅过的图书的数量。

通过每个读者的width=13.15,height=18.15构建一个布尔矩阵R´=[c´ul]mn,其中c´ul∈{0,1},表示读者对图书的偏好,即读者是否喜欢图书。如果culwidth=11.25,height=15.65,表示读者喜欢该图书,c´ul的值为1;否则,c´ul的值为0,即width=95.15,height=34.45

1.1.1 仪器 AFS-3100原子荧光光度计(北京科创海光仪器有限公司);EH35B型电热板(北京莱伯泰科仪器有限公司);Cd、Pb、Hg、As空心阴极灯(北京有色金属研究总院);KL-UP-UV-20艾柯超纯水机(成都唐氏康宁科技发展有限公司)。

根据计算公式获得的布尔矩阵R´构建非对称读者影响矩阵W

人们必须要充分认识到经营权登记工作的重要性,在具体实施过程中,可以将其核心放在县级,将关键阵地设置在乡村。将相关宣传工作做好,相关基层干部必须要从思想上提高对经营权确认项目的重视,从而真正将该项工作落到实处。加强向广大农户进行相关政策的分析和讲解工作,将村委会和村党支部的作用充分发挥出来,并进行深入的宣传指导。

W=[wuv]mn(4)

式(4)中:wuv为读者u对读者v的影响因子。

式(1)中:width=11.25,height=18.8为预测的读者ui借阅图书lj的概率。

传统的基于读者的协同过滤算法中的读者关系矩阵是对称的,而本文中的读者影响矩阵W是不对称的。

假设读者u可以影响的其他读者越多,则读者u在图书推荐系统中读者的全局重要性越高;如果有多个读者可以对读者u产生影响,则读者u更容易受到读者全局重要性越高的读者的影响。

基于上述假设,可以得出结论:除了非对称读者影响矩阵之外,全局读者重要性值在提高推荐的准确性方面也起着关键作用。因此,可以使用PageRank算法对每位读者的重要性进行计算,即如果一个读者可以影响的读者很多,那么他是对所有读者都更具影响的人,该读者的全局影响值就越高。用in-degree表示能够影响读者u的读者数量,用out-degree表示读者u能够影响的读者数量。如果读者与读者之间的影响因子wuv大于等于平均影响因子width=13.15,height=13.15,则影响值w´uv等于1,否则w´uv的值为0。平均影响因子width=13.15,height=13.15和影响因子w´uv计算公式为:

width=116.45,height=37.55(5)

width=113.3,height=34.45(6)

式(5)(6)中:δx)为一个δ函数,如果x>0,则δx)=1;否则δx)=0。

如果w´uv值等于1,则表示读者u可以对读者v产生影响;反之,w´uv的值等于0,则读者u不会对读者v产生影响。因此,每位读者u可以影响的读者数目out-degreedu可以通过width=70.75,height=20.05计算得到。

3.1 无公害蔬菜生产施肥技术:为了确保蔬菜中致癌性强的物质—硝酸盐及其它有害物质含量不超标,在施肥过程中要坚持以有机肥为主,其它化肥为辅;多元复合肥为主,单元素肥料为辅;以施基肥为主,追肥为辅;尽量限制化肥用量,如确实需要,必须掌握以下原则:①禁止使用硝态氮肥。②必须与有机肥配合施用。③最后一次追施化肥应在收获前30天进行。在生产过程中我们主要采取了以有机肥为主,配合施用生物肥,平衡施用化肥的措施。

width=172.8,height=35.7(7)

式(7)中:α∈[0,1]为阻尼系数,表示其他读者对读者的贡献的缩放因子;inu)为可以影响读者u的所有读者的集合。

在式(7)中,影响更多其他读者的读者,并受到更少其他读者影响的读者拥有更小的PageRank值,即具有越小PageRank值的读者越重要。

采用逻辑回归函数将PageRank值映射到[0,1],即width=59.5,height=26.3

式(11)中:widisl)为读者借阅不同于disl的书架(书库)的图书的意愿;disl为两本图书的距离;ak为幂律函数的参数。

基于上述分析和描述,本文将非对称读者影响和读者全局重要性值的乘积来对目标读者借阅图书的到的概率进行预测。给定读者u,读者u将借阅图书l(读者u之前未借阅过的图书)借阅的概率width=15.05,height=18.15的计算公式为:

width=98.9,height=38.2(8)

式(8)中:wvu为读者v对读者u的影响值。

要想提高推荐的准确性,使得推荐的书目尽可能地满足读者的借阅倾向,不仅仅要考虑读者的借阅历史,还要考虑读者的兴趣爱好等个体信息,本文在前人已有工作的基础上,给出一种融合读者、相似度和位置信息的图书推荐[7]。使用一种改进的基于读者的协同过滤算法——读者影响模型考虑并计算两个读者间的非对称影响,利用PageRank算法生成读者的全局影响因子;考虑读者间的专业和兴趣爱好等的相似度;利用图书、阅览桌等的位置信息,挖掘读者的实际借阅的位置特征,生成位置模型;将改进的读者影响、相似度影响和位置影响综合以建立图书推荐模型。

2.2 读者相似性的影响分析

读者的借阅行为可能会受到有其他读者的影响,例如共同考研、找工作的读者等。本模型使用专业、共同兴趣爱好、考研和创业就业倾向等来计算读者间的相似性。可以采用sigmoid函数将拥有相似专业、共同兴趣爱好或创业就业倾向转换为规范的相似性。同时,使用Jaccard相似度描述每对读者之间的相似性。然后使用超参数β来平衡上述两种相似性。使用Fu表示与读者u有关系的读者集,disuv)表示读者u和读者v之间的相似度。读者vFu,则读者u与读者v之间的相似性定义如下:

width=229.75,height=36.95(9)

式(9)中:simuv)为读者u和读者v之间的相似性;超参数β∈[0,1]。基于上述读者之间的相似性,可以通过传统的基于读者的协同过滤算法预测读者借阅其未借阅过的图书的概率,计算公式为:

width=135.25,height=38.2(10)

式(10)中:width=13.15,height=18.15为预测读者u在借阅图书l的概率;rvl为读者v借阅图书l的频率。

2.3 图书位置信息的影响分析

在图书馆读者更愿意借阅自己附近的感兴趣的图书。因此,为了将读者实时位置信息融入到图书推荐系统中,本文使用幂律分布来模拟读者从借阅一本图书到借阅同一个书库(书架)的另一本图书的距离函数作为读者可能借阅的概率,公式为:

width=95.15,height=18.15(11)

地方高校要以社会需求和学生成长为导向,根据自身区位优势,积极推进转型发展;要打破学科专业壁垒,优化整合教学资源,倡导研究性教学和个性化自主学习;要通过创造性的教育活动,促进学生知识、能力和素质的协调发展,提高学生的职业素养、实践能力、就业竞争力和创新创业能力,为社会输送高素质的应用型创新创业人才。

使用最大似然估计来计算两个参数ak。具体方法是:在式(11)的两边取对数,即ln[widisl)]=ln(a)+kln(disl)。通过最小二乘法获得上的ln(disl)线性函数。从而得到式(11)中的两个参数ak

假设:读者在借阅图书li,图书lj是他将要借阅的候选图书,图书li与图书lj之间的距离为disllilj)。对读者的借阅概率进行建模,读者借阅图书lj的概率与读者借阅在距离disllilj)处的图书的意愿widisl)成比例。

计算概率的公式为:

1.3.1 投资标准突破难,审计责任无力担。重庆地处丘陵山区,地貌以丘陵山地为主,“鸡窝地”、“巴掌田”居多,耕地破碎化程度较高,解决农业生产障碍性因素需要的工程类型较多,工程布置密度较大,改造治理成本高于全国平均水平。农业经营主体围绕主导产业,有的还要推进一二三产业融合发展,建设内容多,投资标准高。按现行23 940元/hm2投资标准难以推进。国家农发办不出台明确的投资标准限额,如果重庆自行确定标准,市农发办将无力承担审计责任。

丰田纺织拥有强大的技术储备,并致力于在电池技术上实现突破。在过滤器制造过程中,用于处理微细纤维的技术其实也可以用于在锂电池的隔膜上。基于此技术,丰田纺织开发了一种无纺布型分离器,与常见的隔膜相比,具有三维结构的无纺布多孔结构在锂离子通过隔板时容易保持较低的离子电阻。极大地提高了锂电池的功率密度。丰田纺织开发的电池单元是层压型,容量约为15Wh。将数十个电池单元组合成模块,再有多个模块组合成电池包。该产品的最大特点是输出密度高,其输出密度是普通混合动力汽车(HEV)电池输出密度的1.5~2倍。

width=206.6,height=42.55

随着两本图书之间距离的增加,读者借阅的概率随之降低,表明读者不太可能借阅距离较远的图书。

给定读者u和他借阅的图书集合Lu,基于贝叶斯公式计算每个候选图书的概率width=13.15,height=18.8,然后向读者推荐概率较高的图书,公式为:

width=178.45,height=46.95(12)

式(12)中:Pl)为数据集中所有读者在借阅图书的先验概率,width=98.9,height=36.95,其中|numl|为借阅过图书l的读者数目。对于给定的图书lj,它与Lu中的图书的借阅概率彼此独立,即pljli)与pljlk)相互独立,其中lilkLu

2.4 图书推荐模型建立

通过融合读者、相似度和位置信息影响来实现图书推荐,以提高图书推荐系统的精确度和召回率。用width=16.9,height=21.3width=16.9,height=22.55width=16.9,height=21.3分别表示读者ui基于读者偏好、相似度和位置影响模型下在借阅图书lj的概率,公式为:

4.发展落后的农村保险业。农业保险的特点是回报率低、赔付率高。在中国保险业商业化经营之后,由于保险公司的生存需求,需要提高保险业务的经济效益,因此农业保险业务量逐渐下滑,发展状态日渐萎缩。在一定程度上,滞后的农业保险致使金融机构对农业及农村企业的风险评估相对的提高,这一原因成为“惜贷”的重要原因之一。农村保险业组织发展滞后性不仅恶化了农村金融原本的供给紧张程度,而且严重阻碍了发展农业现代化和社会主义新农村建设的步伐。

width=100.8,height=38.2

width=137.1,height=38.2

width=115.85,height=28.8

Sij表示读者ui借阅图书lj的概率分数,即读者ui借阅图书lj的可能性越大,则Sij越大。设width=16.9,height=21.3width=16.9,height=24.4width=16.9,height=22.55分别表示读者基于读者、相似度和位置影响模型下的借阅概率的分数,即width=65.1,height=21.3

根据预测的借阅概率,可得到相应的分数,计算公式为:

width=198.45,height=40.05(13)

width=192.85,height=40.05(14)

width=192.85,height=39.45(15)

式(13)(14)(15)中:L为所有图书集合;Lu为读者u借阅过的图书集合。

在对读者进行图书推荐时,可以根据Sij的值,向读者推荐可能感兴趣图书,不同于单单基于读者和单单基于内容的图书推荐系统,本文模型综合考虑了读者借阅历史、读者之间的相似性以及读者借阅产生的实时位置信息等,以向读者推荐其可能更加感兴趣的图书。

3 结束语

在海量的图书中,形成对读者的个性化推荐,需要综合考虑多种因素的影响,降低数据的稀疏性,本文综合考虑读者、相似度、位置信息等,提出了一种个性化图书推荐模型,提高推荐的准确度。图书馆馆员可以根据模型的推荐结果对藏书进行排架、倒架、下架等操作,为读者提供更好的服务,提高图书的利用率。

参考文献:

[1]黄立威,江碧涛,吕守业,等.基于深度学习的推荐系统研究综述[J].计算机学报,2018,41(7):1619-1647.

[2]孙鲁平,张丽君,汪平.网上个性化推荐研究述评与展望[J].外国经济与管理,2016,38(6):82-99.

[3]冷亚军,陆青,梁昌勇.协同过滤推荐技术综述[J].模式识别与人工智能,2014,27(8):720-734.

[4]李默,梁永全.基于标签和关联规则挖掘的图书组合推荐系统模型研究[J].计算机应用研究,2014,31(8):2390-2393.

[5]郭淑红,刘钊,徐玉梅.基于用户特征的高校图书馆个性化图书推荐研究[J].无线互联科技,2017(4):115-116.

[6]田磊,任国恒,王伟.基于聚类优化的协同过滤个性化图书推荐[J].图书馆学研究,2017(8):75-80.

[7]郭晨睿,李平.基于社交和地理信息的兴趣点推荐[J/OL].计算机工程与应用[2019-08-19].http://kns.cnki.net/ kcms/detail/11.2127.TP.20190705.1724.034.html.

中图分类号:TP391.3

文献标识码:A

DOI:10.15913/j.cnki.kjycx.2019.18.016

文章编号:2095-6835(2019)18-0041-04

*[基金项目]长沙学院人才引进项目和湖南省自然科学基金(编号:2019JJ50691)

作者简介:郭苗苗(1987—),女,主要研究方向为图书馆现代化。吴了(1986—),男,主要研究方向为人工智能。郭晨睿(1992—),男,主要研究方向为数据挖掘。

〔编辑:张思楠〕

标签:;  ;  ;  ;  ;  ;  

融合读者、相似度和位置信息的图书推荐系统模型研究*论文
下载Doc文档

猜你喜欢