构建个性化档案数据服务引擎研究,本文主要内容关键词为:档案论文,引擎论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、档案数据服务个性化的必要性 人类社会的数据产生方式大体经历了三个阶段[1],分别是运营式系统阶段、用户原创内容阶段和感知式系统阶段。其中,第二阶段和第三阶段的数据形态将构成大数据档案数据的主要来源,其特点是信息量不断增大,数据类型更加复杂。由此,“信息超载”问题也将在大数据档案领域内日益体现。另一方面,随着档案文化的发展,用户对档案信息的需求也日益多样化,用户碎片化的需求发展趋势要求档案信息系统能够为其提供个性化的服务。 在此,我们给出一个个性化档案数据服务引擎的定义,即:利用档案数据系统,收集与分析用户对档案数据的偏好与需求,向档案用户提供档案数据信息和建议,帮助用户决定档案利用行为,满足用户对档案数据个性化需求的技术系统和服务机制。 在大数据时代,如何让用户根据自身的个性化需求获得档案资源的个性化结果,这是档案服务引擎必需的功能,也是适应大数据时代档案服务由“供给导向”向“需求导向”发展的要求。例如,目前对档案数据资源获取普遍采用的是单一检索方式(如关键字检索),而这种方式获得的信息局限性大、范围窄、关联性低。由此造成了档案数据检索利用工作中很多常见问题,这些问题的实质是档案信息难以智能化地到达目标用户。尤其是随着大数据时代的到来,这些问题将更加突出。对于档案利用来讲,从海量档案数据中抽取符合用户需求的有用信息才是关键。因此我们可以得出结论:建设档案数据个性化服务引擎是档案馆向个性化、智慧化服务迈进的重要战略手段。 二、对个性化档案数据服务引擎关键技术的分析 档案服务的个性化主要包括“服务时空的个性化(在用户希望的时间和地点得到服务)、服务方式的个性化(根据用户个人偏好提供服务)以及服务内容的个性化(用户备取所需,不再千篇一律)”[2]。以用户视角来看,其中最关键的是所获得信息内容的个性化,这是建设个性化档案数据服务引擎的重点。因此,为了实现对用户服务信息内容的个性化,当前很有必要引入个性化推荐(Personalized Recommendation)的方法与技术,建立档案数据的个性化推荐系统。 当前较成熟的推荐系统实现技术包括基于关联规则的推荐、基于协同过滤的推荐、基于内容的推荐等。以下对这些信息推荐技术进行简要分析,并剖析哪种技术适用于建设个性化档案数据服务引擎。 1.基于关联规则的推荐算法 关联规则[3]应用在推荐系统上的典型方式,就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y,得到的关联规则表示为:X=>Y[s%,c%]。其中“s”表示关联规则的支持度,“c”表示关联规则的置信度。当发现用户采纳规则前件时,向用户推荐规则后件。 基于关联规则的推荐优点是:研究技术比较深入、技术比较成熟,其实现的软件产品、技术人员等也比较丰富。其缺点在于:(1)在模型建立阶段计算量往往很大,这个过程在大数据集上更难短时间完成,故难以实时反馈给用户推荐结果。(2)关联规则的挖掘是“数据集特定型”的。对于从某个数据集挖掘出的关联规则,往往是特定的、并非具有广泛意义的,应用到其他场合的话,这个规则就不成立,因而限制了已有的挖掘成果的应用。(3)在完成关联规则的模型建立、存储后,也一般不能做到经常修改模型、进行关联规则集的更新,所以推荐的准确性、应变度不好。(4)对于所产生的关联规则的解释,本身就是一个复杂的、在很大程度上具有超技术特征的哲学式任务。在实践中,事情根本没有想象的“数据库中80%买了A的人也会买B(所以推荐B给买了A的人)”那样简单,误导的关联规则和负相关问题需要额外的处理和关注。(5)从根本上来讲,基于关联规则是一种非个性化推荐算法,甚至是一种“反个性化”算法。原因在于:从关联规则挖掘的原理上来看,只有频繁发生的事务,才有可能成为关联规则的候选,那些少量出现(低于指定阈值)的记录,根本不会成为关联规则参与推荐。这就意味着,除非目标用户与大多数人的行为模式相似,否则难以得到满意的推荐。 2.基于内容的推荐算法 基于内容的推荐算法即基于项目特征匹配式推荐算法。这种方法为每个用户建立兴趣模型(Profile),再为推荐对象建立一个特征模型,然后计算二者的匹配程度,将匹配程度最高的项目推荐给用户。该技术一般典型应用于文档推荐系统中,其主要思想是:将待推荐的文档提取出其特征向量,再根据用户以往的阅读习惯和范围等,提取用户的兴趣特征集合,随后计算用户特征向量与文档特征向量的匹配程度,将与用户匹配程度最高的N个文档推荐给用户。 这项推荐技术的个性化程度较高,但其难点在于对推荐项目(如文本)特征的提取,如文献[3]介绍了对于文本的特征提取公式等,而对于那些难以提取特征、准确表达成向量形式的推荐项目(如音像档案等),这种方法的精度不高,因为并不是所有的推荐项目都可以像文本这样有成熟的提取特征算法。另外,对于用户的兴趣提取与建模也需要根据应用场景具体研究恰当方法。 3.基于协同过滤的推荐算法 协同过滤[4]的基本原理是基于最近邻居的评分数据对目标用户产生推荐。协同过滤技术的核心是用户——评分矩阵,用来表示用户对每个项目的评价。基本的推荐步骤是用户评价、最近邻查找、推荐结果生成。协同过滤总体上可分为两类:基于用户的协同过滤(User-Based CF)和基于项目的协同过滤(Item-Based CF)。对于UBCF和IBCF哪个性能更佳,目前没一个绝对的定论。但一般认为,对于UBCF,用户数越多,相对越准确。相关研究表明UBCF适应于语义相似项目的情况,越相似越准确。 协同过滤法有许多的优点:相对于其他推荐技术,协同过滤技术推荐结果个性化程度高、多样性好、新奇度高,并可以挖掘用户的兴趣点,从而得到潜在推荐。从计算的角度来讲,数据表示简单,算法易于实现,更便于实践中的推广使用。 但是,协同过滤技术也存在一些不足:典型的即是稀疏问题(Sparsity)、冷开始问题(Cold-Start)等等。因此,对协同过滤算法的研究主要集中于解决这些问题。一些相关研究表明,采用诸如奇异值分解、多兴趣矩阵划分、组合推荐策略等方法,可以较好地改进协同过滤自身存在的不足。 4.推荐算法的对比分析与档案个性化推荐技术的选择 在以上的几种推荐系统实现技术中,协同过滤是目前研究关注最多、应用较为成功的个性化推荐技术。特别是就推荐的个性化程度而言,在很多方面其优于关联规则等方法。这是由二者的实现机理决定的:关联规则实质上是“随大流”推荐算法,协同过滤是“寻找自我”的个性化算法。从总体来看,关联规则方法的目的,是在于从整体上了解数据库事务较为普遍的、宏观的发生规律。就是说,关联规则方法是在考察整体,而非“关照个体”,然而后者正是推荐系统(尤其是个性化推荐系统)的重要要求。所以,关联规则对于个性化推荐系统的建立并非理想的技术。相关研究[5]也指出基于关联规则的推荐方法缺点在于:如果其支持度和置信度选取不当,会造成计算时间过长或是较差的推荐性能。 基于内容的推荐算法,实际是要探究用户“为什么”对某些项目感兴趣,其通过建模计算将用户的兴趣度映射到一些项目属性,从而推定用户对另外项目的兴趣度。这种方法的推荐质量和个性化程度主要取决于对推荐对象与用户偏好的具体建模质量。 协同过滤算法实际上是把每一个用户或项目的评分向量都作为一个规则,即使这个评分向量状态只出现过一次,在为目标用户查找最近邻时也不会被忽略,从而可以充分照顾到个性化程度强、信息需求差异较大的应用需求。此外,该推荐机制原理简单、实现方便、需要的相关理论知识较少。这对于当前档案数据推荐系统所面临的用户特点、数据特点以及现实建设条件等是十分适用的。因此,对于当前档案数据个性化推荐系统的建设,可选择协同过滤技术作为系统实现的主要技术,并可辅以基于内容的推荐等技术提高档案信息推荐系统的性能。 三、档案数据个性化推荐系统方案设计 1.档案数据个性化推荐系统中构成元素的特点 基于以上分析,接下来主要围绕以协同过滤推荐技术方式实现的档案个性化推荐系统的特点进行探讨。 在此种技术的推荐系统中,档案用户一般具有以下特点: (1)用户的概念既包括档案馆工作人员也包括档案利用者,因此推荐系统应面向两者服务,且两者间可加强信息互动; (2)矩阵中用户相对于档案数据的数量是较少的,故使用UBCF比IBCF算法效率高; (3)相对于其他应用场景,用户对档案数据反馈参与度更高,因此更易获得主动评分; (4)档案利用中用户更乐于提供自身的属性信息,这为用户建模提供了较好条件; (5)当前用户的利用目的的以事务办理为主,但文化研究目的应用正在增多,因此推荐系统应具备处理这两种应用场景的推荐策略; (6)多数用户对档案工作情况了解不全面,档案利用中需要信息推荐。 推荐系统中的档案数据一般具有以下特点: (1)相对于其他应用场景,档案数据更具规律性,具备较完善与权威的分类体系; (2)档案数据往往具有较完善的说明信息(如元数据),为对其建模提供了较好条件; (3)相对于其他推荐项目,档案数据内容规整、价值度高; (4)档案数据相互之间往往具有较高的联系度以及相似度,适于聚类和分类; (5)档案数据作为推荐项目其粒度多样可变,如是以文件还是以案卷或类别为单位; (6)大数据时代的到来使其数量急剧增长。 推荐系统中的评分数据一般具有以下特点: (1)稀疏问题继续存在,需要奇异值分解等改进策略; (2)可由档案馆专业人员根据档案利用数据及经验预设部分评分,缓解冷启动问题; (3)可采用二值形式记录用户的利用行为; (4)档案利用登记制度的存在,相对可更易收集获取用户对项目的评分; (5)数字化档案馆的推广可使对评分的主动收集与被动收集并重; (6)在其他应用场景中“使用非胜利”现象造成的评分误差,可由档案馆利用反馈机制进行一定程度的消除。 基于以上推荐系统元素的特点分析,下面我们提出档案推荐系统的建设方案。 2.档案数据个性化推荐系统模型 我们提出档案数据个性化推荐系统模型如图1所示。标签:大数据论文; 矩阵论文; 关联规则论文; 个性化推荐系统论文; 协同过滤论文; 用户研究论文; 矩阵分解论文; 相似矩阵论文; 系统评价论文; 相关矩阵论文;