基于半监督支持向量机的图书馆微信公众号内容分类管理研究
王秀娟
(菏泽学院,山东 菏泽 274015)
摘 要: 针对平台中文本信息的分类管理问题,提出一种基于半监督支持向量机的图书馆微信公众号内容分类方法,以便实现面向不同用户群体的分类信息推送。首先,利用基于统计的分词方法对微信公众平台中图书服务文本进行预处理,并采用互信息和期望交叉熵作为特征选择方法;然后,采用半监督支持向量机作为分类器完成文本信息的分类。实验结果表明,在查准率和查全率等性能评估指标方面,提出的方法具有较好的分类效果。
关键词: 图书馆;支持向量机;分类方法;微信;信息推送;特征选择
0 引 言
在移动通信技术快速发展的背景下,微信用户数量出现了爆发式增长,国内各个行业对微信的关注也越来越多,逐步开始影响到人们生活和工作的各个方面。为了紧跟用户的需求,传统图书馆管理模式开始向着移动在线管理模式发展,从而向用户提供创新性的移动服务模式,并可以大大提高服务的质量和效率。适用于移动设备的微信及其公众号平台成为创新模式下图书馆的数字化服务重点。
由于微信具有操作简单、界面友好等优势,现阶段微信的使用率极高,特别是青壮年群体。微信公众平台作为一种基于微信APP 的新型功能模块,可以实现全方位的文本和多媒体信息的交流和互动。这些特性使得图书馆通过微信为用户提供24 h 信息推送成为可能,从而改变了一对一、面对面的传统服务方式,解决了图书馆时间和地理空间的约束。因此,各大图书馆纷纷搭建了微信公众平台作为自己的营销工具或客服平台,以便进一步提升用户服务水平。文献[1]采用基于Python语言的爬虫程序分析高校图书馆微信公众号推送文章的特征及规律。文献[2]设计一种基于微信订阅号的期刊阅览统计系统,可以通过微信平台实现期刊阅览次数的信息公开化查询。文献[3]提出一种基于微信公众平台的图书馆信息推送服务。
但是以上研究在分析基于微信平台或者公众号的图书管信息统计和推送问题时,没有考虑到面向不同用户群体的分类信息推送问题,无法做到个性化服务。需要注意的是,要想实现个性化的分类信息推送问题,首先就要对公众号中每条推送文本信息进行分类,因此本文对基于机器学习技术的公众号文本分类展开研究,提出一种基于半监督支持向量机的图书馆微信公众号内容分类方法。仿真实验结果表明,在准确率和查全率等性能评估指标方面,本文提出的方法具有较好的分类效果,具有一定的推广和应用价值。
1 中文文本分词和特征选择方法
在公众号文本内容中,相邻的词同时出现的次数越多,则组成一个词的概率越大。基于统计的分词方法,也就是对中文文本中每个字的组合频度进行统计,这需要对其互信息M (X ,Y )进行计算:
公司成立后,直面存在的问题,在充分调查研究的基础上,有针对性地出台了《储备土地及闲置资产租赁管理暂行办法》《储备土地和房产租赁价格标准及租赁方式的规定》《储备土地巡查管理办法》《薪酬管理》等一系列制度,探索建立了一套相对科学有效的管理体系,做到有章可循,有据可依,以制度管人,以制度管事。同时,还引进现代企业管理理念,建立纵向工作交办单和横向部门之间工作联系单以及工作督办等制度,做到整个工作流程简洁、高速、有效,每个工作环节分工明确,责任到人,处处留痕。
在描述和同学之间的关系时,12.04%的大学生以强调和同学之间的敌对关系、不和睦状态为价值取向,属于消极类隐喻;87.96%的大学生以强调和同学间的亲密关系、融洽相处为价值取向,属于积极类隐喻。
在公众号语料文本经过分词预处理变成词集后,得到高维的特征集。在文本自动分类中,需要降低特征空间的维数,即从输入的特征集中挑选出最合适的特征子集,以便突出体现推送内容的主题。基于统计原理,本文采用互信息(MI)和期望交叉熵(ECE)作为特征选择方法。互信息的计算方式如下:
可以看出,分类间隔最大化最大),就是将最小化。通过设置误差惩罚系数得到[4]:
式中:P (·)表示条件概率;t 表示一个特征项;Ci 表示类别。MI(t ,Ci )越大则特征项t 和类别Ci 共同出现的概率就越大。
对整个文本一般采用互信息的平均值进行计算:
对于非线性支持向量机来说,其判决函数如式(9)所示:
期望交叉熵的计算方式如下:
根据文本分类的概率分布分析,通常选择值大的特征项。
式中:P (X )表示汉字X 在文本中出现的概率;P (Y )表示汉字Y 在文本中出现的概率;P (X ,Y )表示两个字相邻出现的概率;M (X ,Y )能够客观显示出两个字之间关系的紧密度。通过基于M (X ,Y )统计的文本分词,把语料分割成特征项的表示,以便结合上下文尽量消除歧义。
转场技巧运用得当,可以增加观赏性和流畅性,丰富微视频的表现力;但若运用不当则会画蛇添足。后期剪辑时不能被软件中绚丽的转场特效所吸引,肆意添加,喧宾夺主,以至于破坏整体风格和节奏。转场技巧的运用,只有在符合主题、内容要求的基础上,才能发挥应有的作用[3]。会声会影中除了常用的转场效果外,也可以根据微视频的主题和节奏,自己设计富有个性的转场效果。
2 半监督支持向量机设计
目前,作为一种典型的机器学习方法,支持向量机已经广泛应用于各种自动化分类领域。半监督学习是近年来机器学习领域兴起的热门方向[4],其基本原理模型如图1 所示[5],可有效利用标记数据和无标记数据。
图1 支持向量机超平面示意图
Fig.1 Schematic diagram of support vector machine hyperplane
式中:K (xi ,x )表示核函数;sgn(·)表示符号函数;n 为训练样本的数量。
式中:yi 表示类别;d 表示维数;N 表示训练集合的空间大小。
分类任务的最优化问题可以用式(6)表示:
建立与不同救助主体的多层次沟通机制。国家之间在海上救助的相互合作的过程中,有大量的救助数据和信息需要在救助方之间进行传递,比如救助现场的信息、可提供的港口及补给能力的详单、救助人员培训方面的信息等。这些信息之间的互通过程都必然会涉及到协调权的行使,从而正确地处理并运用这些信息,以及时救助海上遇险人员。因此,建立与不同救助主体的多层次沟通机制,能够给国家之间协调权行使的摩擦增添更多的“润滑剂”。
对于类别属性不确定的向量,一般采用以下判决函数进行判别:
式中C 为引入的误差惩罚因子。通过式(7)求解αi ,再通过求出w 。
和是两种水解都呈现碱性的离子,而且都具有很强的还原性,按理说应该是可以大量共存的,但这两种离子具体能不能共存,不能一概而论,而应该看它们所处的具体环境,如果是碱性的溶液中是可以大量共存的。若是在酸性的环境下,体现出氧化性,S2-则体现出还原性,它们之间就要发生氧化还原反应而不能大量共存,反应的离子方程式如下:
设定支持向量机的训练样本集为:
3 实验结果与分析
为了验证提出算法的性能,本文以某“211 工程”高校图书馆的微信平台为数据集,进行了仿真实验与分析。统计数据的时间段为2018年1月1日—5月31日,选取了包括历史类、体育类、理工类、艺术类、农学类、医学类、经济类7个主题的共1 873篇微信公众号文本,并随机选取873篇作为训练集,剩下的1 000篇作为测试集。
3.1 评估指标
采用查准率(p )和查全率(r )作为评估指标,以便客观显示自动化分类的性能。p 和r 的计算方式如下:
采用2(实验组、对照组)×3(前测、后测、追踪测试)重复测量实验设计方法,在实验干预前对所有被试统一施测IAS、SAQ、主观幸福感指数3个量表.在干预结束及结束八周后,使用上述量表对所有被试再次进行心理测量,结合实验组被试自我报告和带领者的团体观察记录对干预效果进行综合评估.
式中a ,b ,c 的列联表示如表1 所示。
表1 列联表
Table 1 Contingency table
3.2 分类结果
采用互信息(MI)和期望交叉熵(ECE)作为特征选择方法,并以半监督支持向量机作为分类器对7 个主题的图书馆微信公众号文本进行分类测试。表2 为以半监督支持向量机和K-近邻(KNN)[6]作为分类器的测试结果。从表2 可以看出,在两种特征选择方法下,半监督支持向量机的查准率和查全率都高于KNN 分类方法,即半监督支持向量机更适合于上述主题的图书馆微信公众号文本分类任务。
表2 不同分类器进行对比测试的结果
Table 2 Comparison testing results of different classifiers %
4 结 语
本文提出一种图书馆微信公众号内容分类方法,能够对公众号中每条推送文本信息进行分类,从而实现个性化的微信用户信息推送。采用半监督支持向量机作为分类器完成文本信息的分类,仿真实验结果验证了半监督机器学习在微信公众号文本分类中的可行性,且在准确率和查全率等性能评估指标方面,本文提出的方法具有较好的分类效果,对于图书馆的移动化新服务模式具有一定的推广和应用价值。
范冰冰在《福布斯》2015全球最高薪女星排行榜中,以年收入2100万美元排名第四,是唯一进榜的亚洲女星。2016年,范冰冰以1700万美元年收入登榜福布斯全球十大最高收入女星第5名。置于“天价片酬”的背景下,人们对明星偷漏税的传言不置可否。但偷漏税的成本有多高,后果有多重?
参考文献
[1]周海晨,陆和建.“985 工程”高校图书馆微信公众号研究[J].大学图书馆学报,2017(1):46-52.ZHOU Haichen,LU Hejian.Study on WeChat Public Number of University Library of "985 Project" [J].Journal of academic libraries,2017(1):46-52.
[2]陈崇辉.基于微信订阅号的期刊阅览统计系统设计[J].现代电子技术,2017,40(2):125-128.CHEN Chonghui.Design of journal reading statistics system based on WeChat subscription [J].Modern electronics technique,2017,40(2):125-128.
[3]康思本.基于微信公众平台的图书馆信息推送研究[J].现代情报,2014,34(5):131-134.KANG Siben.Research on Library Information Pushing Based on Wechat Public Platform [J].Modern information,2014,34(5):131-134.
[4]WU J,Yang H.Linear regression-based efficient SVM learning for large-scale classification [J].IEEE transactions on neural networks & learning systems,2017,26(10):2357-2369.
[5]MANEK A S,SHENOY P D,MOHAN M C,et al.Aspect term extraction for sentiment analysis in large movie reviews using Gini Index feature selection method and SVM classifier[J].World wide Web -internet & Web information systems,2017,20(2):135-154.
[6]SUBRAMANIYASWAMY V , LOGESH R.Adaptive KNN based recommender system through mining of user preferences[J].Wireless personal communications,2017,97(4):1-19.
[7]WANG J,GAO F,LI J,et al.The usability of WeChat as a mobile and interactive medium in student-centered medical teaching [J].Biochemistry & molecular biology education,2017,45(5):421-425.
[8]FENG S,LIANG Z,ZHANG R,et al.Effects of mobile phone WeChat services improve adherence to corticosteroid nasal spray treatment for chronic rhinosinusitis after functional endoscopic sinus surgery:a 3-month follow-up study [J].European archives of oto-rhino-laryngology,2017,274(3):1-9.
[9]PENG Y Z.Sharing food photographs on social media:performative Xiaozi lifestyle in Young,middle-class Chinese urbanites′ WeChat ′Moments′ [J].Social identities,2017(1):1-19.
[10]AI C,CHEN B,HE L,et al.The national geographic characteristics of online public opinion propagation in China based on WeChat network [J].Geoinformatica,2017,22(11):1-24.
Research on library WeChat public number content classification management based on semi-supervised support vector machine
WANG Xiujuan
(Heze University,Heze 274015,China)
Abstract: A library WeChat public number classification method based on semi-supervised support vector machine is proposed to realize the classification information push for different user groups and the classification management of text information in the platform.The word segmentation method based on statistics is used to preprocess the book service text in the WeChat public platform,and mutual information and expected cross entropy are adopted as the feature selection method.The semi-supervised support vector machine is then used as a classifier to implement the text information classification.The experimental results show that the proposed method has a better classification effect in terms of performance evaluation indicators such as precision ratio and recall ratio.
Keywords: library;support vector machine;classification method;WeChat;information push;feature selection
中图分类号: TN911-34;TP393
文献标识码: A
文章编号: 1004-373X(2019)17-0177-03
DOI: 10.16652/j.issn.1004-373x.2019.17.038
收稿日期: 2018-11-19
修回日期: 2019-01-05
作者简介: 王秀娟(1978—),女,山东成武人,硕士研究生,馆员,研究方向为图书馆学。