1.东莞成电智信信息科技有限公司 广东东莞 523808;2.电子科技大学广东电子信息工程研究院 广东东莞 523808
摘要:针对物联网中效劳数量的大规划性、效劳描绘的异构性以及设备效劳的资源高度受限性和移动性等特色,提出了一种依据概率主题模型的物联网效劳发现办法.该办法的首要特色是:1)运用英文Wikipedia构建高质量的主题模型,并对类似短文本的效劳文本描绘进行语义扩大,使主题模型可以更有用地估量效劳文本描绘的隐含主题;2)提出运用非参数主题模型学习效劳文本的隐含主题,下降模型练习时刻;3)运用效劳隐含主题对效劳进行主动分类和文本类似度核算,快速削减效劳匹配数量,加快效劳文本类似度核算;4)提出可以一起支撑WSDL-based和RESTful两种物联网效劳的signature匹配算法.试验结果表明:与现有的物联网效劳发现办法比较,该办法的精确率(precision)和归一化折损累积增益(NDCG)都有较大起伏的进步.
关键词:概率主题模型;物联网;效劳发现
1导语
物联网(Internetofthings,简称IoT)是指物物相连的互联网,它将互联网扩展到物理国际中,经过射频辨认(radiofrequencyidentification,简称RFID)、传感器、全球定位等信息传感技能,按约好的协议,把物理国际中的物体与互联网相连接,进行信息交流和通讯,然后完成对物体的智能化辨认、定位、跟踪、监控和办理.
2相关作业
目前,与物联网效劳发现相关的作业首要包括评论物联网效劳发现所面对的应战和详细的效劳发现办法两个方面.评论了物联网效劳发现所面对的可能应战.他们以为,物联网具有超大规划查找空间和实时性的特色,为了支撑实时查找,可以选用依据上下文的查找机制来缩小查找空间,然后缩短查找响应时刻,并节约资源受限设备的能量.从可扩展性、效劳描绘的异构性以及设备效劳的移动性等方面剖析了物联网效劳发现面对的应战.他们以为,选取合适的效劳发现架构以及对效劳进行有用的分类,可以有用地处理物联网中的大规划效劳发现问题.其次,为了处理设备资源的有限性导致的效劳不可获取性问题,需求规划一种高效的效劳发现办法.在之前的作业中,我们剖析了将传统Web效劳发现办法运用于物联网效劳发现中(特别是设备效劳发现)的可行性与局限性,并以为:关于具有较大规划查找空间、异构效劳描绘以及设备资源高度受限等特色的物联网效劳发现而言,构建一个高效、实时的轻量级语义效劳发现办法至关重要[4].在详细的物联网效劳发现办法方面,首要从减小设备资源耗费的角度出发,评论了两种适用于设备效劳的轻量级效劳描绘模型,并给出了相应的效劳发现办法:首要,依据效劳恳求的类别断定候选类似效劳集;然后,依据候选效劳集的上下文信息,进一步发现与效劳恳求最相关的效劳.可是,该办法没有考虑效劳规划较大时的可扩展性和设备效劳的动态可获取性问题.以为:跟着物联网效劳数量的添加,即便执行一个简略的效劳发现操作,其资源耗费都有可能超过设备所具有的资源量.他们提出选用概率发现的办法来寻找满意恳求的近似效劳集,以加快效劳发现和减小资源耗费.提出一种用于物联网效劳发现的混合语义效劳匹配办法.该办法运用隐含狄利克雷散布(latentDirichletallocation,简称。学习效劳的隐含主题,并经过核算效劳与效劳恳求的主题类似度断定候选效劳集;然后,进一步选用逻辑signature匹配断定与效劳恳求最类似的效劳集;最后,试验指出,其精确率比现有的语义效劳匹配办法更好.但其存在以下几个方面的缺少:1)与互联网上的文档不同,效劳描绘文档类似短文本,缺少满足的词频共现;而直接运用依据统计的LDA主题模型不能有用地估量出短文本的隐含主题;2)仅选用效劳语料库作为LDA的练习数据集,规划较小,难以取得一个高质量的主题模型,然后很难提取效劳文本的真实隐含主题;3)为了得到适用于特定运用场景的LDA主题模型,需求精心选择主题参数K,练习多个具有不同K值的主题模型,比较耗时;4)没有考虑物联网中RESTfulWeb效劳的匹配办法.本文提出的办法首要结合物联网效劳发现的特色,是在作业基础上的扩大和改进.首要,为了精确地估量效劳文本的隐含主题,我们提出:1)运用Wikipedia对类似短文本的效劳描绘进行扩大,将短文本建模转换为长文本建模;2)运用规划较大的英文Wikipedia数据集作为主题模型的练习集,以取得一个具有较高质量的主题模型.其次,针对LDA模型练习需求耗费很多时刻的问题,我们提出运用非参数贝叶斯主题模型HDP进行效劳文本主题建模,然后无需调整主题参数,很多缩短模型练习时刻.最后,我们提出了可以一起支撑WSDL-based和RESTfull两种物联网效劳的signature匹配办法.试验结果表明:与Cassar等人的作业比较,本文所选用的效劳发现办法的精确率和NDCG都有较大起伏的进步.
3概率主题模型
概率主题模型是一系列旨在发现大规划文档会集隐含主题结构的算法(http://www.cs.princeton.edu/~blei/topicmodeling.html).LDA是最简略的概率主题模型,它可以提取文档的隐含主题,将文档从高维的词向量空间映射到低维的主题向量空间中.其在文本发掘领域包括文本主题辨认、文本分类以及文本类似度核算方面都有广泛的运用.LDA模型依据3点假定:1)词袋模型(bag-of-words,简称BOW)假定,即,LDA以为:一篇文档是由一组词构成的一个调集,词与词之间无先后次序联系;2)练习文档会集文档的次序无关紧要;3)作为一种参数化的贝叶斯模型,练习时需预先指定主题数量K.在LDA模型中,一篇文档可以包括多个主题,文档中的每个词都由其间的一个主题生成.给定特定的文档集和主题数目K,LDA假定文档会集一切文档同享这K个主题,但每篇文档具有不同的主题散布.假定已知文档集包括K个主题,文档中的主题散布由参数a决议,主题中的单词散布由主题z和参数b一起决议.LDA主题模型的图模型表明以及文档生成方法如表1左部所示,其间,带阴影的圆圈表明可观测变量;不带阴影的圆圈表明躲藏变量;带箭头的直线表明随机变量之间的依靠联系;矩形框表明重复,右下角的字母表明重复次数.关于给定的文档集,模型的练习就是估量文档会集“文档-主题”散布q和“主题-词”散布b,可以运用onlinevariationalBayes(VB)办法来估量LDA参数.
表1LDA和HDP模型的文档生成进程及其图模型表明
尽管运用LDA可以成功地学习一个文档调集的主题结构,但其模型练习需求预先指定主题的数量K.模型的质量直接依靠于主题的数量K的选取.该参数是一个经验值,若K过小,则主题粒度过粗;若K过大,则主题粒度过细.为了精确地估量文档中的主题个数,需求不断调整参数K,练习多个LDA主题模型,比较耗时.为了处理LDA模型练习参数调整问题,提出了非参数贝叶斯主题模型HDP.它能依据数据集主动断定主题数目K.为了介绍HDP,先引进狄利克雷进程(Dirichletprocess,简称DP).假定G0是某空间X上的随机概率散布,超参数a0为正实数;若对空间X的恣意一个有限的区分X1,…,Xr,均有以下联系存在:(G(X1),…,G(Xr))~Dir(a0G0(X1),…,a0G0(Xr)),则G遵守由基散布G0和超参数a0组成的狄利克雷进程,记作G~DP(a0,G0).HDP是DP混合模型的多层方式,假定一切文档的主题均遵守基散布H,文档集的主题散布G0遵守DP(g,H),文档会集文档d的主题散布Gd遵守DP(a,G0),则HDP的方式化界说如下:G0|g,H~DP(g,H),Gd|a0,G0~DP(a0,G0).与LDA模型练习类似,也可以选用onlinevariationalBayes办法来估量HDP主题模型的参数.与LDA主题模型不同的是,HDP是一种非参数贝叶斯模型,可以从文档会集主动选择最恰当的主题数K.即在练习HDP主题模型时,K完全由给定的数据集决议,只需练习1次模型即可.其次,关于未见过的新文档,HDP可以发生新的主题,故其十分适合于对不断改变的文档集进行主题建模.而关于LDA,即便依据现有的数据集,精心选择主题数,也不能确保这些主题可以包括今后一切的新文档.
参考文献:
[1]邵全义,王小琼. 物联网环境下传感器路由探测算法[J]. 科技通报,2016,32(08):172-175+206.
[2]孟广保. 基于信任的物联网安全路由技术探究[J]. 电脑编程技巧与维护,2016,(13):91-92.
支持基金:获得广东省科技计划项目(项目编号: 2013B040300001)资助。
论文作者:沈刘冰1,邓,华1,许珠文2,许,都2
论文发表刊物:《防护工程》2017年第30期
论文发表时间:2018/3/9
标签:主题论文; 模型论文; 文档论文; 发现论文; 办法论文; 文本论文; 参数论文; 《防护工程》2017年第30期论文;