基于百度索引的网络用户关注度研究_搜索引擎论文

基于百度指数的网页用户关注度研究,本文主要内容关键词为:指数论文,网页论文,用户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

对理论用户关注度和实际用户关注度进行相关性分析。当n=1,2,3,4,5时,相关系数R分别为0.6164、0.7851、0.7864、0.7892、0.7879,可以认为具有较强的正相关性。当n=4时,R最大,说明对于这条论坛新闻,当特征词数量取4时,能够最大限度地反映网页的文本特征,最能体现理论用户关注度与实际用户关注度之间相关性。

6 基于回归分析的算法验证

把某篇论坛新闻点击量最大值设为1,将其余13天的点击量归一化,然后绘制150个网页的实际用户关注度的均值曲线。同样,设特征词数量n=3,把该网页的理论用户关注度最大值看成1,将其余13天的关注度归一化,并绘制150个网页的理论用户关注度的均值曲线。由图2可以直观地发现,两者具有一定的相似性。

图2 网页的理论用户关注度拟合曲线和实际用户关注度拟合曲线

需要指出,对于突发事件(如海啸事件),通常是先有新闻报道后有网民在线搜索;对于预期事件(如重大赛事),往往是先有网民在线搜索后有新闻报道。可见。搜索引擎收录的词条与网页的发布不同步,存在时差,而多元回归分析在一定程度上可以解决这些问题。

(1)关于特征词数量的选取

表4给出特征词个数n、自变量个数m分别取不同值时,理论用户关注度与实际用户关注度的相关系数R的均值。R反映了回归模型中自变量对应变量解释能力的强弱,R越接近1,解释能力越强。表5给出n、m取不同值时回归模型的显著性水平Sig。显著性水平用于检验回归方程的线性关系是否显著,Sig在0.05以下,说明线性关系显著。

可见,当n=3时,R的均值最大(0.803),Sig的均值最小(0.072)。说明n=3最能反映网页的正文内容。这是因为:当n<3时,太少的特征词忽略了重要信息,不能准确反映文本的特征;当n>3时,过多的特征词会造成部分噪声,影响理论用户关注度与实际用户关注度之间的相关性。

图3显示n取不同值时,150条网页相关系数R的分布状况。可以看到,当n=3时,有92条网页(占61.3%)的R处于(0.7,1]区间,说明超过半数以上网页的理论用户关注度与实际用户关注度之间有较强的正相关性。

图3 n取不同值时,相关系数R的分布

通过上述实验,可以发现,n=3能准确反映网页正文内容的文本特征,最大程度体现理论用户关注度与实际用户关注度之间的相关性。也就是说,通过查询这些特征词对应的百度关注度并加以计算,能客观地反映整个网页的理论用户关注度。

(2)理论用户关注度与实际用户关注度相关性分析

图4显示m、n取不同值时,15个随机样本的相关系数均值的变化趋势。从相关系数的角度看,当m=1时,R均值最小(0.684),而当m=4,R均值最大,为0.851。尤其当n=3,m=4时,R达到最大值(0.866),此时15个随机样本的回归系数如表6所示。

图4 m、n取不同值时,相关系数R的变化趋势

从显著性水平的角度看,当n=3,m=2时,显著性水平Sig的均值最小(0.049),此时15个随机样本的回归系数如表7所示。

根据表7数据,可得到如下回归模型:

回归分析表明网页的理论用户关注度与实际用户关注度(点击量)之间具有较高的正相关性,相关系数达0.8以上,从而验证了本算法的有效性。换言之,用本文提出的网页理论用户关注度代替网页的点击量,在一定程度上可以客观反映网页实际受到用户关注的程度,有助于杜绝篡改点击量等网络作弊行为,为优化搜索引擎排序算法提供借鉴。

7 结束语

本文提出了计算网页的理论用户关注度的方法。该方法只需考虑网页的正文内容,并借助百度指数,就能够确定网页受到用户关注的程度。通过实验分析,确定了特征词提取的最佳个数n=3。通过多元线性回归分析,发现网页的理论用户关注度与实际用户关注度(点击量)之间具有较高的正相关性,从而验证本文算法的有效性。

今后将在以下几个方面展开更深入的研究:

(1)特征词选取:频繁出现的名词不一定反映网页的主题,从而影响关注度计算的准确性。可以借鉴基于机器统计学习的文本分类方法,构建面向主题的语料集,在此基础上应用文档频率法(DF)、信息增益法(IG)、统计量法(CHI)、互信息法(MI)等抽取特征词。

(2)特征词权重:本文采用绝对词频(TF)法,此外常用的特征权重计算方法还有布尔权重、倒排文档频度(IDF)、词频-逆文档频率(TF-IDF)、归一化的词频-逆文档频率(TFC)等。不同的权重计算方法可能影响理论用户关注度,因此有必要对这些方法进行实验比较。

(3)语义理解:由于认知能力的不同,用户往往选用不同的术语来表达同一概念或概念间的关系,而搜索引擎对用户提交的词条统计时,并没有考虑到相互的语义关系。因此,可以将本体建模方法引入到词条分析中,增强语义理解能力,进一步提高关注度的准确性。

(4)与搜索排名结合:采取竞价排名只是少数网站的商业化行为,主流的搜索引擎对绝大部分网站还是采用基于链接分析的排名机制。可以在搜索引擎原有的基于链接的排序基础上增加网页用户关注度排序算法,将理论用户关注度最高的网页靠前排名,这样有助于搜索引擎的优化排序,从而更加准确地满足用户的检索需求。

(5)实验样本的选取:本文实验是基于对150条网络新闻持续跟踪44天得到的数据而展开的。总体而言,样本不多,实验结论可能受到偶然因素影响。因此,今后的工作还需要进一步加大样本数量,同时还可以对网页的内容进行细分(如新闻类、百科类),从而验证本模型对不同类型网页的适用性。

收稿日期:2011年12月6日

标签:;  ;  ;  

基于百度索引的网络用户关注度研究_搜索引擎论文
下载Doc文档

猜你喜欢