网络信息RF-F分群管理模式研究,本文主要内容关键词为:管理模式论文,网络论文,信息论文,RF论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着网络技术的迅猛发展,互联网业已成为全球主要的信息传播媒介和最重要的信息源之一。不同于传统文献,网络信息呈现出指数级的爆炸性增长。据中国互联网络信息中心(CNNIC)今年(2012年)年初发布的《第29次中国互联网络发展状况统计报告》[1]的统计数据显示:截至2011年12月底,中国域名总数达886万,中国网民规模突破5亿,达到5.13亿(手机网民规模达到3.56亿),普及率亦攀升至38.3%。网络信息本身从一开始就缺乏通用的分群标准,以及统一的控制和管理机制,从而导致网络信息序化程度低,利用率低,配置效率得不到提高。面对海量的网络信息,管理者没有一个科学的管理依据,用户也往往会感到茫然而无所适从。在这种情况下,只有把大量处于随机、分散以及无序状态下的信息转变为有规律的、有序的信息,才能充分发挥其价值作用,使其价值最大化,这一过程就是网络信息的分群管理过程。为了进一步完善网络信息生命周期与分群管理研究,本研究将从纵深视角切入,充分考虑不同网络信息个体间的异质性,立足RFM分析模式与Fisher有序聚类方法,构建网络信息的RF-F分群研究模式。
1 网络信息分群管理
现有的网络信息分群管理研究主要来源于内容与语义层面的分群管理研究,这些研究的侧重点主要在于信息污染、信息安全以及过滤技术。如早在1996年,美国娱乐软件咨询委员会(RSAC)为了保护儿童免受不良信息的侵扰,编制了一个适合自我分级的分级体系——RSACi分级体系[2],接下来的数年时间里,很多互联网公司和监管以及研究机构都根据实际管理需要,从内容管理与技术实现层面提出了相应的分群管理体系。而在国内的图书情报学界,黄晓斌和邱明辉从内容过滤与分级视角出发,根据“充分揭示不良信息、满足用户多样化需求、易于分级、便于管理”等原则提出了“图书馆适用分级体系大纲”,作者并主张为了扩大分级体系的影响力,分级结果应该生成PICS标记[3]。以往关于网络信息的分群管理研究大多沿用了上述研究的思路与方法,这些研究从本质上讲都可以概括为内容与传播层面的分群研究。内容与传播层面的分群研究属于技术实现层次的研究,笔者认为,为了深入探讨网络信息的本质特征和生命规律,有必要从价值规律视角探讨网络信息分群管理过程的实现以及相关模式的构建。RFM分析模式利用三个指标:近度(Recency)、频度(Frequency)以及额度(Monetary)侧重从用户行为触发的价值视角来对研究对象进行细分。总的来看可以归纳为三个特点:数据获取简单;指标参数定义明确;应用面广[4-5]。
2 Fisher有序聚类方法的基本原理
Fisher有序聚类是以有序样本的总离差平方和最小为聚类依据的一种统计方法,具有同时支持单指标和多指标聚类、强调样本有序性等特点。和其他聚类方法类似,Fisher有序聚类的聚类原则是使得各群类内部有序样本之间差异最小化,同时使各群类之间的差异最大化。和一般聚类分析的不同之处在于它是针对有序样本来进行分类,而其他聚类方法对样本的有序性并没有特别要求。故而,该方法实际上就是将有序样本按照某种标准来进行分级,以判别或研究某一事物的发展过程和发展级别。
根据Fisher有序聚类原理,可以找到某个函数使得所有分类的类直径之和最小。
(2)目标函数的定义。
3 R与F的分配设计
对网络信息进行分级识别是以其个体间的异质性为导向进行差异化细分管理的基础和前提。目前关于网络信息分级细分管理的研究可分为两大类:一类是内容或表现形式驱动视角,该视角的研究侧重从信息传播、内容控制和软件技术等方面考虑网络信息的分群管理问题,有些该类型的研究则沦为分类研究;另一类是特征属性驱动视角,特征属性驱动视角的研究强调以少量关键属性为标准来对网络信息进行分群,侧重以数据挖掘技术为工具来实施分群管理建模和定量分析研究。前者会在某种程度上“重技术轻管理”,难以避免以技术看技术的片面性,并没有有效把握网络信息的本质规律,但角度的研究往往也能跳出理论层面的研究。后者的研究趋势则是在把握网络信息特征属性的基础上,将传播控制技术与数据挖掘技术融合,构建网络信息分群管理系统。现阶段应该以网络信息群体的异质属性为基本出发点,探索基于关键生命周期指标的分群管理建模,理清网络信息个体间差异性的本质规律,只有这样才能为下一步的研究奠定良好基础。本研究在总结以往研究的基础上,突破学科界限,受启发于市场细分理论中的RFM分析模式,提出了基于聚类思想和决策科学的分群管理建模思路。
基于网络信息个体在群体生命周期过程中可能表现出来的异质性,并为了能最大化地区分网络信息群体,本研究选择将R(Recency)和F(Frequency)作为网络信息分群管理建模的关键指标。其中R是指网络信息个体最近一次获得评论的时间与观测时间点的相对时距,称为近度;F为从信息个体生命起点一直到观测截止时间点这段时域内网络信息个体获得评论的频率,也即平均评论量的倒数,称为频度。笔者认为,这两个指标能够从本质上反映网络信息个体间异质性,不同网络信息个体在这两个指标上会呈现出较大的差异性。
本研究设计的分群管理模式的关键指标划分标准是根据学者Miglautsch于2000年提出的行为五等分法思想,该方法的特点是会根据利用行为动态来合理分配分级比例[6]。为使分级过程更加简明和可操作性更强,笔者主张把各关键指标权重一致化,同时为避免决策表过度庞大,依据RFM模式中R和F这两个反映网络信息异质性但却来源于用户行为的变量,并借助Fisher有序聚类法对网络信息在观测期内的实际观测值划分为四个类属,即网络信息的R值和F值各有四个类属(并对应赋予一定的等级状态值),由此可排列组合出4×4=16种用户行为变量类属组合,对应的类属状态表如表1所示。
为了更方便网络信息管理决策,使网络信息的群聚分级更加直观,又继续将R和F的等级划分为三个等级,如表2所示。
在上述两个表的基础上,本研究将上面的16种类属进一步归纳为9个类属的网络信息群体,如表3所示。
针对表3的9种RF类属,经过R和F的综合考虑和分析,可以得到对网络信息进行分群管理的5个群组等级(Level,简称L),如表4所示。
通过RF-F分群管理模式,可以很好地区分网络信息群体中属于不同群组等级的网络信息,从而针对不同等级的信息实施相应的动态管理策略,这一有序化的细分管理模式对网络信息资源的优化配置和有序管理具有重要的参考意义。
4 实证研究
本研究的有效样本总体为人民网强国论坛深入讨论版块在2010年5月24日到2010年9月25日共4个月(125天)的用户评论数据(剔除4条非目标数据后,有效总体共计10562条目标数据)。以2010年5月24日08:00~2010年8月1日00:00发生初次评论的网络信息个体为样本(以一个小时为单位观测时隔获取历史数据),将发生初次评论的时刻定为0,观察截止时刻为2010年8月31日14:00:00(观测时长为734~2382个小时),2010年8月31日15:00:00~2010年9月26日00:00:00为预测验证期(共计610个小时)。
4.1 R与F的等级分布
根据前文的论述可知,R和F的数学计算表达式分别表示为:
R值和F值与信息的群组等级是反向变动的,也即两者的值越小,其对应信息的群组等级就越高。RF-F分群管理模式研究的实质就是以Ti时刻为观测截止点,考察网络信息在前Ti时域的等级分布规律,并基于纵深维度来探索研究相关因应决策,以期最大化发挥网络信息的价值,优化信息资源配置以及实现管理的有序化。鉴于研究的简洁性,本研究仅选取本次研究的观测截止时刻=2390和样本全部出现的=1 666时刻的样本总体进行实证和对比。选取前2390小时的样本总体的数据分别对R和F进行有序聚类,聚类结果如图1和图2所示。
从图1和图2可以看出,R和F的四分类聚类结果的误差函数值均小于5,处于一个相对较小的水平。在此基础上结合表1可以得到每条网络信息个体的等级状态值,=2390时刻样本的R值、F值以及等级状态值的通过SPSS得到的描述统计结果如表5和表6所示。
4.2 RF-F群组等级分析
综合等级状态值的计算结果和表4,可以得到两个观测时间点样本的群组等级,频率结果汇总如表7和表8所示。
从表7和表8中,不难看出,“次级信息”在两个观测时间点的5个群组等级帖子信息中所占百分比都是最高的,都达到或者接近50%的比例水平。另外一个百分比变化相对较小的则是“低级信息”,其两个时间段的百分比都没有超过10%的比率水平。此外,随着时间的推移,群组等级较高的帖子信息所占百分比逐渐降低(如“高级信息”、“次级信息”和“中级信息”),群组等级较低的帖子的百分比则呈现出一个上升的过程(如“一般信息”和“低级信息”)。通过数据回溯,笔者发现=1666时刻的“高级信息”在=2390时刻很大一部分已经转变为“一般信息”或“低级信息”,原因主要在于R值与F值的计算中忽略了网络信息的失效效应,也即在=1666时刻已经有很多帖子信息处于失效期。鉴于此,本研究对群组等级的划分进行修正:=1 666时刻已经失效的帖子信息以=1666时刻的群组等级为其最终群组等级;=1 666时刻未失效的帖子信息以=2390时刻的群组等级为其最终群组等级。修正后统计结果如表9所示。
最终结果显示,“高级信息”已经达到了20%的水平,根据“二八原则”,管理者应该将这部分“高级信息”作为网络信息管理工作的重点对象,使其价值得到最大化发挥。结合历史数据笔者发现,从个体到群体,“次级信息”在两个观测时域的跟踪中其群组等级几乎都没有发生变动,具有较强的稳定性,而且处于该群组等级的信息其生存时长要么很长要么很短,生存时长较长者其获得评论的过程呈现出“评论数量少,时间跨度大”(如图3)的特点,生存时长较短者则如昙花一现(很多仅有一条评论),故而笔者认为对于该类信息的管理可以通过直接设计失效判据的方法来进行[7],无需过多的“价值最大化干预”。此外,其他三个群组等级的信息按百分比的降序依次为:“一般信息”,“低级信息”,“中级信息”。
图3 帖子信息群组等级散点图
得到了网络信息的5个分群结构后,基于研究的严谨性考量,仍然需要对分群结果进行差异的显著性检验。根据表10的方差齐性检验结果可知,显著性水平明显低于0.05,故而样本的R值和F值没有方差齐性,也就不能采用方差分析进行检验,而应该采用非参数检验来进行。
本研究采用交叉表卡方检验来验证群聚网络信息的分群界限是否合适,检验结果分别如表11和表12所示。
a.4975单元格(100.0%)的期望计数少于5。最小期望计数为0.01。
a.4985单元格(100.0%)的期望计数少于5。最小期望计数为0.01。
检验结果显示,Sig值分别为0.039和0.043,都小于0.05,已达显著水平,具有统计学意义,也即可以认为不同群组在R和F两个生命指标上存在显著性差异,分群结构是科学合理的。
5 RF-F分群管理策略
异质性作为网络信息的另外一个本质属性在网络信息管理的相关研究中已经得到不同程度的关注,大多学者主要从信息源、传播信道以及利用效率等视角来进行研究,这些研究将大多数注意力投放在了“异质性从何处来”这一问题上,鲜有研究提出如何在研究中“消除”异质性或者如何因应异质性所带来的管理问题,故而有关研究也就很难对管理实践有现实的指导意义。正如生物群一样,网络信息群体里面的个体之间也会存在“高”、“矮”、“胖”、“瘦”等异质性,这种异质性主要表现在生命体在特定指标数量级的差异上,比如有些网络信息个体在同样的时域内获得的评论量比一部分个体高出一个甚至多个数量级,这时我们就不能将这两个群体的信息以同样的标准来进行研究或者管理,应该结合营销管理理论中著名的细分管理思想给予划分群组等级,以便排除异质性对研究和管理活动的干扰,就现实意义而言,依据分群管理思想,决策者可以针对不同级别的信息实现差异化管理,研究表明,差异化管理有助于管理效率的提升。通过本研究所构建的RF-F分群管理模式在强国论坛帖子信息的实证应用,可以得出“应该把80%的管理成本投入到20%的‘高级信息’中”这一结论,在实际的网络信息管理活动中也应该保证不同群组等级的信息能在需要的时候发挥出其应有的价值。而RF-F分群管理活动本身就是一个有序化管理过程,故而该模型对管理资源的配置和有序化管理都有一定的指导意义。
6 结语
本文从网络信息的异质性出发,有效地将Fisher有序聚类方法和RFM分析模式整合到网络信息资源的管理思想中来,得到网络信息的RF-F分群模式,实证结果表明群组等级最高的“高级信息”在样本集中达到20%以上的占比,该群组等级的信息应该成为重点管理对象。而占比最高且超过50%的“次级信息”在生命周期中的群组等级变动上具有较强的稳定性,并不需要过多的“价值最大化干预”。不同网络信息在其生命周期过程中会有不同的生命特征呈现,为了排除网络信息个体间的异质性给网络信息管理带来的障碍,实现网络信息的有序化管理,有必要根据网络信息的关键生命指标来对其进行群聚划分。笔者认为,差异化管理是网络信息有序管理的必由之路,针对不同群组网络信息的生命特征实施差异化的分群管理策略也是网络信息生命周期管理的必然选择。本研究提出的RF-F分群模式是网络信息分群管理研究的一次重要探索,是网络信息生命周期管理理论的有益补充,对网络信息生命周期理论与实践的结合点探索研究也有着较为重要的参考意义。