信息用户生存时间分布研究:以NSTL为例,本文主要内容关键词为:为例论文,时间论文,用户论文,信息论文,NSTL论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
用户保持对企业发展有着重要的意义,其影响远远超过企业规模、市场份额等通常被认为与竞争优势有关的因素[1]。研究表明[2],发展一个新用户的成本是保持一个老用户成本的5倍;用户保持率提高5%,利润将会提高25%以上。近年来,用户流失管理研究受到国内外企业界和学术界越来越多的关注,实证分析已在电信[3]、银行[4]等多个行业展开。其中,用户生存时间分析和流失预测是当前研究的重点,前者分析用户流失状况、流失速度和流失风险影响因素等[5];后者利用历史数据通过建模等手段对潜在流失用户进行预测[6]。迄今为止,文献信息用户的流失问题尚未引起足够的重视,相关研究还非常缺乏。
国家科技图书文献中心(National Science and Technology Library,NSTL)是一个虚拟的科技信息服务机构,它按照“统一采购、规范加工、联合上网、资源共享”的原则构建国家科技文献保障体系,并面向全国开展科技文献信息服务[7]。NSTL自成立以来就非常重视对用户信息的管理和分析,通过访谈、调查问卷等多种方式来了解用户需求、用户行为及其变化。本文拟将生存分析(Survival Analysis)应用于NSTL用户分析之中,以了解用户生存时间分布状况及其影响因素,为进一步加强NSTL的用户管理提供决策依据。为方便起见,本文对“客户”与“用户”的字面含义不加以区分。
1 研究方法与分析数据
1.1 生存分析方法
生存分析是利用统计学的理论和方法解决与特定事件(如设备失效、生物体死亡等)发生时间相关问题的一门学科[8],研究基本目的包括描述、比较生存过程和分析生存时间的影响因素等,被广泛应用在医药学、金融、保险和质量控制等多个领域。将分析样本从某起点到事件发生的时间(以下统称“生存时间”,以t表示)看成一个随机变量,通常用4个函数进行描述:生存函数S(t)、概率密度函数f(t)、分布函数F(t)和风险函数h(t),其中生存函数和风险函数是描述生存时间统计特征的基本函数。
根据是否对参数分布做出假设,生存分析方法可以划分为参数估计方法、非参数估计方法和半参数估计方法。参数估计方法是假定生存时间服从于特定的参数分布,根据已知分布的特点进行分析,常用分布包括Weibull分布、指数分布和对数分布等;非参数估计方法是不对数据分布进行假定,只根据样本提供的顺序统计量进行估计,包括寿命表分析和Kaplan-Meier分析;半参数估计方法主要指Cox回归模型,用于分析影响生存时间和生存率的因素[9]。
在生存分析中,由于研究结束时某些样本可能还没有发生研究关心的事件,因而无法知晓其确切的生存时间,这就导致了删失数据(Censored Data)的产生。删失数据包括左删失和右删失,常见的是右删失。与删失数据相对应的是完全数据(Complete Data),指样本开始和事件发生时间都有详尽记录的数据,它是生存分析的主要依据。
1.2 分析数据
1.2.1 分析模型如果把用户与NSTL之间的关系看成一个生存过程,把用户流失现象看成特定事件的发生,那么每一用户都存在相应的生存时间,因此可以考虑将生存分析方法应用到用户流失分析之中,以了解其生存时间分布状况。由于用户与NSTL之间的交易行为基本上都在网络上完成,并且很少有类似于银行/电信客户销户的行为,如何判断用户是否流失成为分析难点。借鉴前人的相关研究[10],本文对NSTL用户流失现象作如下界定。
1)用户流失条件。超过1年未再请求文献的用户,分析时间点为2010年1月1日。按此条件,2009年没有文献请求的用户都假定为已流失。
2)用户流失时间。用户最后一次文献请求日期。
在确定了用户流失时间后,便可计算每一用户的生存时间(以天、月或年为单位)。对流失用户,生存时间为流失时间减去其在NSTL的注册日期;对在分析时间点上尚未流失的用户(以下简称正常用户),以分析时间点减去其注册日期。需要说明的是:①生存时间的起点除了用户注册日期外,还可以选择用户第一次文献请求日期或其他,具体根据分析需要而定。主要目的是了解用户与NSTL之间联系时间的长短,故选择注册日期作为联系起点。②将相隔一定时间段没有文献请求作为用户流失与否的判定条件,可能会存在一定的误差。部分用户虽然在2009年没有请求文献,但在2010年可能又有请求记录。但考虑到这种现象较少而本文分析样本数量较大,在此不对这些特例作进一步探讨。③NSTL用户包括个人用户和集团用户,本分析仅针对个人用户。
1.2.2 分析数据 选择2003-2008年注册并在NSTL有过文献请求的用户进行分析,经预处理后得到13 076条记录,其中流失用户个数为10 205(约占78%)。表1展示了用户生存时间描述性统计结果。在分析时间点上,最长的生存时间为85.3个月,最短的不足一个月,平均为14.8个月。正常用户的生存时间均值明显高于流失用户,但方差较大,说明其时间分布更不均衡。
2 研究结果
2.1 生存时间分布
2.1.1 整体状况 寿命表方法是描述群体生存现象的技术之一,其实质是把相对频率表推广到删失数据的情形,估计已知在某区间起始点仍存活而在该区间死亡的条件概率和在区间结束仍存活的概率,适用于处理区间分组和大样本观察数据[8]。
利用寿命表方法对13 076个NSTL用户进行分析(分析中在时间区间的处理上,对不足一个月的按一个月计算,在一个月与两个月之间的按两个月计算,以此类推),生存函数和风险函数见图1,用户中位生存时间(Median Survival Time)为4.99个月。从图1中可以看出,用户在注册早期的流失速度非常快,0~3个月的流失风险接近0.5。
图1 用户生存时间分布
2.1.2 经常用户分析 在13 076个用户中,部分用户在请求少量文献后迅速流失(通常将其简称为“游客”)。由于他们的生存时间并不能反映用户流失的真实状况,为此对分析样本集进行进一步的整理,将文献请求时间发生在一天以内(请求量可能不止1篇)的用户排除在外,剩下用户记录个数为8 054(为便于对比,将这些用户简称为“经常用户”)。
图2 经常用户生存时间分布
图2展示了经常用户的生存函数和风险函数图,中位生存时间为21.65个月。将图1和图2进行对比可以看出:①NSTL个人用户的高流失率和较短的中位生存时间主要由游客所引起。在只考虑经常用户的情况下,中位生存时间接近2年。②NSTL用户的流失风险在0~3个月较高,然后迅速降到一个相对较低的水平。可以简单地将3个月视为用户流失转折点,0~3个月是用户快速流失阶段,如何留住快速流失用户是NSTL用户保持的关键。
2.1.3 Weibull拟合 在生存分析中,当生存函数曲线服从某种分布时,可以采用参数估计方法进行拟合,最为常用的是Weibull分布,其生存函数形式为[8]:
其中λ>0,是尺度参数;α>0,是形状参数。
利用P-P概率图对NSTL经常用户的生存时间进行Weibull分布检验,结果见图3(a)。图中数据各点近似成一条直线可以看出这些用户的生存时间符合Weibull分布。根据公式(1)进行非线性回归拟合(初始值取λ=1,α=0.5),结果见表2。参数估计值分别为λ=2.268,α=0.226,拟合优度=0.848。
图3(b)展示了实测值和模型预测值的对比图形,从中可以看出预测值和实测值基本一致。综合拟合优度、参数标准误和图形对比结果,NSTL经常用户的生存时间分布符合Weibull分布,函数表达式为:
图3 Weibull分布拟合
2.2 生存时间对比
2.2.1 类型划分对比 除了分析单个样本集的生存时间分布外,生存分析还可以在用户分组的基础上进行对比研究,分组依据通常选择用户的人口统计学特征(如性别、学历、职业等)。虽然NSTL用户在网上注册时也要求填写相关信息,但其真实性无法保证。为此,本文选择聚类方法划分用户类型,然后再对比其生存状况。聚类指标包括:①请求次数。用户在NSTL请求文献的次数。②请求频率。请求次数与生存时间(以天为单位)的比值。③平均请求间隔。不同文献请求之间的平均间隔,单位为天。④余额比例。预付款余额与缴纳总额的比值。这些指标都与用户行为有关,其数据由服务器自动记录,因此更为客观和翔实。
采用SPSS 13.0中的TwoStep Cluster算法对经常用户进行聚类(取K=3),结果见表3。从表3中可以看出,聚类特征非常明显:Ⅰ类用户个数较少,仅占总数的3.4%,特征为请求量大、请求频率高、平均请求间隔日期短;Ⅱ类用户个数为3 335(约占41.4%),特征为请求频率低、请求间隔日期长、余额比例高;Ⅲ类用户个数为4 443,特征为余额比例低。根据这些特征,可以简单认为Ⅰ类用户为大客户,需求量大;Ⅱ类用户为间歇性客户,偶尔才来NSTL请求文献;Ⅲ类用户为一般用户,所有指标都不大突出。
选择Kaplan-Meier法对3种类型用户的生存时间分布进行对比分析,结果见表4和图4。表4展示了中位生存时间,Ⅰ类用户为1个月,Ⅱ类用户为33个月,Ⅲ类用户为14个月。采用Log Rank法、Breslow法和TaroneWare法进行检验,三者的Sig.值全部小于0.001,表明它们的生存时间分布存在显著性差异。图4展示了生存函数和累积风险函数,从中可以看出Ⅰ类用户注册初期的流失风险非常高,然后迅速降低到接近0的水平;Ⅱ类和Ⅲ类用户的生存时间分布更为类似,但Ⅱ类用户流失速度明显慢于Ⅲ类用户。
结合表4和图4分析Ⅰ类用户,可以看出大客户的流失风险呈两极分化状态。一部分用户在注册后大量地请求文献,然后迅速地消失,流失风险非常高;另一部分则刚好相反,虽然同样是需求量大并且请求频繁,但流失风险非常低。结合NSTL现状,前者是短期用户行为,比如出于完成项目需要而产生的文献需求,在项目完成后自然需求也消失;后者是NSTL的核心客户,需求量大,忠诚度高。
2.2.2 赠卡分组对比 NSTL在运行期间曾经发放过一些赠卡,按是否参与过赠卡活动对用户进行分组来了解其各自的生存情况。将参与过赠卡活动的用户定义为赠卡用户,共1 859位,其中删失个数为743(占40.0%);将未参与赠卡活动的用户定义为非赠卡用户,共6 195位,删失个数为2 019(占32.6%)。选择Kaplan-Meier法对赠卡用户和非赠卡用户的生存时间分布进行分析,结果见表5和图5。
表5展示了中位生存时间,赠卡用户的生存时间要高于非赠卡用户,前者中位生存时间为26个月,95%置信区间是22.8~29.2个月;后者中位生存时间为20个月,95%置信区间为18.7~21.3个月。采用Log Rank法、Breslow法和Tarone-Ware法进行假设检验,Sig.值都小于0.001,表明两者生存时间分布存在显著性差异。这一点在图5中表现得也很明显,虽然曲线形状类似,但非赠卡用户的流失速度明显快于赠卡用户。需要指出的是,虽然分析结果能表明两者分布存在差异,但并不能因此认为赠卡是导致差异的原因,因为还存在另外一种可能,那就是赠送对象的有意选择。
2.3 影响因素分析
生存分析中,通常采用Cox回归模型分析生存时间的影响因素。Cox回归模型可以在不对生存时间的具体分布进行假设的情况下评价协变量对风险函数的影响效果,其基本形式为[8]:
选择用户行为数据来分析用户流失的影响因素,分析变量为请求次数、请求频率、平均请求间隔和余额比例。使用Cox模型进行分析,结果见表6。可以看出,4个分析变量对流失风险都有显著意义(Sig.<0.001)。在其他因素不变的情况下,请求次数、平均请求间隔、余额比例越大,流失风险越小;请求频率则刚好相反,其值越高,流失风险越大。
3 分析
综上分析,可以得出以下结论:①NSTL个人用户的高流失率和短中位生存时间主要由游客引起。在仅考虑经常用户的情况下,中位生存时间接近2年。②NSTL用户在注册后3个月的流失风险很高,之后迅速下降到一个较低的水平。生存时间分布符合Weibull分布,拟合后的函数表达式为。③通过聚类划分用户类型,用户特征非常明显,相互之间的生存时间分布存在显著性差异。大客户的流失风险呈现两极分化状态,虽然都是请求量大、请求频率高,但一部分迅速流失,另一部分的流失风险则接近0。④赠卡用户的生存时间要明显高于非赠卡用户。⑤请求次数、请求频率、平均请求间隔和余额比例对用户流失风险都有显著意义,余额比例越大,流失风险越小。
结合分析结果和当前现状,笔者认为NSTL的下一步工作有必要在以下几方面予以改进:①加强对快速流失用户的分析。虽然在网络环境下“游客”现象不可避免,但用户注册后3个月的高流失风险还是需要引起重视,要重点分析其流失原因,这不仅有利于NSTL服务模式创新和服务质量提高,而且对提高用户保持率也有着重要意义。②加强对大客户的回访。大客户请求量大、请求频率高,是NSTL的宝贵财富,任何流失都是重大损失。虽然用户流失原因可能是因为阶段性需求变更,但变更后并不等于就不再有文献需求。如果能通过回访、访谈等方式建立起长期合作关系,对NSTL发展无疑有着重要的积极意义。③开展用户流失预警工作。从流失风险的影响因素分析结果可以看出,用户流失存在着一些征兆,可以考虑通过建立预警模型来识别潜在的流失用户,从而为有针对性地开展用户保持和挽留工作提供科学的参考依据。