基于洛特卡定律与布拉德福定律的用户社会化标签信息分布规律研究论文

基于洛特卡定律与布拉德福定律的用户社会化标签信息分布规律研究

田 纯

(华中师范大学信息管理学院,湖北 武汉 430079)

摘 要: 用户社会化标签是Web2.0时代的一种重要信息形式,它是描述、组织、管理信息资源的一种有效手段。如何在杂乱无序、语义含糊的用户标签中,合理利用标签的作用是信息管理的一个问题。本文通过验证传统的信息分布定律,来探寻社会化标签这种特殊的网络信息资源的分布规律,以便管理、利用挖掘其中的学术和经济价值。

关键词: 社会化标签;洛特卡定律;布拉德福定律

随着Web2.0技术的不断发展,网络信息正在以一种新的信息生产模式(UGC)持续增长。该种模式突破了传统的信息生产者的界限,每个网络用户都有可能成为信息生产者。因此,网络信息资源不同于传统文献信息资源呈现出新的特征:增长速度快、信息多样性突出、数据量巨大、潜在价值较大等。社会化标签是Web2.0时代的一种重要的信息形式,它主要用于描述、组织、管理和归类网络信息资源的重要手段。标签本身就是一种重要的网络信息资源,它是用户依据自己的知识、需要、兴趣对收藏、共享、评论的在线资源进行描述所使用的词或短语,并蕴含着特定的信息主题。由于社会化标签的标注是在一个开放的环境中自主地创造、选择和使用标签,因此,社会化标签具有自由化、公开性等特点。社会化标签作为一种信息资源,逐渐成为人们的研究对象,并且作为一种新型的信息资源形式,其各方面的价值仍待发掘。学者们对社会化标签的研究范围也比较广泛,从主题发现到推荐系统,但是鲜有学者从标签本身作为信息的属性出发,研究社会化标签的信息分布规律。研究标签的分布规律有利于在实际生活中更加科学的设置和管理标签,但由于用户信息生产的多目的性和无序性,使得用户设置标签时语词随意、字节长短不一、内容模糊难以界定,同时也给发掘标签信息分布规律带来了较大挑战。

在此背景下,本文为研究社会化标签的信息分布规律是否符合传统的文献信息的分布规律的同时,找寻具有网络信息特征的规律,本文从生产者分布规律、信息离散分布规律两个角度结合传统文献信息分布规律的研究方法与思路,对标签信息资源的分布规律进行探究。考虑到不同网络平台有着不同的信息发布机制,本文选取了UGC模式的典型代表-问答社区,问答社区为网络用户提供了信息生产的重要平台;问答社区中的用户可以根据需要进行提问、回答、收藏、评论以及对问题进行社会化标注。因此,本文主要是研究问答社会环境下社会化标注信息的信息分布规律,以探究这种特殊的网络信息资源的特定规律,以便管理、利用、挖掘社会化标签的学术和经济价值。

第二,不是所有的学生都能成为大师并进入艺术史。而且能否进入艺术史之类的问题,也绝非靠绘画而诗意栖居的很多学生辈画家的远大理想。面对修炼成佛这样的主题,他们或许只想成为修行意义上的香客而非佛本身。如同我们不能要求所有的香客都成佛一样,我们也不能奢望所有的学生都进入艺术史。当绝大多数学生都因为主客观原因而不能进入艺术史时,我们应该给予他们充分的尊敬,同时主动调低自己的学术评论指数,瞩目并祝福他们以艺术的名义而享有的和谐生活。

1 相关研究

洛特卡定律是图书情报领域的基础定律之一,自20世纪60年代发布以来,国内外学者从不同的领域以及不同的方法对其进行验证和研究。而著名的普莱斯指数就是洛特卡定律在定量关系上对科学家人数和科学文献数量以及不同层级科学家进行实证分析得出的。国外学者主要从情报学、经济学、法医学、计算机科学等不同领域分别对其进行了适用性验证,同时根据适用性讨论的结果对洛特卡定律与普赖斯定律在该领域进行修正以期望发现该领域知识创作者的分布规律。在1986年帕欧依据3大图书馆馆藏目录在内的48份有关20个学科的文献作者分布数据,对洛特卡定律进行了验证性研究,同时重新定义了洛特卡定律中的参数取值范围,在一定程度上将洛特卡定律的研究向前推进了一步[1]。不仅验证洛特卡定律对各学科的适应性,同时它在不同领域的智力产品中产生了较好的韧性以及极高的研究价值。即使在学科文献领域也可以从不同角度进行深入研究,在期刊出版领域,出版公司可以通过验证该定律,发现期刊来搞作者对期刊的信任与忠诚度。Lan Rowlands在2004年通过对Emerald文献数据库中作者数据进行分析研究,发现其作者分布适用洛特卡定律[2]。从学术期刊各学科领域到信息公开的软件开发人员的研究分析都符合洛特卡定律,从另一个角度也说明了该定律的适用范围广泛[3]。国内对于创作者分布规律的研究则起步较晚,对于合著者的研究,以及K-S检验的使用范围、以及参数的拟合方法等方面都有较大贡献,并将洛特卡定律应用到相关学科发展路径的预测和研究过程。邱均平教授通过采集10年CNKI收录的图书情报领域的文献,引入作者权重指标研究合著对作者分布的影响,并对洛特卡定律进行了验证作者分布规律[4-6]。从基础研究到应用研究领域学者们都对洛特卡定律进行了研究和验证。夏鸣从参数检验角度,研究发现K-S检验对拥有庞大著者群的学科效果不佳[7]。张贤澳教授分析了参数拟合方法,提出了一种非线性回归法估算洛特卡定律参数C[8-9]。此外,伍玉成[10]等对知识管理领域的文献进行统计分析发现科学生产规律,验证生产者分布规律。王景文[11]对开放存储领域的文献进行分析,发现洛特卡定律具有广泛的应用价值。汪姝辰[12]采集湖南师范大学图书馆的读者借阅记录,探究读者与所借阅图书之间的关系,同时,利用最小二乘法、K-S检验算法和指数不为2时的逼近C值的估计公式进行洛特卡定律拟合验证,并探讨了关于高校图书馆读者借阅行为的信息分布规律。

信息离散分布规律包括布拉德福定律和齐夫定律,科学信息的集中与分散规律是科学文献分布的最普遍的规律,布拉德福定律就是描述一个学科论文在相关期刊中分布规律。Swapan K.P.等对PubMed和WOS中的关于艾滋病研究的相关期刊文献进行统计,利用布拉德福定律确定了有关艾滋病的核心期刊[13]。DonaldT.Hawkins对20世纪末信息科学进行统计分析发现布拉德福曲线斜率在六种期刊之后减少[14]。Ming Yueh等通过对期刊载文量进行统计分析发现布拉德福定律的区域表达与图像描述适合该研究,同时确定了该领域的核心期刊[15]。KuMar等通过对印度生物技术期刊的统计分析,认为布拉德福定律可用于馆藏期刊的选择[16]。Jeppe等认为通过主题的获得的核心期刊存在一定的差异性,一定程度上不太符合布拉德福定律[17]。国内学者对布拉德福定律的原理以及图像进行了大量的研究。有学者对1989-1996年的生物学文摘分为5个专题进行统计分析,分别描述了杀虫剂、杀菌剂、除草剂、乳腺癌和环境污染这些学科的文献变化,构建了数量分布规律模型,并计算出重要的参数和图像[18]。尤其,马费成等通过对BIOSIS,INSPEC,COMPENDEX光盘数据库中的4组期刊论文及主题词和关键词进行统计分析,对布拉德福文献分散定律进行验证研究[19]。赵隽通过统计CNKI中的“文献计量”领域的论文对布拉德福定律进行了充分的研究,发现数据库中的学术论文的信息分布与纸质文献载体的专业论文分布规律存在一定的相似性,同时发现也存在不同之处,各区期刊累计量之比不能够构成等比,第二分区的期刊数和布拉德福常数偏大[20]。张洋认为布拉德福定律在虚拟的互联网中具有重要的参考价值,同时也会存在不同[21]。随着互联网的发展,国内学者也对网站资源进行了信息分散规律的研究,以验证布拉德福定律的可用性。許如玉利用Google搜寻引擎搜索数据,以“数字图书馆”主题的网站和网页进行了计量分析,根据网站生产力确定核心网站[22]。马费成等通过对网站网页的采集分析,发现网页数量的集中与分散分布的描绘曲线与布拉德福比较相似[23]。袁毅以科学计量学、信息计量学、文献计量学、网络计量学相关信息为对象,探究网络环境下的信息分布规律,将网站视为期刊,网页视为论文文献,通过统计分析发现在布拉德福定律的等级排序的过程中,低位次的网站较多,相应的核心区较少,这样可以看出网络信息资源的分散性更强,集中度较弱的现象[24]。蔡迎春将h指数、雷达图等方法与布拉德福定律结合使用以确定核心出版社,方便采购人员确定相应学科的核心出版商,从而对采购工作进行指导,科学合理地选择出版者[25]

2 研究方法

进而,为了实现这样一个目标,不仅应当明确提倡理论的多元化,“当两个隐喻相互竞争并不断相映证可能的缺陷,这样就更有可能为学习者和教师提供更自由的和坚实的效果”[25];也应始终坚持自己的独立思考,而这事实上也正是何以特别强调“理论的实践性解读”的又一重要原因,即是应当通过积极的教学实践对相关理论的真理性做出必要的检验,并促使其不断完善和进一步发展.

Ask MetaFilter社区中的社会化标注是对问题打标签,当一个问题被很多用户进行了标注,说明该问题是用户较为关注的问题,对于整个社区生态来说,属于核心问题。所以本文以用户提问的问题为载体,根据用户社会化标注的情况对问答社会的问题进行区域划分,以探究问答社区中社会化标签的离散分布的规律,即揭示社会化标签在社区问题为载体的规律。

式中:yx表示写x篇论文的作者占作者总数的百分比;x为创作的论文篇数;C为主题领域的特征常数。在本次研究中,yx为标注x个社会化标签的用户占读者总数的百分比;x为一段时间内标注社会化标签的人数。因此,本文的拟合分析的方法采用对数线性回归方式利用最小二乘法对问答社区中社会化标注信息生产者分布规律进行拟合,再通过标准残差检验方法进行检验,并确定社会化标注信息生产者规律。

信息的离散分布代表着信息活动能够被有效管理,进而能够最大程度为人所运用。布拉德福定律揭示论文在科学期刊中的分布,其研究方法就是通过统计期刊刊载某学科主题的论文数,并以递减的顺序排列起来,根据每个区载文量相同将对期刊进行划分区域,统计得出核心区和后继几个区所含期刊数呈的关系。同时,布拉德福定律可以横坐标为期刊载文量递减排序的顺序号n的对数和纵坐标取1-n号期刊所载论文的累积数来绘制布拉德福分散曲线,并且布拉德福分散曲线特征明显,由三段构成,前一段是上升曲线,中间一段为直线,最后是下垂曲线,下垂曲线特征明显被称为格鲁斯下垂。本文采取统计分析的方法对社会化标注的问题进行划分区域以试图确定核心提出问题。

3 数据来源

本文的研究目的是通过分析问答社区中的社会化标注信息(tag),借助洛特卡和布拉德福定律探究问答社区中社会化标签的生产者与标签数目之间的信息生产者分布规律以及揭示标签信息的离散分布规律。生产者分布规律主要利用线性回归以及最小二乘法对用户数与其创作的标签数进行拟合。离散分布规律主要通过统计以问题为载体的个性化用户标签以区分问答社区中的核心问题(热提问),来探究以问题为载体的社会化标注分布规律,是否具有明显的集中与分散规律。通过对Ask MetaFilter社区的细致了解之后发现,在该问答社区中,每一个问题都会被打上具体的标签,然后根据标签将问题分类到具体的主题当中,例如图1所示,左侧为用户提出的问题,问答社区中用户根据自己的理解对问题 (post)打上了一些标签,图中右侧的Tags栏中可以看到该问题还被标上了四个标签,表示该问题已经被用户进行了四次社会化标注。从社会化标注角度来看,问答社区中的问题就是社会化标注的载体,相当于传统文献信息的载体-期刊,用户标注的各种社会化标签可视为用户的信息生产。同时,通过对每个问题下主题不同的标签进行统计分析,绘制布拉德福曲线发现问答社区的核心问题。

图1 问题的社会化标注图

根据研究的目的和数据分析的需要,本文从MetaFilter问答社区中获取近年所有用户标注的社会化标签,post数据包中包括了用户ID、问题ID以及标签见表1。由于在此问答社区中每个社会化标签代表一个主题并链接主题相关的问题,因此,tag数据包内包含了标签ID、所链接问题ID、标注时间、标签名称,见表2。

标准化残差是验证回归线拟合程度的一种方法。标准化残差是以拟合模型的自变量为横坐标,以标准化残差为纵坐标生成拟合图像。如果试点的标准残差点落在(-2,2)区间以外的概率小于0.05,说明拟合良好。通过Python计算得出,所有数据点分布在(-2,2)的水平带状区间内如图4所示,因此模型拟合较为充分。

表1 post数据包部分数据

续表1

表2 tag数据包部分数据

4 信息分布定律拟合

4.1 洛特卡定律拟合分析

自1926年洛特卡定律产生以来,学者们对文献分布规律根据不同学科的特点对该定律的验证一直在继续。从一开始采用的原始方法以及之后的所采用的新方法可以总结出洛特卡定律拟合的具体步骤一般包括:数据处理、数学建模、参数求解、结果检验等。

4.1.1 数据预处理

本文从MetaFilterAsk社区数据集中抽取了2016年1月1日到2016年12月31日共61820条标注记录,并通过python计算中的Counter()方法以Key-value形式对用户标注的标签数量进行了统计,得到14196用户的标记情况,部分数据见表3:

图书馆通过对用户个人信息、入馆数据、借还图书数据、移动图书馆利用数据、电子资源访问及下载数据、图书馆网站访问数据、微信等新媒体平台的使用数据等进行分析,可以了解用户的阅读行为,挖掘用户的阅读需求,为开展个性化的阅读服务、提供优质的阅读内容,吸引更多的读者走进图书馆[3]。宁夏图书馆在读者活动方面做了多方改进,图书馆和宁夏交通广播共同举办的“健康984公益大讲堂”得到了读者的一致好评。

表3 用户标注情况统计表(部分)

4.1.2 拟合及结果验证

根据文献作者分布规律的计算方法,即在一段时间内,写了x篇论文的作者数占作者总数的比例y与其所撰写的论文数x的n次方成反比。鉴于社会化网络资源标注仍然属于信息资源的生产过程,相应地,可以构建社会化标注的作者分布规律的数学模型为:在一段时间内,标注X标签的用户数占总用户数的比例y与其所标注标签数X的n次方成反比。为了便于拟合,将数学表达式进行了线性化:

在第二学段,6个版本知识点个数为4~7,北师版知识点数量最少,仅4个,冀教版知识点数量最多,有7个;6个版本均含有Z1、Z3、Z4、Z5等4个知识点,除北师版外的5个版本含有“性质1(对边相等)”,冀教版和青岛版含有“性质2(对角相等)”.

儿童的认知规律一般来说是从直接感知到表象,再到形成概念的过程。表象介于感知和形成概念之间,抓住中间环节,促使学生多角度灵活思考,大胆想象,对知识的理解逐步深化,发展学生的空间观念,具有十分重要的意义。

本文的实验拟合是通过引用Python的科学计算库(numpy)以及其他函数库,通过算法编程对实验过程进行模拟计算。首先,统计标签数量以及对应的作者数并将其对数化见表4。

表4 2016年用户标注数据处理统计表

4.1.3 洛特卡拟合验证

图2 社会化标签用户生产规律拟合图

图3 社会化标签用户生产规律拟合参数解

从图3中可知,社会化标签洛特卡分布的n值为4.14,常数C值为6.13,即社会化标签洛特卡数学表达式为:

统计学家洛特卡经过大量统计和分析,提出科技工作者的生产能力及对科技进步与社会发展所做的贡献[26]。根据洛特卡的分析,在论文数X和作者数YX之间存在着一定的关系,反映科研人员在一定时期内所撰写的论文数量,可用于衡量生产者的学文献生产能力。洛特卡定律是描述信息生产者在信息生产过程和生产结构中呈现何种规律。在当前UGC时代,每个用户都是信息生产者,尤其在社会化标注信息方面,将各标注用户视为信息生产者,标注的标签(tag)视为创作结果。本文借助洛特卡定律理论思想,来研究社会化标注信息的信息分布规律,即用户与标注的社会化标签之间的潜在关系。洛特卡定律的内容为:在一段时间内,写了x论文的作者数占作者总数的比例yx与其所撰写的论文数X的平方成反比。其数学表达式为:

将处理数据输入算法,利用python计算中的scipy包编程构造拟合函数对数学模型进行拟合,执行后产生拟合效果图如图2所示,拟合生成的数学模型参数解如图3所示。

2)PNCR系统:PNCR还原剂易吸潮,脱硝剂在输送过程中易堵,造成物料输送不连续、加药量不精确;堵塞频率与天气、物料干燥度有关,出现过1 d多次堵料的情况。

图4 标准化残差验证回归图

4.2 布拉德福定律拟合分析

其实要回答这个问题,更多的是法价值判断的问题。按照传统的合同法规定来判断合同成立的时点,应当是电商平台在网站上展示商品为要约,消费者下单后为承诺,之后的交付货款和发货行为均是合同的履行。但电商合同中一般会通过格式条款将合同成立的时点设置为电商平台发送订单确认信息时,延后了合同成立生效的时点。

然后使用最小二乘法对构建的线性模型进行拟合,即使得所求数据与实际数据之间误差的平方和最小。公式如下:

4.2.1 数据预处理

本部分的数据集仍是来自于Ask MetaFilter社区,通过标签问题的唯一链接,可以确定标签与问题之间的一一对应关系,共采集1048574条记录进行分析,部分数据见表5。

表5 标签、问题关系数据表

4.2.2 布拉德福拟合分析

本文对京津冀城市群土地综合承载力与区域经济发展系统变量的面板数据进行单位根检验,避免出现PVAR模型的“伪回归”现象。由检验结果可知:在1%显著性水平下,除Breitung检验外,土地综合承载力、人均GDP、地均第二、第三产业增加值变量的一阶差分序列均通过平稳性检验(见表1)。总体来看,3个变量序列均为一阶单整序列I(1),故对其进行面板协整检验,从而分析系统变量之间是否存在面板协整关系。其中,LLC检验、Breitung检验、IPS检验、Fisher-ADF检验滞后阶数均根据AIC准则自动选取。

通过对以上数据进行统计分析共整理出247054个问题以及对应的标签标注数量,并进行了降序排序,见表6:

表6 以问题为载体的标签情况统计

续表6

通过对上表中的序号对数和累计项进行可视化,得到横坐标为问题载标签量递减的排序的对数,纵坐标为载标签的累积数的曲线图,如图5所示。

图5 布拉德福拟合曲线图

通过观察图5可发现分散曲线的特征并不明显,从表中可知图的起始点(0,59),但是纵坐标的最值为120万使得曲线特征被弱化,难以观察,整体上可以看出曲线增长呈“缓慢增加-平稳-缓慢减弱”的趋势。为验证布拉德福定律曲线的三个部分,即先是一段上升的曲线,然后是一段直线,最后是下垂曲线,将上表中的前20条数据进行可视化如图6所示,可以发现第一段是加速上升的,不符合传统布拉德福定律曲线特征。

图6 布拉德福拟合曲线放大图

5 结语

本文对问答社区中用户社会化标注信息的统计与拟合分析,试图拟合验证洛特卡和布拉德福定律以探讨社会化标签在问答社区中的分布规律。从分析结果看来,社会化标签的信息分布规律大体上符合洛特卡和布拉德福定律,由此可见,信息分布规律在新的信息生产形式下仍然具有一定的生命力。但是,互联网问答社区环境下,社会化标签的分布规律又呈现出新的特征。对洛特卡定律的参数值发生了显著变化N值为4.14超过传统文献信息的两倍,同时C值也相对变大为6.13;而布拉德福定律的三个显著特征并不显著,第一阶段出现了快速增加然后再进入第二部分的平稳期(直线部分),最后缓慢增加但是并没有出现明显的格鲁斯下垂的现象。但是,本次研究的结果在一定程度上对问答社区的管理有一定的指导作用。可以根据社会化标签的分布规律不仅可以帮助社区管理者了解标注用户的标签生产过程和生产结构中呈现的规律,而且可以根据布拉德福拟合结果对问答社区中用户所提问题进行归类划分区域,提高管理效率,增加问答社区的用户体验。

参考文献:

[1]邱均平.信息计量学[M].武汉:武汉大学出版社,2007:169NewbyGB.

[2]Newby GB,Greenberg J,Jones P.Open Software Develop mentand Lotka’s Law Bibliometric Patterns in Programming[J].JAm SocIn-form SciTech,2003(2):169-178.

[3]Ian Rowlands.Emerald Authorship Data,Lotka’ s Law and Research Productivity[J].New Inform Perspect,2005(1):5-10.

[4]邱均平,刘敏.1998-2007年我国竞争情报领域论文的计量规律研究[J].情报科学,2009,27(9):1281-1285.

[5]邱均平,杨思洛,王明芝.改革开放30年来我国情报学研究的回顾与展望(二)——情报学研究论文的作者分析[J].图书情报研究,2009,28(2):8-13.

[6]邱均平,马凤.近五年我国图书馆研究论文的计量分析[J].图书馆论坛,2011,31(5):22-26.

[7]夏鸣.图书情报领域作者生产率研究[J].河南图书馆学刊,2008,28(6):28-31.

[8]张贤澳.非回归分析的洛特卡定律参数n、c的直接估算[J].图书情报工作,1991(6):27-33.

[9]张贤澳.洛特卡定律研究的方法探讨[J].图书情报工作,1995(3):11-16.

[10]伍玉成,刘小乐,马捷.知识管理论文著者科学生产率统计分析[J].情报科学,2012(1):23-26.

[11]王景文.我国开放存取研究论文的文献计量学研究[J].图书馆工作与研究,2011(6):16-21.

[12]汪姝辰.高校图书馆读者借阅信息分布规律研究——以湖南师范大学图书馆为例[J].图书情报导刊,2015,25(8):15-18.

[13]Patra S K,Chand P.HIV/AIDS researchin India:Abibliomet ric study[J].Library&Information Science Research,2007,29(1):124-134.

[14]Hawkins D T.Bibliometrics of electronic journals in information science[J].Information Research An International Electronic Journal,2001,7(1):120-120.

[15]Tsay M Y,Yang Y H.Bibliometric analysis of the literature of randomized controlled trials[J].J Med Libr Assoc,2005,93(4):450-458.

[16]Patra S K,Chand P.Biotechnology research profile of India[J].Scientometrics,2005,63(3):583-597.

[17]Nicolaisen J.Bibliometrics and Citation Analysis:From the Science Citation Index to Cybermetrics[J].Journal of the American Society for Information Science&Technology,2010,61(1):205-207.

[18]张丽园.不同学科的文献信息分布规律的比较研究[J].中山大学学报(自然科学版),1998(s1):15-20.

[19]马费成,陈锐,袁红.科学信息离散分布规律的研究从文献单元到内容单元的实证分析(I):总体研究框架[J].情报学报,1999,18(1):270-277.

[20]赵隽.基于布拉德福定律区域法的学术论文分布研究[J].现代情报,2007,27(5):26-28.

[21]张洋.期刊Web下载总频次的布拉德福分布研究[J].图书情报知识,2006,2006(6):38-42.

[22]許如玉.西文資訊科學重要期刊引用文獻之研究[J].政治大學圖書資訊與檔案學研究所學位論文,2008.

[23]马费成,裴雷.网络信息资源的分布规律[J].情报科学,2003,21(11):1121-1124.

[24]袁毅.网络结构单元中学术信息分布规律研究[J].现代情报,2006,26(2):45-48.

[25]蔡迎春.基于“类目细分”的核心出版社h指数雷达图实证研究——以国内经济类核心出版社为例[J].图书情报工作,2011(11):70-75

[26]G.FS.The frequency distribution of scientific productivity[J].Journal of the Franklin Institute,1926,202(2):271-271.

中图分类号: G20

标签:;  ;  ;  ;  

基于洛特卡定律与布拉德福定律的用户社会化标签信息分布规律研究论文
下载Doc文档

猜你喜欢