网络内容分析研究_文本分析法论文

网络内容分析研究，本文主要内容关键词为：分析研究论文,内容论文,网络论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

随着信息资源数字化、网络化进程的不断加快，网上数字信息的计量分析越来越受到人们的关注。网络信息计量学的兴起即表达了学术界的这种努力。但目前无论国外还是国内，网络信息计量学所做的工作基本集中于对网络信息资源的外在表现特征的计量分析，多是基于网站、网页的链接分析，未深入到信息的内容层次[1]。因此，将内容分析法应用到网络空间，对网络信息资源的内容特征及其变化进行计量分析和深入揭示，就成为网络信息计量学研究扩展和深化的一个重要主题。本文试图从作用、类型、技术和工具、工作框架和局限性等角度对网络内容分析作一个全面的阐述。

1、网络内容分析的作用

内容分析法通过对文献内容的科学分析，揭示文献中情报交流的特征，探求情报交流的实质内容并预测交流的目的，推测交流的效果，是一种从文字表象中探求情报实质的研究方法[2]。网络内容分析具有传统内容分析法的基本特征，但又不是内容分析法范围的简单扩大，它具有以下几方面作用和特点。

1.1 描述网络信息资源

这是一种“记账式”的内容分析，主要目的是了解网络信息的发布者发送了多少特定信息，网民接受了多少特定信息，是对网络信息进行表面层次的分析，不涉及内容实质[3]。因网络信息资源具有载体多媒体化、资源动态性、内容广泛性、时空跨度大等特点，而且不同的网络用户具有不同的信息需求和行为，这就决定了应该通过“记账式”内容分析了解信息的分布和利用情况，这正是网络信息计量学中对网上信息的直接计量问题。

1.2 比较网络信息与社会现实

网络是一个开放的空间，信息的发布缺乏有效的审核和监管机制，信息的质量参差不齐[4]。虽有些信息真实可靠，反映社会现实，但虚假、老化陈旧、污秽信息也随处可见，歪曲甚至丑化了社会现实。通过网络内容分析，比较网络信息与社会现实的差距，规范网络信息发布者行为，是网络内容分析法的作用之一。

1.3 描述网络信息内容的变化趋势

网络作为继广播、电视、报纸、杂志之后的新兴的第五大媒体，能快速反映事物的发展及人们的态度和观点的变化过程，且网络信息具有覆盖面广、获得方便等优点，便于研究人员利用内容分析法反映事物的发展和变化，尤其对有关网络的主题，更是有不可替代的优势。

1.4 推断网络信息发布和传播者的态度

网络信息的内容在一定程度上反映了信息发布和传播者对事物的看法和态度。虽不能把网络信息的方方面面都和信息发布和传播者直接挂钩，但在整体上可看作是他们社会面貌、阶级地位和意识形态的映像。例如通过网站所发布的对时政问题的讨论，可以推断其观点和立场；通过对不同网站的专栏设置和新闻内容的分析，可以推断其信息的传播倾向。

1.5 评价网络传播的效果

通过对网络信息资源进行系统的内容分析和对网络用户调查的结果进行比较，可检验经常上网的用户是否产生与网络信息发布和传播者类似的态度，以评价网络传播的效果。

网络内容分析对于网络传播效果的研究具有双重的作用：既可以通过内容中宣传、劝说和诱导性成分预测推断“当下”的效果，如对网络广告的效果研究，又可以对研究所取得的效果假设进行“此后”的证实，如培养分析的方法。

2、网络内容分析的类型

2.1 按分析要素分类

分析要素是内容分析中最小同时也是最重要的单位，以网络内容分析采用的分析要素来划分，主要有词频分析、网页分析、网站分析和网络结构单元分析。

词频分析是分析网络文本内容的常用方法，它以词汇作为分析要素，统计其出现的频次，分析和推断网络传播的内容。网页分析是以网络上某一URL所标识的Web页面为分析要素，对网页的内容进行分析。网站分析是以具有独立域名的Web站点作为基本分析要素，网站一般是关于某一题材的一系列网页，可从网站规模、内容、访问人数等方面展开分析。结构单元分析是以网络上的各种结构单元，包括站点、布告栏、聊天室、讨论组、电子邮件等[4] 作为分析单元，对它们的数量分布、结构特征、相互引证和联系等进行分析。

2.2 按媒体形式分类

网络的多媒体特点决定了网络内容分析可分为文本分析、图像分析、声音分析和视频分析等多种形式。

文本分析是指忽略网页上的多媒体信息，只考虑文字本身的网络内容分析方法，是传统内容法在网络中的具体应用。声音分析是指对网页上的各种声音的音色、音调、响度、旋律等属性特征赋值，进行分析，以求对声音内涵做出分析。图像分析是指对网页上的各种图片进行分析，可通过构建各种特征索引数据库，将颜色、纹理、形状等视觉特征内容通过绘制直方图、共生矩阵及轮廓线等数据模型进行量化[5] 实现。视频分析是指对网络上的非静态的播放文件进行分析，视频是传统内容分析很少涉及的一种媒体形式，却是网页上很常见的多媒体信息组织形式，它是声音和图像的连续播放，例如网络盛行的Flash动画。

在进行网络内容分析的实证研究时，应根据实际情况，既要结合多种媒体形式，又要选择重点分析媒体，以真实反映网络的内容为基本原则。

2.3 按网络信息的传播流程分类

若对网络信息从发布到使用过程中的人进行分析，可分为网络信息发布和传播者分析及网络信息使用者分析。

网络信息发布和传播者分析是指对网络信息资源的建设和传送者进行分析，通过他们所发布和传播的信息内容，来推断其态度。网络信息使用者即网络用户，可从网上直接获取他们的外在显性表现，如网名、帖子等；也可以利用计算机技术跟踪用户的隐性网络行为，如获取和分析用户的登录信息、利用Web服务器日志文件以及Cookie技术进行调查等。

3、网络内容分析的技术和工具

网络内容分析要以大量且无序的网络信息作为分析的基础，收集、分类、分析统计等工作若单靠人工操作，不仅会耗费大量人力和时间，甚至可能达不到目的，因此要尽量借助一些相应的技术和工具。

3.1 数据收集技术

1)搜索引擎。搜索引擎利用自动收集网页的Spider程序，收集大量网页，并建立索引数据库。当用户查找某个关键词的时候，将搜出所有页面内容中包含了该关键词的网页，并按与关键词的相关度排列。搜索引擎是人们最常用的信息检索方式，能帮助数据收集人员迅速找到所需信息，提高效率。由于搜索引擎的数据库各不相同，可同时使用多个，加强抽样的可靠性。

2)Web服务器日志和Cookie技术。Web服务器日志文件用于实时记录Web站点被访问的信息，如用户的ID、受访Web页的URL、用户的IP地址、访问时间等；服务器的运行信息，如发送字节数、接收字节数、处理时间等。Cookie是一种软件技术，能够在用户端存储用户访问服务器的信息。Cookie文件由响应浏览器URL请求的服务器程序发送的信息组成，是一个保存在用户端的文本信息[6]。利用这两种技术能获得网络用户行为的原始信息，便于网络内容分析的开展。

3)网络调查法。网络调查法由传统调查方法发展而来，具有反馈速度快、覆盖面广、成本低、不受时间和空间的限制等优点，所以一经出现，便得到了广泛的应用，尤其是在网络研究方面，运用极其广泛。这种方法一般用于收集用户信息。

3.2 数据分析技术

1)数据挖掘(Data Mining,DM)。DM就是从大量的、不完全的、随机的、模糊的数据中提取人们感兴趣的知识的过程，这些知识是隐含的、事先未知的潜在有用信息，表示为概念、规则、规律、模式等形式[7]。网络内容分析法可利用数据挖掘技术从大量数据中发现知识和寻找规律，帮助数据收集人员根据网络数据本身的规律性，自动进行分析，挖掘数据的潜在模式。

2)联机分析处理(Online Analytical Processing,OLAP)。OLAP委员会提出的定义是：使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的，能够真正为用户所理解的并真实反映企业维持性的信息进行快速、一致、交互的存取，从而获得对数据的更深入了解的一类软件技术[8]。OLAP是数据仓库的一种前端支持技术，与网络技术的结合是它的一个新的发展方向，可利用它的对数据多维观察、复杂的计算能力、管理功能、时间智能等功能为网络内容分析服务。

3.3 数据分析和统计工具

对大量数据资料的内容逐一分析，是非常繁琐的重复性工作，针对此问题，国外已开发了数十种软件工具，而且新品种和新版本不断推出。虽然功能不尽相同，但大多软件提供基本的文本分析功能，包括词频统计分析、类目频次统计分析和可视化[9]。其中，词频统计分析是指软件提供一个文本中出现的所有词语及其出现次数的列表；类目频次统计分析允许用户指定“字典”，这就意味着可将一系列词或短语映射到一个词，从而形成一个类目；可视化指当一个文本通过统计词频或类目频次得到相应数据以后，可以直接用聚类和多维层次分析的方法，得到词间关系的树状图、二维图和三维图。可将软件分为三大类：

1)基于字典的内容分析软件。这类软件具备上述三项基本的内容分析功能，有词汇的计算、分类和简单的统计检验功能。①CATPAC(http://www.galileoco.com/ products/catpac.php)，是伽利略公司开发的文本分析软件，虽然开发者声称CATPAC能“阅读任何文本并归纳出其主要内容，不需预先编码，不需任何语言学假设”，但CATPAC只有一个基本功能，如对聚类分析和多维分析的可视化。除了用户界面比较薄弱外，对于基本分析来说，CATPAC的功能已足够。②HAMLET(http://www.apb.CWC.net/homepage.htm)，该软件可将共同发生的词语指向类似母体，并且有聚类和多维度分析功能，是基本功能的小集合。③VBPRO(http://excellent.com.utk.edu/? mmmiller/vbpro.htm)，是一个处于定量内容分析边缘的软件，它不具备可视化功能，但作者提供另一款免费软件弥补此缺憾，界面严肃但相对直接。④WordStat(http://WWW.simstat.com/wordstat.htm)，是SimStat的一个组件，提供基本分析功能的同时有一些自动注释功能。它能够像手工编码一样，使用字典给文本自动分类或进行各类文本挖掘。支持英语、法语、西班牙语和荷兰语。

2)开发环境。这类软件本身不作为分析工具，只提供一种开发环境。它能自动构建字典和语法以及其他文本分析工具，而不用分析人员动手。与独立的内容分析软件相比，这类软件更类似于高级文本编程语言。①Profiler Plus(http://www.socialscienceautomation.com)，一个基本内容分析和开发环境的混合体，它所有的功能都是专卖的，附加软件有潜在特色分析、认知地图和操作码分析等。界面非常人性化，但只限于纯文本文档。②DIMAP(http://www.clres.com)，一个文本分析字典非常丰富的开发软件，具备基本功能的同时，自带可修改的字典，便于创建类目。

3)注释辅助软件。此类软件可进行一些自动的文本分析，自动对数据进行基本的解释，正如研究人员手工分析文本时所作的边注、附注和简短记事等，软件具有电子版本。如：Atlas-ti(http://www.atlasti.de)，是一个注释和笔记辅助软件，但自动内容分析功能有限，软件构件高度发达、专业，可输出HTML文档，也可输入和输出XML文档。

4、网络内容分析的工作框架

在具备了网络内容分析所需的充足数据、正确方法、适用的技术和软件以及最重要组成部分——分析人员以后，要成功地完成一项网络内容分析，还应遵循一定的工作框架，如图1所示。

附图

图1 网络内容分析流程图

4.1 确定目标

首先要明确进行网络内容分析的目标及意义，这样一方面能避免为研究而研究的问题，不能因资料现成，便于列表显示就进行所谓的研究[10]；另一方面也有助于后续工作的有效开展。可以是具体或抽象的研究问题，得出描述性结论，也可以是事先设计的理论假设，通过分析予以检验。明确了的研究目标(包括其中的具体参数)应加以清楚明白地表述。

4.2 选择样本

当分析涉及数量有限的资料时，可对所有信息进行普查式分析，如对我国省级政府网站的研究[11]；但在更多情况下，网络内容分析要面向数量极其庞大的网络信息，必须进行抽样。由于网络传播内容瞬息万变，固定框架的抽样已经非常困难，符合抽样条件的网站也不一定有均等的被抽中概率，因而在线/非在线的手段都要考虑，可尝试采用分层抽样。

4.3 数据收集

数据收集是指根据研究目的和选定的样本，找到对应网址，收集所需网络信息的过程。因为网络信息不断更新，资料的收集过程应力求迅捷，可严格规定登录的起讫时间，还可尝试下载“网页快照”的办法保存当前网页内容。对于内容变化过快的网站，还须将时间段内的内容下载，以此与人工登录的资料相对照，或者采用首次登录24小时后再次访问相同网站的办法来解决。数据收集阶段应根据需要选择合适的技术或工具，如搜索引擎等。

4.4 选择分析要素

分析要素是内容分析中最小同时也是最重要的单位，它对分析结果具有决定性意义。分析要素的定义应该明确具体，选择标准应便于操作。特定研究的分析要素各不相同，网络内容以及媒体形式的多样化决定了其分析要素的多样性，适当情况下可采用多个分析要素相结合的方法。

4.5 建立分析类目

建立分析类目是内容分析的核心问题，其基本出发点是使分析要素的测度结果能反映和说明实质性的问题[12]。类目因主题的不同而变化，特定的研究必须建立明确的类目，若有适合研究主题的类目，可采用现成的主题词表，否则需研究人员设计出自己的分析框架。网络媒体的分析要素非常丰富，所以类目的制定也更加困难，要求研究人员对研究的问题具有相当的认识，全面考虑，编制有说服力的类目。

4.6 编码

编码是将分析要素置于分析类目的过程，有人工编码和计算机编码两种方式。人工编码是编码员在编码本和编码格式的指导下经过判断完成的，若有多个编码员同时工作，还需要检查编码员间的信度，同时统一编码格式。如果编码工作适宜于用计算机来辅助则可以大大缩短编码时间。一般来说，计算机编码仍然离不开人工的参与，且需借助一定的软件来进行，可考虑借助本文前面介绍的软件实施编码。

4.7 数据统计

将分析要素通过编码归入分析框架之后，就应统计频次及分布情况。这是一种规范性的操作，包括计数和数据处理，需要通过大数量的统计反映统计意义上的相关性，所得数据是内容分析的量化依据。由于网络文本信息已数字化，统计工作应尽量由计算机利用相应软件实现，节省人力和时间的同时，精度较高。

4.8 数据表达与解释

经过对数据的可靠性和有效性检验之后，就可以加以解释和判断了。若只是对原定假设的检验研究，解释就简单而明确，否则便要对研究数据的含义及重要性进行分析，提出自己的观点和结论。

5、网络内容分析的局限性

由于内容分析法本身的局限性和网络媒体的特殊性，使网络内容分析法在应用中表现出一些问题及局限性。

5.1 网络信息质量问题

内容分析法对原始资料的依赖性强，对分析对象的要求严格，要建立在大量原始样本的研究之上，一般要求具有单义特征，达到足够统计量的分析要素作为内容分析的对象。网络是新兴事物，尚无有效的约束和监管机制，信息的真实性无据可考，而且存在大量重复冗余信息，很难保证来源的准确性，所以对样本的依赖性反而成了网络内容分析的局限性。

5.2 选择样本问题

在选择样本时遇到的最大困难是样本时间和抽样方法问题。网络信息的发布时间不明确，更新周期较短且不定，使分析样本的起讫时间成为一大难题，回溯分析和历史比较分析便很难完成。传统内容分析法所经常采用的简单随机抽样、连续日期抽样或构造周抽样三种时间抽样方法[13]，已很难在网络环境下实现。而且网络的非线性结构使样本选择更为复杂，符合抽样条件的网页不一定有均等的被抽中的机率，所以应改进抽样方法，可结合在线/非在线两种手段，考虑分层抽样或将几种抽样方法相结合，以真实反映样本总体为基本原则。

5.3 分析要素和分析类目问题

网络的内容庞杂、媒体多样等特点，使传统内容分析法的词频分析和篇幅分析已远远达不到要求，度量的要素更为丰富，类别界定也相应更为棘手。

5.4 研究方法问题

非接触研究是内容分析法的特点之一，即研究人员与被研究事物之间没有任何互动，以保持样本的本来面目。而网络的交互性能，使信息发布者和使用者界限不清晰，更增加了非接触研究的复杂程度。

5.5 信度和效度问题

信度和效度检验一直是内容分析法的薄弱环节。虽然引起了很多学者的重视，认为只有通过信度和效度的检验，内容分析的结果才具有最终说服力，但一直没有公认较好的检验方法。网络内容变化不定，要保持多个编码员之间的信度，则要求编码员在同一天的同一时间内登录相同URL，以保证编码员所见相同，网络信息的庞杂无序更使效度检验难以实现。

6、结语

虽然网络内容分析具有以上局限性，但其发展前景依然十分广阔。任何新兴事物总有一个从混乱无序到规范的过程。随着新型网络信息技术的发展，网络管理制度的不断完善，功能更强大软件的开发，内容分析将可能实现与网络环境的无缝结合。可以预料，网络内容分析作为一种计量和揭示网上信息内容的有效方法，将在网络信息计量学中发挥越来越重要的作用。

标签：文本分析法论文; 文本分类论文; 用户研究论文; 网络编码论文; 功能分析论文; 用户分析论文;

网络内容分析研究_文本分析法论文

猜你喜欢