从小数据到大数据_大数据论文

从小数据到大数据，本文主要内容关键词为：数据论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 观点检索：研究的兴起

随着信息技术的快速发展，计算机互联网逐渐成为人们表达观点、情感的重要渠道。网络平台上的观点、评论等主观信息迅速增长，对这些信息进行分析能够帮助企业和公司改进产品与服务，及时修复可能潜在恶化的客户关系，提高企业在市场中的竞争力，因而具有非常重要的理论与实践意义。

在这种情况下，越来越多的企业和公司把关注投向互联网上的产品和服务评论，分析这些评论中所传递的重要信息。然而，由于评论信息的数量庞大且非结构化，通过人工阅读的方式往往难以完成，如何使用信息检索技术来解决海量的评论信息与个人有限的阅读能力之间的矛盾，成为研究者亟待解决的重要问题[1]。在2006年的文本检索会议(TREC 2006)中，首次出现了从博客数据集合中检索与用户输入的查询词(包括人物、产品、事件或者抽象实体)相关的评论内容的比赛任务。在该任务中，所有的参赛者均使用相同的数据集合(即Blogs06 DataSet[2])。该集合包含与50个话题相关320万条博客文档，每条博客文档记录中包含了标题(Title)、描述(Description and Narrative)等相关内容。虽然参赛者所提供的算法与系统并未取得较好的检索效果，但从博客数据集合中检索相关评论的任务迅速引起了学界的关注。越来越多的研究者开始研究使用信息检索的方法来研究评论内容检索。2007年，Zhang等提出了一个博客检索的框架[3]，该框架包含3个构件，即传统的信息检索构件、观点分类构件和文档排序构件。传统的信息检索构件用来从文档集合中寻找相关文档，观点分类构件用来判定文档集合中是否存在主观观点，文档排序构件用来对检索结果进行打分及排序。在该框架上运行Blogs06 DataSet，查询的平均准确率(Mean Average Precision)从TREC 2006参赛者的最好成绩之上提升了28%～32%。之后，相关研究者又利用生成模型(Generation Model)[4]、基于近似度的方法(Proximity based Method)[5-6]、数据融合方法(Data Fusion Method)[7]、基于分面的方法(Facet-based Method)[8]等方法进行了探索。

作为信息检索的一个重要分支，上述研究逐渐形成一个涉及图书馆学情报学、计算机科学、语言学、社会学等众多学科及其分支领域的交叉研究新兴领域，称为观点检索(Opinion Retrieval)研究，即通过信息检索方法从源数据中找出与用户给定查询(通常为某一个话题或者对象)相关的主观信息以及在该信息中所体现的对于该话题或者对象的态度。

2 从小数据到大数据：观点检索所面临的挑战

随着互联网的深度发展以及更多互联网用户的参与，大数据时代的到来无法避免[9]。围绕产品和服务的评论数据变得非常庞大(例如，在Wittek等的研究中，知识库三元组数量达到1000亿个[10])，数据的收集、存储和分析可能需要几十、几百甚至上千台服务器之间相互协作，传统关系数据库管理工具、统计软件、数据处理软件和可视化应用程序已经难以胜任相应任务。观点检索面临大规模的信息搜集、存储、索引、共享、分析以及可视化等诸多新的问题。如何实现大规模数据的分布式索引和检索，解决观点检索由小数据向大数据转换过程中的规模跨度问题(Scalability Problem)，成为研究者所面临的第一个挑战。

在大数据环境下，一方面，同一主题相关的评论往往具有高度分散性；另一方面，隶属于不同领域的网站，通常又具有较强的关联性。以旅游评论为例，通常与某个国家、地区或城市相关的旅游评论不仅涉及景点、住宿、餐饮、交通、购物、娱乐等领域，还涉及当地的历史、文化和商业等领域。相关的评论可能分布在景点评论领域、酒店评论领域、交通评论领域、餐饮评论领域、购物评论领域、娱乐评论领域、历史评论领域、文化评论领域和产业评论领域。这些内容既高度分散又相互关联，倘若不能将其联系起来进行检索，则用户很难全面了解某地旅游相关的用户评论整体情况。从社交网络平台[11]、电子商务网站[12]到专业点评网站[13]，从微信[14]、微博[15]到博客[16]，如何将不同领域网站的关联评论信息集成在一起，解决观点检索由小数据向大数据转换过程中的领域跨度问题(Cross-Domain Problem)，成为研究者所面临的第二个挑战。

在大数据时代，同一种产品，了解其中文、英文、法文、日文评价的不同，有助于全方位了解某种产品在不同国家和地区的评价差异，从而为企业提供更全面的反馈。同一位知名人物，中文、英文、法文、日文评价的不同，反映了不同国家与地区的网民对该人物的认同差异。对于同一个科学研究问题，不同语言的研究成果有助于了解各国在该研究领域的差异。这些评论之间虽然在语言上彼此分散，但在评价对象上又相互关联，倘若不能将其联系起来进行检索，则用户也很难全面了解相同对象在不同的语言环境下的观点共性与差异。从中文新浪微博[17]、英文Twitter[18]到法文DailyMotion[19]，如何将不同语言的相关信息集成在一起，解决观点检索由小数据向大数据转换过程中的语言跨度问题(Cross-Language Problem)，成为研究者面临的第三个挑战。

值得说明的是，目前国内外对于大数据问题的研究大多是源于计算机领域，且多数是为了解决信息检索由小数据向大数据转化过程中的规模跨度问题，领域跨度问题与语言跨度问题的研究目前尚未引起足够的重视。鉴于此，本研究将从规模跨度、领域跨度和语言跨度3个方面进行归纳，以期为学者进行相关研究提供思路。

3 观点检索的规模跨度问题

所谓规模跨度问题，即是要解决PB数量级数据的搜集、存储、索引、共享、分析以及可视化等诸多挑战。如何借助于现有软件(尤其是开源软件)构建分布式搜索引擎成为学术界研究的重点。例如，利用Apache开源框架Nutch和Hadoop的系统结构，设计高效、可靠、可扩展的分布式搜索引擎，来解决搜索引擎对海量数据的处理和存储问题[20]。在Hadoop的基础上实现分布式搜索引擎，着重解决分布式搜索引擎涉及的3项关键技术，包括索引表的建立、分词的处理和索引前的预处理等[21]。这些研究为解决大数据环境下的观点检索的规模跨度挑战奠定了重要基础。将其归纳为：潜在语义索引方法、佩奇排名方法、映射规约方法以及SQL与Hadoop相结合的方法等。

3.1 潜在语义索引方法

Letsche等[22]较早提出了大规模数据下传统信息检索技术的有效性可能会降低这一问题，并尝试用潜在语义索引(Latent Semantic Index)解决大规模数据的索引问题。这种方法通过海量文献找出词汇之间的关系。通常当两个词或一组词大量出现在同一个文档中时，这些词之间就可以被认为是语义相关。该方法的基本步骤包括：

1)先分析、统计文档中的关键词，构建“词汇—文档”矩阵。

2)将该文档与索引数据库中其他文档进行比对，确定不同文档间的语义相关性以及文档与特定关键词间的相关性，将“词汇—文档”矩阵分解为“词汇—词汇”矩阵、“词汇—文档”矩阵以及“文档—文档”矩阵。

3)适当降低上述3个矩阵的维度，从中找出特定文档中存在关键词的相关项。

4)通过维度降低后的矩阵重新计算查询向量与文档之间的相似度，并进行排序。

基于上述原理，Letsche等开发了LSI++软件，将该软件应用到并行环境下时，检索速度提高了180倍。尽管Letsche等所使用的数据集并未达到PB的数量级的大数据标准，但是其通过降低维度来节省时间和空间的思路对于后来学者而言仍具有启发意义。

3.2 佩奇排名方法

Brin和Page[23]从架构解析以及系统实现等方面关注大规模信息检索，提出了利用佩奇排名(PageRank)方法来解决大规模数据检索基本问题的思路。该方法以网页作为研究对象，通过对网页之间浩瀚的超链接关系进行分析来确定一个页面的等级，其基本思路是把从源页面到目标页面的链接解释为源页面给目标页面投票，并根据投票来源(即链接到目标页面的页面)、来源的来源(即链接到源页面的页面)和投票目标等级来决定新的等级。因此，一个来源于高等级页面的链接可以大幅提升页面等级。

通过层层递归，佩奇排名方法成功地解决了PB数量级的排序以及索引问题，并在Google上得以实施，证明了其有效性。但由于该方法多以网页作为研究对象，以网页之间的链接作为重要参考因素，在迁移到普通文档的应用之中时，需要有所调整和变通。

3.3 映射/规约架构

所谓映射/规约架构[24]，它包含两个步骤：即映射(Map)和规约(Reduce)。映射就是对一些独立元素组成的列表的每一个元素进行指定的操作。需要强调的是，这里是通过创建一个新的列表来保存操作后的结果，原始列表并没有被改变。由于映射操作是可以高度并行(即能够在分布式环境下运行)，因此能够大大缩减处理时间。规约指的是对上一步创建的列表元素进行适当的合并。由于规约运算相对较简单，因此尽管规约运算不如映射函数那么并行，但仍然能够大大节约运算时间。

与此同时，与映射/规约架构相关联的分布式系统开发平台Hadoop由Borthakur开发完成[25]。随后，Ma等[26]、Witteck等[16]、McCreadie等[27]、Cheng等[28]和Urbani等[29]分别从存储分割、工作负荷、索引策略、查询优化、推理等方面验证了映射/规约架构对于解决PB数量级信息检索能够取得较好的实际效果。

3.4 SQL与Hadoop相结合的方法

结构化查询语言(Structured Query Language，SQL)作为一种用于传统关系数据库的标准数据查询语言，它允许用户在高层数据结构上工作，不要求用户指定对数据的存放方法，也不需要用户了解其具体的数据存放方式，具有极大的灵活性和易用性。在大数据环境下，如何既能够保留结构化查询语言的强大功能，又能在数据急剧扩充的情况下保证其稳定运行，成为众多数据库及软件公司研究的重点。SQL与Hadoop相结合的方法(SQL-on-Hadoop)逐渐成为解决这一问题的重点方法。

所谓SQL-on-Hadoop，是指在Hadoop平台之上构建支持结构化查询语言的系统，使其能够支持PB数量级以上的添加、删除、查询和修改等操作。这种结合保留了结构化查询语言的灵活性(Flexibility)和易用性(Usability)，同时又具备了Hadoop架构的鲁棒性(Robustness)和可扩展性(Scalability)。在很短的时间内，在计算机业界涌现出Hive、Tez/Stinger和Impala等平台[30]，这为大数据环境下的观点检索问题的研究提供了技术与平台支持。

4 观点检索的领域跨度问题

在解决领域跨度这一问题时，不同的领域通常被划分为源领域和目标领域[31]，需要利用源领域所学到的知识来辅助对目标领域进行观点检索，即通过寻找源领域与目标领域之间的共同潜在语义空间，将不同领域的检索问题转化为同一领域的检索问题。笔者认为主要存在以下几种思路：源领域目标领域共同特征选择、目标领域文档选择、查询词扩充和迁移学习等。

4.1 共同特征选择

共同特征选择主要考虑寻找源领域与目标领域的文档之间的共同特征，并通过这些共同特征来对目标领域文档进行挖掘。其中，比较典型的是结构对应学习方法(Structural Correspondence Learning)[32]。所谓结构对应学习方法，是指选择与源领域与目标领域相独立的那些特征(Domain Independent Features)并利用这些特征构造嵌入式空间(Embedded Space)。在嵌入式空间内，来自源领域以及目标领域的数据将具有相同的特征结构。

共同特征选择方法致力于寻找源领域与目标领域的共性。当源领域与目标领域较为接近时，该方法具有一定的优势。若不具备该条件，源领域和目标领域之间的共性特征可能存在很大的稀疏性，从而影响到检索效果。

4.2 目标领域文档选择

所谓目标领域文档选择，是通过一定标准(如与源领域文档的相似程度)来寻找目标领域的相关文档，并借助对这些相关文档的分析来对目标领域的文档进行挖掘。例如，Wu等提出了一个两阶段框架方法(Two-stage Framework)来解决跨领域情感分类问题[33]。该方法分为两个阶段：

1)搭桥(Building the Bridge)阶段，即在源领域和目标领域之间建立联系，通过选择那些在目标领域具有最高信度的标记文档(Labeled Documents)来实现。

2)结构探寻(Following the Structure)阶段，对上述这些具有最高信度的文档进行挖掘，来寻找目标领域的内在结构(Intrinsic Structure)，并利用这些内在结构对目标领域的文档进行分类。

这种方法致力于寻找目标领域中与源领域高度相关的文档，相对于对整个目标领域文档进行分析而言，能够有效缩减分析时间。相关实验结果表明，该方法能够显著改进跨领域观点检索的效果。

4.3 查询词扩充

所谓查询词扩充，即是将跨领域的观点检索问题转化为查询词在不同领域的扩充问题。在Yu等的研究中，尝试将生物医学领域的科技期刊文献(PUBMED Scientific Publications)与相关的法律与专利文献(USPTO Patents)这两个看似无关却又紧密联系的领域整合起来提供跨领域(生物医学与法律)查询[34]，其基本思路是将用户输入的查询词映射到不同领域的关键词上。系统实现包含以下步骤：

1)查询词映射，通过对系统内置的本体数据库进行查询，将用户输入的关键词映射到不同领域的多组相关的关键词上。

2)联合查询，通过多组关键词在多领域(包括科技期刊文献和专利数据库文献)进行查找。

3)查询结果优化，通过用户反馈统计对查询结果进行修正，同时接受新的反馈，为后续用户查询提供参考。

用户通过跨领域查询，可以获得与生物医学相关的法律问题的解答，取得了较好的用户评价。

4.4 迁移学习

在观点检索的研究中，为了提高检索效率，需要建立一定的语料库。这些语料库往往具有较强的领域相关性，当语料应用到不同领域时，检索效果通常会受到较大影响。为了提高检索效率，研究者通常在新领域不得不重新建立语料库，这使得相关研究往往依赖于大量人工参与。为解决不同领域语料库的人工标记过于烦琐的问题，迁移学习方法(Transfer Learning)迅速流行起来。

在传统的信息检索与机器学习研究中，通常遵循一个基本的假设，即训练和测试数据应该是在相同的统计分布(Statistical Distribution)之下。在跨领域的情况下，这种遵循相同统计分布的假设其实并不成立。针对源领域的标记数据很难应用到新领域，同样通过源领域所学习到知识应用到新领域也存在较大适应性问题。针对这种跨领域学习的适应性问题，Dai和Yang等较早提出在不同领域的迁移学习[35]，即用一个领域所学习的知识来对另一个相关领域的数据进行分类。他们提出一种称为TrAdaBoost的迁移学习方法，该方法充分利用源领域的标注数据以及新领域的少量标记数据，对新领域的数据分类进行测试，验证了该方法的有效性和准确性。Huang等在TrAdaBoost的基础上又提出SharedBoost算法[36]。这些方法对解决大数据环境下不同领域语料库的人工标记过于烦琐的问题具有一定意义。

5 观点检索的语言跨度问题

在1996年召开SIGIR(Special Interest Group on Information Retrieval)会议中首次出现针对跨语言信息检索的研讨会(Workshop on Cross-language Information Retrieval)[37]。跨语言信息检索分为4种类型[38]，即溯源词匹配检索(对查询词和待查询文档中的同源词进行匹配)、查询词翻译匹配检索(将查询词翻译成待查询文档语言)、文档翻译匹配检索(将待查询文档翻译成为用户查询词语言)、中间语言匹配检索(将查询词和待查询文档翻译成为中间语言)。随着更多研究的深入，查询词翻译匹配策略逐渐成为最为广泛采用的方式。依照查询词翻译策略的不同，我们将其分为4种类型，即多语词典构建[39-41]、语料库对齐[42-43]、用户反馈与行为[44-45]以及领域知识对齐等[46]。

5.1 多语词典构建

多语词典构建是目前最为常用的查询词翻译方法，其基本思想是自动从双语或者多语词典(包括Dictionary、Lexicon、Thesaurus等)中选择合适的翻译来替换每一个查询词(包括名词、形容词等)。这种方法非常简洁，但面临两个主要问题。一是双语或者多语词典的覆盖度问题。以名词为例，部分名词通常存在于特定的语言和文化环境中，脱离该语言和文化环境则很难找到对应的词汇。中文语言环境中对于亲戚的称呼会区别对待“伯、舅、姨、表”等各种家族分支，而其他语言则通常不加以区分。例如，类似于“舅奶奶、姑姥姥、舅姥姥、姨姥姥”之类的名称很难在英语找到对应的词汇。同样，英语与其他语言相比较也存在类似的问题。在英语中，river(河流)没有进一步区分，而在法语中则区分为rivière(河)与fleuve(江)。在英语中，无论职业尊贵卑贱对我的自称只有“I”一种表达形式，而中文则有“我、在下、小民”等数十种之多。另外一个问题，即是机器翻译中常见的歧义问题，词典中的词大多具有多重义项，为查询词选择正确的翻译义项较为困难。例如，活动一词在英文中可以翻译为“Promotion” “Physical Exercise”等，其翻译依赖于上下文语境。在评论语句“商场活动期间数码相机非常便宜”中代表“促销”(Promotion)，而在评论语句“感觉这体育馆活动空间实在太小”中却代表“锻炼”(Physical Exercise)。这种歧义会影响查询效果。

5.2 语料库对齐

与基于多语词典构建的方法不同，基于语料库的方法依据多语言语料库来进行查询词翻译。这里的多语言语料库，通常是将同一信息或同一主题的信息用两种或多种语言进行描述，并通过人工方式或机器学习方式建立不同语言间的对齐(Alignment)，从而为跨语言查询词的翻译提供参考。依据对齐层次的不同，可分为词汇对齐(Word Alignment)、句子对齐(Sentence Alignment)、文献对齐(Document Alignment)等类型。其中，词汇对齐目前应用最为广泛。根据对齐的严格程度的不同，又可分为平行语料库(Parallel Corpus)对齐和比较语料库(Comparable Corpus)对齐。前者是指同一信息本身用不同的语言进行描述，后者则是指同一主题的信息用不同的语言进行描述。

基于语料库的跨语言观点检索能够使人们摆脱繁重的词典编纂工作。如果语料库的规模达到一定程度，则双语或者多语知识的获取也会得到较大的扩展空间。但与基于词典的跨语言观点检索类似，该方法同样受到对齐精度的影响以及查询词歧义等问题。如何科学地构建多语言语料库，同样是一个不小的挑战。

5.3 用户反馈和用户行为

对于检索结果，用户可能会提供一些反馈，如用户的口头评价、书面反馈或者点击浏览行为等。这些反馈隐含了用户对于检索结果的需求以及满意状态，可以用来衡量检索的效果，并进一步提升优化检索模型。通常将反馈分为3种类型：显式反馈(Explicit feedback)、隐式反馈(Implicit feedback)和伪相关反馈(Pseudo relevance feedback)。显式反馈[47]主要由相关性评估者(Relevance Reviewer)来判断检索文档与用户查询的相关程度。这种方式的使用存在一个前提，即评估者(或系统的其他用户)知道其所提供的反馈将被解释为相关性判断依据。与显式反馈相反，在隐式反馈中，评估者并不知道自己将提供反馈。检索文档与用户查询的相关度主要通过观察用户行为来推断，这些行为包括：观察用户浏览或忽略哪些文档、用户浏览文档所持续的时间、或者用户卷动滚动条操作等。伪相关反馈[48]则通过普通检索从最相关的文档中寻找到一个初始结果，然后假定其中的前k排名文档是相关的，对这些文档进行权重计算，选择权重最高的若干词语加入查询对其进行扩展。

事实上，不仅仅是用户反馈，用户在跨语言信息检索的整个过程中都具有参与交互的意愿。吴丹[49]设计了一个让用户参与跨语言信息检索全过程的用户检索实验。其实验结果表明：用户在判断文档相关性时具有较高的准确率(Accuracy)；针对与系统提供的反馈后的翻译，用户仍然愿意做进一步选择；用户对于与跨语言信息检索系统进行交互有需求并认可。这表明研究用户行为在跨语言观点检索中将同样具有重要作用。

5.4 领域知识库对齐

随着维基百科(Wikipedia)等大规模网络知识库的兴起，学者开始关注利用不同语言的领域知识库(包括关键词表、主题词表、同义词集合以及概念体系等)来进行跨语言信息检索。例如，通过使用Web挖掘的方法来建立不同语言关键词之间的对应关系，并将这种对应关系应用于查询扩展(Query Expansion)[50]，能够从一定程度上提高召回率。通过搜集的大量双语医学网页，使用半自动化的文本翻译方法建立中英医学主题词表(Chinese English Medical Subject Headings)[51]，能够应用到医学文献的中英双语检索中。类似的研究还包括利用Wikipedia建立跨语言概念体系(Interlingua Concepts)，并将其应用于文档索引，能够将检索准确度在传统的索引方式上提高10%左右[52]。

上述研究均以跨语言信息检索问题作为研究对象，且多数将研究重点集中在建立跨语言领域知识库的对应关系问题上，具有一定的科学意义。值得说明的，关于如何利用这些双语对应的词表进行跨语言观点检索的研究目前仍然较少。

6 结束语

综上可以看出，大数据环境下的观点检索不再等同于传统观念中的基于大规模数据的观点检索(大数据观点检索≠大规模数据观点检索)，而是涉及领域知识获取与对齐(观点检索在大数据中的领域跨度问题)、多语言信息处理(观点检索在大数据中的语言跨度问题)等更多科学问题。鉴于此，本研究认为，解决观点检索在由小数据向大数据转移过程中所难以回避的领域跨度、语言跨度问题将成为一个极为重要又非常紧迫的研究问题。

在未来研究中，笔者将尝试使用领域知识获取与对齐理论来解决观点检索在由小数据向大数据转移过程中难以回避的领域跨度和语言跨度问题。基于领域知识获取与对齐的理论研究，构建一套大数据环境下的观点检索集成框架，并开展一系列具有领域跨度、语言跨度的观点检索实证研究。

标签：大数据论文; 自然语言处理论文; 信息检索论文; 语料库论文; 相关性分析论文; 用户研究论文; 语言翻译论文; 用户分析论文; 文献检索论文;

从小数据到大数据_大数据论文

猜你喜欢