信息聚集概念的构成与聚合模式研究_内容聚合论文

信息聚合概念的构成与聚合模式研究,本文主要内容关键词为:概念论文,模式论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      分类号G254

      0 引言

      网络和数字化环境下,海量信息资源为用户带来丰富数据和信息的同时,也给用户带来了信息超载的难题。因此,信息组织和检索在解决海量网络信息开发利用的同时,还肩负着搭建从信息资源到用户多样化信息需求之间桥梁的重任。

      然而,以往信息组织的研究和实践偏重信息资源的开发利用,而真实情境下用户的复杂信息需求在主流信息组织和检索模式中未得到充分的考虑和支持。例如,在当前典型的信息检索系统中,用户往往需要对来源分散的信息进行逐一检索和相关性判别,并对结果进行人工整合,才能解决一个具体的问题,这为时间紧迫的用户带来了负担[1]。因而,用户需要能帮助他们按照需求从多个分散来源中获取信息并以整合方式呈现的信息服务方式——信息聚合由此而生。

      简言之,信息聚合是指根据用户的复杂信息需求,对来源分散的多类型信息资源进行采集、筛选、组织、整合和呈现的信息组织与检索方式。聚合搜索(Aggregated Search)的概念在信息科学国际会议ACM SIGIR 2008中被提出时,就被认为是信息检索的新范式[2]与新趋势[3]。在国内,国家社会科学基金和国家自然科学基金立项支持的与“聚合”有关的项目至今累计达十余个。可见,信息聚合作为信息组织与检索研究的新问题正得到包括图书情报学在内的诸多领域的关注。适时厘清信息聚合的内涵与概念构成,明晰其发展历史和已有基础,进而对现有的聚合理论研究与实践模式进行梳理,可为聚合研究提供理论基础和发展的路向。

      1 信息聚合概念的构成

      《牛津现代英汉双解字典》中,“聚合”一词与英文“Aggregation”对应,是指异类成分组成的集合,或由很多细小单元组成的集合组成一个整体[4]。杜晖指出,聚合的概念来源于化学领域,是描述高分子化学领域中单体小分子通过相互连接成为新的高分子化合物的专用术语[5]。可见,信息组织领域中的聚合概念应具有多来源信息单元的融合和重组的含义,指多源信息单元的聚合,包含聚合对象粒度这一要素。

      北卡罗来纳大学信息与图书馆学院信息检索领域的研究人员Arguello等提出了内容聚合的概念,认为内容聚合是指特定情境下围绕核心内容(Core Content)和垂直内容(Vertical Content)进行信息筛选、组织、排序与呈现的任务与方法[6]。与前述的聚合对象粒度这一要素相比,内容聚合的概念关注的多源异构的信息“内容”实际上与“聚合对象”对应,同时还增加了“情景”要素。情景是由宏观社会环境下的信息组织和检索环境以及用户需求共同决定的。作为聚合对象的信息内容的粒度,主要根据宏观社会环境下用户的复杂信息需求而定,同时还受到来源信息粒度及信息组织和检索系统性能的影响。情景和聚合对象两个要素之间衍生出第三要素,即涵盖聚合对象与用户之间关系以及聚合对象之间关系的“关系”要素。因而,信息组织领域中的信息聚合可视为面向用户需求的、基于多维聚合关系的、多来源、多粒度信息对象的筛选、组织、排序与呈现,包括聚合情景、聚合对象粒度、聚合对象之间关系及用户和聚合对象之间关系这三大构成。

      与信息聚合相近的概念还有信息整合、信息联合(Syndication)、信息融合和信息集成等。此外,网络聚合搜索通常被等同于统一搜索(Unified Search)、混合垂直搜索(Blended Vertical Search)或通用搜索(Universal Search)[3]等概念。正如本文开篇所提到的,信息聚合与这些概念的区别在于,这些概念主要从信息资源开发利用的角度提出,忽略了聚合所关注的“情景”要素以及由情景要素所带来的聚合对象、聚合对象之间关系和聚合对象与用户之间关系的差异。

      可见,信息聚合是在当前搜索系统并未满足用户复杂多样的信息需求的情况下,以“情景”因素的融入为主要特征,在相应技术和理论基础上发展而来的信息组织与搜索模式的革新。内容聚合的概念可包括情景、聚合对象和关系三大要素,其中情景决定聚合的领域、目标、资源特征、用户特征、工具和方法,是聚合模式的决定因素;信息是聚合控制的基本对象,面向信息融合和知识发现的各种应用是聚合结果;关系是聚合的基本依据,包括情景、聚合对象和用户三者本身蕴含的关系以及三者之间的关系。

      2 聚合模式分析方法

      虽然近年来信息聚合问题成为信息组织与检索研究的新热点,但Arguello认为内容聚合的现象可追溯到更传统的表现形式,如:报纸可视为最早的“聚合媒体”,数字环境下聚合系统则表现为内容过滤系统,万维网初期更多呈现为主题导航式的手工的内容聚合、网络内容的自动聚合和新闻推荐等形式。当前技术环境下,内容聚合者则采用复合的、实时的、基于地理空间信号、语义分析和社会信息分析的方式进行[6]。国内对于信息聚合的研究也涵盖了馆藏资源聚合和网络资源聚合等方面,如,伍革新和程秀峰提出数字图书馆语义检索从功能上可以划分为面向服务的聚合与检索、面向用户的聚合与检索、面向知识推理与知识创新的聚合与检索[7]。可见,信息聚合具有多样化的应用领域和应用模式,加上学界对于信息聚合概念的认识和聚合类型划分尚不一致,当前与聚合模式相关的研究和实践是多样而又分散的。

      本研究以信息聚合的概念构成为基础,对当前国内外关于信息聚合的典型应用和研究前沿进行梳理,归纳出聚合的主要模式。为获取国内外图情领域关于信息聚合研究与实践的信息,本研究搜集并整理了以下项目和资料:全球iSchool图书情报学院的教师科研项目、2009~2013年间图书情报领域的国际会议论文、2009~2013年间图情领域的五种国际期刊的论文(Journal of the American Society for Information Science and Technology,Journal of Documentation,Journal of Information Science,Information Processing and Management,Scientometrics)、我国国家自然科学基金和国家社会科学基金资助项目论文和CNKI中的学位论文,并以此为线索进行扩展。在此范围内,选取资料完整的、有代表性的研究和实践案例进行分析,对聚合模式进行归纳和梳理。

      通过分析发现,这些项目和研究中包含的聚合模式主要是以情景、对象、关系中的一种或几种为依据进行的信息聚合,涵盖特定情境下多类型信息资源的采集、抽取、组织、分析、应用等多个方面的内容。围绕这些特征,我们提出本研究模式分析的思路,即:以信息聚合的主要构成要素为模式分析的立足点,围绕情景、关系和聚合对象粒度三种主要的聚合依据,按照其研究和实践的侧重点不同,划分为情景聚合、语义聚合、引用聚合、社会网络聚合和粒度聚合五种主要模式。以此为框架,以聚合情景分析为基础,以聚合机制解释和聚合应用介绍为主要内容,对现阶段信息聚合研究和实践的基本模式及其具体表现形式进行梳理,具体如图1所示。这三种聚合模式并非相互排斥、独立存在,而是互相包容和渗透。值得注意的是,以下各模式下所讨论的研究和实践例子除了具备该模式的显著特征外,也可能同时具有其他模式的特征和要素,甚至是其中几种模式的复合体。

      

      图1 基于信息聚合概念构成的聚合模式与表现形式

      3 信息聚合的主要模式与表现

      3.1 基于情景的聚合

      情景是指领域、用户、时间、地点等可影响聚合目标、聚合对象特征、聚合方法和工具的应用的社会环境因素。情景聚合模式即基于应用目标、用户需求、行为或时间地点等客观情景因素进行的信息对象的采选、整合与动态呈现。该模式可分为基于情景感知的事件信息聚合、基于实时信息的新闻或消息聚合和基于个性化用户模型的聚合三种表现形式。

      3.1.1 基于情景感知的事件信息聚合

      大数据环境下,科研、商业、政府管理、军事和社会生活中使用的各类传感器产生的多媒体信息是海量信息的主要组成之一。基于情景感知的事件信息聚合模式是指通过对来自多个传感器的实时、海量的多媒体信息进行事件情景识别、事件相关信息或数据抽取和事件整合的聚合模式。基于大规模多媒体传感器的应用系统被称为情景感知的应用[8]。

      相关研究和实践包括:Ramachandran以视频监控为例构建情景感知的应用模型,在监测器识别和异常事件触发的基础上,通过多传感器和追踪器进行事件信息(如:位置等)的持续聚合和联合追踪,形成面向实际应用的相关知识[8]。Gao等构建了一个情景信息监测的系统,通过异构信息流聚合方法提供个性化信息和行动提醒。该系统通过统一的数据模型聚合异构网络数据流,并监测个人或整合数据流的时间和空间特性,从而对复杂情景进行监测并提供个性化信息服务与提醒[9]。Dao等构建涵盖网络、实体和社会系统的事件信息管理平台,以帮助领域专家实现大规模动态事件数据的监测和实时情景预测。该平台设计半自动的情景识别模型,通过输入来自传感器的或书面报告的、实时的或档案信息中的同构或异构数据格式,对数据流实现浅层或深层的混合式整合,从而产生可视化的分析方法或行动和警告,并帮助发现隐藏的时间模式[10]。

      3.1.2 基于实时情景信息的聚合

      实时情景信息主要是指用户所处的地理位置、时间甚至是社会关系网络等即时的或历时的情景信息。基于实时信息的聚合是当前聚合研究的热点。

      相关研究和实践包括:Wenze和Kie

ling开展首个对多来源的位置—社会网络数据进行聚合、建模和分析的研究,从Facebook、Google+、Twitter和Foursquare中抽取数据并生成物化的空间架构,在此基础上生成扩展的用户模型并实现基于用户模型的相似性分析,从而应用到用户间的场景式推荐中[11]。Singh等在研究中提出,微博等社会网络程序产生的空间—时间—主题数据的整合,可帮助检测事件,并理解同一事件在不同时间—空间粒度中发展的情景。作者受到传统图像像素代表某位置中光子强弱的聚合的启发,将处于不同地理位置的用户兴趣层次作为社会聚合的像素,将这种社会像素以时间—空间的方式联系起来即可形成社会图像和音频。作者提出通过情景监测操作器实现基于时间、空间和主题社会像素的图像和音频聚合[12]。Liu提出的LocalSavvy原型系统,将不同地点对于相同新闻事件的官方与非官方等不同观点聚合到统一界面,同时进行摘要呈现,用户可对不同的观点进行比较,从而丰富用户新闻阅读体验[13]。

      3.1.3 基于个性化用户模型的聚合

      基于个性化用户模型的聚合可分为面向用户个体的建模与聚合和面向用户群体的建模与聚合。其中,面向个体的用户模型聚合可划分为个性化新闻推荐中的用户建模(如:主题跟踪和语义标签匹配模型[14]、基于用户交互行为特征的多变量优化模型[14]、动态的行为学习模型[15]等)和场景模型构建(如:基于生活事件法的电子政务服务场景模型[16-17])。

      基于多来源数据的用户群组建模研究近年来备受关注,下面介绍较为典型的研究和实践。ASTERIX(Advances in Small Trials dEsign for Regulatory Innovation and eXcellence,创新卓越小型实验系统)大数据信息管理系统,旨在为洛杉矶地区产生的地理、商业、人口、新闻、本地相关或提及本地的博客和微博等多源、异构和动态的事件数据管理提供基本框架,构建动态数据模型,最终实现基于用户兴趣群组(如选举、电影等)的事件信息聚合[18-19]。微软亚洲研究院的研究人员Zhuang等提出移动环境下基于潜在情境因素的感知与个性化商业机构推荐问题。在对手机点击行为进行大规模分析的基础上识别商业机构类型和条目,通过用户的特定情境估算相关商业机构的概率,推荐与用户情景(过往行为)和感知情景(时间和地点)相关的机构类型和机构。该研究在Windows Phone 7设备的基础上开发个性化推荐应用[20]。

      3.2 基于关系的聚合

      基于关系的聚合是指特定情境下依据聚合对象之间的各类关系进行聚合,主要包括基于语义关系的聚合、基于引用关系的聚合和基于社会关系的聚合。

      3.2.1 语义聚合模式

      语义聚合模式着重探索文本信息资源内容所包含的概念间或实体间关系,从而通过语义关系网络实现多类型资源(文本、馆藏、数据和服务)的聚合。

      概念关系可分不同的层次,主要包括概念的包含关系,如分类法的类目等级关系,叙词法的属分关系,本体类的树状结构包含关系等。Peace构建了关于医护实践知识的知识组织系统,辅助计算机理解和分析[21];李劲等研究如何揭示馆藏资源内部的知识对象以及知识对象间的语义关系,通过聚类、融合和重组使分散无序、相对独立的馆藏资源重新组织为一个新的有机整体[22]。

      实体关系,如人物、时间、地点、事件等实体是和内容主题并存的另一大类关系载体,在基于非主题因素的关系的揭示与发现方面发挥着不可忽视的作用。基于实体关系的聚合可包括:面向馆藏资源实体关系的聚合(如:基于FRBR模型的OPAC系统聚合[23],基于关联数据的馆藏信息资源聚合[24]),面向事务实体关系的聚合(如:基于语义网络的多来源水质量管理数据源的聚合[25],生物等学科领域的数据与服务聚合[26-27]),以及面向具体领域实体关系的聚合(如:ad hoc网络层面的基于语义和规则网络的软件构件聚合[28])。

      3.2.2 引用聚合模式

      信息资源间存在大量的链接和引用关系,这些关系构成了特定研究主题的知识网络,其单向无回路的特征揭示了学科主题的知识结构和发展过程[29],被认为是获得某领域文献知识结构的方法[30]。基于引用关系的聚合着重探索资源之间的链接、参考和引证关系,从而为聚合提供依据。相关研究集中在基于实体间引用关系的聚合、数字图书馆的馆藏资源聚合与可视化研究方面,包括基于文献间引用关系的聚合、基于实体间引用关系的聚合和基于检索相似度的引文聚合。

      邱均平带领的团队对基于引文分析的聚合进行系列研究,如:基于阈值和权值的数字期刊论文聚合[29],基于文献耦合关系与作者耦合关系的信息资源聚合[5],基于共现与耦合的馆藏资源聚合[31]等。此外,曾建勋提出利用学术文献引证关系和WWW链接机制构造中文知识链接门户的思想,将系统数据库结构分为来源文献库、被引文献库、作者库、基金库、期刊载文表、期刊引文表等,通过“来源文献唯一标识”将各数据库相关记录联系起来,通过聚合维度数据规范、优化检索关联字典等提高链接和统计的几率和效率[32]。

      Ding等提出基于文献内容单元的引用分析,从语义和语法的层面阐释引用的价值,及其在引用动机分类、引用摘要、信息检索、推荐和预测及知识图谱挖掘等方面的应用[33]。在基于实体方法的引用分析中,知识实体被定义为关键词、论题、主题类目、数据集、关键方法、关键理论、领域实体等知识的载体,其在科学交流过程中所体现的关系可为知识聚合提供依据。按照这一方法,作者在生物医学数据库PubMed中对糖尿病药物二甲双胍相关实体进行引用分析,从而形成基于生物实体的引用网络,为相关药物研发中的知识发现提供支持[34]。

      基于检索相似度的引文聚合方面,Strotmann和Zhao提出对引文数据集合的相似度矩阵进行多因素因子分析,通过对用户搜索结果和/或与其密切相关的文档进行计算,为用户提供数字图书馆文献的交互式地图。搜索结果中的每个可视化元素可为用户提供从不同方面(作者和/或子领域)进行聚合的途径,从而帮助用户认识领域知识结构和书目间的亲疏关系[30]。

      3.2.3 社会网络聚合模式

      基于社会网络的聚合是指以社会关系分析的结果为依据进行的资源聚合。根据Freeman的定义,社会网络分析是指以计算机技术和统计学原理作为支持,以系统数据为基础,以图形语言和技术为表现,对社会网络主体之间形成的特定结构关系进行分析,探究隐藏在复杂的社会系统表面之下的特定网络模式的分析方法[35-36]。社会网络将社会行为者表达为节点,节点之间的联系表达为边。其中,边可以表达不同类型的关系,如血缘关系、合作关系、敌对关系等,而构成网络的实体关系可以延伸到表达事件中的谁(个人或组织等社会机构)、什么(任务、事件)、哪里(位置)、为什么(观念、情感、信仰)、如何(资源、信息)和何时(时间)等类中,从而实现多维度的甚至语义层面的聚合[37]。基于社会网络的聚合主要包括两种表现形式:基于文本的社会网络构建与聚合,基于文本的人际网络构建与聚合。

      伊利诺伊大学图书馆与信息学院副教授Diesner对基于文本的语义挖掘和社会—语义网络构建与聚合开展系列研究[38],在此基础上开发了ConText①“社会正义”领域的文本分析与聚合系统。该系统从元数据中或文本[39]中获取文本数据,通过一系列文本特征(语义的、句法的、近似的或概率的)进行关系抽取,抽取社会系统结构,从而辅助该领域进行基于文本的聚合分析[40-42]。此外,刘礼芳提出对Flickr网站用户进行社会网络结构划分,通过基于社会网络结构的标签学习算法,实现基于社会网络语义标签的Web图像聚合,从而将感兴趣的好友图像和社区图像聚合到用户个人网页中[43]。

      人际网络构建与聚合方面,Diesner等学者以某危机应对组织中的即时邮件通讯语料库为对象,构建商业机构沟通网络的结构和属性,并探索不同层次员工沟通行为的属性和模式,通过发现危机下商业机构沟通的特有模式,为商业机构建设提供决策参考[44]。王雨提出综合运用社会网络分析、矩阵算法、网络图谱等工具和方法,构建基于作者互引关系、作者合作关系、作者—关键词关系的社会网络聚合模型和可视化图谱,实现数字图书馆馆藏资源聚合[35]。胡蓉和邓小昭以结构洞理论为基础,构建计算机辅助的个人人际网络分析系统,运用矩阵分析算法和网络图技术分析现实竞争环境中企业行动者的个人人际网络结构,从而辅助企业行动者利用其人际网络和结构洞优势来获取更有效的信息资源[45-46]。

      3.3 基于聚合对象粒度的聚合

      基于聚合对象粒度的聚合主要是指对文本信息资源的解构与重组,相关研究按照知识融合与发现的深度依次为基于信息单元的聚合、信息融合和基于知识元的聚合三大类型。因而,粒度聚合模式下的研究和实践除了具有聚合对象粒度较小的共同特征外,还可能同时具有情景聚合模式、关系聚合模式的特征。

      3.3.1 基于信息单元的聚合

      基于信息单元的聚合主要是对数字或网络环境下文本信息单元中包含的相关信息的抽取、检索或重组。相关研究涉及数字文档和网络各类信息片段的解构与重组,既包括基于逻辑单元的聚合,也包括基于语义单元的聚合。

      当前,无论是数字资源还是网络资源的聚合,大都是基于逻辑单元的聚合。如期刊论文章、节、段、句和图表等逻辑单元的聚合,如伊利诺伊大学早年开展的NSF/DARPA/NASA数字图书馆项目(DLI)中的DeLIver项目[47]、CNKI知识元搜索②和加州大学伯克利分校的Hearst教授开发的生物论文搜索引擎BioText Search Engine③。此外,Wu等将网络检索中的锚文本检索技术改进应用到图书搜索中,以书后索引作为指向书页的锚,采用概率数据记录作为检索策略的高层次摘要模型,从而通过概率逻辑摘要实现图书书页检索和定位[48]。

      Ratkiewicz和Menczer以HTML页面的DOM树的标签与位置为线索,通过超链接连接起来并进行片段抽取[49]。Bessai-Mechmache提出可支持关键词自动选择的XML文档非冗余要素的聚合模型,在概率网络的基础上,提供文档、要素及内容之间自然表达的链接[50]。此外,Jahn等通过Bing搜索引擎,获取研究人员出版物列表的URL,通过每一个URL抽取相应的内容片段,从而实现研究人员出版物列表的自动发现与聚合[51]。

      语义单元聚合方面,Hearst教授开发的系统WordSeer④可通过字、词、句层面的文本分析,为人文社会科学学者提供语义聚合平台,提供基于词间语义关系的语法检索、用语比较、语句关系可视化和结果可视化,支持基于主题的例子聚合、文本标引、内容导航等。Blake综合采用句法和语义的方法,从生物医学领域的实证研究论文结论中自动识别和抽取科学论断,通过区分关联、比较和观察,来捕获不同层次的事实,从而减轻信息超载的负担[52]。Zhang识别期刊文章组成(如介绍、方法、结果和讨论)中的最小语义功能单元,及其与信息利用任务(Information Use Task)之间的关系,从而支持基于聚合单元功能组织与呈现的期刊论文导航、精读、理解和使用[53]。

      Liu提出的Spectrum系统提供对当前流行的新闻主题的聚合。该系统可围绕特定主题对blogosphere中关于某新闻的不同观点进行自动聚类,从而支持用户对于某新闻主题的不同观点进行浏览与比较。Liu提出的另一系统Compare & Contrast,可分析用户提交的新闻故事,建立故事情景模型,从而动态地发现与原始新闻中可对比的实体(如任务、地点、组织等),并进行案例扩展检索,通过实时动态更新、与地理位置相连、情景分析和语义分析发现社会趋势[54]。

      3.3.2 面向信息融合的聚合

      面向信息融合的聚合是指通过多源文本或多媒体片段的摘要与融合,实现面向特定需求的多类型信息融合与服务的聚合效果,可包括文本自动摘要、多媒体信息融合。

      文本自动摘要常被应用于结果聚合中,包括基于文本内容的结构化摘要(如Lin和Liu的研究[55])、面向集合的高层次总体概要和可视化三个层面的聚合[56]。Sushmita和Lalmas提出通过结果文档聚类形成虚构文档回答检索提问,用户还可通过聚合摘要页的概念获得与查询相关的情景[57]。与此类似,Ou和Khoo提出社会科学领域聚合检索结果页面提供基于摘要概念和结果的组织与呈现方法[58]。Kopliku研究基于信息块的结构化摘要、多类型内容融合、定制及其可视化的问题[3]。Kaptein和Marx实现由丹麦议会手稿组成的大规模半结构化数据集的聚焦搜索和结果聚合,以图表的形式进行会议结构摘要和可视化,会议内容或部分内容被压缩成云标签[59]。

      多媒体信息融合方面,Jain报告了利用海量媒体数据进行故事合成的前沿研究与主要技术。在数据获取方面,作者提出通过多个传感器和多个媒体对现实世界事件进行捕获,通过数据分析、相关事件和经历的选择,实现基于这些素材的事件重现,在此基础上合成故事[60]。

      3.3.3 基于知识元的聚合

      基于知识元的聚合是以知识元理论为基础,实现基于知识单元及其语义关系的揭示与组织,从而达到按特定目标聚合的效果。基于知识元的聚合按照应用可分为学科领域的知识元聚合与舆情领域的知识元聚合两类。

      学科领域知识元聚合方面,刘植惠、文庭孝、温有奎、化柏林等对此进行了系统研究,如知识元理论研究[61-64],知识元自动识别、标引与组织[65-71],知识元检索系统构建等[72-76],从不同程度上为基于知识元聚合提供参考。知识元的识别与抽取常被用于构建具有一定结构和关联的知识体系,相关研究可包括:知识链接研究[77-80],学科领域多粒度知识组织体系构建、检索与整合[81-82],基于知识元的领域知识系统构建,如基于知识元的中药方剂知识组织系统构建[83]、语义wiki知识元系统[84-85]和基于知识元基础的军事情报语义网地图[86]等。这些研究通过情境下基于知识元的知识组织系统构建,实现按照学科领域需求从更小的粒度构建和揭示知识的聚合效果。

      知识元理论应用到舆情领域,形成了面向具体应用的知识元理论体系。舆情领域的研究通过提取突发事件相关要素作为知识元进行标引和建模,对要素间的关系进行探索,从而对舆情事件进行预警、追溯和决策支持。大连理工大学的研究团队对此进行了系列研究,包括:舆情事件知识元通用模型构建[87-88]、面向特定情境的舆情事件知识元模型构建[88-90]、应急决策知识元模型构建[90-92]和面向历时性分析的舆情知识元模型构建[93-95]等,从而实现面向舆情管理需求的动态信息抽取和知识整合,达到基于知识元聚合的效果。

      4 多模式综合的深度聚合发展趋势

      在情景、关系和聚合对象三个聚合概念构成中,情景是由社会环境、信息组织和检索环境以及用户需求共同决定的;聚合对象的粒度大小实际上是根据社会环境和用户需求而定的,既受到来源信息粒度的影响,又受到信息组织和检索系统性能的影响;关系则是反映聚合情景和聚合对象关系的总和与落脚点,因此,情景是决定聚合其他要素的依据。情景的细化和深入研究势必带来多模式的综合应用,通过探索不同关系类型和不同粒度信息对象与各种情境下用户需求的关联关系,可以进一步满足用户复杂的、多样的和动态的需求。

      对基于关系的聚合而言,这种多模式综合发展的趋势首先表现为,语义聚合所包含的基于概念关系或实体关系的聚合普遍存在于情景聚合和粒度聚合等多种模式中;其次,基于概念间的关系和实体间关系的聚合正在融合发展,这与信息检索中强调非主题检索及主题与非主题因素融合的发展趋势不谋而合;第三,引文聚合与社会网络聚合的结合,包括社会网络分析在内的网络分析方法正被整合到引文分析中[36,96];第四,随着网络分析方法的发展,基于社会关系和引用关系的非传统知识组织方式正逐渐与语义聚合方式结合,提供多维度展示资源分布和知识结构的组织方式。

      对于粒度聚合而言,作为组织对象的信息资源粒度的细化,使得面向情景的聚合控制可以跨越载体单元而深入内容本身,从而为面向用户多种情景下的动态需求和海量信息环境下对于目标信息的获取提供有力的支持;然而,粒度聚合在聚合单元之间关系的构建、聚合单元的识别与描述、聚合搜索与呈现等方面,有别于传统的以篇章为单元的知识组织方式:对于长文本而言,粒度聚合模式下知识组织系统构建必须考虑不同粒度层级聚合单元的主题表达,聚合粒度越小,主题数量越丰富,主题间的语义关系越明确和丰富,为聚合单元的基于主题和非主题因素的多分面描述提供可能性,进一步增加聚合搜索的语义准确性,以及多种情景下语义聚合的智能化;对于网络环境下越来越多的评论、问答、实时讨论等类型的短文本而言,粒度聚合为短文本的组织提供了有针对性的组织方式。具体应用目标和用户认知特征等具体情景构建知识组织系统,则是短文本聚合的关键。

      5 讨论

      当前,信息聚合研究正成为图书情报领域关注的热点,然而学界对于信息聚合的研究至今仍然集中在方法、技术和应用的层面,对于信息聚合理论的梳理和构建相对较少。本研究的贡献在于:①从概念的辨析、解释和扩展出发,明晰信息聚合概念的主要构成;②在信息聚合概念构成的基础上,提出主要的聚合依据、聚合模式及其主要表现形式,从而对各模式下的聚合机制和聚合应用进行梳理;③提出多模式综合的深度聚合发展趋势,为深度聚合的方法、技术和应用的进一步发展提供理论基础。

      后续相关研究一方面可将本研究提出的信息聚合构成和聚合模式作为理论框架,从图书情报领域信息组织与信息检索的角度对每种聚合模式的具体聚合机制、方法和技术进行细化研究,从而推动信息聚合理论的发展,拓宽图书情报学的研究领域;另一方面,可结合特定学科领域的特定工作任务和舆情分析等具体情景,充分利用信息聚合的最新成果,开发面向知识服务与决策支持的深度聚合系统,充分发挥信息聚合理论在提升科学研究水平、推动社会经济发展中的作用,提升图书情报学理论在解决社会实际问题中的能力。

      ①http://context.lis.illinois.edu。

      ②http://www.cnki.net。

      ③http://biosearch.berkeley.edu。

      ④http://wordseer.berkeley.edu。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

信息聚集概念的构成与聚合模式研究_内容聚合论文
下载Doc文档

猜你喜欢