大数据背景下档案社会化媒体信息的挖掘与利用探析,本文主要内容关键词为:探析论文,档案论文,媒体论文,数据论文,背景下论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
DOI:10.16065/j.cnki.issn1002-1620.2015.06.015 0 引言 随着互联网的迅速发展和变革,社会化媒体成为记录人类社会生活变迁的重要载体,并成为大数据时代热门的焦点。档案社会化媒体也迅速渗透到学界和业界,成为信息交流和知识传播的重要平台,但目前这些网络信息资源没有引起档案界的广泛重视,需要整合和能够整合的档案资源太少也导致整合意义不大。将档案的网络学术论坛、学术博客和档案学人微博作为切入点,在此基础上探索数据源的分布、评测甄选和整合方法,并最终在构建的档案社会化媒体信息获取和分析系统上,有效整合开发利用档案新型资源,必然是推动和促进现有的档案信息化资源建设与利用的研究内容和方向之一。 1 国内外档案社会化媒体信息开发与服务的现状 社会进步和信息技术发展继续改变着档案工作的空间和内容,档案社会化媒体信息资源的整合是当前国内外研究档案资源深度建设与挖掘利用的重要领域。新的对象、方法和利用形式影响着档案信息的整合机制,新的组织、开发和利用技术更新着档案信息的整合路径,构建档案新型资源整合系统是必要的技术平台。 1.1 “大档案”和“社会记忆”拓展档案概念的外延 在“大档案”和“社会记忆”理念驱动下,档案概念的外延不断拓展,档案社会化媒体信息资源的研究逐渐活跃,而有关整合路径与机制的研究明显不足。2012年第十七届国际档案大会的主报告以美国国家档案局局长David S.Ferriero的《社会化媒体应用背景下的档案》开篇,平行会议的发言中有超过5篇论文研究该主题,显然档案与社会化媒体相结合是新的研究领域。国内档案学知名专家冯惠玲教授在2012年全国档案工作者年会中以《社交媒体与档案社会化》为主题发表演讲,指出社会化媒体的广泛应用将变革档案管理的平台、理念、对象、管理方式和主体,引发档案资源来源、结构和构建方式的调整,推动档案社会化的进程。经过近20年的探索,国外Web Archive的研究和实践取得了丰硕成果,国内在起步阶段但还没有引起档案馆等文化记忆机构的足够重视和应有投入。中国人民大学胡鸿杰教授热衷以博客方式记录教学、科研和生活中的感悟,其博文汇编成《胡言》出版而受档案学专业师生的喜爱。可见,信息化条件下要求将档案社会化媒体信息组合成整体并延伸利用范围,显然对活跃学科交流、拓展档案来源、提升档案服务具有重要意义。但是国内数字资源整合的讨论集中于图书情报界,且主要针对学术信息资源。围绕档案社会化媒体信息整合价值的认识仍存有争议,造成相关理论和方法的研究脱节。 1.2 “大数据”和“知识技术”完善档案信息化的条件 在“大数据”和“知识技术”理念驱动下,档案信息化的条件不断完善,但档案社会化媒体信息资源整合开发的研究鲜有涉及,有关技术手段的研究明显缺乏。档案社会化媒体信息整合涉及本体与组织工具改造、媒体资源分类及智能化、数据转换与映射等技术,关联开放数据为文化记忆机构的数据处理提供了重要机会。加拿大卡尔顿大学图书馆Patti Harper指出了社会化媒体对档案角色定位的转变;美国弗吉尼亚大学Daniel V.Pitti在其项目SNAC中研究了利用用户社交网络实现档案访问的权限控制;H.Larry Eiring研究支撑以用户为中心的数字信息管理的社会化媒体技术;Schefbeck Günther则分析了社交网站信息归档中面临的挑战;台湾大学典藏数位化计划中包含了用数字档案系统为特定社群服务;国际档案界正借助网络优势建立大资源共享服务平台为用户提供便捷的服务。就国内而言,档案界已注重以用户为导向的档案信息服务,青岛市档案馆将网络社区应用于自身的信息服务;上海档案信息网的“档案博客”栏目是交互服务中的一个亮点;南昌市档案局在微博中发布档案历史事件及档案界最近新闻。由上可见,国外对数字资源的保存、网页信息的归档等技术研究已相当深入,运用高科技手段是提高档案新型资源整合效果的关键;但国内目前建立的档案博客和网络社区等平台或利用系统很少,信息化条件下的整合路径仍不畅,造成相关技术的研发和应用浅于表面。 2 档案社会化媒体信息研究的总体框架 档案社会化媒体主要选取网络论坛、博客和微博作为研究对象。研究的主要目标,一是探索社会化媒体信息的整合,以充实国内档案界在Web2.0、UGC和社会化媒体领域的研究;二是总结国际Web Archive在数据选择、采集、存储、著录、访问、元数据管理等环节的先进经验,以弥补国内档案学科在这一研究领域的缺陷;三是从系统的角度设计信息集成、分析与服务的框架,以构建科学系统的数据源评价指标和计算方法;四是探索社会化媒体信息整合的模式及关键技术,并展示档案关系网络的知识地图和挖掘意见领袖。 因此,可以制定上述研究的总体框架如图1所示。分析如下: (1)从信息系统的角度设计档案社会化媒体信息组织、信息开发和信息利用的框架,即明确档案社会化媒体信息资源的整合的体系结构,给出档案社会化媒体信息资源的整合路径。 (2)围绕要整合的档案信息资源开展研究,主要是调研异构数据源的分布状况,引入“影响力评价”概念进而研究数据评估方法,最后得到数据甄选的计算公式。 (3)从档案元数据标准入手对信息整合的模式进行研究,明确整合中涉及的理论问题,针对档案社会化媒体新型资源,以信息采集、信息分析和信息利用等流程进行实验。 (4)从技术上分析涉及和拟采用的技术方案,借鉴Web Archive的信息流设计,梳理每个环节中的关键技术和最新方法,针对档案社会化媒体新型资源,以可视化分析、知识服务等流程进行实验。 (5)分析档案社会化媒体信息关系网络,挖掘档案深层信息。综合以上研究,构建档案新型资源的整合系统,建立其整合机制。 图1 档案社会化媒体信息研究的总体框架 显然,该总体框架的研究重点包括:以信息流为主线对整合流程模块化设计,从而规范整合过程;全面调研档案社会化媒体网络信息资源的分布,科学提出数据源的评价模型、评价指标和计算公式,从而构建数据源选择和评估方法;研究HTML、DC、EAD和XML的映射关系,从理论层面形成档案社会化媒体信息资源的整合模式;利用信息采集、数据挖掘、文本分析、分类聚类等技术建构档案新型媒体的整合平台。目前国内的相关研究甚少,部分成果仅是阐述档案馆微博开设、学者博客利用、社会化媒体给档案工作带来的机遇和挑战、国外Web Archive的介绍等,研究多停留在表层的叙述,缺乏科学的数据实证,更缺乏档案与社会化媒体相结合的应用实践。 3 大数据背景下档案信息内容发掘的方法与特色 3.1 研究的基本思路与方法分析 基本思路即通过“先理论方法研究,后技术应用实践”的基本流程,层层深入研究以下主题:综析国内外的研究现状,界定研究对象和概念,明确为什么要开展信息整合;从系统的角度设计社会化媒体信息组织、信息开发和信息利用的框架,明确信息整合的路径是什么;调研数据源的分布状况,探索数据的评估方法,得出数据甄选的计算公式,围绕要集成哪些数据和信息开展研究;从理论方法和技术实践两维视角,对信息整合的模式进行探讨以明确涉及的理论问题,分析借鉴Web Archive信息流研究信息采集、信息集成、可视化分析、知识服务等各环节的技术,挖掘档案社会化媒体信息的关系网络,基于档案新型资源整合系统建立起整合机制。 因此,大数据背景下档案信息内容发掘的具体研究方法应包括以下多种: (1)文献调研与模型分析法。通过了解前人的研究成果,明确研究的问题、思路和方法,同时也为课题研究中模型构建和技术应用提供理论支撑;以归纳与演绎的研究逻辑为指导,在研究过程中采用抽象和建模的思路,以形成网络信息共享中的档案资源的整合方案与模式。 (2)知识图谱法。利用文献计量方法和可视化技术开展文献综述,通过绘制领域知识图谱,从而探索研究热点和前沿,梳理现有研究的问题和不足。 (3)德尔菲法(Delphi)与层次分析法(AHP)。采用定性分析和定量测算相结合的混合研究思路,以专家问卷访谈的形式,调研面向档案学科的社会化媒体数据源分布和影响力评价指标及其评分,进而形成甄选数据的科学体系。 (4)社会网络分析法。通过网络爬虫等计算机辅助工具采集数据,借鉴社会网络分析理论探索用户的关系网络、知识地图等,同时利用工具对分析结果进行可视化。 (5)结构功能分析法。将本研究作为一个完整的系统并以系统论等思想为指导,对信息集成整个环节中信息采集、元数据、文本分析、分类聚类、可视化分析等模块加以整合,同时分析各子模块涉及的重要理论、技术、方法和应用。 3.2 研究特色及其成果展望 在理论与方法上,借鉴国际标准中的文件管理体系和开放档案信息系统参考模型,紧密接轨国际“网络信息归档”前沿研究,创新性地提出档案社会化媒体信息资源的整合框架及其顶层设计,通过系统调研档案新型资源的分布得出数据源的评价模型、评价指标和计算公式,以科学组合的研究方法构建拟整合之数据源选择和评估的方法,通过研究DC、EAD和XML的映射关系及其本体构建,从理论层面形成档案社会化媒体信息资源的语义集成模式,从而规范档案信息组织、档案信息开发和档案信息利用的整合路径。 在技术与应用上,借鉴Web Archive的信息流思想和信息系统开发的方法,创新性地提出将社会网络分析方法、网络信息挖掘技术、可视化分析技术和知识服务技术运用于档案社会化媒体信息资源开发,研发档案社会化媒体信息整合平台及其利用系统,得出社会化媒体用户关系网络的知识地图及核心用户群体,揭示档案社会化媒体内容的关联、知识的演变等,基于整合对象、方法和利用形式等构建档案新型资源的整合机制,从而增强网上档案信息交流与增值服务,提升社会化媒体信息服务的质量。 4 小结 大数据背景下开发利用档案社会化媒体信息资源,既是档案信息化建设中的战略性步骤,也是其有效建设与利用的必然选择。本研究可应用于国家、军队和地方的大中型数字档案馆、综合档案馆的档案资源进一步建设中,也适用于关注档案社会化媒体信息资源整合研究、开展档案社会化媒体信息资源服务的档案信息机构和学术部门。如研究“档案社会化媒体信息资源整合框架的顶层设计”、“档案社会化媒体信息整合平台及其利用系统”,均能在综合档案馆的新型资源建设与发展中提高档案利用质量、实现档案信息增值服务;又如研究“档案新型资源的系统调研及数据源的分布、评测甄选和整合方法”、“基于HTML、DC、EAD和XML映射的档案社会化媒体信息资源的语义集成模式”和“档案社会化媒体信息资源的整合路径与实现机制”,均能在档案信息机构和学术机构的建设与交流中发挥出较高价值。大数据背景下档案社会媒体信息的挖掘与利用探讨_大数据论文
大数据背景下档案社会媒体信息的挖掘与利用探讨_大数据论文
下载Doc文档