档案社会化媒体信息资源整合框架设计研究,本文主要内容关键词为:资源整合论文,框架论文,档案论文,媒体论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G250;G270.7 1 引言 当今世界日新月异,信息技术的更迭见证了信息社会向知识社会迈进的历史进程。互联网Web 1.0到Web 2.0的变革、用户生成内容(UGC,User Generated Content)模式和社会化媒体平台的广泛渗透、移动互联网的崛起、大数据时代的翩然而至,人们的生活、工作、学习和思维也悄然改变。在“大档案”和“社会记忆”理念的驱动下,档案概念的外延不断拓展,其中社会化媒体近年已经引起学界和业界的重视,但目前国内相关的研究和应用成果还比较欠缺,相关研究主要在三方面:一是介绍国外档案界社会化媒体的研究和应用现状;二是探讨社会化媒体给档案工作带来的改变;三是探索网络社会化媒体信息的档案价值。目前多数研究将“社会化媒体”作为一种“工具”,探讨其在档案宣传、文化传播、利用服务等方面的应用实践;只有少数研究开始深入到社会化媒体的“内容层面”,即探讨社会化媒体信息本身的档案价值、属性和实践。 “档案社会化媒体信息”即:社会化媒体中具有归档价值或与具体档案工作的相关信息。狭义理解它特指社会化媒体中具有归档价值的信息,也即目前学界提出的“社交媒体档案”、“社会化媒体档案”等概念,笔者认为其可纳入广义的电子文件概念中,也即在社会化媒体信息的归档实践和研究中,应严格确保信息的真实性、完整性、可靠性和可用性;广义理解“档案社会化媒体信息”还包括与具体档案工作相关的信息,如某些信息并不具备归档的条件,但它有利于后期的档案利用和服务工作,本研究建议亦将其纳入收集范畴。档案社会化媒体信息适用社会化媒体的一般特征和规律,如UGC创作模式、去中心化、开放性、互动性、小世界现象、三度影响力等。相比传统档案管理实践它还具有一些独特性,如内容鉴定的复杂性、信息源的广泛性、数据结构的复杂性、信息的交互性和变化性、信息参差不齐性等。社会化媒体信息的归档是一个复杂的课题,目前诸多研究和实践还在起步阶段,许多问题也尚待解决,如管理标准体系、文件的权属问题、档案鉴定标准、信息保存问题等,笔者认为可在重大事件档案管理、人物档案管理等领域逐步拓展,探索最佳实践。囿于篇幅,笔者将另文详述档案社会化媒体信息的研究进展、概念特点和应用实践等。 在国家社科项目和国家档案局科技项目的支持下,笔者前期对大数据背景下档案社会化媒体信息整合的研究总体框架、研究思路和方法、预期成果和创新点进行了概述[1],对新媒体环境下档案相关资源的建设与服务开展了研究[2],并以档案学人微博为例对社会化媒体数据源的分布、评测甄选、整合分析以及可视化揭示等方面进行了初步的探索[3],笔者认为:①正如《档案共同宣言》所述:“档案全面地记录了人类活动的各个领域;档案的生成形式多种多样,包括纸质、电子、声像及其他类型[4]”,社会化媒体是全面记录人类活动信息的重要载体,其价值应被档案界关注和利用。②2012年第十七届国际档案大会中,美国国家档案与文件管理署(NARA)局长David S.Ferriero发表了Archives in a World of Social Media[5]的主旨报告,平行会议也有超过5篇的论文研究该主题;国内冯惠玲教授也在2012年全国档案工作者年会中发表《社交媒体与档案社会化》主旨演讲[6],并认为社会化媒体的广泛应用将变革档案管理的平台、理念、对象、管理方式和主体,推动档案社会化的进程。总之这是一个新兴的研究领域,需要突破传统思维束缚探索相关的理论和实践。③目前Web Archive(WA)的相关成果能给档案社会化媒体信息的研究提供基础,但必须结合档案领域的独特性,以系统的视角设计研究框架,形成档案社会化媒体信息资源整合的体系结构、标准规范、体制机制、技术方案等。 基于上述的研究价值、研究思路和前期研究成果,本文拟从系统的视角研究档案社会化媒体信息资源整合的框架。 2 档案社会化媒体信息资源整合框架的设计 安小米教授主持的国家自然科学基金“城市建设文件档案信息集成管理与集成服务研究”项目开创了国内档案信息集成管理与集成服务研究的先河,对后续研究产生了重要的影响[7]。安教授在研究成果中指出:集成模式是21世纪机构管理和企业管理的通用最优化管理模式和最佳服务实践,可见集成理念在当今社会发展中的重要作用[8]。按照唯物辩证法中整体与局部的关系和系统论的思想,集成管理最根本的目标是实现“1+1≥2”,即整体效益大于各局部效益之和,从而达到资源配置和利用的最优化。 在借鉴国内外前沿成果的基础上,本文设计了档案社会化媒体信息集成、分析与服务框架,简称IIASF(Framework for Information Integration,Analysis and Service),如图1所示。 图1 档案社会化媒体信息集成、分析与服务框架(IIASF)概念模型 本研究旨在整合社会化媒体信息资源的基础上,更出色地开展档案利用和服务。IIASF的设计借鉴了以下成果: (1)借鉴系统科学理论中的系统论(System Theory)、控制论(Cybernetics)和协同论(Synergetics)的思想为更好适应社会化媒体信息的海量性、异源性和变化性。具体表现在:①借鉴“系统论”相互关联、动态平衡的理念,从系统的视角规划信息集成、分析与服务的各个模块,按照信息流的时空顺序,形成一体化的管理;②借鉴“控制论”的核心思想“反馈机制”,IIASF在信息流的基础上,四个功能模块相互关联、反馈和调节,形成一个闭合的回路,动态地调节各模块的平衡;③借鉴“协同论”子系统如何协作产生宏观的时间结构、空间结构和功能结构的思路。IIASF探索模块间的协作如何完成数据到信息再到知识的协同和转换,进而为用户提供最优服务。 (2)整体设计参考了国际标准中文件管理体系(MSR)[9]的结构。MSR涵盖需求、控制和服务三个核心模块,IIASF在此基础上增加了顶层模块。 (3)控制模块吸收了开放档案信息系统模型(OAIS)[10]的设计理念。OAIS模型致力于数字信息长期保存系统的规划与建设,并且注重对网络信息中新媒体、新数据格式、新用户群体变化的支持,目前国际Web Archive不少项目都参照OAIS提出的管理流程来开展网络信息归档的研究和实践。笔者吸收了OAIS有关信息流、开放、抽象和集成的部分理念,保留了获取、系统管理、保存计划和访问等子模块,并聚焦信息流的集成过程,突出了可信管理与审计、数据清洗、集成、分析等子模块的设计。 下文将从结构功能视角对各模块的功能、目标、特征及其关联进一步阐述。 2.1 顶层模块设计 顶层设计以系统论的方法为指导,立足宏观全局战略层面,统筹要素配置。IIASF中顶层模块的设计遵循实践性、前瞻性、科学性、数据化、标准规范化等原则,发挥引领、指导和支撑底层建设的功能,从而实现信息整合价值和优化知识服务的目标。如图1所示,该模块关注的主要内容有以下几个方面: 2.1.1 法规政策 相关法规政策的制定是开展信息资源建设的重要保证和重要依据。加强重点领域档案立法,将档案法规标准的制定和国家各项事业发展结合起来,推动档案事业在法治的轨道上发展。 2.1.2 标准研制 制定档案社会化媒体信息的管理标准体系是必不可少的,现阶段可充分利用现有标准,如前文定义所述,要将社会化媒体信息纳入广义电子文件的管理要求,可参考信息与文献系列国际标准如ISO 15489、ISO 23081、ISO 13008等;社会化媒体信息多以网络信息的方式进行组织,可借鉴网页标准如Dublin Core、W3C等开展信息的集成;社会化媒体信息具有变化性和互动性,因为可引入数据溯源标准PROV追踪变化过程,确保信息的完整性;当然还可引入信息安全标准、质量认证标准、档案著录标准等。 2.1.3 教育与科研 国家对教育和科研的规划、投入与支撑促进科技的进步和社会的发展,如《2016年度国家社会科学基金项目课题指南》中就罗列了“社交媒体档案的归档与管理标准体系研究”、“档案信息资源集中与分布式共享整合模式研究”等选题,凸显了本研究的时代价值。 2.1.4 安全保障 立足现状,开展网络安全监控、元数据智能捕获、加密技术、信息审计、风险评估、数据灾难备份等顶层设计。 2.1.5 基础建设 档案社会化媒体信息资源的开发利用需要离不开信息技术,要完善软硬件的基础建设,科学规划基础配置、优化数据服务和网络结构、保障数据安全等。 2.1.6 体制变革 社会化媒体信息一个突出的特点是“开放”,因此必须突破“闭门造车”的思维,整合开放的数据,实现学界与业界、科研与实践、理论与应用的无缝链接;其次要突破学科专业局限,将图书、情报、档案、新旧媒体等信息进行集成,实现大数据大学科大服务战略。 2.2 需求模块设计 需求是牵引,是信息集成、分析与服务的前提和重点。需求模块处在IIASF的前端,是控制模块实现的依据,也是服务模块用户反馈的归宿。该模块的功能是分析现状,以用户实际需求和预期为导向,设计更全面更便捷的服务内容,实现档案社会化媒体信息资源整合和利用的目标。用户的需求具有多样性、层次性、动态性、无终点性、可开发引导性等特征,IIASF的需求模块应着重关注来自专业用户、普通用户和档案馆三大用户群的五方面核心需求,如图2所示。 2.2.1 分析需求 目前,数字档案馆和档案信息相关的数据库基本只提供查阅服务,少有涉及信息分析服务的功能。然而,网络信息的便捷提升了用户的信息需求层次,特别是目前专业用户已经成为档案利用者的核心群体,许多专业从事科研工作的用户都希望利用一个开放的知识平台,知识平台中既集成了权威的档案信息,也有相关的科研成果、网络信息(如百科知识、社会化媒体中专业人士的讨论等);此外档案编研业务也有同样的需求。 2.2.2 知识关联 现有数据的零散性主要表现在:①从大学科层面看,图书、情报与档案各自成一体,信息孤岛现象严重,用户有便捷而全面地获取某一主题图书、情报和档案所有相关信息的需求;②从信息交互层面看,目前许多专业的学科网站都已经开设了学者博客等服务,其次不少政务信息、权威人士、权威内容也遍布在各类社会化媒体应用中,整合这些交互信息有重要的价值;③从档案学科层面看,档案信息与网络资源关联甚少,档案信息权威性高、内容精炼、使用门槛也高,而社会化媒体信息使用门槛低、内容丰富、权威性也低,用户有依托网络资源辅助档案利用的需求。 2.2.3 检索需求 目前档案信息的检索功能单一,融合关联数据技术和语义网技术,增加检索的知识性和体验性是未来的发展趋势,如在检索结果中推送关联的档案信息、档案历史变迁信息、网络百科知识、社会化媒体信息等。 2.2.4 数据需求 随着网络信息归档的推广和深入,数字档案馆、档案馆、图书馆、电子文件中心等部门将有归档社会化媒体数据的需求;其次对研究人员而言,全面获取研究领域的数据对开展教学科研亦有重要意义。 2.2.5 便捷易用 改变晦涩难懂的组配检索,打造高效、整合的资源检索与知识服务平台,设计友好的人机交互界面是提升用户满意度的关键。 2.3 控制模块设计 控制模块的主要功能是实现档案社会化媒体信息集成和分析的具体过程,是核心操作模块。它以需求模块为牵引,基于信息流的整个环节,力求在数据采集、清洗、集成、分析和访问整个流程实现理论、方法和技术的综合集成,从而为服务模块输送用户所需的知识。控制模块具有数据异构性、数据多源性、数据海量性、价值稀疏性、知识多主题性、技术主导性、人工干预性等特点。如图1所示,控制模块包含以下9个部分。 2.3.1 采集子模块(Acquisition) 该模块在OAIS模型原译为“Ingest”,表示通过接受信息生产者提交的具有规范格式的信息包(SIP)完成数据获取,有被动接收之意,且数据格式较规范。社会化媒体信息来源广泛且变化迅速,本研究建议主动采集档案信息网、政务网、学术论坛、学术博客、微博、百科、众包数据等海量社会化媒体资源,因此笔者借鉴信息技术领域的概念,将此模块译为“Acquisition”,表示该子模块的功能主要是获取数据。 2.3.2 清洗子模块(Cleaning) 社会化媒体信息结构复杂,该模块对采集的数据进行预处理,便于后续的信息集成和分析。主要任务包括:①过滤数据中广告等杂质信息;②整合结构化、半结构化、非结构化数据,如可将格式统一转换成便于长期保存的XML格式;③解析网页结构,抽取核心元数据和内容;④完成数据的更新和加载。 2.3.3 集成子模块(Integration) 该模块负责完成数据物理上或逻辑上的集中,并从中提取出关系和实体,从而整合互联网采集的社会化媒体信息资源与现有档案信息网中的数据,实现数据平台和档案服务平台的在线对接。 2.3.4 分析子模块(Analysis) 该模块旨在利用分析方法和技术手段挖掘档案社会化媒体信息资源的价值,主要任务包括:①社会化媒体中档案学者关系网络与用户生成内容的分析;②信息的聚类与分类;③整合多数据源的档案专报处理;④数据交互、关联分析和语义网构建;⑤档案信息的可视化分析与知识地图构建;⑥利用大数据分析技术如MapReduce、云计算等开展档案社会化媒体信息的挖掘和利用。 2.3.5 访问子模块(Access) 该模块用以支持用户对数据、档案信息和知识的有效访问。主要功能包括:①处理用户查询、分析、数据下载、数据对接等请求并响应;②构建基于本体的检索模型,提高检全率与检准率;③分析结果的可视化展示;④优化Web访问界面及服务性能;⑤定期更新和加载变更数据。 2.3.6 档案信息服务引擎(AIS) AIS主要功能是提供数据存储和数据接口,具体包含:①从清洗子模块接收数据并持久存储;②更新存储介质;③提供备份容灾机制,履行错误检查;④架构存储层级确保元数据等数据的安全;⑤规划存储方案,可考虑引入大数据存储方案如HDFS、NoSQL、内存数据库等;⑥优化分布式索引和相关算法,提高查询速度。 2.3.7 系统管理子模块(Administration) 该模块负责提供相关的统筹、协调、控制和服务,具体功能包括:①维护硬件和软件的基础配置管理;②控制和分配用户的系统权限;③管理用户的个人信息,如用户名、密钥等;④监控系统运行情况,处理各类错误响应;⑤建立维护相关政策标准。 图2 用户群与需求关联图 2.3.8 可信管理与审计子模块(Trusted Management & Audit) 社会化媒体信息质量参差不齐,可信的管理与审计可为档案价值鉴定提供基础。该模块对系统中流动的信息以可信电子文件的标准来建设,从真实性、可靠性、完整性、可用性和凭证性来审计,确保其可信赖。主要任务有:①参照可信管理与审计的相关标准如国际标准ISO/TR 17068、ISO 30303等规范管理、审计与保存业务;②审计采集、集成和发布的数据;③活动主体维度人工介入、人机协作使系统处于受控管理;④活动载体维度注重顶层设计、章程建设、流程规范、技术革新等;⑤活动客体维度重视数据的前端控制和信息集成与分析的全程管理[11]。 2.3.9 保存计划子模块(Preservation Planning) 不同于AIS,该模块的功能覆盖整个控制模块,用以协助系统管理子模块监控系统环境,具体包括:①定期更新移植系统档案信息;②监控需求和技术环境的变化,记录处理流程的日志;③存储、维护数据字典,确保元数据安全;④存储和维护索引文件、后控词表等;⑤设计格式转换模板,如XML映射模型、DC与数据溯源标准的映射、DC与EAD元数据映射模型等。 综上,可信管理与审计、保存计划和系统管理三个子模块属于全局管理模块,采集和清洗两个子模块在管理前端控制数据的流入,集成、AIS和分析三个子模块类似于一个“中间件”,封装屏蔽各类异构数据源,为访问子模块提供统一的数据模式和接口。所有功能子模块相互协同,集成最优的方法和技术,共同实现档案社会化媒体信息的整合与服务。 2.4 服务模块设计 服务模块是档案社会化媒体信息集成与开发的落脚点,该模块与控制模块中的访问子模块关联紧密为用户提供数据访问等信息服务;而用户对服务的反馈则成为新的需求,回流至需求模块,形成新的驱动力;一些最佳的服务实践也将反馈至顶层模块,促进顶层设计的前瞻性变革和新环境适应。如图1所示,笔者主要从以下三个方面阐释服务模块的主要内容。 2.4.1 知识服务 IIASF的核心目标之一就是整合异源异构信息开展知识服务。UGC是社会化媒体在Web 2.0环境下的典型模式,笔者以UGC的概念框架解析整合档案社会化媒体信息资源开展知识服务的应用情境,如图3所示。 图3 知识服务应用情境 (1)用户(User)层面。除人物档案管理外,用户数据在传统档案服务中涉及甚少。但社会化媒体信息中包含大量的用户信息,如微博等社会化媒体都是以“用户”作为信息的主导载体。笔者认为未来在开展人物档案工作时,如名人学者的档案,可考虑将该学者的博客、互动信息等内容纳入收集范围,而IIASF则希望在用户层面,进一步挖掘学者的关系网络,发现学术共同体,挖掘意见领袖,为专业用户的科研工作提供参考。 (2)内容(Content)层面。具体表现在:①横向维度:关联信息推荐。传统的档案查询以结果反馈为主,并不注重信息之间的关联。IIASF力求在信息集成的基础上,借助本体、语义网、关联分析等方法,挖掘信息之间的关联,最终将关联信息与检索结果同时反馈给用户。如用户检索“tittle=关于****的公告”,传统方式只反馈与该题名有关的档案。而IIASF希望能在此基础上展示关联信息,如网络百科信息中对该文件的词条解释、博客中学者对该文件的评论、论坛中用户对该文件的讨论等。②纵向维度:档案回溯管理。档案管理一般是先按照全宗原则分类和立卷,全宗内档案再依据年度、机构、主题或复式方法进行分类和排列。但在查档时,主题检索为主,分类检索为辅,该方法虽能较全面地揭示横向信息,但对档案的纵向回溯能力较弱。IIASF希望在保证检全率的基础上,还能为用户提供档案的回溯管理,如用户检索“tittle=干部任命***规定”,检索结果可提供时间维度的浏览和分析,方便用户了解该主题文件的历史演变过程,也便于档案工作者更好地开展档案编研、大事记制作、科学研究等工作。③关联维度:知识地图导航。知识地图导航是利用社会科学计算、文献计量、可视化技术等方法实现的知识服务。IIASF希望通过整合社会化媒体信息,并以可视化的知识地图展示检索结果,如通过分析检索结果中所有档案的主题(关键词),绘制共词网络知识图谱挖掘关联主题、热点等,进而辅助档案的利用。 (3)贡献(Generated)层面。它是用户层面和内容层面的桥梁,IIASF希望将用户关系和知识地图两张网络进行整合,进而发现:①学者(用户)与学术观点(内容)的联系;②学者群(学术共同体)与学术观点的联系;③学者群与学术观点的相互影响和演变等。 2.4.2 数据建设服务 数据是开展服务的基础,IIASF主要关注以下三类数据的建设: (1)业务数据。历史事件和活动的信息常来源广泛,单靠一个档案馆的人力、物力、财力,难以形成具有完备性、系统化的资源体系。传统的档案管理模式在应对快速变化的网络信息方面显然会力不从心,如在重大事件档案管理中,很多消息首先来源于社会化媒体,甚至伴随网络舆情的酝酿和传播,如“7·23动车事故”的消息最先在新浪微博上发布传播,事后温州档案局并未说明此次重大事件中网络信息的收集情况。 (2)用户数据。用户数据主要指用户的身份标识和查询、输入流与点击流等行为数据。“用户”作为社会化媒体信息的主导载体,既是信源也是信宿,可通过分析用户数据发现档案利用者的访问模式、知识应用能力、业务需求等,进而构建与优化档案资源及服务功能。 (3)语义数据。应用语义资源优化查询、推送等服务有广泛需求,但现有的档案信息化研究与实践中语义支持的缺失是一个普遍问题。大数据时代,信息的来源、数量、结构和形式发生了根本性变化,完全人工方式获取语义知识已无法适应现实需求,融合网络百科知识是一种可行的方法,如从维基百科、档案百科等社会化媒体资源中抽取同义词、相关词、种属关系等知识,进而用于优化信息检索、词义消歧、文本聚类与分类等信息处理任务,提高用户获取知识的效率。 2.4.3 网络信息归档服务 IIASF针对档案馆、图书馆等部门设计的网络信息归档服务,具体包括: (1)数据服务。目前国际WA项目实践中数据获取模式有两种方案:①图书馆、档案馆接受出版商和社会化媒体服务商的数据捐赠,如美国国会图书馆在2010年启动的Twitter存档项目(The Twitter Archive)[12];②Adrian Brown[13]指出数据库驱动的动态网站并不适合直接移交,因为数据库通常是专有且难以长期保存的,因此萌生了主动采集数据的方法,图书馆、档案馆一般需征得版权所有者的许可,然后对有价值的网络信息进行归档,如美国亚利桑那州立图书馆就从等待政府部门提交转变为由爬虫软件抓取数据[14]。第二种方案中,IIASF可发挥数据采集和整合的功能,将数据提供给档案馆鉴定,进而归档;档案馆也可以主动提出采集归档需求。 (2)技术服务。为档案社会化媒体信息归档提供技术方案,比如选取合适的爬虫软件、配置爬取规则和参数、清洗数据副本、消除数据冗余、处理数据访问归档权限等。 3 结语 大数据时代,开发利用档案社会化媒体信息资源将是新的趋势,也将成为档案信息化建设中的战略性步骤。整合异构异源的海量交互性社会化媒体信息涉及许多复杂的流程,必须从系统视角设计资源整合框架,规范信息流的每个环节。本文旨在探索整合社会化媒体信息资源进而更好地开展档案服务,尚未深入探讨社会化媒体信息的归档工作,后期研究将在IIASF的思路下,进一步探索相关理论和实践问题,如研究顶层模块中档案社会化媒体信息组织的标准、映射关系、语义集成模式;设计并研发集成各模块功能的档案社会化媒体信息服务平台;调研现实需求,探讨研究成果在国家、军队和地方数字档案馆、图书馆等信息机构中资源建设的对接与应用等。标签:社会化媒体论文; 大数据论文; 用户研究论文; 相关性分析论文; 社会化平台论文; 数据集成论文; 信息集成论文; 数据整合论文; 工作标准论文; 用户分析论文; 功能分析论文; 数据检索论文; 网络标准论文;