大数据环境下内蒙古地区“三少民族”文献资源数字化建设研究
桂 荣
(满洲里俄语职业学院 图书馆,内蒙古 满洲里 021400)
摘 要: 文献资源的数字化建设是指将馆藏资源的原始载体的文献资源转换为数字信息,读者不受时间和地点的限制通过登录图书馆网站,及时获取自己所需的文献信息资源。文章阐述了文献资源数字化建设的内涵、三少民族文献资源数字化建设的价值和原则以及三少民族文献资源数字化的具体方法。
关键词: 大数据;三少民族文献资源;数字化
内蒙古地区“三少民族”文献种类多、内容丰富,呈现出不同文种、不同载体形式的文献,文献资源分布和收藏分散等特征。基于三少民族文献资源的特征对不同种类和不同载体形式的文献资源选择最为合适的数字化建设,有利于深入研究三少民族文化,并保护三少民族文化遗产,促进民族文化的繁荣发展。
1基本概念界定
“文献数字化”是指利用现代化信息处理技术对记载在传统介质上的文献信息(包括文字、图形、图像、声音、视频等)进行格式转换和压缩处理,使其转化为计算机可以读取的数字形式;然后通过计算机和网络技术实现信息检索、文献共享,从而为读者提供信息服务[1]。文献信息化通过信息转换、信息承载、信息检索三个步骤来完成。其中信息转换是文献资源数字化质量的关键技术,信息承载是信息存储的保障,信息检索是文献传播的交流的保障。
数字资源建设,就是运用数字化的技术手段,将文字、图像、声音、动画等多种形式的信息,进行数字化的处理和加工,同时对已经形成的数字信息资源进行科学的规划、选择、采集、组织,使之形成可资利用的数字信息资源体系的全过程[2]。
复杂问题简单化,人才流动的规律是向往环境好。物质环境主要是城市品质,按目前国内分类:依次为一线、二线、三四线。精神环境较为复杂,但主要考虑个人发展空间,有人注重眼前,有人投资长远。环境也是生产力,生产力有其诸多构成要素,要素构成对称决定生产力发展程度。当然,还有社会主流价值追求的时代因素。
“三少民族”文献资源数字化建设主要工作是内蒙古地区各个公共图书馆、高校图书馆和研究所馆藏的不同种类、不同载体形式有关三少民族文献资源的数字化建设,主要包括三少民族哲学、宗教、政治、法律、经济、教育、文化、体育、艺术、历史和地理、民族语言文字文献、自然科学和综合性工具书等等文献。其中内蒙古图书馆和呼伦贝尔学院图书馆已经开展了“三少民族”文献数字化建设,分别创建了《内蒙古“三少民族”多媒体资源库》和《三少民族文献资源库和数据库》。
内蒙古地区“三少民族”文献资源数字化建设中基于文献资源的特点,应遵循以下原则、有计划、有步骤的开展数字化建设工作。
2文献资源数字化建设的意义
2.1 有利于“三少民族”文化遗产和文献资源的保护和保存
OCR技术是少数民族文字文献数字化最好的技术手段。OCR(Optical Character Recognition,光学字符识别)技术能够通过人工智能方法从图像文件中自动抽取题名、作者、关键词等检索点,并转化为索引,以供检索和利用。由于OCR技术识别率不能达到百分之百,必须辅以自动校正和人工校正,从而把错误率控制到较低[7]。
2.2 更好地满足广大读者的需求
“三少民资”文献资源数字化建设借助网络平台传播和宣传本民族本地区的特点和概况,让外界更深刻的认识三少民族文化传统,通过地域之间的民族文化交流促进民族地区文化产业和旅游业的发展,推动民族地区的经济发展。
2.3 促进民族传统文化的传承和发展
在数据库中文献信息不仅以文字、数值、还有图像、声音、动画以及多媒体等形式,信息内容包括书目、指南、词典以及全文等类型存储于数据库中。数字资源能够让更多的读者和用户不再受限时间和空间的约束,满足读者阅读查阅需求。读者通过访问图书馆网站,输入关键词、作者等相关信息,迅速检索到自己需要的信息,这不仅给读者创造了方便的条件提高了公众获取信息资源的效率和进度也提高了“三少民族”文献资源的利用和传播速度。
2.4 数字信息资源建设促使数字信息资源组织科学化,使无序的信息成为可利用的重要资源
“三少民族”文献资源处于分散、无序、随机的状态,通过数字化建设对无序的信息整理成一个有序的科学体系。对文字信息资源进行鉴别、筛选、采集、加工、组织、管理、实现数字信息资源建设的整个过程的优化。数字信息资源建设的内容是对数字信息资源的生产进行统筹规划、科学调整和控制,对数字信息资源进行合理布局和配置,加强资源的规范化和标准化,使数字信息真正成为一种可以利用的资源,从而为社会创造巨大的财富[3]。
3文献资源数字化原则
“全息”一词最初只是一个单纯的人工技术方面的概念,而当今广义上的“全息”已经不是一个技术名词,而已成为描述自然界中“局部包含整体”或者“整体与局部互相包含”这种现象的哲学概念.按照严春友等[3]的界定,全息的含义是“部分包含整体的全部信息.”按照王存臻等[4]的界定,“‘全息’的基本含义是:部分(子系统)与部分、部分与整体之间包含着相同的信息,或部分包含着整体的全部信息.”包含着整体全部信息的部分,称为全息元.在全息理论中,信息指事物的特征、性质、功能、模式等.
3.1 特色性原则
内蒙古地区“三少民族”文献资源开展数字化工作时,应从各个图书馆和收藏机构的现有馆藏文献资源的实际出发,先对各个馆馆藏的相关文献资源的整理整理分析,依据文献资源的特征选择适合的数据库建设方法,建成自己特色数据库。数字信息资源建设规划要与信息资源的分布、流传和建设情况相一致。掌握好文献资源的构成特点、采集方式和处理方式、掌握统一的数据和信息标准,才能够进行信息资源整合、共享和深层次服务。明确信息资源流传方式便于管理和提供服务;数字化建设要结合三少民族文献资源的类型、特征的发展趋势。文献资源数字化规划要与所馆藏机构的数字信息资源开发利用能力相符合。基于本机构的基础设施、人力、财力等实际情况,要做到量力而行。读者信息需求为依据,各个图书馆和研究所应从读者角度出发,基于读者的文献信息资源的需求制定文献资源数字化规划。三少民族文献资源数字化建设要满足读者的文献资源获取方式和获取条件。
3.2 协同原则
东方宇轩不动声色:“黄河之中的鲤鱼得靠自己跳过龙门,上面没神仙拉它们,下面也没神仙推它们。神仙都袖着手站在岸上看,急也没用。”
3.3 标准化原则
标准化是数字化建设的关键,是建设高质量数据库的根本保证。只有保证了可靠性、系统性、连续性、完整性、兼容性,才能为实现真正意义上的数据网络化和网络信息资源共享打下坚实的基础。包括数据格式的标准化、描述语言的标准化、标引语言的标准化、文献分类标准化、著录规则标准化、通信协议的标准化、安全保障技术的标准化、数据管理软件及硬件的标准化等,以保证民族文献信息资源的共建共享[5]。“三少民族”文献数据库建设中民族文献的分类标准、编目标准、少数民族文献中汉文的编目应该一律遵循《中国文献编目规则》。
4文献资源数字化具体方法
各个收藏机构所收藏的不同载体形式的三少民族文献资源进行数字化时应针对不同类型的文献资源信息,应选用最为适合的数字化方式方法。
4.1 纸质文献资源的数字化
调查显示,内蒙古地区图书馆和研究所馆藏的三少民族纸质版的文献资源较多,而且大多数是统计了文献资源的书目,在文献资源全文转换数字化的工作开展的不够充分。如呼伦贝尔学院图书馆“三少民族文献资源数据库”,进入网页搜索不到相关文献的数字化版本,此外内蒙古社科院的民族研究所也是统计了相关书目只能看见文献资源书目明细,网上查阅不到全文内容。所以文本数字化建设是目前迫切需要的工作。
三少民族地区政府、科学研究所和高校、公共图书馆等各级各类收藏部门要建立良好的合作关系形成图书馆联盟,各自发挥自己的优势,建设三少民资文献资源特色库。各个公共图书馆、高校图书馆和研究机构之间建立合作关系,协调共同完成文献资源数字化建设和维护工作。图书馆与企业联合,企业可以提供经费上的支持完成文献数字化工作。通过馆际合作、建立图书馆联盟和企业合作的方式,各合作单位可以取长补短、互惠互利、共同发展。“三少民族”文献数字化建设是一个庞大的系统工程,要充分开发和利用这些文献信息资源,建设良好的信息资源平台,服务于教学、科研等方面的需要,协调图书馆学、民族学、计算机和网络等各方面的人才和技术力量是数字化建设的一个关键因素[4]。
扫描技术通过捕获图像将文本信息直接输入计算机。因其操作方法简单而成为少数民族文字文献数字化最常用的方法。由于扫描后的文件保存格式为图片,不能进行编辑、排版、标引等深加工,字、词的检索就无法实现,不能称之为真正意义上的数字化。然而,对于一些需要考察资源原貌的研究,经过扫描处理后,不仅能够进行网上阅读,而且能够达到保护原件的目的。我国在对古籍或者珍贵民族文献数字化时多采用扫描技术。在对少数民族文献起到保存保护作用的同时,为了检索利用的方便,扫描录入后,再通过人工增加题名、作者、关键词、主题词等检索方式,从而使得数字化文献得以广泛应用[6]。
文本数字化是将现实中文本形式的文献资源(如书籍、报刊、文书档案等)转换为计算机可识别的文本数据文件,文本转化技术主要包括:键盘输入技术、语音识别技术、扫描技术和OCR识别技术等。键盘输入技术是少数民族文献资源数字化的一种最基本方法。键盘输入最大的优点是节省空间、技术指标低、资金投入少,不足之处在于键盘输入效率低、时耗长、错误率高。键盘输入法适用于建立书目型数据库。
②目前国内发表的相关成果主要是王立新《美国国家认同的形成及其对美国外交的影响》(《历史研究》2003年第4期)、《美国的国家认同及面临的挑战》(《中国社会科学报》2010年8月24日)等,其中有一定篇幅论及自由主义与美国国家认同的关系。
“三少民族”文献资源中记载着民族历史、民族文化、民俗、民族经济和政治等各个方面的内容。“三少民族”文献资源在各个收藏机构中以图书、期刊、报刊等纸质版本和图像、音频、视频等不同载体形式来保存,但并没完善把这些文献资源转换成数字资源来保存,因此读者查阅和反复使用中容易造成有些文献资源的破损。文献资源的数字化避免了文献的损坏和遗失,能够很好的保存珍贵的文献资源同时让更多的人共享和利用实现了文献资源的保存和利用。
4.2 图像文献的数字化
馆藏的有关三少民族的照片、图片、书画等资源转换为图像数据文件,数字化最简单的途径是使用扫描或数码相机形成原始文献的数字图像文件,其中用扫描仪是最经济的。图像文献的扫描对技术要求不高,工作量相对少,能保存图片的原来面貌。扫描文献应加上标引,给读者提供检索索引,这样才能简便的进行相关文献检索查阅。
“短保”面包是当今烘焙产品的一种消费趋势,一般由集中生产的冷冻面团加工而成,以降低添加剂含量以及保证面包的品质,集中生产的面团经过冷冻后由于水分的结晶和重新分布会导致酵母失活,面筋网络结构弱化,面包老化等,最终导致面包品质下降,因此对面包水分分布调控是改善冷冻面团产品品质的方法之一[1,2]。目前使用广泛的是添加持水剂来改善冷冻面团的储藏特性,持水剂对冷冻面团的水分分布及状态的影响很大,刺槐豆胶(LBG)因其保水持水功效而被应用在冷冻面团中。
4.3 音视频资源的数字化
音视频转化技术是利用音视频卡,把传统磁性载体或光电载体上的模拟音视频信号采样量化转换成计算机能够识别与处理的音视频数据文件[8]。三少民族的民谣、名人演讲需要以视听软件制作成影像型数字档。由于图片、声音、影像资料不能直接检索,因此需要附加书目资料,读者在检索界面进行检索,找到所需书目资料,如果该书目资料中记录着该资料的数字化档案,通过连接,找到数字档,再利用相关软件,观看或播放该数字资料。
研究地铁施工对沿线高层建筑物沉降变形方面的影响,利用建筑物沉降变形曲线图和建筑物整体沉降曲线图对建筑物的沉降规律进行分析,同时模拟出建筑物整体沉降趋势[3-4],对建筑物的沉降变形进行预测,为地铁施工和建筑物变形监测提供一定的参考。本文选取最大、最小沉降量,平均沉降量,平均沉降速率作为评价指标,对建筑物的沉降量进行评价[5-6]。
4.4 口传传统资料
在历史发展过程中,三少民族时代相传的神话、传说、歌谣、民间故事、传统技艺的借助一定载体固定下来的文字、影像资料。在民族历史发展中口传代代相传发展中,记录了特定时间的民族文化方方面面的事件,积累了本民族最根本最传统的文化。口传传统资资料与非物质文化遗产有着密切的关联,是民族文化的不可缺少的部分。口传文献的数字化过程学要相应的技术和设备。文献搜集过程中采取录音方式,等调查结束后把访谈过程中获取的资料进行整理把它转换成文字或者视频、音频资料,然后进行共享。
“三少民族”文献资源数字化是一项庞大的系统工程,为了保护、传承和弘扬少数民族的优秀文化,应科学地对其挖掘、整理,进行全方位、系统性、网络化建设。这项工作需要充分的人力、物力、财力的保障情况下才能顺利的完成。当今,大数据环境下通过网络获取丰富的信息资源,因此文献资源数字化过程中基于读者需求和特点、资源的特点、适当地应用各种技术手段,有计划的开展资源建设工作,通过三少民族文献资源的数字化来传宣推广民族文献的丰富内容和研究进展,给更多的研究者提供相关的资料同时推广民族文化研究的领域。
[参考文献]
[1] 王天亮.文献数字化技术在自建数据库中的应用策略研究[J].现代情报,2009,29(12):135.
[2] 肖希明,等.数字信息资源建设与服务研究(第一版)[M].武汉:武汉大学出版社,2012:12.
[3] 肖希明.数字信息资源建设与服务研究[M].武汉:武汉大学出版社,2008:21.
[4] 张晓林.图书馆创新服务战略研究[M].北京:北京图书馆出版社,2005:162~166.
[5] 黄晓斌.地方文献的数字化建设策略[J].国家图书馆学刊,2009,67(1):60~64.
[6] 包和平.关于我国少数民族古籍资源数字化建设探讨[J].图书馆建设,2003,(4).
[7] 陈诚.论古典文学数字化[D].苏州:苏州大学,2004.
[8] 王天亮.文献数字化技术在自建数据库中的应用策略研究[J].现代情报,2009,(12).
中图分类号: G253(226)
文献标识码: A
文章编号: 1007—6921(2019)19—0064—02
收稿日期: 2019-06-05
基金项目: 内蒙古自治区2017年度高等学校科学研究项目:图书情报专项《内蒙古地区“三少民族”文献资源建设研究》(编号:NJTZ1713)的阶段性成果。
作者简介: 桂荣(1983-),女,蒙古族,硕士,满洲里俄语职业学院图书馆副研究馆员,研究方向:图书馆学,民族教育。
标签:大数据论文; 三少民族文献资源论文; 数字化论文; 满洲里俄语职业学院图书馆论文;