大数据时代古典文学研究--以数据分析、数据挖掘和图像检索为中心_图像检索论文

大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心,本文主要内容关键词为:数据论文,古典文学论文,图像论文,数据挖掘论文,时代论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       信息技术极大地推动了古典文学研究,这已成为学界共识。具体来说,这一推动主要表现在数据采集、数据检索等方面,如《文渊阁四库全书电子版》、《四部丛刊电子版》、《中国基本古籍库》等都是数据检索领域的杰出成果。检索之后的数据分析,也已经取得了一定的发展,《全宋诗分析系统》堪称数据分析的典范之作。这些成就,时彦多有论及,兹不为赘。

       2005年,李铎先生即敏锐指出信息技术在人文学科的应用方面已经进入了“分析时代”①,此说确然。十年后的今天,社会已然进入了以大数据、云计算为代表的“挖掘时代”。对结构化文本的数据分析、对非结构化文本的数据挖掘,是文本研究领域的发展方向。随着多媒体检索技术的发展,对图像、声音、视频等进行检索成为IT界的热点。图像检索随之被广泛应用于医疗、遥感、测绘等领域,并取得了相当成就。这些对传统的古典文学学科而言,是机遇,也是挑战。

       本文中为了论述方便,我们将文献分为两大类:一类是已经被机器识别(如txt、doc、rtf等文档)或可以直接被机器识别的(如《光明日报》、《文学评论》等报刊,《苏轼全集》、《万历十五年》等现代出版物等)文本文献;另一类是尚不能被机器直接识别的(如稿抄本中的疑难文字等)图像文献。

       一 结构化文本的数据分析

       “结构化文本的数据分析”包含这样三个概念。

       其一,“结构化文本”主要是指诗、词等体式较为固定的文体,在利用技术手段处理时,因其体式上的便利,易于寻觅到声调、用韵、格律、小序等方面的结构特征,故而对这类文体较易实现技术干预。其二,“结构化文本”还指排除掉文字识别、大字符集、分词、断句等因素干扰,完全满足用户需求的、已进行过标注与分类的数据。同时,还要尽可能多地加载满足分析所需要的第三方文献库——文献库主要由两大类组成,一类是诸如人名、职官、地名、系年、典故等具有词典性质的基础文献库;另外一类是已经数字化的历代研究者的研究专著,便于分析时与文本相参。

       “数据分析”,是“数据检索”②基础上的自动化分析,在一定程度上具备了初级智能,诸如以下三类结构化文本基本可以借助数据分析来实现预期设想。

       1.诗词韵、律等外部体式分析

       前人在诗话、词话中留下无数精妙的见解,利用技术手段,我们可以对一些论断进行验证。如陈仅《竹林答问》称“作古诗声调,须坚守杜、韩、苏三家法律”,1997年蒋寅先生以《韩愈七古的声调分析》(《第三届中国唐代文化学术研讨会论文集》,台湾政治大学中文系1997年)为例进行详尽研究,指出清人所论,虽看似出自主观论断,然用实证之法相验却大抵不谬。现在利用技术手段可以对任意时段、任意作家的相关诗歌进行声调分析,其效率较之人工判断更显优势。

       再如诗歌中赋得诗、分题诗、分韵诗、次韵诗等,皆因有较为鲜明的标识而易于技术干预。我们只需提取“赋×得×”、“赋得×”等题名格式,则赋得诗可得大略。若对某一时段的上述体式诗歌作品批量提取,将诗歌创作者、题材、体裁、用韵、留存等归纳总结,形成更为准确的数据,能较为直观地勾勒出诗歌交流情况,对诗人唱和、诗歌雅集等研究是有益补充。如沈遘有《应制依韵和御制后苑赏花钓鱼》诗,“依韵”说明“御制”诗亦押十灰韵,“和御制后苑赏花钓鱼”点明了诗歌唱和的内容;我们分别对北宋段押十灰韵的七律和以“赏花钓鱼”为题的诗歌进行分析,绎出胡舍、宋庠、欧阳修、韩琦、司马光等人的依韵和宋仁宗《赏花钓鱼》诗。再与《续资治通鉴长编》等史料相结合,可将沈遘此诗编年为嘉祐六年(1061)三月。

       2.诗歌用语与题材研究

       如果说上述研究关注的多是集中时段的群体交流,那么集句诗、集句词则可能存在着同时、异代等情形,利用比对这些作品中的重出比率,能轻松判断集句作品的渊源。从这个角度看,诗词笺注、诗词鉴赏的部分工作——判断作品用语,借助技术也可在一定程度上实现。

       学界对诸如边塞诗、咏史诗、田园诗等具体的诗歌类型已有较为充分的研究。可以说,研究得越充分,利用技术进行自动化研究的条件就越成熟。思路如下:首先,我们将类书、典故辞典等外在辅助文献纳入机器的学习范围,使其具有初步的题材判断能力,面对大量文本,能提取出某类具体题材的作品;其次,让机器学习学界现有的关于这类题材的研究成果,机器在辅助文献的基础上,学到不同学者的分类、判断与研究理路,从而形成机器的判断体系,在面对还未深耕的朝代时,机器有望实现自行研判。

       3.文体互动、言说模式的提取

       自《尚书》的典、谟、诏令诸体开始,古人形成初步的文体观。朝代更替,不同文体之间互相影响。笔者曾于2007-2010年间利用技术手段从字句、用典、意象、意境等角度,以王维、李白等六大诗人为中心,考察盛唐中唐诗歌对于宋词的影响。例如指出贞元二十一年(805)至元和二年(807)、元和十年(815)至元和十二年(817)两个“三年”间创作的诗歌对宋词的影响最为显著等③,这些结论是建立在数据分析挖掘基础之上的,较之前人的判断更有学理依据。

       现在,不同文体间的影响—接受研究有了新的思路。利用数据挖掘,结合互文性理论,挖掘文本细节,提炼总结言说规律并设计模型,或可将此研究推向更前。例如以下几联的言说模式:

       河阳飞鸟外,雪岭大荒西。(郎士元《送杨中丞和番》)

       卷经归鸟外,转雪过山椒。(无可《送僧归中条》)

       夕阳鸟外落,新月树端生。(梅尧臣《中秋新霁,壕水初满,自城东偶泛舟回》)

       新月已生飞鸟外,落霞更在夕阳西。(张耒《和周廉彦》)

       这四联有异曲同工之处,现有技术基本可以判断出它们之间确有关系。但却难像钱锺书先生一样见解深邃,钱先生称朗士元与无可句:“都是想象地方的遥远,不是描写眼前的景物;梅、张的写法正像岑参《宿东溪王屋李隐者》‘天坛飞鸟过’,杜甫《船下夔州别王十二判官》‘柔橹轻鸥外’,姚鹄《送友人出塞》‘入河残日雕西尽’,以至文徵明《题子畏所画黄茆小景》‘遥天一线鸥飞剩’等,把一件小事物作为一件大事物的坐标,一反通常以大者为主而小者为宾的说法。”④下一步技术的目标,即通过深度学习,使用机器逐渐生成提炼言说模型的能力,并能总结这些模型之间的细微差距。

       通过“结构化文本”的数据分析,机器可以初步掌握文本的规律性,“非结构化文本”则重在锻炼机器的认知能力。其实,从这个意义上讲,我们已经涉及到了机器学习,它的核心是特征、模型与训练数据(已标注数据或未标注数据)。首先建模,抽取特征,在训练数据中学习模型参数。当然,训练数据是越多越好。传统的机器学习需要提取特征,然后建立模型学习,“结构化文本”的自身特征恰好具有较为明显的“特征”,所以面对这类文本,数据分析基本可以满足我们的需求。

       但大数据往往是“非结构化文本”,提取特征比较困难,加之数据是海量的,人工干预不现实、也不可能,这时就要用到“深度学习”(Deep Learning)。深度学习的动机是模拟人脑进行分析学习,它模仿人脑的机制来解释数据,例如图像、声音和文本。它能在海量数据中采用贪婪式的逐层学习法:首先是无监督训练,单独训练一层,然后将该层的输出作为下一层的输入,继续无监督训练,重复使用此方法一直向上训练至最上层,再用监督学习去调整所有层。理论上讲,我们给定的学习文本越多,其学习机能就会越强大,所得出的结论就越具有可信性、可靠性。

       二 非结构化文本的数据挖掘

       数据挖掘面对的数据是海量的、杂乱的、无序的、非结构性的,通过挖掘,寻绎出数据中间隐含的、先前未知的并有潜在价值的信息——这正是数据检索、数据分析所难于应对的。

       “结构化文本”的数据分析,有时带有先验色彩,通过数据分析,或证实,或证伪,当然也有可能证明不了任何事情。“非结构化文本”的数据挖掘,更多地体现出不可预知性,这也正是技术赋予古典文学信息化的魅力所在——数据挖掘之前,我们无从预知结论。

       1.文献辑佚

       文献辑佚也可以借助数据挖掘来实现。例如我们想对魏野诗歌进行梳理,只需选取《东观集》与其他文献进行挖掘即可。思路如下:首先对《东观集》进行数据挖掘,将其篇目、作品、类型等进行标注;其次,挖掘意欲爬梳的文献,需要注意如下几点:凡是文献中涉及魏野、仲先、魏仲先、草堂居士、《东观集》、《巨鹿东观集》、《草堂集》等处,皆进行标注;凡是文献中直袭或化用魏野作品处,皆进行标注;文献中虽未标明却暗和魏野某诗诗韵、并且两者题材相似的,也进行标注。通过挖掘,辑出分见于以下四种文献的魏野佚诗一首:

       人间宰相惟三载,君在中书四十年。西祀东封俱已了,好来平地作神仙。(《岩下放言》卷下)

       太平宰相年年出,君在中书十二秋。(《鹤林玉露》卷九)

       太平宰相年年出,君在中书十四秋。西祀东封俱已毕,可能来伴赤松游。(《类说》卷四)

       太平宰相年年出,君在中书十四秋。西祀东封俱已毕,可能来伴赤松游。(《青箱杂记》卷一)

       辑出佚诗,这是依靠技术实现的第一步;第二,要判断该诗到底是不是魏野写给王旦的作品,即对其真伪进行判断;第三,如果该诗不伪,那么上举的三个时间段(四十年、十二秋、十四秋),哪个较佳,或皆可接受?这已是较为纯粹的文献考辨问题,但亦可借助信息技术予以回答,本文暂且不论。这种非结构化文本中间或有规律,却是为我们所无法预知的,只有通过机器深度学习,对数据进行挖掘,才有可能寻绎出可能存在的规则,从而为古典文学信息化更好地服务。

       2.数据挖掘与GIS相结合

       我们从事某项研究时,常会考虑事件的前因后果,当时的社会背景、时代风尚,对周边同仁和后人产生何种影响等等。比如利用GIS,并结合数据挖掘,再在时间纬度的基础上一并考虑空间维度,所得出的结论往往更有学理性——因为有大量的数据可以依赖。例如我们想对宋代文学的发展演变有所了解,对宋代文人的分布情况有所掌握,利用数据挖掘,便可从海量的宋代文献中寻绎出许多以前我们未曾料想到的信息。

       正因为有了海量数据和数据挖掘,再与GIS结合起来,那么便能轻松做到在中心地缘的基础上兼顾边缘、边疆及民族区域。宋代与辽、西夏、黑汗、西州回鹘、黄头回纥、吐蕃诸部、大理以及蒙古、金、西辽等多个政权并存过,民族交往融合也带来了文学交流,甚至是文学风尚的转变——苏学北上便是典型案例。利用数据挖掘,可以将当时的所有区域纳入考察范围,对于研究多民族的文学、文化交融,具有重要的作用与意义。既可以设定某个具体地域,也可以检索某片区域,给定地点之后,再与时间相参,系统便可将某区域某时段内的所有事件、参与人物、事件的前因后果等生成表格或图表,并在数字地图上相应呈现。例如我们可以以宋代晁氏家族为例,该家族派分三支,历两宋绵延而下。利用数据挖掘便可以实现对家族所有人物的生平、仕宦、贬谪、升迁、交游等情况进行详尽考察。同时,家族东、中、西三眷的迁徙,也可在数字地图上直观呈现。

       基于这个意义上的数据挖掘,一是拓宽了视野,许多隐含信息被挖掘、抽取出来;二是许多原来靠人力很难关联起来的信息之间有了关联,从而能建构起强大、丰富、可感的人物社交网络体系。我们面对的研究对象,已经不再是单独的个体,而是以之为中心的群体。不同的群体之间又有交集,从一定程度上讲,我们甚至能将文献中出现的每一位宋人定位在某个特定的关系网中。这只有依赖数据挖掘才可能实现。

       3.大数据视野下的文史哲融通观

       传统学术要求从业者有较为融通的文史哲理念,换言之即是力争打通文史哲学科。对信息化而言更是这样,特别是大数据时代,多学科之间多元并参,会产生许多不可预知的论断。

       例如开封,从历史学上看,它是一个敏感的都市;从文学上看,它寄托着宋人复杂的情绪;从建筑学上看,它的宫殿、坊市,除承继唐代的设计理念,更有宋人自己的意愿表达……如果我们选定真宗朝的“天书封祀”事件作为考察对象,那么这一事件前后朝臣与皇族的态度变化,因之而设定的天庆节、天贶节、天祯节及其对行政运行与民众生活的影响,为供奉天书而兴建的玉清昭应宫和因此宫而生成的诗、文、赋、颂等作品,以及“玉清昭应宫灾”背后折射出来的时政新变等都是要考察的重点,借助数据挖掘,可以很好地梳理出以上(甚至更多)信息,在对文学、历史等多种文献整体把握的基础上,或可推衍出更有说服力的论断。

       从技术的角度看,数据没有有价值或无价值之分,只有可利用和暂时没法利用的区别。因此,史料中的历史事件,无论是“重大历史事件”、细微琐屑事件,还是天灾人祸、气象异常等,都可能被挖掘出与文学相关的价值来。因此,传统史料学的定义和理论规范,或许便有重新思考的必要。这就是技术带给我们的超越意义。

       三 OCR与图像检索

       我们面对的文献,除了已经数字化的之外,还有大量的古籍文献是以刻本、稿本、抄本等形式存在的。这些文献,在现阶段是无法直接使用上述的文本处理思路进行处理的,这就涉及到了OCR与图像检索两个方面。

       关于图像的第一个层面是OCR(Optical Character Recognition),即光学字符识别,它主要指利用电子设备或软件将字符识别为计算机文字的过程。一般而言,OCR所要解决的是文字识别的问题,如《文渊阁四库全书电子版》的出版说明即称:“用清华大学计算机系人工智能研究室提供的多特定人规范手写识别引擎(OCR),结合我们制作的超过七千字的Unicode版本的识别字典,把每个字迹图像识别成计算机的编码汉字,并给出每个字迹图像所可能对应的十个候选字及相关参数,解决百分之九十以上的录入问题。”我们应当承认以该软件为代表的,诸如《四部丛刊电子版》、《中国基本古籍库》等软件在推动古籍数字化方面做出的重要贡献,但同时也应意识到现有的OCR技术对一些字迹不工、页面漫漶、钩乙满纸、难以辨识的稿本、抄本等文献的识别,仍有较大的拓展空间。这正是本文将OCR放在图像处理部分的原因所在,即是希望借助于更为前沿的OCR技术,能较为完美地实现对疑难文字的识别。

       例如张剑先生在点校《郘亭书画经眼录》时即遇到原手稿有误情况,“如黄道周的行草《榕颂》,极难辨认,即使是莫友芝这样的书法大家,在手稿本中抄录《榕颂》内容时也出现了一些不能认辨和误辨之处,甲、乙钞本转录时更是错讹得无法卒读”⑤,点校者既要识别莫氏手稿,又要以他本相参,判断疑处孰从。面对这种情况找其他文献、特别是原始文献来辅助校勘,这确实是校勘良策。这也为OCR技术提供了另外一个思路:即若有其他相关文献可以辅助,借以多种文献对参;若无,则需依赖OCR识别——这种识别的前提是将已识别出的稿本、抄本的图、文纳入数据库中,建立相关模型,识别时,从数据库中进行匹配。确实无法识别时,进行标注,由人工干预,干预结果再返回到数据库中。多次反复,最终建立起较为成熟的OCR疑难文字数据库。一旦这种疑难文字数据库建立起来,对于整个学术界的意义将不言而喻。

       即使专业人士对一些稿本、抄本的辨识也往往费时费力,有时亦不免误判,遑论机器识别,但这却是学界迫切所需,这一领域的OCR技术突破,是图像处理领域首先值得期待的。

       关于图像的第二个层面是“图像检索”。简单地讲,图像检索就是从海量图像数据库中找到符合客户需求的图像。“图像检索”主要有如下几种类型,一是基于文本的(Text-based Image Retrieval,简称TBIR),利用文本描述、图像名称、图像尺寸、作者年代等基本信息描述图像特征。例如“王安石撰、傅增湘校《新刻临川王介甫先生文集》十二册,明万历四十年刻本,10行20字,白口四周单边”便是简单的文本描述。二是基于图像内容的(Content-based Image Retrieval,简称CBIR),如对图像自身的颜色、纹理、布局、形状等进行分析,实现对图像的描述与检索⑥。反映到古籍上,还应包括栏数、字数、单排、双排、字迹、字体、墨色、牌记、边栏、行款、书口、钤印、评批等。应当说,大多数基于图像内容的检索系统都是通过对不同图像进行相似度的计算来实现检索,但图像来源的不同,往往带来图像质量的差异,这必然影响检索的效果,因而学界又提出了基于语义分析的图像检索方法⑦和面向用户的web图像检索技术⑧。

       图像检索对古典文学研究而言,可实现对某一以图像形式存在的文献的网络检索,从而判断是否存在相似文献。例如,我们已知东京大学东洋文化研究所有宋刊本《重校添注音辩唐柳先生文集》残卷,那么是否存在与其相似的文献?我们以此残卷首页⑨为例(见图1)进行图像检索,会发现日本国立国会图书馆藏有《新刊五百家注音辩唐柳先生文集》四十五卷,其卷九⑩(见图2、图3)与上引残卷相似度极高,故而可以断定这两个文献之间确有关联。

      

      

      

      

       理想中的图像检索能够将上引两种文献之间的关系呈现出来。这种关系之所以能被检索到,一是基于文本的图像检索功能,这两个网站都对文献进行了标注,故而易于爬梳到题名之间的关系;二是要通过局部特征快速、有效地建立相关图像之间的匹配。若以东京大学的文献为源文献,如何判断是否存在目标文献,又如何在目标文献中定位到与源文献相似或同步的位置?首先要以源文献的局部特征为起点去检索。本例内容为唐人李华为房琯所作的《唐丞相太尉房公德铭》,源文献(见图1)第一栏可细分为双行小字“军司马裴冕迎太子治兵于朔方”与大字“登贤为辅让子以续公”两部分。小字部分语出《新唐书》卷六,若只考虑这部分内容,则很容易将网络上《新唐书》或《新唐书纠谬》中的相关图像检索出来——例如我们即可检索到巴伐利亚国家图书馆东亚数字资源库公布的汲古阁版《新唐书》相关图像(11)(见图4)。该网站对此《新唐书》的文本标注为:“刻本,框21.5×15.3公分,12行25字,小字双行37字,白口,左右双边,单黑鱼尾,版心中镌书名及卷次,各卷首尾版心中镌‘汲古阁’及‘毛氏正本’。各卷首有牌记‘琴川毛凤苞氏审定宋本’。书名镌于卷端第一行尾。”虽然这不是我们本次检索所需的信息,但对于基于文本与图像内容相结合的图像检索而言,却是至关重要的一环,也是值得国内其他古籍文献类、数字图书馆类网站所师法的。当然,若只考虑大字部分,又容易将李华《李遐叔文集》卷二、《文苑英华》卷七八五检索出来。故而此处的“局部特征”必然是以两处文本同时并存为基础的,而文本获得是OCR与图像检索的合力之作。

       至于牌记、边栏、行款、书口、字体、墨色、钤印等,是图像检索所需格外注意的,这对于版本的研判至关重要。如果这些能解决,那么不同版本之间包括文本内容与外部形制之间的比勘,都可以借助技术实现。如果技术足够成熟,同一文献不同版本之间是否有渊源;若有渊源,孰为底本、孰为翻刻;若有删改,删除哪些、修改哪些等情况都有望直观呈现。这样研究者看到的将会是两个(或多个)版本之间从内容到形式的详尽的数据描述,他们所要做的将只是探究版本间传承、删改的价值取向与价值判断——这些判断,随着深度学习的发展,也可由机器来实现。

       以上我们所探讨的主要是两个问题:一是疑难文字的OCR,二是基于文本与图像内容相结合的图像检索。当然这一检索首先是基于网络的、要存在于网络空间,其次要有足够庞大的图像数据库支撑。

       或许有人说,这些技术特别是图像检索离古典文学研究还是有些距离。我们要知道,图像检索的核心是对以图像形式存在的文献进行定位、检索与匹配。若以文本检索图像,如以“参差荇菜左右芼之”去检索图像,会将所有含有此句的图像检索出来;若以图像、或图像的局部去检索,也会检索匹配出相关对象。这样一来,检索对研究者而言,便可实现由“文本”到“文本”(Text-Text),上升到由“文本”到“图像”(Text-Image)、“图像”到“图像”(Image-Image)。这种提升有三个显著优势,一是将个体研究者从识别、研判疑难文字的工作中解放出来;二是个人不必再将图像文献识别转换为文本;三是图像检索能够最真实、直观地体现出不同文献之间的细微差异性,并能以数据化的言语描述和原始图像呈现,这样就能避免原来由“图像”到“文本”(Image-Text)可能带来的识别错误。

       OCR与图像检索相结合,可以很方便地对图像文献进行校勘,特别是当有些文献庋藏于异国他乡时,如果能获得文献的图像信息,校勘起来则会便利很多。比如说我们想了解《隆平集》的研究现状,那么熊伟华、王瑞来诸先生的精深研究是无论如何都绕不过去的。假设学界对于《隆平集》没有进行过如熊、王诸先生一样的深耕的话,我们面对原始文献,必须从头梳理。爬梳文献,自然是第一步。此时,我们便可以利用上述技术,检索网络,将哈佛大学图书馆藏明万历二十六年刊本(12)(见图5)、康熙间彭期七业堂本(13)(见图6)以及《景印文渊阁四库全书》本(见图7)一并纳入研究视野。机器将会对这几个版本进行详尽比对,将异同之处用图像对比、数据展现和文本描述等形式直观呈现。

      

      

      

       这些主要是从图像检索入手来进行自动比对、校勘,如果再与文本中的数据挖掘结合,试想一下:机器一边进行着图像检索匹配,一一标注不同版本之间的差异;一边将识别出来的文本与已经在文本数据库中的海量数据相匹配,那么其他文献中涉及、引用到《隆平集》之处皆可一一标示,这不正是从内容角度来内证文献的正途吗?这种思路、实践是与我们学界优秀学者的研究别无二致的,进步之处即在于原本要由学者凭一己之力,焚膏继晷、兀兀穷年方能完成的工作,机器可为代劳。

       本文将文献分为文本与图像两大类。如果只研究单独一部文献,在不与其他文献进行比对时,就使用OCR完成文本化过程;如果想探求文献的不同版本形态,就可以使用图像检索,对网络上存在的同一文献的不同版本进行检索、匹配、校勘;同时,还可以以源文献的某一局部特征为检索源,检索含有这一检索源的第三方图像文献。

       四 机遇与挑战

       近年来,信息技术对传统生活模式带来了极大的冲击,对传统学术研究模式也带来了极大影响。

       现阶段,在“文本”领域,最值得重视的便是大数据基础上的数据挖掘。面对数据挖掘,有两个思路:要么是人工制订足够多的规则,使非结构化文本被拆分成机器能理解的半结构化或结构化文本;要么就是通过深度学习,使机器越来越智能,这样就不必对非结构化文本进行人工拆分,这当然是科技发展的大势所趋。在这个大趋势中,作为研究者,我们也应以积极的态度对不同文体展开深入研究。比如说,可以根据乐府诗的“题名”、“用典”、“本事”、“曲调”、“体式”等关键要素,研发乐府诗分析平台。还可以针对墓志铭、书信的特有书写方式,对此类文体进行数据挖掘,生成的知识谱系对于其他文体的相关研究亦有裨益。

       在“图像检索”领域,本文所设想的其实是一种理想状态——但这确实是未来的发展方向和趋势——假设我们所需要的文献资料都已经被其庋藏者高清扫描之后上传到了网络,并且允许全世界范围内无限制地访问——这虽然只是一种理想状态,我们还是希望像巴伐利亚国家图书馆这样从2005年起就扫描文献、上传网络,供读者免费阅读的图书馆越来越多。只有这样,图像检索才能脱离技术层面,才会有现实意义。

       我们开篇提到了“机遇”,也提到了“挑战”。简单地讲,“机遇”主要是指我们提到的几大技术都已成熟或渐趋成熟,有很多技术已在其他领域取得了和取得着较大的成功。因此,应用到古典文学研究领域,技术层面应无太大障碍。相对于“机遇”,我们所面临的更多的是“挑战”:对研究者而言,可能存在着知识结构问题,也可能存在着长期形成的学科传统以及由此带来的思维定式等问题。对于外部环境而言,一是拥有大量古籍文献的图书馆、博物馆、科研机构和个人收藏者是否都有开放的心态将其所藏古籍文献扫描、上传到网络空间并免费共享;二是这些收藏者是否都有独立的网站或网络空间存储图像;三是其所扫描的古籍文献图像是否能满足图像检索的像素等要求;四是如何吸引诸如谷歌、百度等国内外一些拥有先进的图像检索经验、技术的科技公司加入到这一领域……如何迎接挑战,就要看我们的集体智慧了。

       注释:

       ①李铎、王毅《关于古代文献信息化工程与古典文学研究之间互动关系的对话》,《文学遗产》2005年第1期。

       ②数据检索可分为简单检索(即单一条件的检索)和综合检索(给定“与”、“或”、“非”等条件的综合检索),从本质上讲,综合检索与简单检索并无二致,都是检索结果的胪列而已。

       ③参见拙作《韩愈诗歌对宋词影响研究》,《文学评论》2013年第5期。

       ④钱锺书《宋诗选注》,三联书店2002年版,第133-134页。

       ⑤莫友芝著,张剑点校《郘亭书画经眼录》(与《宋元旧本书经眼录》合刊)“前言”,中华书局2008年版,第16页。

       ⑥可参见孙兴华《基于内容的图像检索研究》(南京理工大学2002年博士论文)、孙君顶《基于内容的图像检索技术研究》(西安电子科技大学2005年博士论文)、李勇《基于内容的图像检索技术研究》(吉林大学2009年博士论文)、魏宏喜《蒙古文古籍图像检索技术研究》(内蒙古大学2012年博士论文)、戴礼灿《大数据检索及其在图像标注与重构中的应用》(中国科学技术大学2013年博士论文)等相关研究。

       ⑦沈项军《基于语义学习的图像检索研究》,中国科学技术大学2006年博士论文。

       ⑧邱兆文《面向用户的web图像检索关键技术研究》,哈尔滨工业大学2009年博士论文。

       ⑨参见日本东京大学东洋文化研究所网站,2015年1月18日访问链接如下:http://shanben.ioc.u-tokyo.ac.jp/main_p.php?nu=D7165000&order=m_no&no=01679&im=0010003&pg=3

       ⑩参见日本国立国会图书馆网站,2015年1月18日访问链接如下:http://dl.ndl.go.jp/info:ndljp/pid/2543506?tocOpened=1

       (11)参见巴伐利亚国家图书馆东亚数字资源库网站,2015年1月18日访问链接如下:http://ostasien.digitale-sammlungen.de/cn/fs1/object/display/bsb00059915_00270.html?leftTab=toc&hl=true&fulltext=%E6%96%B0%E5%94%90%E6%9B%B8&mode=simple

       (12)参见国家图书馆网站,此版本“10行20字,左右双边,白口,单鱼尾,框高17.9×13.2公分”。2015年1月18日访问链接如下:http.//mylib.nlc.gov.cn/web/guest/search/hafoyanjinge/medaDataDisplay?metaData.id=314358&metaData.lId=318853&IdLib=402834c3360632fe013609bd352611af

       (13)国家图书馆网站称此版本封面镌“七业堂校刊 宋曾文定公隆平集 南丰刘氏藏板”,“框高20.2×12.7公分,9行20字,白口,左右双边,单黑鱼尾,版心上镌书名,中镌卷次”。而实际此版封面镌“康熙辛巳年新镌 宋曾文定公隆平集 七业堂校”。2015年1月18日访问链接如下:http://mylib.nlc.gov.cn/web/guest/search/hafoyanjing/medaDataDisplay?metaData.id=446889&metaData.lId=451370&IdLib=402834c3360632fe013609bd352611af

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

大数据时代古典文学研究--以数据分析、数据挖掘和图像检索为中心_图像检索论文
下载Doc文档

猜你喜欢