文献信息视阈下面向智慧服务的语料库构建研究*
● 马海群1,2,张 涛3
(1.黑龙江大学俄罗斯语言文学与文化研究中心,黑龙江 哈尔滨 150080;2.黑龙江大学信息资源管理研究中心,黑龙江 哈尔滨 150080;3.黑龙江大学信息与网络中心,黑龙江 哈尔滨 150080)
摘 要: [目的/意义]在重视实证研究的大数据环境下,语料库作为一种定量研究方法,在语言研究、统计分析及机器学习等领域发挥了重要的作用。近年来,随着大量文献的文本化,语料库的构建不但会使文献信息的研究科学化、多样化,还会使文献信息服务精准化、智慧化。[方法/过程]文章在现有语料库研究的基础上,结合图书馆、情报与文献学的相关理论,把文献信息作为研究对象,为社会提供智慧服务为目标,提出了一种在文献信息视阈下面向智慧服务语料库构建的思路。[结果/结论]阐述文献信息视阈下语料库建设的过程,并描述了在智慧推送、智能分类、远距离阅读等领域推动智慧服务的应用场景。
关键词: 文献信息;语料库;智慧服务;应用研究
文献是通过一定的方法和手段、运用意义表达记录在指定载体中有历史价值和研究价值的知识,它是记录、积累、传播和继承知识的最有效手段,是人类社会活动中获取情报最基本、最主要的来源[1]。文献的核心是文献信息内容,文献信息包括三个方面的内容:一是指文献的内在信息,也就是文献的内容信息;二是指文献的形式信息,也就是文献的外在形式和特征;三是指文献内容信息的信息,也就是文献信息挖掘后形成的知识[2]。目前文献信息的产生、收集、整理、加工、传递、利用与组织管理等过程是国内外学者研究的重要内容之一。语料库是按照一定标准采集而来的能够代表某种语言或某种领域的一类数据集,它既是一种研究方法,又代表着一种新的研究思维,语料库的应用是为了研究问题并达到研究目的服务的。语料库属交叉学科,它融合了语言学、统计学、计算机科学等学科,其优势在于可以从大批量语料中快速且准确提取多种数据,运用语料库分析手段不但可以有效地把有关数据提取出来,还能使隐藏于大规模文本中的信息浮现出来[3],利用所获得的数据及信息结合定量研究和定性研究方法发现规律并形成知识。在语料库建设中要特别注意研究过程的设计,程序和步骤的规范化。
从研究的跨学科视角看,文献信息研究方法和语料库研究方法可以相互借鉴和补充,二者相互融合既可有效拓展现有文献信息研究方法的视域和维度,又可解决语料库只针对语言学领域进行研究的窘境。基于此,本研究把文献信息作为研究对象,把为社会提供优质服务、智慧服务作为最终目标,提出了一种语料库构建的方法和思路。
传统课堂形式过于沉闷,引入多媒体,利用动画、视频吸引学生注意力,但容易忽视的是多媒体最终只是一种教学手段,要配合教学进程使用,一味的在课堂上利用多媒体,媒体承载的知识点过于密集,教学内容节奏过快会导致原本注意力更加分散,超出学生认知负荷。媒体的使用减少了师生互动,单向传输的多媒体在学生课堂参与度方面并没有达到理想的效果。
1 建设及研究成果
采用语料库进行实证研究历史悠久,国内外相关学者从语言学、统计学等角度推动了语料库建设的发展,通过查阅文献及网络资源证实有大量语料库建设及研究成果。
1 .1 建设成果
语料库作为一种语言研究工具,广泛运用于语言研究的各个领域,如词典学、语用学、话语分析及翻译等领域。语料库语言学滥觞于20世纪60年代初,为了突破当时(以Chomsky生成语言学为主的)语言研究的内省思辨方法和思路,展开语言的实证研究,美国布朗大学的两位语言学家W.N.Francis与H.Kuera建成了世界首个机读英语语料库——布朗语料库(Brown Corpus),该语料库收集了100万的书面语文本[4]。20世纪80年代,随着计算机软、硬件技术的进一步成熟,现代机读语料库成为语言结构描写和语言理论研究的得力工具,语料库语言学作为语言学研究的方法论和实证方法在语言学领域正式立足。在此之后国内外众多机构开始构建语料库,国外比较有代表性的语料库有英国牛津出版社、朗文出版公司等机构共同构建的BNC英国国家语料库[5],该语料库被公认为是最能代表英国英语的语料库,语料库中包含大量书籍、报刊杂志、演讲稿及未出版的作品;美国杨伯翰大学构建的COCA美国当代语料库是迄今为止最大的美国英语语料库[6],它是一个免费的网络语料库,由Brigham Young University的M.Davies创建,该语料库主要包括口语、小说、杂志、报纸和学术期刊;美国匹兹堡大学计算机系构建的MPQA Opinion Corpus语料库[7],主要是新闻报纸素材的语料库;美国康奈尔大学构建的政策文本语料库(Corpus of Political Discourse)[8],主要整理了总统国会演讲数据集,目前已有多篇研究成果引用了该语料库。
4)以自然风光和绿色生态为主的乡村旅游地。如地处库不齐沙漠南缘准格尔旗的尔疙壕嘎查,是凭借土地广阔、林草茂盛、水塘密布、湿地连绵和近库不齐沙漠、塞外草原的地理优势,打造的“沙漠水乡”。
5)数据库设计。文献语料的存储要依托数据库,因此数据库结构设计合理与否直接影响通过语料库提供智慧服务的质量。构造最优的数据库模式,能够有效地存储语料数据,满足各种用户信息要求和处理要求。在数据库设计中,关键表主要有四张:语料表、分词表、专用词表、语料片断表。语料表主要存储语料的元信息;分词表主要记载所收集语料的词语信息;专用词表是根据语料库使用性质而确定,如收集的全部是政策相关信息,则此部分需要记录政策专用词语,这有利于对语料进行精准分析;语料片断表是记录语料按照语句切分后的信息,通过主题领域字段可以对语料片段所属主题类别进行标注,这便于在应用场景中对数据进行智慧化的推送。字段如图3所示。
以上国内外所构建语料库主要集中在语言研究、政策研究、自然语言理解和机器翻译等领域,详情见表1。
表1 国内外主要语料库建设情况
1 .2 研究成果
近年来,国内外众多学者针对于现有语料库及自建语料库形成了大量研究成果。2010年刘泽权教授[14]出版专著针对《红楼梦》的中英文文献创建平行语料库,并对译本中习语及翻译进行分析研究。2013年李纲等[15]对突发卫生事件监测系统及语料库的现状进行研究,并提出了语料库系统构建的框架,进而详细阐述了构建语料库系统的技术及方法。2016年周红英等[16]针对语料库语言学与文献计量学进行了研究分析,通过对两者研究方法的交汇和互补,既有效拓展语言学研究的视域和维度,又解决了网络环境下传统文献计量学分析面临的难题。同年裴雷等[17]提出政策文本语料库的建设是政策文本计算分析的基础,并列出政策语料库建设情况及语料库在政策研究中的应用前景。2017年詹菊红等[18]以鲁迅的10部小说为源本,以杨宪益和威廉·莱尔的文献译本作为语料库,对汉英文学翻译中的缩合现象进行了深入研究。2018年贾卉等[19]基于语料库做了十八大报告与十九大报告英译文文献的多元化比较分析。同年蔡永贵等[20]基于自建《论语》英译文献语料库,将《论语》的英译本在词汇、句子和语篇层面的基本特征进行数据统计和对比分析,并考察不同译本翻译风格的异同。在国外,2015年M.Diego等[21]提出了一个基于循证医学文本处理的语料库,该语料库是基于家庭临床杂志的临床查询部分文本信息。2017年M.Calzada-Perez[22]提出了一种基于语料库辅助话语研究的方法来分析欧洲议会中的报告演讲内容。同年S.Wulff[23]通过定量研究的方法证实了语料库语言学有助于对学习者语言研究中的许多热点问题的理解。2018年R.Zmelik[24]在文学研究中基于语料库对文献的宏观分析及微观分析方法进行研究。
康宁一直是生命科学行业值得信赖的供应商。康宁的生命科学器皿助力新药研发和改变生活的医学突破。凭借其在材料科技领域所累积的一百多年的专业知识,我们的技术能帮助科学家探索细胞疗法在疾病治疗上的强大功效,并在实验室器皿领域引领着3D细胞培养、生物制药和基因组学研究的发展。此外,康宁高质量的药用玻管产品也推动着医药包材工业健康和安全标准的提高。
综上所述,在国内外学者对语料库的建设及研究过程中发现,除了语料库在语言学方面研究之外,也有部分学者把语料库引入到其他学科领域进行深入研究,但文献信息视阈下语料库的研究却凤毛麟角。基于此,本文对文献信息视阈下语料库的构建进行研究,并最终提出了为社会提供智慧服务的应用场景,研究不仅能为文献信息相关学科提供新的方法和思路,还能为智慧服务的应用提供理论保障。
2 理论模型
1)需求分析。需求分析作为语料库计划阶段的重要活动,也是语料库建设生存周期中初始环节,其重要性不言而喻。该阶段是分析语料库实现什么功能,要通过最终目标来确定语料库的实际需求,需求分析的目标是把要构建的语料库提出的“要求”或“需要”进行分析整理,确认后形成描述完整、清晰与规范的文档,确定构建方向及需要完成的工作[27]。文献信息视阈下语料库的构建最终目标就是实现智慧服务的应用场景,因此在语料库构建过程中,研究者要清晰地认识到在所要研究的领域中,融入机器学习的内容,且在语料库构建过程中紧紧围绕文献信息、智慧服务这两个关键词来做需求分析。
图情理论、文献信息、语料库、智慧服务四者之间形成较为复杂的辩证关系,图情理论是针对文献信息的理论解释,它主要的研究对象是文献信息;智慧服务是大数据、人工智能时代一种提升服务质量的信息服务模式,如图1所示把图情理论作为文献信息研究的理论工具,语料库作为文献信息研究的应用工具,两者之间有着相同的生命周期和共同的研究目标。文献信息为基于图情理论的语料库构建及为社会提供智慧服务提供素材,图情理论是文献信息研究和语料库建设的理论基础,语料库建设以文献信息研究为出发点并以图情理论为认知引导,智慧服务是整个语料库建设的最终目标;智慧是大数据、文本挖掘、机器学习最终的产物,而语料库的建设恰恰是文本大数据形成的过程,利用机器学习和文本挖掘的方法可以还原智慧产生的过程。大规模文献信息语料收集的过程是智慧服务形成的基石,通过对语料信息碎片化、精准化的计算分析,再利用机器学习算法,反复学习形成智慧,从而实现为社会提供智慧化的服务,文献信息收集的过程是决定智慧服务质量的主要因素。把文献信息之于语料库的研究虽少有人深入探索,但随着信息技术的快速发展,对文献信息语料库进行构建将成为未来智慧服务、智慧决策的必然趋势。
图1 文献信息视阈下面向智慧服务的语料库模型
3 语料库构建
语料库建设既是一项大规模的数据工程,又是一项需要不断维护、更新且补充的长远工程,因此语料库建设前必须要明确建设原则和目标。文献信息视域下的语料库构建以图情理论作为理论支撑体系,以文献信息及语料库的生命周期为建设原则,把在智慧推送、智能分类、远距离阅读等领域提供智慧服务作为最终目标,详见图2。
图2 文献信息视阈下面向智慧服务的语料库架构
3 .1 框架构建
文献信息是在公开发表的图书、期刊、报纸、政策报告、典籍中摘录或获取的信息、知识。由于它具有行文严谨、知识面宽广、数据量大等特点,因此受到研究者的广泛关注[2]。语料库是语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,用统计语言模型的方法处理自然语言的基础资源[25]。语料库是指经科学取样和加工的大规模电子文本库,它主要存放的是在实际使用中真实出现过的语言材料,语料库所收集的数据集越大,数据范围越广泛,则研究结果越精确。在文献信息视阈下语料库既是一种研究方法,也是一种应用工具,它的建设过程包括了对语料信息的收集、加工、分析、学习、组织的全过程[26]。智慧服务是指个人或组织运用智慧为社会提供的服务,智慧既是服务的工具也是服务的内容,更好地实现智慧服务是文献信息研究及语料库建设的共同目标。从文献信息到智慧服务的形成主要有以下过程:第一,文献信息文本化;第二,加工形成数据;第三,文本挖掘发现和提取知识;第四,机器学习不断内化形成智慧;第五,面向社会提供智慧化的服务。
2)语料库设计。文献信息视阈下语料库设计思路是以智慧服务为最终目标的,因此需采用B/S和C/S结构相结合的方式来实现,在展示及使用层面:采用CoW方式构建语料库,CoW全称为Corpus on the Web,它是指把语料库上传到网络上为用户提供相应服务,并把语料库信息存储到网络上[28]。在数据分析及知识发现层面:利用云计算、大数据、物联网、机器学习等技术借助现有软件及工具完成设计。以下从语料库功能设计、技术路线设计、数据存储设计等方面进行详细描述。从语料库功能设计层面看:主要包括语料采集、语料管理、语料审核等模块。从技术路线设计层面看:采用JSP,PHP,Asp.net等网络编程语言来实现,在语料预处理、复杂分析等方面使用C,Java,Python,R等语言结合相关软件程序包来实现;从数据存储设计层面看:元信息及语料内容信息主要采用Oracle,Mysql,SQLServer等数据库进行存储,由于语料信息需提供更多个性化服务,因此在本地同时要采用txt文本方式对语料内容进行存储。
3)语料采集。语料采集是语料库建设的重要环节,既包括内容信息,又包括标题、作者、数据来源等元数据信息[29]。由于语料采集的质量与最终实现智慧服务的目标密切相关,因此语料采集要尽量全面,这样才能挖掘并发现更真实、准确的知识,以便为未来所提供的服务场景更加智慧化。文献信息采集时需要甄别、筛选、明确采集范围,否则分析处理结果也会缺乏典型性及代表性,文献信息视域下的语料库主要采集内容包括图书、期刊、专利、政策报告、典籍等信息,采集时主要分为手动采集和自动采集。如图书、期刊、典籍等没有电子文档或通过互联网只能找到相关文档扫描件时,就需要进行手动采集,由于手动采集工作量较大,且需要反复校对,这就需要专门团队来完成此项工作任务。如专利、政策报告等信息通过相关网站可以直接获取,则可以通过技术手段进行自动采集,但往往自动采集的语料会存在字段不完整、信息缺失等情况,因此还需对所采集的语料进一步加工校对。典型自动采集语料工具有:Editortools、ICTCLAS、SpiderFoot、八爪鱼采集器、GooSeeker、LocoySpider等。
4)语料预处理。由于文献语料具有语言严谨、结构复杂、文本量大、形式多样等特点,文献语料预处理的质量会直接影响到语料库中分析、处理、使用等环节的精准度[30]。而未经过处理的生语料并不具备分析的前提条件,不仅要对生语料进行分词,还要使用除停用词、标注等方法才能形成可用语料信息,如有需要还要对加工后的文本再次进行细致的整理,并进行必要的标注。为了确保语料预处理的精准度,系统引入专用词表的概念,专用词表的构建主要采用自然语言学习中的文本挖掘算法并结合人工筛选完成。预处理是语料库建设的关键环节,该环节中每一步操作都会直接影响提供智慧服务的效果。此部分工作可结合成熟软件包完成,通过Java,Python等程序语言可将处理后的数据与语料库直接对接,实现处理后的语料信息与数据库元数据信息同步共享。目前典型的文本预处理工具有:ICTCLAS,jieba,SnowNLP,IKAnalyzer,OpenNLP,THULAC,BosonNLP,HanLP等,详见表2。
表2 文本预处理工具列表
随着国外语料库的建设如火如荼,国内也有大量语料库建设成果,北京大学中国语言学研究中心构建的CCL语料库[9],主要包括现代汉语、古代汉语、汉英双语三类检索;国家语言文字工作委员会构建的大型汉语均衡语料库[10],语料收集范围涉及教材、报刊和应用文等;北京外国语大学中国外语教育研究中心构建的Crown_CLOB语料库[3],是由梁茂成和许家金教授组织国内100多所高校的多位外语专家及学生建成,其取样标准及语料规模与Brown/Frown和LOB/FLOB完全一致;北京语言大学构建的BLCU Corpus Center现代汉语语料库[11],主要包括了文学、报刊、微博、科技等语料库;中国台湾中央研究院构建的现代汉语平衡语料库[12],该语料库主要针对自然语言分析而设计的,它是带有词类标记的汉语平衡语料库;香港城市理工大学构建的LIVAC对比语料库(Linguistic Variation in Chinese Speech Communities)[13],该语料库是一个大型监控语料库,定期收集6个泛华语地区代表性中文报刊语料库,目前已经积累语料已经超过4亿字。
循环式真空喷砂系统使用负压系统进行砂粒的回收工作,系统所需负压由真空源提供,常用的真空源种类有高压离心风机、罗茨风机、真空泵和气动真空发生器等[7].用于金属砂粒回收的压力必须达到30~60 kPa,且应具有足够的空气流量.常见的高压离心风机,压力较高,但空气流量较低,回收能力较弱,适于磨料的短距离回收或小密度、小颗粒喷砂介质的回收,如塑料砂粒和植物型砂粒等.罗茨风机能够提供所需的较高压力,但工作噪声较大.真空泵虽可以达到较高压力,但常用的真空泵流量都比较小,不适用于大量砂粒的回收.气动真空发生器,气体流量很小,也不适用砂粒的回收.
图3 语料库关键表字段间关联关系
按照以上步骤,笔者所在课题团队从2018年4月起开始构建数据政策语料库,截至目前已经收录数据类政策语料1914条,分词后中文词语数56529个,专用词语共904个,语句片断数19.693万条(按照句子划分),字符数共1115.4万个(含汉字、字母、数字、标点等),按照政策文件类型划分为新兴产业、金融经济、社会保障等13个类目,按照政策文件发布方式分为实施意见、指导意见、规划纲要、通知等12个类目。
近红外光谱技术在人参定性、定量和在线检测分析中的应用 ……………………………………………… 刘宏群等(13):1855
7)语料库使用。语料库使用重点在于提供的服务方式,需要对从语料库中提取出来的信息进行统计分析和解释。主要提供检索服务、数据服务和分析服务三种模式。检索服务:要针对使用者提供普通检索、分类检索及高级检索服务,高级检索中要有基于正则表达式的检索功能;数据服务:为第三方平台提供API接口数据信息,提供二次开发的通用部件,这样有利用语料库的推广与应用;分析服务:通过语料库平台结合第三方程序包对语料信息进行分析处理,当数据积累到一定规模时,就可通过机器学习的方法为社会提供智慧化服务。在语料库的使用过程中分析是最重要的环节之一,可以结合一些典型的分析工具完成,主要有:SPSS,ICTCLAS,ImageQ,WordSmith,Gensim,Concordance等[31]。
8)维护与更新。面向智慧服务的语料库建设是一项系统性工程,也是一项长期性工程,智慧的形成需要持续地完善数据、不断地学习、对数据进行长期维护,并要有专业团队负责系统功能更新工作,因此要保证此项工作可持续发展,并面向社会提供智慧化服务,维护与更新就变得尤为重要了,作为整个语料库建设的最终环节,也是起始环节,要通过持续不断的维护与更新使整个语料库建设的生命周期形成闭合的生态链路。
(3)政府人员定位偏差引发执行偏差。一是认知偏差。即政府工作人员对政府购买公共服务的政策及法律缺乏正确认识。对购买公共服务的错误定位导致政府部门对其缺乏应有的积极性和主动性,甚至演变为政绩工程。二是理念滞后。政府工作人员在政府由管理走向治理的机构改革与职能变革中,对社会组织缺乏信任。治理理念的滞后不利于合作型政府的建设,严重挫伤社会组织人员积极性,引发政社矛盾。三是角色错位。即认为政府购买公共服务在服务外包的同时,责任和困难也随之推卸给了社会组织,在公共服务供给时出现不作为现象。
3 .2 建设及研究成果
6)可视化展示。可视化展示是文献信息传递的一个重要手段,传统语料库建设并没有给用户提供一个功能展示的页面,使用者无法通过语料库了解相关领域的知识,因此文献信息视阈下可视化展示环节给语料信息提供了一个有效传递的介质,并实现所有语料信息的多种智慧化查看方式。该部分主要采用H5技术实现,可以通过手机、平板电脑、笔记本、台式机等终端进行访问,并实现Web端、移动端一体化展示页面。
一直以来,抗菌药物都是医学发展研究的重点之一,在疾病诊治中,具有重要意义。同时,抗菌药物的应用,在一定程度上会增加体内耐药菌数量,不利于药物治疗,甚至影响其他药物发挥药效,加重病情。对此,抗菌药物的合理应用引起了人们的普遍关注。本文将以综述的形式,分析妇产科临床抗菌药物应用现状。
在政策语料库建设过程中,严格按照图2的架构完成实施。在需求设计中,把采集数据类政策语料作为实际需求;在语料库设计环节,使用ASP.NET语言进行程序设计,SQL Server作为数据库,将语料元信息存储在数据库中,将语料内容用文本文档的形式存储到服务器磁盘中;在语料采集中采取人工采集的方式,由于政策文献及政策报告具有规范、严谨等特点,因此人工采集有效地确保了语料的精准度;在语料预处理过程中采用第三方工具及程序包来完成,主要使用Jieba和ICTCLAS,处理后将分词及词性标注结果同步到数据库中;由于所构建的是政策语料库,因此在数据库设计过程中增加了政策词表、政策语句片断表,以及政策层级、政策主体等字段。在可视化展示环节,主要为用户提供了语料查询、复杂检索、元数据统计等功能,详见图4;在语料库使用环节,在CoW中打通了数据接口,实现利用第三方工具及组件调用已收集语料并分析处理,通过关键词分析、主题分析、回归分析、共现分析等多种方法对语料库中的数据进行了深入挖掘;在运维与更新中,课题团队继续收集整理语料库中的语料,并不断调整类目,开发人员在更新程序的同时,也不断地优化数据库,使平台能够实现可持续发展的闭合生态链路。
图4 数据政策语料库检索功能图
由于语料库建设时间较短,因此在未来团队要在以下三个方面继续完善并深入研究。第一,CoW与第三方工具及组件接口需要进一步调优,且要实现数据同步共享。第二,语料库中数据积累到一定规模后,要进一步实现平台在智慧推送、智能分类、远距离阅读等方面的应用场景。第三,继续收集完善语料资源,并逐步吸纳多领域人才加入课题团队。
4 应用场景
“智慧”不仅是当今社会各类服务过程中的重要工具和内容[32],也是未来社会服务的发展趋势。大数据、文本挖掘和机器学习是智慧必不可缺的条件,在文献信息视阈下面向智慧服务的语料库建设是对所收集的文献信息语料分析并挖掘得到深层知识,再通过机器学习算法不断内化而形成智慧服务应用场景的过程。该项研究对利用语料库面向社会提供智慧服务起到至关重要的现实意义及应用价值。随着技术的不断发展,语料规模不断扩大,本文所构建的政策语料库可在智慧推送、智能分类、远距离阅读等领域有广泛的应用,由于政策报告是文献的一部分,因此以上应用领域可广泛用于文献信息包含的所有内容。
1)智慧推送。智慧推送是当今主流的信息推送方式,它具有主动性、个性化、智能化、高效性的特点,是信息传播方式的重大变革[33]。智慧推送利用云计算、大数据、机器学习等技术,通过协同过滤、矩阵分解算法,将信息流通方式的主体由“用户”转变为“信息”。随着文献信息语料库的逐步构建,可以实现把文本化的文献语料与用户行为特征相结合形成个性化推荐及精准化的服务内容推送,在保证资源均等化分配的同时,使推送像大脑一样具有智慧[34]。在政府及文献服务机构中以用户为中心,通过对知识、信息、服务资源和用户进行智慧化的感知与管理,完成智慧知识服务内容、服务内涵和服务能力的实时增值,实现为用户提供智慧化、精准化的文献信息服务。语料库将图书、专利、政策报告、期刊、典籍等数据资源关联与整合,在权威、更新及时的语料数据支撑前提下,通过智慧推送实现精准服务,不但可以提升用户个性化服务质量,还可以给予用户优质服务体验,实现用户在数据资源中方便、准确地获取到最有用且最有价值的信息。
2)智能分类。文献分类是一项工作量大,专业性强,又需多人协作的综合性工作,目前主要采用手工分类。在大数据时代,对数量庞大、内容复杂、形式多样的文献进行准确归类、标引是重要且复杂的工作,对工作人员也提出了较高的要求;此外,由于编目外包和图情专业教育的转型,资深标引编目人员日益减少,文献加工质量和效率都呈下降趋势。随着语料库建设的逐渐深入,利用机器学习方法对文献信息进行智能分类已具备实施的基础。传统的分类方式有较大的局限性,分类过于依赖题名、关键词、摘要等信息,这些信息并不能体现出文献之间的差异,这就会导致用户无法检索到需要的文献资源,严重影响了精准度,而文献内容是体现文献细微差别的重要切入点,通过机器学习中的贝叶斯法、中心向量法、支持向量机及人工神经网络等分类方法,再结合智慧推送的应用提升分类准确率和细分程度。智能分类可以解决编目人员紧缺,加工质量和效率下降的问题,随着文献语料信息不断增多,智能分类的准确性也会大幅度提升,在未来智能分类必定会在政府及文献服务机构得到广泛应用。
3)远距离阅读。远距离阅读作为文献分析和解释的工具,它是图情研究领域哥白尼式的革命,未来几十年将会迅速发展。近距离阅读一直作为传统文献研究的核心要素,用户可以仔细理解文献的特点及文本的变体、历史、传播、可能的含义和细微差别。随着文献信息语料体量不断增长,远距离阅读可以作为未来政府及文献服务机构为用户提供智慧服务重要场景,远距阅读并不是传统人文方法的数据化或快捷化,它是一种新的研究方式,通过运用计算方法,提出关于思想历史、语言使用和文化价值等创新问题。远距离阅读是通过大规模信息语料,结合自然语言处理算法,从大量的文本中自动抽取要旨并对其进行总结,从研究者多角度发现知识演变趋势和数据关系,发现更大范围趋势、模式和关系,而这些是无法从单个文本或细节分析中获取的。远距离阅读是一种新型文献解读方式,主张通过计算机处理原文,生成新的概要性内容,以支撑读者理解或研究[35]。
5 结束语
随着大数据、云计算、机器学习等技术的快速发展,文献信息资源会日益丰富,内容文本化是实现文献精细化研究的趋势。语料库建设是一项庞大而复杂的工程,不能一蹴而就,尤其是在文献信息视阈下面向智慧服务的语料库建设更要注重每一个环节,细致地做好每一步,从而完成高质量、大规模的语料库的构建。本文详述了以文献信息为研究对象,以智慧服务为最终目标的语料库的构建过程,通过构建政策语料库的实例验证了整个语料库建设过程的可行性,最后在智慧推送、智能分类、远距离阅读等智慧服务应用场景进行详细阐述。希望通过本文的介绍,使文献信息视阈下语料库的研究可以在更多智慧服务场景中广泛应用。
参考文献
[1] 吴淑娟,屈福志.论文献信息学的理论体系[J].图书与情报,2006(4):65-68.
[2] 李益婷.文献信息学研究回顾与展望[J].图书馆学研究,2010(2):7-10.
[3] 梁茂成.什么是语料库语言学[M].上海:上海外语教育出版社,2016.
[4] Brown Corpus[EB/OL].[2018-12-10].https://en.wikipedia.org/wiki/Brown_Corpus.
[5] British National Corpus[EB/OL].[2018-12-10].https://corpus.byu.edu/bnc.
[6] Corpus of Contemporary American English[EB/OL].[2018-12-10].https://corpus.byu.edu/coca.
[7] Corpus of political discourse in Cornell University[EB/OL].[2018-12-10].http://www.cs.cornell.edu/home/llee/data/.
[8] MPQA opinion Corpus[EB/OL].[2018-12-10].http://mpqa.cs.pitt.edu/corpora/political_ debates/.
[9] CCL现代汉语语料库[EB/OL].[2018-12-10].http://ccl.pku.edu.cn.
[10] 国家语委现代汉语语料库[EB/OL].[2018-12-10].http://corpus.zhonghuayuwen.org.
[11] BLCU Corpus Center[EB/OL].[2018-12-10].http://bcc.blcu.edu.cn.
[12] 现代汉语平衡语料库[EB/OL].[2018-12-10].http://asbc.iis.sinica.edu.tw.
[13] Linguistic variation in Chinese speech communities[EB/OL].[2018-12-10].http://www.livac.org.
[14] 刘泽权.《红楼梦》中英文语料库的创建及应用研究[M].上海:光明日报出版社,2010.
[15] 李纲,陈環浩,毛进.突发公共卫生事件网络语料库系统构建[J].情报学报,2013,32(9):936-944.
[16] 周红英,李德俊.语料库语言学与文献计量学的交汇和互补[J].语料库语言学,2016,(3)1:31-40.
[17] 裴雷,孙建军,周兆韬.政策文本计算——一种新的政策文本解读方式[J].图书与情报,2016(6):47-55.
[18] 詹菊红,蒋跃.汉英文学翻译中的缩合现象研究——以鲁迅小说为例[J].外语研究,2017,165(5):75-82.
[19] 贾卉,孙敏唯.政治文献英译的创新——基于语料库的十九大与十八大报告英译文比较[J].上海翻译,2018(5):35-40.
[20] 蔡永贵,余星.基于语料库的《论语》两个英译本的翻译风格研究[J].外国语文,2018,32(5):127-136.
[21] DIEGO M,MARTNEZ S,ELENA M.A Corpus for research in text processing for evidence based medicine[J].Language Resources and Evaluation,2016,50(4):705-727.DOI:10.1007/s10579-015-9327-2.
[22] CALZADA-PEREZ M.Researching the European parliament with corpus-assisted discourse studies from the micro-and macro-levels of text to the macro-context[J].Revista Espanola De Linguistica Aplicada,2017,30(2):465-490.DOI:10.1075/resla.00003.ca.
[23] WULFF S.What learner corpus research can contribute to multilingualism research[J].International Journal of Bilingualism,2017,21(6):734-753.DOI:10.1177/1367006915608970.
[24] ZMELIK R.Quantitative and corpus research in literary studies:possibilities and approaches[J].Slovo A Slovesnost,2018,79(1):47-65.
[25] 苟恩东,饶高琦,肖晓悦,臧娇娇.大数据背景下BCC语料库的研制[J].语料库语言学,2016,1(3):93-118.
[26] 张东,王惠临.关于建立中国国家科学技术语料库的思考[J].中国科学技术信息研究所,2010,54(6):102-106.
[27] 刘日升,杨振力.语料库资源共享平台建设构想[J].大学图书情报学刊,2012,30(2):46-49.
[28] 熊文新.Web、语料库与双语平行语料库的建设[J].图书情报工作,2013,57(10):128-135.
[29] 崔卫,李峰.俄语—汉俄平行语料库的构建设想与因应用展望[J].中国俄语教学,2014,33(1):1-5.
[30] 屈鹏.开发环境科技语料库质量评估研究[J].情报理论与实践,2016,39(5):79-85.
[31] 王雁苓,吕学实.基于网络检索的语料库软件系统评述[J].情报科学,2014,32(11):147-151.
[32] 陈臣,卫中亮.基于读者个性化阅读相关大数据的智慧图书馆构建研究[J].图书馆,2018(10):64-70.
[33] 刁楠楠、熊才平、丁继红,等.基于智慧信息推送的个性化学习服务实证研究——以“文献选读与论文写作”课程为例[J].中国远程教育,2016(3):23-27.
[34] 王庆,赵发珍.基于“用户画像”的图书馆资源推荐模式设计与分析[J].现代情报,2018,38(3):105-109.
[35] 胡悦融,马青,刘佳派,等.数字人文背景下“远距离可视化阅读”探析[J].图书馆论坛,2017(2):1-9.
Research on the Construction of Smart Service Oriented Corpus from the Perspective of Literature Information
Abstract : [Purpose/significance] Emphasis on Empirical Research in the Big Data Environment,As a quantitative research method,corpus plays an important role in language research,statistical analysis,machine learning and artificial intelligence.In recent years,with the textualization of a large number of documents,the construction of corpus will not only make the research of document information more scientific and diversified,but also make the information service more accurate and intelligent.[Method/process] On the basis of the existing corpus research and the related theories of library,information and philology,this paper takes document information as the research object and aims at providing smart service to the society.It puts forward a new idea of constructing a corpus of smart service from the perspective of document information.[Result/conclusion] This paper describes the process of building a corpus from the perspective of document information,and describes the application scenarios of promoting smart services in the fields of intelligent push,intelligent classification and distant reading.
Keywords : literature information;corpus;smart service;application study
DOI: 10.16353/j.cnki.1000-7490.2019.06.022
* 本文为国家社会科学基金重点项目“开放数据与数据安全的政策协同研究”(项目编号:15ATQ008)和黑龙江大学对俄问题研究专项项目“俄罗斯信息安全体系研究”(项目编号:DEZ1906)的成果之一。
作者简介: 马海群 (ORCID:0000-0002-2091-7620),男,1964年生,博士,教授,博士生导师。研究方向:信息政策与法律方向研究。张涛 (ORCID:0000-0002-3367-4541,通讯作者),硕士,高级工程师。研究方向:文本计算,数据库研究。
录用日期: 2019-01-21
标签:文献信息论文; 语料库论文; 智慧服务论文; 应用研究论文; 黑龙江大学俄罗斯语言文学与文化研究中心论文; 黑龙江大学信息资源管理研究中心论文; 黑龙江大学信息与网络中心论文;