《远大前程》文本的语料库分析论文_田原

《远大前程》文本的语料库分析论文_田原

(四川师范大学基础教学学院,四川 成都 610068)

摘要:为了研究《远大前程》丰富的潜在涵义,作者对《远大前程》的文本进行语料库分析,包括统计分析、词频分析和词汇聚类分析。

关键词:语料分析;远大前程;词频分析

A corpus analysis of the text of Great Expectations

TIAN Yuan

(College of Fundamental Education,Sichuan Normal University,Chengdu,Sichuan 610068,China)

Abstract:For the potential implications of Great Expectations,a corpus analysis of the text is performed: statistics analysis,Word frequency analysis and Word cluster analysis.

Key words: corpus analysis,Great Expectations,Word frequency analysis

《远大前程》是英国作家查尔斯•狄更斯晚年写成的小说,故事背景为1812年耶诞节前夕至1840年冬天,主角孤儿皮普(Pip)以自传式手法,叙述从7岁开始的三个人生阶段。此小说贯彻了狄更斯文以载道的风格,透过孤儿的跌宕起落,表达他对生命和人性的看法。我们对《远大前程》进行了语料库分析。

一、统计分析

使用统计工具WordSmith Tools,我们得到了《远大前程》的文本统计数据。以下是统计结果的部分摘要。

N Overall 1

text file Overall Great Expectations.txt

1-letter words 10,696

2-letter words 35,588

3-letter words 43,972

4-letter words 36,108

5-letter words 19,197

6-letter words 13,394

7-letter words 11,339

8-letter words 6,801

9-letter words 4,381

10-letter words 2,611

11-letter words 1,370

12-letter words 737

13-letter words 394

14-letter words 113

二、词频分析

词频分析(Word Frequency Analysis)是对文献中词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它的基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。“该词的频率值通常是最可靠和客观的因素,表示该词在该语言中的相对价值”(Ginzburg et al1966:238).因此,我们对文本进行了词频分析。毫无疑问,诸如the,and,so等功能词具有高频率,因此省略了这些功能词。以下是按照降序排列的高频率的主要实义词。

期刊文章分类查询,尽在期刊图书馆

N Word Freq.%

40JOE 6910.37

72PIP 326 0.17

96HAND 2700.14

104 GOOD 256 0.14

105 WEMMICK 2550.14

107 SAW 2500.13

110 HAVISHAM 2420.13

111 PUT 2420.13

113 THINK 2410.13

114 TOOK 2410.13

从这个频率表中,我们可以看到主人公皮普,他从小父母双亡,依靠性格暴戾的姐姐抚养长大,和亦师亦友的姐夫乔学习铁匠工作,安于过着下等人的生活。偶然的机会被选进镇上萨提斯庄园,受雇于有钱的贵妇郝维辛,遇见了年轻高傲的艾斯黛拉。在内心阴霾的郝维辛小姐的层层暗示引导下,皮普爱上了艾斯黛拉,思想发生了转变,开始想要为了成为上等人而努力。恰巧年少时期搭救的一名逃犯为了报恩暗中资助皮普,使他有机会学习上等教育,进入上流社会。可惜命运弄人,就在皮普认为有资格与艾斯黛拉平等恋爱的时候,一系列的转折让皮普的“远大前程”瞬间幻灭,并最终让皮普回归到现实。这展现了皮普跌宕起伏的成长经历,也体现了狄更斯一生经历的深刻认知。

三、词汇聚类分析

词聚类分析是指,通过文献聚类统计的方法,测量文本中某些词汇共同出现的频率,计算主题词之间的联系密切程度,并将距离较近的主题词聚集在一起,“形成一个个概念相互独立的类团,使得类团内属性相似性最大(Ullmann,1957:30)”。

使用单词聚类分析,我们发现这四个实义词具有很高的频率。

N Word Freq.

40JOE 691

72PIP 326

96HAND 270

104 GOOD 256

词汇类聚分析也揭示了作者的写作特征。例如,单词 good有较高的出现频率,因为人物对话中经常会用到good,而这对刻画人物的性格特点是很有帮助的。下面是单词good的同现集(concordance set)的一些样本,可以发现都是人物对话时用的。

N Concordance Set

1e real genuine One! It does me good fur to look at you,Pip.

2and blood 'uns,if you please,good Lord!) and not my London

3on this stormy night he was as good as his word,and with me。

参考文献

[1]R.S.Ginzburg et al.A course in modern English lexicology.Moscow: Higher School Publishing House,1966

[2]S.Ullmann.The principles of semantics.Glasgow:Jackson,1957

[3]Charles Dickens,Great Expectations,OUP,1994.

作者简介:田原(1977-),男,四川内江市人,四川师范大学,基础教学学院副教授,英语语言文学硕士,研究方向为英语语言学,文本分析。

论文作者:田原

论文发表刊物:《知识-力量》2019年9月32期

论文发表时间:2019/7/19

标签:;  ;  ;  ;  ;  ;  ;  ;  

《远大前程》文本的语料库分析论文_田原
下载Doc文档

猜你喜欢