外国人汉字采集数据库的构建与汉字获取分析_博雅论文

外国人汉字习得数据库的建设与汉字习得分析,本文主要内容关键词为:汉字论文,习得论文,外国人论文,数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      一 研究背景

      “汉字难学”是对外汉语界的老生常谈。为了克服这一难题,近年来,学界从不同角度探索了外国人(尤指非汉字文化圈的学习者)学习汉字的规律。例如,冯丽萍(2002)、江新(2006)分析了汉字的笔画数、结构方式、频率、构词数等与汉字习得的关系;高立群等(2000)、吴门吉等(2006)及王骏(2009)研究了学习者因素与汉字习得的关系;哈丽娜等(1999)和郝美玲等(2005)研究了教学法因素对习得的影响;江新等(2004)、李蕊(2005)研究了留学生汉字习得的发展过程;江新等(2001)和柳燕梅(2009)的研究则涉及了学习者的学习策略。这些代表性的研究基本上覆盖了外国人汉字学习的各个方面。然而,要提出对“汉字难学”的有效解决方案,现有的研究却存在几个方面的不足:其一,针对形成每个汉字学习难度的研究,采用的都是抽样(往往不超过100字)的方法,既未能覆盖全体常用字或800甲级字,也未能覆盖某一初级教材所要求掌握的全体汉字;其二,因为全体初级汉字的习得不是一蹴而就的,而是往往要经历一个长达一年以上的过程,在某一特定时间点切入进行的问卷式调查或许并不能代表初级学习者真实的学习情况;其三,个体学习者的汉字认读能力和书写能力未必均衡,如果学习者在其中一个方面有所欠缺,那么从中介语理论的角度审视,也应当将其归为一种独特的习得状态。现有的研究受制于任务形式,很少同时涉及这两个方面。或许正是因为这些不足,目前的汉字教学研究仍停留在反复争论“文”和“语”的教学孰先孰后等很难去验证的问题的层面,而较为扎实系统的工作,比如在总体设计阶段制定汉字总表、汉字教学大纲及在教材编写中有意识地融入汉字教学的渐进性计划等,却仍告阙如,研究整体上缺乏突破性的进展。

      为了尝试解决上述问题,本课题组前后花费近4年时间,调查收集了30名非汉字文化圈的零起点学习者各自在1年时间内,完整学习某一初级精读教材后对其中所包括的全部汉字的实际掌握情况,建立了“外国人汉字习得数据库”(下文简称“数据库”),以期为广大研究者和教师提供一定的参考。①

      二 数据的收集与整理

      课题组所在教学机构开设汉语长期教学班,按照国内惯例,初级班为零起点学生开设,历时1年,分上下两个学期,实际教学时间为32周,精读课总计约256课时。初级班采用《博雅汉语——初级起步篇》(下文简称《博雅》,北京大学出版社,2005年)第Ⅰ册和第Ⅱ册为教材。该教材发行量较大,国内外使用较为广泛,具有一定的代表性。

      《博雅》上册30课课文,下册25课。我们手工统计了每一课的新出汉字,发现教材共要求掌握汉字1048字,因为任务设置合理性的原因剔除3字,实际统计的是其中的1045字的习得情况(《博雅》1045字列表见数据库附件1)。

      从数据上分析,《博雅》平均每课要求掌握19.0个新出汉字,最多的课要求30字,最少的11字,标准差为4.40,显示每课要求掌握的汉字数波动较大,且前期每课要求掌握的字数显著多于后期。应该说,这不太符合我们一般认为的循序渐进的学习规律,也许这在“随文识字”的教材设计中是难以避免的现象,下文我们也将分析这种分布状况对于习得的影响。

      从教材的选字情况看,使用郭曙纶(2013:48-51)提出的方法,可以统计得出,《博雅》1045字中,有1024字属于国家语委1988年发布的2500常用字范围(见数据库附件2),重合率为97.99%。而依据汉语水平考试中心编制的《汉语水平词汇与汉字等级大纲》的划分标准,则可以统计出《博雅》1045字中汉字等级分布情况如表1所示:

      

      数据显示教材所要求掌握的汉字符合“初级”标准,尤其是全部800个甲级字在教材中出现了725个。以上两种统计数据保证本研究所调查的汉字习得情况具有较大的普遍意义。

      对于学习者而言,《博雅》全部汉字的习得是一个历时1年的过程,适合采用纵向研究,而为了结论的普适性,我们又希望数据来源于尽可能多的学习者。因此,研究采用跟踪多名个体学习者后再汇总数据的方式展开。我们将1学年分为四个时间段,分别在第一、第二学期期中考试后、期末考试后这4个节点,采用纸笔测试的方式进行数据收集。若一名受试完成整个测试过程(4个节点共8套试卷),则该份数据生效,登记为数据01-30中的一个编号。8套试卷的代号和对应的内容如表2所示:

      

      试卷体例方面,认读卷(A卷,1A-4A见附件3)采用呈现单个汉字,请受试写出拼音并举一例(可以为生词、短语或句子)来说明其用法。例如:

      character pīnyīn word/phrase/sentence

      包 ________ ________

      在计分时,还记录该受试未能得分的汉字属于认读错误(如将“白”认读为“百”)还是无法认读(留空白)。

      而书写卷(B卷,1B-4B见附件4)则采用呈现一个生词的拼音和英译,请学生写出对应汉字的方式。例如:

      pīnyīn (translation) Character(s)

      lǎoshī teacher ________

      对于未能得分的汉字,记录其究竟属于无法书写(留空白)、错字(写成不存在的字符)还是别字(如将“体”写成“休”)。

      我们花了3年多时间收集到30份完整的数据(全部来自非汉字文化圈学习者)。在手工批阅、校对后,将这30名受试的习得情况汇总输入SPSS软件,得到数据库的首批变量,包括:汉字(共1045字,即数据库包含1045项个案)、(该汉字)认读错误数、无法认读数、认读得分(=30-认读错误数-无法认读数)、空字数(无法书写)、错字数、别字数、书写得分(=30-空字数-错字数-别字数)。上述数据都是从30份完整数据中得到的。此外,对于单个汉字,可以进行多项属性的标注,这些我们将在第三、四部分中具体论述。

      三 学习者汉字习得情况分析

      3.1 数据分析

      我们先来看看30名学习者的总体得分情况(总表见附件5)。因为以往的研究(如刘丽萍2008;王骏2009)多次证实,汉字的认读和书写无论从认知心理还是从实际掌握情况来看,差别都很大,所以我们依靠研究设计(AB卷)来分别观察这两者的实际情况。

      数据显示,汉字认读方面,30名学习者的平均认读得分率(百分比)随时间推移逐步下降(见图1),其中1A-2A及2A-3A这两组数据对比呈现显著性差异,3A-4A这组对比则未呈现显著性差异。进一步分析发现,在4个时间节点上,学习者平均无法认读率呈逐步上升趋势(见图2),其中1A-2A及2A-3A这两组数据对比呈现显著性差异。此结果与前者一致。

      

      较为有趣的是,虽然相比无法认读的字数,学习者错误认读的字数很少,但是错误认读率却呈现一条折线,即在时间点1A-2A基本持平,2A-3A上升,而3A-4A则下降(见下页图3)。其中2A-3A的数据对比呈现较显著差异。

      

      汉字书写方面,学习者的得分率同样在开始呈现下降趋势,但在节点3和节点4(即学习的最后8周)持平(见图4),其中1B-2B及2B-3B这两组数据对比呈现显著性差异。与此一致的是,平均空字(学习者无法书写的字)率在各阶段呈现先上升后持平的情况(见图5)。

      

      平均错字率和别字率的变化十分特别。江新等(2004)的研究发现,在书写错误中错字比别字多,但随着识字量增加,被试汉字书写中的错字错误减少,而别字错误增多。图6和图7恰好证实了上述结果,我们不仅可以看到学习者的错字率在较长时间维持在同一水平后,在节点3和节点4之间出现显著下降(与空字率趋势相反),别字率则一路攀升,而且可以发现在学习的末期,平均别字率超过了错字率。这应当就是学习者“字形意识”逐步建立的真实反映。

      

      比较汉字的认读和书写情况,发现二者平均得分率的变化在各时间节点上呈现同步,都是由显著降低变为渐趋平稳。书写和认读的得分率一方面在各个节点都呈现高度的相关性,另一方面认读得分始终显著高于书写得分(见图8及下页表3),得分率差距从10个百分点逐渐增至14个百分点。值得注意的是,在学习的末期,学习者的平均书写得分率只有50%左右。

      

      以上的分析都是将30名学习者作为一个整体来看待的。那么他们之间的个体差异如何呢?4个阶段的认读、书写得分率标准差变化情况如图9所示。可以看到书写得分率的标准差始终高于认读,且二者都呈持续上升的趋势,显示书写得分的个体差异更大,且随着时间推移,学习者之间的差距逐渐拉开。

      

      3.2 理论探讨

      综合3.1部分的数据结果,我们发现总体而言学习者的汉字水平进步并不简单地体现为在单位教学时间或者一定量的教学目标范围内汉字习得率的提高。在前1个半学期(或视为前800字)的学习过程中,对于新出现的汉字,学习者的平均无法认读率、无法书写率都是上升的。或许可以理解为,随着学习者已掌握汉字总量的不断增加,及其对于记忆资源的占用,要求学习者在同样的单位时间内持续掌握相同数量的新出汉字会变得越来越难。而在学习约24周(或学习800个汉字)之后,这种趋势消失,而代之为在较低习得率上的持平状态。由于我们的研究截止于32周/1045汉字的状态,之后这种状态是否会持续至2学年/2000字以上(我们认为这是成功学习者才能达到的阶段)的时间点尚未可知。但是可以合理推断的是,在学习时间接近1学年且学习汉字超过800字后,学习者的综合语言能力、汉字字形意识都渐趋成熟,对于新出汉字(或许也包括其他语言要素)的掌握途径开始由主要依靠(精读)课堂转为更广泛的来源。

      我们大胆假设汉字习得也存在一个“中介”状态,因为利用3.1部分分析的汉字偏误种类可以得到更多启示。认读方面,虽然无法认读率呈一路上升的趋势,但是错误认读率在1A-2A、2A-3A、3A-4A这3个阶段中却出现平一升一降的变化。如果说第二阶段是因为已学汉字总量的增加而引起混淆的话,那么第三阶段的这种变化则体现汉字识别能力的提高。这恰与整体得分率的变化相吻合。书写方面,平均错字率与平均无法书写率的趋势不同,它在前期持平,而在最后阶段下降,显示整体书写能力的进步;而平均别字率却一路上升,甚至在最后一个阶段仍呈现明显的上升趋势。我们由此进一步提出,在汉字中介状态的“连续统”上,错误认读/错字较之无法认读/无法书写更接近于习得的状态,而别字较错字更接近于习得的状态。江新等(2004)提出的音同别字和形近别字出现的先后关系也可纳入这个体系,我们将在第四部分中进一步分析。

      3.1部分的数据同样证实,对于同一学习者而言,汉字书写的水平与认读的掌握密不可分,但在同一时间点上几乎肯定会低于前者。或许可以推断为汉字书写能力的掌握晚于认读。王骏(2009)在极小样本(50字)的研究中发现汉字认读掌握率低于读写掌握率约28个百分点,而本研究采用大样本(1045字)之后发现实际差距在10-15个百分点。随着时间的推移,读写之间的得分差似乎有略微扩大的趋势,这也可能与学习途径由课堂转为课内外相结合,而自然环境中的汉字习得更偏向于认读有关。

      最后,学习者之间不同的发展趋势随时间推移逐步显现。平均得分率标准差的逐步扩大说明成功学习者的进步速度要快于另一部分学习者,而后者的习得进程可能会停滞于某一阶段(随着学习汉语时间的增加,掌握汉字量将不再会有显著增加)。这一变化趋势在书写领域比认读领域更为明显。或许我们可以将其视为汉字习得过程中的“化石化”现象。

      四 汉字习得情况分析

      4.1 数据分析

      数据库中的每一个汉字,除第二、三部分提到的各种得分情况外,我们还可以标注出多种属性。其中第一大类是汉字的普遍属性,包括拼音、声调、笔画数、自然字频、是否左右对称、结构方式、造字方式、汉字等级等多项。第二大类是与受试实际参与的教学过程有关的汉字属性,包括课号(作为连续变量,可表示该汉字出现时所处的学习阶段)、全书字频、生词总表字频(可以代表该字在全书中的构词能力)以及该字所在课的新出汉字总数(第二部分已统计)。

      我们首先利用得分和课号都是连续变量的特性来检验第三部分的一些数据结果。分别对《博雅》全部1045字的课号—认读得分、课号—书写得分、课号—无法认读数、课号—错误认读数、课号—空字数、课号—错字数、课号—别字数进行二变量相关分析,结果如表4所示,与第三部分的发现一致的是,单个汉字的认读和书写得分(0-30之间)随出现时间的推移都呈明显的下降。与之相应,无法认读数、错误认读数和无法书写(空字)数(0-30之间)随时间推移都显著上升。比第三部分显示得更清晰的一点是错误书写数随时间的推进出现明显的下降。别字数与该字在教学中出现的早晚没有关联。这些数字再次支持我们在3.2部分提出的中介状态“连续统”观点。

      

      

      回头来看汉字的整体得分情况。全体1045汉字的平均认读/书写得分及标准差情况如表5所示。对于这些汉字,若仅依靠直接观察的方法,我们也能发现一些共同的特征。比如,得分最高的汉字不仅普遍笔画数较少,结构简单,而且似乎使用的频率都很高。无法认读数高的汉字和无法书写数高的汉字有一部分是重合的,它们都具有笔画数多、结构较为复杂的特点。错误认读数高的汉字多数在去除、加上或者改动某一部首的情况下能写成另一汉字(如“捎、稍、销”三字),而错字数高的汉字似乎都是左右不对称的。别字数高的汉字似乎都在音或形的一个方面能找到相近的其他字。然而,我们有理由怀疑诸如“频率、出现先后”这样的因素会导致这些错误的产生,因此,有必要引入更全面的方差分析和回归分析来一窥其真相。

      在数据库中,可作为因变量进行研究的数据项有8项,分别为:无法认读数、认读错误数、认读得分、错字数、别字数、无法书写数、书写得分以及习得总分(=认读得分+书写得分)。除最后一项的数值范围为0-60以外,其余皆为0-30。

      作为自变量引入的数据项分3类,其一是分类变量,我们设计的有是否左右对称②、汉字的结构方式③(但在实际统计中,发现“框架”结构的字数仅5字,为了统计方便我们将其归入“独体”结构)、造字方式(钱乃荣主编(1990)划分的独体、义符+义符、义符+音符、音符+记号、义符+记号、记号+记号6大类的划分较为科学,在此采用之)3种。

      其二是等秩变量1种,即旧版HSK大纲所规定的甲乙丙丁4级汉字,与超纲字合在一起后,标记为1-5共5个等级。

      其三是连续变量,包括笔画数、自然字频(采用北大CCL语料库提供的数据)、全书(文本+练习题)字频(采用郭曙纶(2013)提供的方法统计)、生词表字频(统计方法同上,这基本上可以代表该汉字在所用教材中的构词能力)、汉字的课号(代表在教材中出现阶段的早晚)以及该汉字出现那一课的总新出汉字数(我们想考察是否在一课课文内要求掌握汉字过多会影响其习得,第二部分已统计出该值的区间为11-30)共6项。

      由于3种分类自变量都和汉字的字形有关,我们先分别对它们进行单因素方差分析,以观察其对汉字习得情况的影响。

      表6的分析显示左右对称的汉字,无论读写,习得情况明显好于不对称的汉字。

      

      表7和表8的分析显示,不同结构方式对于汉字的习得影响很大,最容易习得的为独体字,错误率最高的则始终是左右结构的汉字。值得注意的是左右结构的汉字在全体汉字中的比重大约是一半。

      

      

      表9和10的数据显示不同的造字方式对汉字习得也有着很大影响,习得情况最好的是独体字,“义符+义符”和“记号+记号”的汉字习得情况也相对较佳。得分最低的始终是在现代汉字中占绝大多数的形声字。

      

      

      现将是否对称、结构方式、造字方式三个要素进行正交设计,检验其对习得的影响,结果如下:

      

      

      

      数据证明在同时考虑这些因素的情况下,汉字的结构方式始终对习得情况起到最大的影响;是否左右对称在一定程度上影响汉字的认读,而较少影响其书写;造字方式不同对于汉字的书写成绩有一定影响,而对认读没有太大影响。

      下面分别将汉字的习得总分、认读得分、书写得分、错误认读数、错字数、别字数等6项要素作为因变量,与上面提到的6项连续变量及1项等秩变量进行二变量相关分析,结果如下:

      

      可以看到单个汉字习得与教学进程推进、该汉字笔画数、该汉字等级呈显著负相关,而与全书字频、自然字频以及生词表字频呈显著正相关;与所在课新出汉字数的多少没有相关性。

      认读、书写的整体情况与除所在课汉字数多少以外的所有变量均呈显著相关。错误认读数与笔画数多少无相关性,笔画数多的汉字和笔画数少的汉字都可能被认读为其他汉字。写错的汉字较少受字频的影响,尤其是汉字在教材中构词能力弱并不增加其被写错的可能性,相反笔画多是汉字被写错的主因。最为特别的是别字的情况。我们发现别字数不与我们列举的任何一项连续/等秩变量呈显著相关,其成因恐怕要从字形结构及其他方面去加以分析。

      由于习得情况与多项自变量都有相关性,因此我们进一步通过多元回归分析来观察真正制约汉字习得的因素。以总体得分、认读得分、书写得分、错误认读数、错字数、别字数分别作为因变量进行回归分析后,得到6张回归系数表,这里仅展示因变量为习得总分的一张(只展示关键数值):

      

      数据显示排除“生词表字频”这一项自变量,可见单个汉字构词能力的强弱并不影响总体汉字习得的情况。根据Beta值,3项影响最大的因素依次为全书字频、汉字等级和笔画数。

      采用同样的方法,若以汉字认读得分作为因变量,排除的自变量是自然字频,3项影响最大的因素依次是汉字等级(负相关)、全书字频、笔画数(负相关)。

      以汉字书写得分为因变量,显示接纳全部自变量,3项影响最大的因素依次是全书字频、笔画数(负相关)、汉字等级(负相关)。

      以错误认读数为因变量,显示仅两项自变量对其产生影响,依次为全书字频(负相关)和课号。这说明学习者把汉字错认为它字的原因,一是该字的复现率低,二是掌握汉字总量的日渐增多。

      以书写错字数为因变量,显示有3项自变量对其产生影响,依次为课号(负相关)、笔画数和全书字频(负相关)。这说明笔画多、复现率低的汉字容易写错,尤以前者的影响为大,但随着学习进程的推进,写错字的情况急剧减少。

      以书写别字为因变量,没有发现任何对其产生影响的变量,这与前面的结论一致。

      最后我们来分析一下造成别字的因素。字形方面,我们先研究结构方式、造字方式、是否对称这3个因素对于别字产生的单独和交互影响。

      

      

      数据显示结构方式和造字方式的不同都对别字的形成有着影响。左右结构和包围结构的汉字容易被学习者写成别字,“义符+音符”、“义符+记号”以及“音符+记号”的汉字比其他造字方式的汉字更易被写成别字,是否对称对于别字形成的多寡并无影响。当这3种因素彼此交互时,唯有结构方式显示较强的主效应。

      那么影响别字形成的是否还有其他原因呢?我们针对数据库中别字数≥2的总共238个汉字,通过查阅原始数据来源即书写卷1B-4B来归纳分析其最可能的成因。在分析中发现,对于同一正字,别字的形式或是全都一样(学习者普遍误写成同一汉字),或是属于同一类型(如“晴”被写成“清”或“请”),因此,对于每一个正字,我们只需标注一项别字类型即可。根据这个原则,我们发现并整理了4种别字类型:字形相近造成的别字(如“体”被误写为“休”)、字形相近且字音相近而造成的别字(如“请”被误写为“情”或“青”)、字音相近而造成的别字(如“回”被误写为“会”)、在复合词中临近或者本身同义的语素被混淆而形成的别字(如“画”被误写为“图”)。我们用两种方法统计其比重,其一为直接统计每类汉字的个数,其二为将每类中的每个别字乘以出现次数后累加得到该类别字的总数,结果如下:

      

      可以看到无论用哪种方法,4类别字的比例是基本一致的,“形近+音近”别字和音近别字居多,形近别字占比较少,而语素混淆类的别字只占很小的部分。那么随着学习进程的推进,字形、字音这两大要素对别字的影响是否会产生变化呢?我们尝试将课号作为因变量,对别字类型进行单因素方差分析,结果发现F=3.852(sig.=0.010),显示不同类型别字的课号有较为显著的差异。形近别字容易产生在较早的学习阶段(课号均值=21.78),“音近+形近”的别字多产生在相对较晚的阶段(课号均值=30.84),而纯音近(课号均值=25.59)及语素混淆(课号均值=24.50)的别字平均课号居中,或者可以认为它们较均衡地分布在整个学习过程中。

      4.2 理论探讨

      综合4.1部分的数据结果,我们再次证实汉字的习得进程是一个总量增加而增速减缓的过程。字形方面,汉字的结构方式对其习得有最大的影响,独体字相对容易习得,而数量众多的左右结构汉字最难习得。(现代汉字学划分的)不同造字方式对于汉字的书写有一定影响,独体字及由义符组合而成的汉字可能因为有较强的理据性,所以较容易习得,而数量最多的形声字最难习得,在已有的研究中,这一结论能够得到佐证。比如,李燕等(1992)的研究发现,现代汉字中形声字的形符表义度仅为43.79%,音符的表音度虽较高,为71.54%,然而数量却多达1326个,这显然是不利于学习的一个因素。左右对称的汉字比较容易认读,这一点也曾为陈传锋、黄希庭(1999)的研究所证实。

      汉字的认读和书写能力习得随着识字量的增加,提高渐趋困难。影响认读能力习得和书写能力习得的因素并没有太大差异,课本字频的效应是最为明显的,提示我们要强调而不是弱化目标汉字的复现率;第二明显的因素是笔画数,因此对于笔画数多的汉字有必要进行强化教学。相对而言,汉字的构词能力、自然(在母语环境中的)字频对习得效果的影响较弱。HSK大纲所划分的汉字等级是有效预测汉字习得难度的一个指标,但是考虑到其设计与课本字频有着天然的高度相关性,且甲级字总量高达800字,是数据库调查汉字的主体,因此或许它的指导作用并不是想象的那么大。由于所在课汉字数量过多会对习得产生一定的负面影响,且考虑到学习者掌握汉字的增量随时间递减的情况,初级精读教材在较晚的阶段(如第二学期)可考虑将每课要求掌握的新出汉字数量适度减少。

      我们将汉字习得视作一个渐进过程,将错误认读汉字、书写错字和别字视作学习进程中的积极因素。对于别字的单独研究发现其成因由字形因素为主逐渐转向字音为主,而最终转为音—形共同的作用,显示非汉字圈学习者对于汉字这一独特的文字体系所具有的“音形义”一体的特性的逐步认识。

      五 结论与设想

      微观层面,数据库提示了一系列影响汉字认读和书写习得情况的因素。这些因素多数都曾被前人发现,我们只是在较大的样本容量上进行了验证。唯一较新的发现可能是别字的成因。比重极大的一类别字与其正字之间,不仅有着字形上的相似,也有语音上的关联。考虑到形声字的构成特点,这实际上说明在教学中需要格外注意辨别声符相同而义符不同的汉字。通过强调义符与意义的关联性应该可以有效解决这个问题,然而大量的形声字存在着义符表意性弱化的状况,这对教学是个较大的挑战。

      我们认为用数据库进行研究的主要价值在于宏观的层面。当把诸多的影响因素以及在各个时间点上的各项得分情况放在一起之后,我们发现汉字习得是一个随时间推进,总量递增而增幅减小的过程。目前距离Selinker(1972)首次提出“中介语”的概念已有40多年的时间,然而我们很少意识到汉字这一复杂的系统对于学习者来说,很可能也存在着一个“中介状态”。错别字,尤其是别字的出现是学习进展的阶段性标志,完全应该以积极的眼光去看待。在此过程中,汉字认读的习得情况虽优于书写,但两者显著相关,且彼此之间的得分差并没有想象的那么大。这样看来,将“读”和“写”的教学完全分开或许并不是一个最优的选择。而口语先行、集中识字的教学方案虽然一方面可以利用“学习早期单位时间汉字习得率高”的优势,另一方面却面临单位时间学习汉字数过多对于习得效果有负面影响的拖累,开展起来可能会存在着一定困难。

      从《博雅》教学的实践来看,在较早阶段要求掌握的汉字较多,汉字掌握率却反而更高,这提示我们对汉字教学进行总体规划的原则应该是“在更早的阶段安排更重要的汉字”。目前,掌握自然字频的统计数据非常容易,而研究发现真正制约习得效果的是课本复现率。如果前者能代表汉字在教学体系中应该具有的“重要性”,那么在教材设计时就应努力克服初级口语语体与实际书面语体中汉字频率的差异性,或者说尽量将自然字频高的汉字安排在较早的时间点,以较高的频率出现。

      最后,本研究公开了一些可供分析的原始数据,不仅数据容量可以由其他研究者进一步扩充(尤其是其他使用《博雅》的单位),而且,因为理论方面的分析未必成熟,数据也许还可以从完全不同的方向进行解读。此外,如果数据的确具备一定信度的话,一些更具实用价值的工作也能够就此开展。比如,根据表15所呈现的回归分析,可以对每个汉字的习得难度(等级)进行量化预测。限于篇幅,我们只能另文论述。

      ①数据库原始文件及全部附件已上传至ftp://public.sjtu.edu.cn(登录名:wjchs密码:public1)。欢迎批评指正。引用请注明本文为其出处。

      ②艾伟(1948)曾提出,左右对称的汉字较之不对称的汉字更容易学习。

      ③苏培成(2001)在分析多种结构分类方式时较为推崇张普(1984)的分类,即上下、左右、包围、独体、框架5种,认为较为简明,我们也采取这一分类。

标签:;  ;  ;  ;  

外国人汉字采集数据库的构建与汉字获取分析_博雅论文
下载Doc文档

猜你喜欢