基于字料库的通用规范汉字构形属性调查研究论文

基于字料库的通用规范汉字构形属性调查研究

柳建钰1王晓旭2(1.渤海大学 文学院,辽宁 锦州121013;2.渤海大学师范学院,辽宁锦州121013)

摘 要: 本文借助通用规范汉字字料库,对通用规范汉字的构形属性进行了调查研究。结果显示,通用规范汉字构件组合时以层次结构为最主要的模式。构件组合层级数以2 层居多。拆分出的直接构件共有16073 个,去重后共有1926 个,说明现代汉字形体具有很高的系统性。去重后的直接构件中示音构件数量最多,其次是记号构件。表义构件不仅参构次数多,而且可归纳性和系统性很强。义音合成是现代汉字最主要的构形模式。记号半记号字大量出现,与表意字、形声字形成了三分现代汉字天下的局面。左右结构和上下结构是现代汉字最重要的两种结体方式。

关键词: 字料库;通用规范汉字;构形属性;直接构件;基础构件;构形模式

引 言

2013年6月5日,国务院发布《关于公布〈通用规范汉字表〉的通知》,正式公布由教育部、国家语言文字工作委员会组织制定的《通用规范汉字表》。字表是继1986年国务院批准重新发布《简化字总表》后的又一重大汉字规范,是对50 多年来汉字规范整合优化后的最新成果,是新中国成立以来汉字规范的总结、继承和提升,也是信息化时代汉字规范的新起点和新发展。字表是贯彻落实《国家通用语言文字法》,满足信息化时代汉字应用需要,适应汉字规范发展要求的重要基础性规范。研究通用规范汉字,有利于进一步提升国家通用语言文字的规范化、标准化、信息化水平,促进国家经济社会和文化教育事业发展。

《通用规范汉字表》收字8105 个,分为三级。一级字表为常用字集,收字3500 个,主要满足基础教育和文化普及的基本用字需要,也可以作为义务教育阶段的识字标准。二级字表收字3000 个,常用度仅次于一级字。一、二级字表合计6500 字,主要满足出版印刷、辞书编纂和信息处理等方面的一般用字需要。三级字表收字1605 个,是姓氏人名、地名、科学技术术语和中小学语文教材文言文用字中未进入一、二级字表的较通用的字,主要满足信息化时代与大众生活密切相关的专门领域的用字需要。

通用规范汉字属于共时层面的现代汉字系统。共时层面的汉字构形属性描写有重要的理论与实践意义。一方面,通过开展这项工作,我们可以通过尽可能全面地描写和统计,深入现代汉字系统的内部,总结现代汉字系统的构形规律,完善汉字构形学的理论体系。另一方面,描写通用规范汉字的构形属性,对于《通用规范汉字表》的贯彻落实,以及中小学教育教学、汉语汉字信息处理和新闻出版等领域的实施都具有重要的应用价值。在现代汉字的构形属性描写方面,杜鹃《现代汉字构字法探析》、付海燕《通用规范汉字构件及构形模式研究》、侯冬梅《通用规范汉字构形属性研究》均进行过相关研究,为我们的研究提供了有益参考。

新工科背景下,提高学生实践与创新能力,需要一套行之有效的机制。我们从学生感兴趣的课题出发,以项目开发为主线,进行跨学科的项目开发实践尝试。

字料库是汉字学与信息科学交叉融合后形成的一个崭新的事物,是汉字研究现代化、信息化的重要基础,可以让研究者便捷高效地检索、统计、比较和分析各种有价值的汉字信息。我们建设了通用规范汉字字料库(如图1所示),在汉字构形学理论及其衍生理论的指导下,考索字源理据,结合现代汉字字形,对8105 个通用规范汉字进行了穷尽性拆分,并对其构件属性进行了比较科学的标注。本文将借助通用规范汉字字料库,对通用规范汉字的构形属性进行调查研究,以期系统准确地认识通用规范汉字的基本构形属性,为《通用规范汉字表》的学习研究和贯彻落实提供重要的参考资料。

丁晓晓提到的“以前”是指中国的央行货币政策在2017年之前多以量化宽松为主,用超发货币的方式来刺激实体经济的大力发展,海航集团由于拥有较强的融资能力,抓住了自己可以利用的有力条件“低融资成本”实现了快速的发展。

图1 通用规范汉字字料库构形属性界面截图(以“锦”为例)

汉字属性包括构形属性、书写属性、字体风格属性、职能属性和字用属性等几个方面。其中,构形属性是汉字最基本的属性,它又包括构件组合的动态特点、结构的层级数、各级构件及其功能、构件的组合样式、构形模式、布局图式等六方面内容。除构件的组合样式目前暂时无法穷尽调查外,其他五方面内容都可以在通用规范汉字字料库中统计出来。下面结合统计数据予以具体分析。

一、构件组合的动态特点

由构件组合成整字时其层级结构有三种不同的类型,分别是平面结构、层次结构和综合结构。由基础构件一次性集合而成的是平面结构。例如哀(一维线性图为:口+衣。下仿此表达)、笆(+巴)、吖(口+丫)。由基础构件或复合构件分作若干层次逐步累加而成的是层次结构。 例如阿(阝+[丁+口])、锕(钅+[阝+[丁+口]])、锿(钅+[口+衣])。在组构过程中,既有平面结构,又有层次结构者,称作综合结构。 例如掰(手+[八+刀]+手)、黧、曌(日+月+[穴+工])。

通用规范汉字一、二、三级汉字的构件组合动态特点调查结果如表1所示:

从表中可以看出,通用规范汉字构件组合时以层次结构为最主要的模式,占了总数的七成。自小篆开始,汉字逐渐走上以形声字为主的道路,汉字构形时的结构次序呈现出层次组合占绝对优势的特点。因为“层次结构以逐级生成的方式来体现构意,这种结构富有概括性,可以把基础元素减到最少程度,又可以把字与字的构形关系在各个层次上有序地体现出来,所以是一种系统成熟后的结构方式。”[1]通用规范汉字构形时以层次结构为最主要的模式,说明现代汉字的构形系统严密和成熟程度是非常高的。平面结构是一种富有个性化的结构方式,构字效率相对来说比较低。平面结构在一级字表中所占的比例为36.71%,在三个级别的字表中比例最高,这与一级字表中独体字多见有密切关系。综合结构需要平面结构与层次结构共同参与,因此数量最少,尚不足3%。

表1 通用规范汉字构件组合动态特点统计表

二、结构层级数

由上表可以看出,通用规范汉字中每个整字大约使用3 个基础构件。小篆、东汉碑隶及宋代雕版楷书的基础部件分别是416、428、491,通用规范汉字基础部件上升至552,除了字集本身包括的汉字数量较多之外,汉字简化以及汉字形体演变也是重要的原因。

利用字料库调查通用规范汉字结构层级数,其结果如表2所示:

表2 通用规范汉字结构层级数统计表

从上表中可以看出,通用规范汉字构件组合层级数以2 层居多。其次是3 层和1 层,0 层及4—7 层总数较少。宋代雕版楷书0—5 层的构件层级占比分别是:6.40%、35.45%、42.48%、14.05%、1.57%、0.04%[2],与之相比,通用规范汉字构件组合层级的整体分布趋势大致相同,这说明现代汉字系统是比较稳定的。一级字表中层级数为0 层者占5.57%,这些独体字是现代汉字系统中的基础元素,使用频率高,参构能力强。层级结构有助于提高构件使用效率,层级数越高,汉字构形系统就越复杂。

三、各级构件及其功能

汉字由哪些构件构成,这是它最重要的属性,也是决定字与字区别的关键。因此,描写汉字构形属性必须在字形拆分的基础上对汉字的各级构件及功能进行统计分析。从构件在组合过程中的地位及其与全字的亲密关系着眼,汉字构件可以分为直接构件与间接构件两类。

(一)直接构件

直接构件直接构成整字,是整字构形理据赖以生成的基础。我们在通用规范汉字字料库中对8105 个汉字进行了比较合理的拆分,拆分出的直接构件共有16073 个,去重后共有1926个。

公路机械设备的管理是一项复杂的工作,需要考虑的因素很多,只要充分认识到现有公路施工过程中机械设备管理存在的问题,才能有针对性地采取一系列措施对其进行控制,确保公路工程施工的顺利进行。

李勇、周晓文曾统计过金文、小篆、汉隶、宋楷四种汉字字体的直接构件情况[3]

表3 金文、小篆、汉隶、宋楷直接构件统计表

由于直接构件数会随汉字系统所包含的文字个数的增加而增加,通用规范汉字8105 个汉字共拆分出了1926 个不重复的直接构件,少于小篆而多于金文、汉隶和宋楷。这1926 个直接构件组构成了8105 个汉字,平均构字率达到4.21,这说明通用规范汉字的构件使用率要比金文、小篆、汉隶、宋楷都高,这也标志着现代汉字形体具有更高的系统性。

3)数据价值密度低。井下各种类型传感器和监测设备实时运行,严密监控生产环境和设备运行状况,不间断监测产生大量的数据与从中所要获取的知识成反比。

利用字料库对通用规范汉字8105 字基础构件参构字数量及所对应构件进行统计,其结果如表6所示:

具体到一、二、三级字表各自的高频直接构件情况,则略有差异(每级仅列出前20 个):

一级字表:口(193)、扌(187)、氵(185)、木(161)、亻(120)、艹(113)、土(88)、讠(77)、月(75)、纟(74)、辶(66)、忄(63)、女(63)、日(59)、虫(59)、钅(59)、贝(52)、心(51)、火(48)、宀(47)。

二级字表:艹(175)、氵(168)、口(156)、木(131)、钅(126)、虫(88)、亻(80)、扌(76)、土(71)、女(69)、(69)、讠(65)、忄(62)、纟(61)、(59)、火(59)、山(57)、月(56)、疒(55)、石(53)。

大型科技公司和金融科技的发展为金融业带来了创新,也让金融面临信用风险、系统性风险、新的信息安全风险,和原来没有面临过的监管套利风险,从而威胁金融稳定。

三级字表:氵(119)、艹(94)、钅(83)、木(76)、土(74)、(73)、山(55)、鱼(55)、亻(51)、石(47)、女(43)、日(40)、鸟(38)、火(36)、阝(35)、纟(30)、马(28)、虫(27)(26)、口(26)。

通过DIC技术可计算得到压桩过程中桩-土界面土体位移场信息(见图4).从图中可以看出,在桩体贯入过程中土体变形以竖向位移为主,方向向下,这说明桩-土界面土体在模型桩带动下产生了以向下为主的位移.

除口、氵、木、亻、艹、土、纟、女、虫、钅等10个直接构件在一、二、三级字表都属于高频构件外,其余30 个直接构件分布存在差异。在一级字表中属于高频构件的“扌”“讠”在二级字表中位置后移,在三级字表中未能进入前20。三级字表中出现了“鸟”“阝”“马”等一、二级字表前20位高频构件中没有的直接构件,这些字基本上都是专门领域的用字。以“鸟”为例,三级字表中以“鸟”为直接构件的汉字包括鹱、鹖、鹯等38个,有10 个用作人名,1 个用作地名,其它均为古今汉语中鸟的名称[4],日常生活中并不常见。

直接构件在构字时具有不同的功能,能够直接体现汉字的构形理据。现代汉字直接构件的功能包括表义、示音、标示及记号四种。利用字料库对通用规范汉字8105 字直接构件的功能分布进行统计,其结果如表4所示:

1)媒体处理。利用Qt的多媒体Multimedia模块和大华官方的播放PlaySDK开发包,实现对抓图或录像信息的浏览、管理和转码等操作。抓图格式为.jpg格式,录像格式为大华私有的.dav格式,录像可转码为.mp4或.avi等格式。

表4 通用规范汉字直接构件功能分布统计表

从表中可以看出,去重后的通用规范汉字示音构件数量最多,占直接构件去重总数的55.76%,其次是记号构件,占28.40%。表义构件总数为7698 个,去重后剩402 个,平均参构能度达到19.15 次/构件,相比较而言,示音构件只有4.52 次/构件,尚未达到6.05 次/构件这一平均值。这说明现代汉字中表义构件不仅参构次数多,而且可归纳性很强,其系统性比其他三种构件都要强。王立军统计了宋代雕版楷书直接构件的功能分布情况,发现表义构件和示音构件的平均参构能度为10.82 次/构件和3.27 次/构件[5],通用规范汉字表义构件的平均参构能度比宋代雕版楷书高8.33 次/构件,示音构件的平均参构能度比宋代雕版楷书高1.25 次/构件。由此可知,一方面,通用规范汉字中表义构件的系统性更高,现代汉字对表意系统的归纳更加重视。另一方面,通用规范汉字中示音构件的系统性有了一定的提高,这说明现代汉字简化和整理工作在示音系统方面取得了一定的成绩。记号构件达755 个,远超东汉碑隶的14 个和宋代楷书的76 个[5](38),这说明现代汉字的记号化趋势进一步凸显,汉字的记号化使得汉字构形理据的清晰度受到很大影响,在一定程度上破坏了汉字的表意性。一级字表中的记号构件占记号构件总数的78.81%,很多常用字都由原来有理据可分析演变成了无理可说,这种情况必须引起包括基础教育教学领域、汉字学研究领域以及中文信息处理领域专家学者的高度重视。

(二)基础构件

在通用规范汉字系统中,每个基础构件参与构字所产生的汉字数量存在较大差异。参与构字量在200 个以上的基础构件包括:口(1727)、一(956)、木(694)、土(602)、艹(529)、氵(525)、日(474)、丶(390)、又(381)、十(371)、大(350)、亻(340)、扌(309)、宀(282)、月(278)、钅(272)、女(267)、匕(262)、(249)、田(248)、八(239)、火(216)、人(214)、虫(205)。只能参与构造1 个字的基础构件有51 个,比如凹、承、飞、个、、年、乓、乒、伞、书、戶、凸、卫、县、已、再、竹、車、、孑、孓、乜等等,基本上都是独体字,只能构成自身形体。

按照构字能力排序,通用规范汉字拆分出的前50 个高频直接构件(区分正体与变体)及其构字数量分别是:氵(472)、艹(382)、口(375)、木(368)、扌(281)、钅(268)、亻(251)、土(233)、女(175)、虫(174)、(166)、纟(165)、讠(161)、月(156)、忄(150)、山(144)、石(144)、火(143)、日(138)(125)、鱼(120)、辶(107)、疒(100)、鸟(100)、(98)、阝(96)、马(90)、目(85)、贝(79)、心(78)、犭(77)、禾(70)、车(68)、阝(66)、衤(64)、刂(62)、酉(59)、宀(58)、米(57)、门(55)、页(53)、广(51)、大(50)、力(49)、田(49)、礻(48)、饣(47)、巾(45)、隹(43)、又(41)。

表5 通用规范汉字基础构件统计表

结构层级数反映的是由基础构件组构成整字过程中所需要的组构次数。对于平面结构的汉字,如果是不能进行拆分的独体字,其层级数是0,基础构件就是整字本身。如果是可以拆分的合体字,则层级数是1,基础构件只需要一次就能组构成整字。层次结构及综合结构则最少需要经过两次组构才能生成整字,其结构层级数大于等于2。一般来讲,无论是古汉字还是现代汉字,其构件组合层数都不会多于9 层。

基础构件又称为形素,是构成汉字的最小构件元素,无法再进行拆分。在汉字构形过程中,基础构件可以以直接构件或间接构件的身份参与构形。在一个汉字系统中,构成各汉字形体的基础构件数的多少从一个侧面反映了该汉字系统的结构化程度的高低[5](51-52)。分析和归纳汉字的基础构件,可以显示汉字构形体系的整体状况,为判断汉字系统的优化程度提供依据。利用字料库对通用规范汉字8105 字基础构件进行统计,其结果如表5所示:

一级字表拆分出的直接构件总数为6841,直接构件的平均构字率为1.955。二级字表拆分出的直接构件总数为6009,平均构字率为2.003。三级字表拆分出的直接构件总数为3225,平均构字率为2.009。由此可以看出,不同层级字表的直接构件平均构字率呈逐渐上升趋势。换句话说,字群的使用频度越高,所需要的直接构件越少。二级字表平均两个构件就可以构成一个汉字,居于中位。一级字表不可拆分的独体字较多,因此整个字群所需直接构件就比较少,每100 个汉字大约需要196 个构件,而构成相同数量的汉字,在三级字表中则需要200个构件。

表6 通用规范汉字基础构件参构字数量及所对应构件统计表

图2 用规范汉字基础构件参构字数量及所对应构件

由上图可见,参构字数量的多少与基础构件的个数基本上呈反比例关系。参构字数量为1—9 的,构件数量最多,达到了204 个,其后依次降低。不过,当参构字数量为100—199 时,构件数量反而上升,它们总共参构5654 字,占8105 基础构件参构总数的21.85%。这些构件分别是山(193)、纟(175)、(175)、习(175)、贝(172)、丿(168)、讠(167)、辶(160)、厶(158)、忄(154)、丆(150)、心(148)、禾(144)、目(143)(139)、勹(138)、儿(135)、(134)、刂(133)、鱼(129)、尸(128)、隹(128)、攵(128)、力(122)、白(121)、阝(120)、(118)、刀(116)、(113)、丷(112)、米(112)、子(111)、巾(109)、厂(107)、夕(106)、疒(104)、广(104)、(103)、鸟(101)、冂(101)、车(100)、(100)(100)。与上文前50个高频直接构件重叠者包括阝、贝、疒、刂、车、广、禾、纟、巾、力、米、目、鸟、山、忄、、心、讠、鱼、隹、辶、等23 个。

将数据其转换为柱状图,如图2所示:

四、构形模式

构形模式是指构件以不同的功能组合为全字从而体现构意的诸多样式。汉字的构形模式直接关系到构形如何体现构意,因而也是区别汉字和认同汉字的重要属性。

王宁根据构形与构意统一的原则,利用结构-功能分析法,创造性地将汉字构形模式归纳为11 种。李运富在《汉字学新论》中又进一步将汉字构形模式细分为20 种。构件的表形功能在现代汉字中已经消失,因此,现代汉字中的构形模式实际上只有16 种。我们这里采用李运富的分法,但构形模式名称有所调整。现将通用规范汉字一、二、三级汉字的构形模式统计数据列表如下:

表7 通用规范汉字构形模式统计表

由上表可见,通用规范汉字构形模式只有13 种,模式总种数进一步趋向集中,系统性进一步增强。义音合成仍然是最主要和最重要的构形模式,占比达到80.54%,这与汉字从古至今形声化的总趋势相吻合。形声化也是汉字层级结构逐渐形成并占据主流的主要原因。会义合成共308 个,占比为3.80%。包括义记合成、音记合成、标记合成、会记合成、独体记号在内的记号半记号字总数为1203 个,占通用规范汉字总数的14.84%。其中,一、二、三级中的记号半记号字总数分别为861、243、99,占比分别为24.6%、8.1%、6.17%。这说明一级字表中的记号半记号字最多,这与一级字表中大都是常用字,构形理据丧失较多有关。可以说,越常用的字,理据保持度越小。随着汉字常用度的降低,汉字的理据度反而逐渐增高。裘锡圭曾说:“(记号半记号字的出现)从文字结构上看是一种倒退, 然而却是为了简化字形、提高文字使用效率所必须付出的代价。”[6]为了适应整个社会提高文字记录语言效率的客观要求, 记号半记号字必然会出现,而且使用频率越高,记号化的可能也就越大。笔者曾撰文指出,记号半记号字与表意字、形声字形成了三分现代汉字天下的局面[7]。由目前调查统计出的数据来看,这个结论仍然是正确的。当然,记号半记号字的大量出现并不能推翻现代汉字仍然属于表意文字的结论,因为通用规范汉字的构形系统从总体上来说仍然是有理据可分析的,而且其理据保持程度还处于一个比较高的数量级上。因此,现代汉字仍然是表意文字。

五、布局图式

布局图式又称作组合方式。汉字在依据一定的构形模式组构起来后,基础构件之间的相对平面位置关系就呈现出一定的样式,称作布局图式。根据前期调查的结果,我们在通用规范汉字字料库中设计了左右结构、上下结构、独体结构等25 种布局图式。现将通用规范汉字一、二、三级汉字的布局图式统计数据列表如下:

在众多应用案例中,视频是顺利实施翻转课堂的第一个“拦路虎”,课前视频在翻转课堂中代替了传统课堂中传授知识的教师的角色,教师在课堂上可以随时根据学生的反应调整教学策略适应学生的接受能力以达到最好的传递效果,但是视频却没有这样的灵活适应性,因此视频中要呈现的教学内容更加需要准确无误地落在“最近发展区”中,这就对我国教育资源建设提出了更高的标准。

表8 通用规范汉字布局图式统计表

由上表可以看出,通用规范汉字所涉及到的布局图式共有6 大类21 种。左右结构和上下结构以5316 字(占65.59%)和1680 字(占20.73%)分居布局图式类型的第一、二位,是现代汉字最重要的两种结体方式。包围类的汉字共计775 个,占通用规范汉字总数的9.6%,位居第三位。向右上包围结构及向右下包围结构的字又占包围类汉字的67.48%。独体字共220个,仅占2.71%,排第四位,但其作用十分重要。在一级字表中独体字有195 个,它们是合体字的构成部件,构字能力极强,是现代汉字系统的最底层和最核心的部分,在基础教学过程中应该要给予优先考虑。

结 语

以上,我们利用建构好的通用规范汉字字料库,从汉字构形学的角度,对通用规范汉字8105 个汉字的整体构形属性进行了统计分析。可以看出,通用规范汉字8105 字在构形方面具有严密的系统性。构件组合时以层次结构为最主要的模式。构件组合层级数以2 层居多。所拆分出的直接构件共16073 个,去重后共1926个,基础构件共552 个。去重后的直接构件中示音构件数量最多,其次是记号构件。表义构件不仅参构次数多,而且可归纳性和系统性很强。义音合成是现代汉字最主要的构形模式。记号半记号字大量出现,与表意字、形声字形成了三分现代汉字天下的局面。左右结构和上下结构是现代汉字最重要的两种结体方式。齐元涛指出,义音结构、层次结构、二合结构是汉字发展过程中具有强劲发展势头的结构,即强势结构。各强势结构的共同指向是使系统中的字形结构有序化,在诸强势结构的共同作用下,汉字的总体发展目标是结构系统化[8]。通过分析字书字料库调查所得到的数据,我们认为,与历史上各阶段的汉字相比,现代汉字中的强势结构具有稳定性,现代汉字系统的精密化、成熟化的总体趋向愈加明显。

需要特别指出的是,目前已有一些研究通用规范汉字构件属性的论著问世,本文拆分通用规范汉字构件的原则、方法及结果与其他学者或有不同,导致构形属性描写时数据有一些出入(比如侯冬梅认为通用规范汉字共包含部件1995 个,基础部件549 个[9]。又如付海燕认为通用规范汉字中的义音合体字共2287 个,占76.88%[10],等等),但这并不影响整体结论的可靠性。今后应该进一步优化拆分原则及方法,确保拆分结果符合现代汉字的实际情况,并能被大多数学者接受,以便形成共识,进一步有效推动《通用规范汉字表》的贯彻落实和在中小学及对外汉语教育教学、汉语汉字信息处理和新闻出版等领域的实施。

第十六次全国中西医结合学会耳鼻咽喉科2018’学术年会暨《中国中西医结合耳鼻咽喉科杂志》第七届第二次编委扩大会通知3∶插页

银行一年名义利率(X5)与寿险保费收入之间呈现显著的负相关,这说明当银行利率增加时,寿险购买者通常将寿险保单抵押或直接退保以取得现金向其他货币市场或资本市场投放,寿险需求下降;反之,在银行利率下降时,由于寿险公司对保单利率的调整具有迟延性,这时人们通常会积极投保,以此获得低价格高收益的保障,寿险需求上升。

参考文献:

[1]王宁.汉字构形学导论[M].北京:商务印书馆,2015:92.

[2]周晓文.汉字构形属性历时演变的量化研究[M].北京:中国广播电视出版社,2008:57.

[3]李勇,周晓文.汉字系统直接构件模型的建立[J].北京师范大学学报:自然科学版,2006(6):556.

[4]王宁.通用规范汉字字典[M].北京:商务印书馆,2013:75-490.

[5]王立军.宋代雕版楷书构形系统研究[M].上海:上海教育出版社,2003:38.

[6]裘锡圭.文字学概要[M].北京:商务印书馆,1988:36.

[7]柳建钰.记号字、半记号字及其在现代汉字中基本情况探讨[J].宁夏大学学报:人文社会科学版,2005(4):52.

[8]齐元涛.强势结构与汉字的发展[J].北京师范大学学报:社会科学版,2018(1):69.

[9]侯冬梅.通用规范汉字构形属性研究[M].北京:科学出版社,2017:147.

[10]付海燕.通用规范汉字构件及构形模式研究[D].渤海大学硕士学位论文,2016:27.

An Investigation of Formation Attribute of the General Standard Chinese Characters Based on the Chinese Character Form Database

LIU Jian-yu1, WANG Xiao-xu2
(1. College of Literature, Bohai University, Jinzhou 121013, China;2. College of Teacher Education,Bohai University, Jinzhou 121013, China)

Abstract: Based on the Chinese Character Form Database, an investigation is made of the formation attribute of the General Standard Chinese Characters. Its result shows that the formation of the characters is of various levels, mainly focusing on two levels. According to the actual 1926 structural components analyzed, it is concluded that the formation of modern Chinese characters is highly systematic. The analyzed components are mainly the ones indicating the pronunciation of the characters, and the ones indicating the meaning of the characters are easy to categorize and high in systematism. The mainstream formation of the General Standard Chinese Characters is the combination of the components indicating pronunciation and the ones indicating meaning.

Key words: the Chinese Character Form Database;the General Standard Chinese Characters;formation attribute;direct structural components;basic structural components;formation mode

中图分类号: H124

文献标识码: A

文章编号: 1672-8254(2019)05-0104-08

收稿日期: 2019-02-27

基金项目: 辽宁省社科联2018年度辽宁经济社会发展立项课题“基于字料库的《通用规范汉字表》8105字构形属性调查研究”阶段性研究成果(项目编号:20181slktzd-001);国家社科基金青年项目“字书字料库的理论与实践研究”阶段性研究成果(项目编号:14CYY060);国家社科基金重大项目“《通用规范汉字表》8105 字形音义源流研究”阶段性研究成果(项目编号:14ZDB099)

作者简介: 柳建钰(1981—),男,文学博士,渤海大学文学院副教授,硕士生导师,从事汉字学、中文信息处理研究;王晓旭(1983—),女,公共管理硕士,渤海大学师范学院讲师,从事语文教育研究。

(责任编辑 陈方方)

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于字料库的通用规范汉字构形属性调查研究论文
下载Doc文档

猜你喜欢