一个特殊字频表
前面写《自制儿童识字语料库与分级字表》,翻了我女儿正在用的一套很流行、自称发行了500多万册的识字教材,上面有一句话让人好笑:
看到“汉字共有三千多个”我就惊了。
根据上面的信息,查到几个网页,这是最详细的一个。上面没有“汉字共有三千多个”这种常识性错误(有“三”有“千”显然不是笔误)。上面说到的“最常用”字560个,“常用字”807个,“次常用字”1033个,三者合计2400字,跟我们现在通常所说的概念、范围也不一样。现在一般说2500个“常用字”,1000个“次常用字”(来源于1988年《现代汉语常用字表》)。
这些信息应该来自1970年代的“七四八”工程,工程有个成果叫《汉字频度表》,只内部发行,我没有找到。北师大李国英老师等对《汉字频度表》介绍如下:
此表于1976年12月由“七四八”工程查频组完成。本次字频统计使用的语料时间范围为1973—1975年,语料内容包括科学技术、文学艺术、政治理论和新闻通讯四类,统计方式为手工操作。备选语料3亿多字次,选用语料2160多万字次,统计得出6376个字种。(李国英,周晓文《汉字字频统计方法的改进》,载《北京师范大学学报》(社会科学版),2011(6))
从这里可以看出,《汉字频度表》反映的是离我们已经比较远、用语也比较特殊的一个时代的社会通用的字频情况。用来指导当代的幼儿识字显然是不合理的。
汉字有多多?
“汉字共有三千多个”这句话之所以让我吃惊,是因为汉字实在很多很多。
到底有多多呢?
《康熙字典》收字4.7万,《汉语大字典》收字6万,《中华字海》收字8.6万。
国家强制标准GB18030收字约6万,也就说现在中国大陆销售的操作系统都能处理这些字。
台湾教育当局在线的《异体字字典》,收字10.6万。
大陆正在进行的“中华字库”国家工程,预计可编码“汉字古文字约10万、楷书汉字约30万”。
这么多汉字,绝大多数跟普通人关系不大。但是它们个个不同、曾经存在过而且仍然存在着(埋在古籍里),所以无法忽略。尤其是在数字时代,最好还得给他们一个身份——编码,这样才能数字化处理。
跟普通人有关系的,是《通用规范汉字表》(2013)中的字:
本表收字8105个,分为三级:一级字表为常用字集,收字3500个,主要满足基础教育和文化普及的基本用字需要。二级字表收字3000个,使用度仅次于一级字。一、二级字表合计6500字,主要满足出版印刷、辞书编纂和信息处理等方面的一般用字需要。三级字表收字1605个,是姓氏人名、地名、科学技术术语和中小学语文教材文言文用字中未进入一、二级字表的较通用的字,主要满足信息化时代与大众生活密切相关的专门领域的用字需要。
三级字表中,只有一级字表的3500字(即通常说的“常用字”),是对普通国民的要求,也就是完成义务教育的初中毕业生要掌握的。此外就“丰俭由人”了。
实际上,普通人识字量约4000左右。我估计,经常接触文字的人的识字量大约五六千之间,也就是说能认全一二级字表(6500字)的人不多。当然,这不是严谨的说法,也没有准确的数据,只是想让读者心里有个大概的数。
二级字表例字1(按笔画排序,序号大小跟难易没有必然联系)二级字表例字2许多人在说自己认识多少字的时候都过于高估。最近在一个群里,有位妈妈说,自家孩子在没上学之前,仅仅是通过随意读书,而不是专门识字,就认识了2000多个字(语文课程标准对二年孩子的要求是认识1600字,四年级孩子认识2500字)。对此我是将信将疑的;不是说孩子没有这个可能,而是说不专门识字就认识这么多,可能性是相当小的。
想直观跟收一下识字不易吗?去玩玩我做的《拼字》游戏,见右侧栏;“大”版里面可以选择字表范围,“小”版与小学语文教材生字配套(需要自行选课)。
本文在我博客上的版本(可能有更新):
汉字有多多?blog.xiiigame.com