热门标签 | HotTags
当前位置:  开发笔记 > 程序员 > 正文

汉字笔画数据_汉字有多多?

一个特殊字频表前面写《自制儿童识字语料库与分级字表》,翻了我女儿正在用的一套很流行、自称发行了500多万册的识字教材,上面有一句话让人好笑:
7357f0067fc5f40ac34745ff062625c0.png

一个特殊字频表

前面写《自制儿童识字语料库与分级字表》,翻了我女儿正在用的一套很流行、自称发行了500多万册的识字教材,上面有一句话让人好笑:

78c46a501a9884882ac5ed60ebe88474.png

看到“汉字共有三千多个”我就惊了。

根据上面的信息,查到几个网页,这是最详细的一个。上面没有“汉字共有三千多个”这种常识性错误(有“三”有“千”显然不是笔误)。上面说到的“最常用”字560个,“常用字”807个,“次常用字”1033个,三者合计2400字,跟我们现在通常所说的概念、范围也不一样。现在一般说2500个“常用字”,1000个“次常用字”(来源于1988年《现代汉语常用字表》)。

这些信息应该来自1970年代的“七四八”工程,工程有个成果叫《汉字频度表》,只内部发行,我没有找到。北师大李国英老师等对《汉字频度表》介绍如下:

此表于1976年12月由“七四八”工程查频组完成。本次字频统计使用的语料时间范围为1973—1975年,语料内容包括科学技术、文学艺术、政治理论和新闻通讯四类,统计方式为手工操作。备选语料3亿多字次,选用语料2160多万字次,统计得出6376个字种。(李国英,周晓文《汉字字频统计方法的改进》,载《北京师范大学学报》(社会科学版),2011(6))

从这里可以看出,《汉字频度表》反映的是离我们已经比较远、用语也比较特殊的一个时代的社会通用的字频情况。用来指导当代的幼儿识字显然是不合理的。

汉字有多多?

“汉字共有三千多个”这句话之所以让我吃惊,是因为汉字实在很多很多。

到底有多多呢?

《康熙字典》收字4.7万,《汉语大字典》收字6万,《中华字海》收字8.6万。

国家强制标准GB18030收字约6万,也就说现在中国大陆销售的操作系统都能处理这些字。

台湾教育当局在线的《异体字字典》,收字10.6万。

大陆正在进行的“中华字库”国家工程,预计可编码“汉字古文字约10万、楷书汉字约30万”。

这么多汉字,绝大多数跟普通人关系不大。但是它们个个不同、曾经存在过而且仍然存在着(埋在古籍里),所以无法忽略。尤其是在数字时代,最好还得给他们一个身份——编码,这样才能数字化处理。

跟普通人有关系的,是《通用规范汉字表》(2013)中的字:

本表收字8105个,分为三级:一级字表为常用字集,收字3500个,主要满足基础教育和文化普及的基本用字需要。二级字表收字3000个,使用度仅次于一级字。一、二级字表合计6500字,主要满足出版印刷、辞书编纂和信息处理等方面的一般用字需要。三级字表收字1605个,是姓氏人名、地名、科学技术术语和中小学语文教材文言文用字中未进入一、二级字表的较通用的字,主要满足信息化时代与大众生活密切相关的专门领域的用字需要。

三级字表中,只有一级字表的3500字(即通常说的“常用字”),是对普通国民的要求,也就是完成义务教育的初中毕业生要掌握的。此外就“丰俭由人”了。

实际上,普通人识字量约4000左右。我估计,经常接触文字的人的识字量大约五六千之间,也就是说能认全一二级字表(6500字)的人不多。当然,这不是严谨的说法,也没有准确的数据,只是想让读者心里有个大概的数。

47bf1c516e553e7b41d34ef79a25ca0a.png
二级字表例字1(按笔画排序,序号大小跟难易没有必然联系)
d9a1692eff64dad7c167877d3da66467.png
二级字表例字2

许多人在说自己认识多少字的时候都过于高估。最近在一个群里,有位妈妈说,自家孩子在没上学之前,仅仅是通过随意读书,而不是专门识字,就认识了2000多个字(语文课程标准对二年孩子的要求是认识1600字,四年级孩子认识2500字)。对此我是将信将疑的;不是说孩子没有这个可能,而是说不专门识字就认识这么多,可能性是相当小的。

想直观跟收一下识字不易吗?去玩玩我做的《拼字》游戏,见右侧栏;“大”版里面可以选择字表范围,“小”版与小学语文教材生字配套(需要自行选课)。

本文在我博客上的版本(可能有更新):

汉字有多多?​blog.xiiigame.com


推荐阅读
  • 距离11月的软考还有不到五个月的时间,考试将于11月5日至6日举行。许多朋友对软考的具体情况还不太了解:它是什么?有何用途?本文将为你详细解答。 ... [详细]
  • 新冠肺炎疫情期间,各大银行积极利用手机银行平台,满足客户在金融与生活多方面的需求。线上服务不仅激活了防疫相关的民生场景,还推动了银行通过互联网思维进行获客、引流与经营。本文探讨了银行在找房、买菜、打卡、教育等领域的创新举措。 ... [详细]
  • 创邻科技成功举办Graph+X生态合作伙伴大会,30余家行业领军企业共聚杭州
    9月22日,创邻科技在杭州举办“Graph+X”生态合作伙伴大会,汇聚了超过30家行业头部企业的50多位企业家和技术领袖,共同探讨图技术的前沿应用与发展前景。 ... [详细]
  • 江苏启动鲲鹏生态产业园首批应用孵化项目
    2019年9月19日,在华为全联接大会上,江苏鲲鹏生态产业园正式启动了首批鲲鹏应用孵化项目。南京市委常委、江北新区党工委专职副书记罗群等多位嘉宾出席并见证了这一重要时刻。 ... [详细]
  • 本文探讨了使用数字万用表进行小电阻精确测量的方法,重点介绍了四线测量技术和馈线电阻补偿技术,旨在减少测量过程中的误差,提高测量精度。 ... [详细]
  • 为何我选择了华为云GaussDB数据库
    本文分享了作者选择华为云GaussDB数据库的理由,详细介绍了GaussDB(for MySQL)的技术特性和优势,以及它在金融和互联网行业的应用场景。 ... [详细]
  • Ubuntu GamePack:专为游戏爱好者打造的Linux发行版
    随着Linux系统在游戏领域的应用越来越广泛,许多Linux用户开始寻求在自己的系统上畅玩游戏的方法。UALinux,一家致力于推广GNU/Linux使用的乌克兰公司,推出了基于Ubuntu 16.04的Ubuntu GamePack,旨在为Linux用户提供一个游戏友好型的操作环境。 ... [详细]
  • 管理学经典书籍推荐——《管理者必读12篇》
    本文推荐了一本管理学领域的经典书籍——《管理者必读12篇》,旨在帮助读者构建系统的管理学知识体系。 ... [详细]
  • Docker 自定义网络配置详解
    本文详细介绍如何在 Docker 中自定义网络设置,包括网关和子网地址的配置。通过具体示例展示如何创建和管理自定义网络,以及容器间的通信方式。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 本文探讨了当前技术发展趋势,特别是大数据和人工智能如何推动工业互联网的发展。文章分析了全球主要国家在工业互联网领域的进展,并展望了未来工业互联网技术的发展方向。 ... [详细]
  • 热璞数据库与云宏达成兼容性互认证,共筑数据安全屏障
    热璞数据库与云宏信息技术有限公司近期宣布完成产品兼容性互认证,旨在提升数据安全性与稳定性,支持企业数字化转型。 ... [详细]
  • 本文探讨了Java编程中MVC模式的优势与局限,以及如何利用Java开发一款基于鸟瞰视角的赛车游戏。 ... [详细]
  • 顺丰速运(简称顺丰)长期以来以其快递服务闻名。然而,随着大数据和科技元素的不断融入,顺丰正逐步转变为一个科技驱动的企业,展现出全新的品牌形象。 ... [详细]
  • 本文由蕤内撰写,明亮公司出品,探讨了日本零售业在数字化转型中的现状与挑战。文章基于与两位在日本的投资人的深入对话,分析了日本零售业为何仍然依赖传统的POS机系统,以及中日两国在品牌建设和数字化营销上的差异。 ... [详细]
author-avatar
HGKHGK
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有