utf-8 - 关于mysql乱码的纠结

 soseast9975 发布于 2022-11-04 04:23

在win命令行中操作mysql,命令行是gbk编码
mysql数据库的默认编码是Latin1
如果我在客户端set names utf8; 创建的表为gbk,存储中文肯定就出现乱码了(给一个占仨字节的,gbk表存储不了)
而我将表创建为utf8,在客户端set names gbk,存储中文则不会出现乱码(给一个占俩字节的,utf8依然能够存储)
到这里还没什么问题,但是····
我创建一张不声明字符集的表,在客户端set names latin1,存储中文也不会出现乱码(客户端、转换器、服务器编码一致),这里依然可以理解
① 如果说Latin1是单字节编码,为什么我用length(字段),测试的结果是一个中文是两个字节呢?
② 如果说Latin1中文也占一个字节,那么我创建的表不声明字符集,在客户端也不声明字符集,这样会字节丢失、造成乱码,可它偏偏占两个字节;那我就不明白了,为什么创建的表不声明字符集,在客户端也不声明字符集、gbk和Latin1都可以存中文,且占两个字节,这种情况依然会乱码呢

ps:感谢几位的回答,不过我纠结的是我提出的问题,而不是应该怎样···呵呵

3 个回答
  • 楼上说的没错,要让使用utf8成为习惯。另外,git bash、msys 等常用工具的

    2022-11-06 17:22 回答
  • 原则上,所有的地方都要用utf8,不要自己瞎搞,事儿多。

    2022-11-06 17:40 回答
  • 对于问题1,看后面
    对于问题2,我之前说了不声明字符集不等于没有设置字符集,mysql是有默认字符集这个东西的

    你的问题归纳起来无非就是latin-1保存的中文是两个字节,对不对?
    问题是你怎么知道这件事的呢?程序员很重要的一点就是要客观的去看待问题,而不是主观的论断。

    1- 从计算机的角度考虑,它知道什么是英文什么是中文吗?所以一个字节就是一个字节
    2- 不同编码导致了中文的长度不同,如GBK是2字节,UTF-8是3字节
    3- 你录入的中文是所你使用的电脑对其编码的,你看到的中文是你所使用的电脑对其解码的,mysql仅仅是存储,事实上那边根本不关心这个问题,就是按字节存储。

    所以为什么latin-1保存的中文是两个字节呢?因为你发送给mysql的就是两字节,那边就这么存了,mysql也从来没有表示过这两个字节代表什么。

    关于乱码,不好解释,做个不太恰当的描述吧。
    为了区别,我们将计算机能处理的字符编码称为 机器码 ,那么显示给人的时候要进行某种处理,从而现在有utf-8, gbk, latin-1等方式。
    那么如果mysql认为字符是latin-1,但是输出端认为字符集是gbk,那么什么事情会发生呢?
    mysql将数据用latin-1解码,恢复成 机器码 的格式,然后用gbk对机器码编码输出
    这就是乱码的根源,明明是gbk,你偏要告诉mysql是latin-1,然后输出的时候mysql自然会按照latin-1的解码方式去解码gbk格式的数据,还能对吗?

    2022-11-06 17:46 回答
撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有