问

utf-8 - 关于mysql乱码的纠结

soseast9975 发布于 2022-11-04 04:23

在win命令行中操作mysql，命令行是gbk编码
mysql数据库的默认编码是Latin1
如果我在客户端set names utf8; 创建的表为gbk，存储中文肯定就出现乱码了（给一个占仨字节的，gbk表存储不了）
而我将表创建为utf8,在客户端set names gbk，存储中文则不会出现乱码（给一个占俩字节的，utf8依然能够存储）
到这里还没什么问题，但是····
我创建一张不声明字符集的表，在客户端set names latin1,存储中文也不会出现乱码（客户端、转换器、服务器编码一致），这里依然可以理解
① 如果说Latin1是单字节编码，为什么我用length(字段)，测试的结果是一个中文是两个字节呢？
② 如果说Latin1中文也占一个字节，那么我创建的表不声明字符集，在客户端也不声明字符集，这样会字节丢失、造成乱码，可它偏偏占两个字节；那我就不明白了，为什么创建的表不声明字符集，在客户端也不声明字符集、gbk和Latin1都可以存中文，且占两个字节，这种情况依然会乱码呢

ps:感谢几位的回答，不过我纠结的是我提出的问题，而不是应该怎样···呵呵

3 个回答

楼上说的没错，要让使用utf8成为习惯。另外，git bash、msys 等常用工具的

2022-11-06 17:22 回答

珍希那段情
原则上，所有的地方都要用utf8，不要自己瞎搞，事儿多。

2022-11-06 17:40 回答

东cz莞痴
对于问题1，看后面
对于问题2，我之前说了不声明字符集不等于没有设置字符集，mysql是有默认字符集这个东西的

你的问题归纳起来无非就是latin-1保存的中文是两个字节，对不对？
问题是你怎么知道这件事的呢？程序员很重要的一点就是要客观的去看待问题，而不是主观的论断。

1- 从计算机的角度考虑，它知道什么是英文什么是中文吗？所以一个字节就是一个字节
2- 不同编码导致了中文的长度不同，如GBK是2字节，UTF-8是3字节
3- 你录入的中文是所你使用的电脑对其编码的，你看到的中文是你所使用的电脑对其解码的，mysql仅仅是存储，事实上那边根本不关心这个问题，就是按字节存储。

所以为什么latin-1保存的中文是两个字节呢？因为你发送给mysql的就是两字节，那边就这么存了，mysql也从来没有表示过这两个字节代表什么。

关于乱码，不好解释，做个不太恰当的描述吧。
为了区别，我们将计算机能处理的字符编码称为机器码，那么显示给人的时候要进行某种处理，从而现在有utf-8, gbk, latin-1等方式。
那么如果mysql认为字符是latin-1，但是输出端认为字符集是gbk，那么什么事情会发生呢？
mysql将数据用latin-1解码，恢复成机器码的格式，然后用gbk对机器码编码输出
这就是乱码的根源，明明是gbk，你偏要告诉mysql是latin-1，然后输出的时候mysql自然会按照latin-1的解码方式去解码gbk格式的数据，还能对吗？

2022-11-06 17:46 回答

allenn2012

撰写答案

今天，你开发时遇到什么问题呢？

立即提问

热门标签