热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

字符串转byte数组(string转byte类型)

前言前段时间发表了go中的http请求之——http1.1请求流程分析,所以这两天本来打算研究http2.0的请求源码,结果发现太复杂就跑去逛知乎了,然后就发现了一个非常有意思的

前言

前段时间发表了go中的http请求之——http1.1请求流程分析,所以这两天本来打算研究http2.0的请求源码,结果发现太复杂就跑去逛知乎了,然后就发现了一个非常有意思的提问“golang 特殊字符的string怎么转成[]byte?”。为了转换一下心情, 便有了此篇文章。

问题

原问题我就不码字了,直接上图:

深入剖析go中字符串—特殊字符的string怎么转byte?

看到问题,我的第一反应是ascii码值范围应该是0~127呀,怎么会超过127呢?直到实际运行的时候才发现上图的特殊字符是‘’(如果无法展示,记住该特殊字符的unicode是u0081),并不是英文中的句号。

unicode和utf-8的恩怨纠葛

百度百科已经把unicode和utf-8介绍的很详细了,所以这里就不做过多的阐述,仅摘抄部分和本文相关的定义:

  • unicode为每个字符设定了统一并且唯一的二进制编码,通常用两个字节表示一个字符
  • utf-8是针对unicode的一种可变长度字符编码。它可以用来表示unicode标准中的任何字符。utf-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7f之间的字符,utf-8编码与ascii编码完全相同
go中的字符

众所周知,go中能表示字符的有两种类型,分别是byte和rune,byte和rune的定义分别是:type byte = uint8和type rune = int32。

uint8范围是0-255,只能够表示有限个unicode字符,超过255的范围就会编译报错。根据上述关于unicode的定义,4字节的rune完全兼容两字节的unicode。

我们用下面的代码来验证:

var (
c1 byte = 'a'
c2 byte = '新'
c3 rune = '新'
)
fmt.println(c1, c2, c3)

上述的程序根本无法运行,因为第二行编译会报错,vscode给到了十分详细的提示:’新’ (untyped rune constant 26032) overflows byte。

接下来,我们通过下面的代码来验证字符和unicode和整型的等价关系:

fmt.printf("0x%x, %dn", '', '') //输出:0x81, 129
fmt.println(0x81 == '', 'u0081' == '', 129 == '') // 输出:true true true
//u0081输出到屏幕上后不展示, 所以换了大写字母a来输出
fmt.printf("%cn", 65) // 输出:a

根据上面的代码输出的3个true可以知道,字符和unicode和整形是等价,并且整形也能转回字符的表现形式。

go中的字符串是utf8编码的

根据golang官方博客blog.golang.org/strings的原文:


go source code is always utf-8.
a string holds arbitrary bytes.
a string literal, absent byte-level escapes, always holds valid utf-8 sequences.

翻译整理过来其实也就是两点:

  1. go中的代码总是用utf8编码,并且字符串能够存储任何字节。
  2. 没有经过字节级别的转义,那么字符串是一个标准的utf8序列。

有了前面的基础知识和字符串是一个标准的utf8序列这一结论后我们接下来对字符串“”(如果无法展示,记住该特殊字符的unicode是u0081)手动编码。

unicode到utf-8的编码方对照表:

深入剖析go中字符串—特殊字符的string怎么转byte?

字符‘’(如果无法展示,记住该特殊字符的unicode是u0081)的二进制表示为10000001,16进制表示为0x81。

根据unicode转utf8的对照表,0x7f <0x81 <0x7ff,所以此特殊字符需占两个字节,并且要套用的utf8模版是110xxxxx 10xxxxxx。

我们按照下面的步骤对10000001转为utf8的二进制序列:

第一步:根据x数量对特殊字符的高位补0。x的数量是11,所以需要对特殊字符的高位补3个0,此时特殊字符的二进制表示为:00010000001。

第二步:x有两个部分,且长度分别是5和6,所以对00010000001由底位向高位分别截取6位和5位,得到000001和00010。

第三步:将000001和00010由低位向高位填充至模版110xxxxx 10xxxxxx,可得到utf8的二进制序列为:11000010 10000001。

我们通过go对二进制转为整型:

fmt.printf("%d, %dn", 0b11000010, 0b10000001)
// 输出:194, 129

综上:当用字符转字节时输出的是字符本身的整型值,当用字符串转字节切片时,实际上是输出的是utf8的字节切片序列(go中的字符串存储的就是utf8字节切片)。此时,我们回顾一下最开始的问题,就会发现输出是完全符合预期的。

go中的rune

笔者在这里猜测提问者期望的结果是“字符串转字节切片和字符转字节的结果保持一致”,这时rune就派上用场了,我们看看使用rune的效果:

fmt.println(&#91;]rune(""))
// 输出:&#91;129]

由上可知用rune切片去转字符串时,它是直接将每个字符转为对应的unicode。

我们通过下面的代码模拟字符串转为[]rune切片和[]rune切片转为字符串的过程:

字符串转为rune切片:

// 字符串直接转为&#91;]rune切片
for _, v := range &#91;]rune("新世界杂货铺") {
fmt.printf("%x ", v)
}
fmt.println()
bs := &#91;]byte("新世界杂货铺")
for len(bs) > 0 {
r, w := utf8.decoderune(bs)
fmt.printf("%x ", r)
bs = bs&#91;w:]
}
fmt.println()
// 输出:
// 65b0 4e16 754c 6742 8d27 94fa
// 65b0 4e16 754c 6742 8d27 94fa

上述代码中utf8.decoderune的作用是通过传入的utf8字节序列转为一个rune即unicode。

rune切片转为字符串:

// rune切片转为字符串
rs := &#91;]rune{0x65b0, 0x4e16, 0x754c, 0x6742, 0x8d27, 0x94fa}
fmt.println(string(rs))
utf8bs := make(&#91;]byte, 0)
for _, r := range rs {
bs := make(&#91;]byte, 4)
w := utf8.encoderune(bs, r)
utf8bs = append(utf8bs, bs&#91;:w]...)
}
fmt.println(string(utf8bs))
// 输出:
// 新世界杂货铺
// 新世界杂货铺

上述代码中utf8.encoderune的作用是将一个rune转为utf8字节序列。

综上:对于无法确定字符串中仅有单字节的字符的情况, 请使用rune,每一个rune类型代表一个unicode字符,并且它可以和字符串做无缝切换。

理解go中的字符串其实是字节切片

前面已经提到了字符串能够存储任意字节数据,而且是一个标准的utf8格式的字节切片。那么本节将会通过代码来加深印象。

fmt.println(&#91;]byte("新世界杂货铺"))
s := "新世界杂货铺"
for i := 0; i fmt.print(s&#91;i], " ")
}
fmt.println()
// 输出:
// &#91;230 150 176 228 184 150 231 149 140 230 157 130 232 180 167 233 147 186]
// 230 150 176 228 184 150 231 149 140 230 157 130 232 180 167 233 147 186

由上述的代码可知,我们通过游标按字节访问字符串得到的结果和字符串转为字节切片是一样的,因此可以再次确认字符串和字节切片是等价的。

通常情况下我们的字符串都是标准utf8格式的字节切片,但这并不是说明字符串只能存储utf8格式的字节切片,go中的字符串可以存储任意的字节数据


bs := &#91;]byte{65, 73, 230, 150, 176, 255}
fmt.println(string(bs)) // 将随机的字节切片转为字符串
fmt.println(&#91;]byte(string(bs))) // 将字符串再次转回字节切片
rs := &#91;]rune(string(bs)) // 将字符串转为字节rune切片
fmt.println(rs) // 输出rune切片
fmt.println(string(rs)) // 将rune切片转为字符串
for len(bs) > 0 {
r, w := utf8.decoderune(bs)
fmt.printf("%d: 0x%x ", r, r) // 输出rune的值和其对应的16进制
bs = bs&#91;w:]
}
fmt.println()
fmt.println(&#91;]byte(string(rs))) // 将rune切片转为字符串后再次转为字节切片
// 输出:
// ai新
// &#91;65 73 230 150 176 255]
// &#91;65 73 26032 65533]
// ai新
// 65: 0x41 73: 0x49 26032: 0x65b0 65533: 0xfffd
// &#91;65 73 230 150 176 239 191 189]

仔细阅读上面的代码和输出,前5行的输出应该是没有疑问的。但是第6行输出却和预期有出入。

前面提到了字符串可以存储任意的字节数据,那如果存储的字节数据不是标准的utf8字节切片就会出现上面的问题。

我们已经知道通过utf8.decoderune可以将字节切片转为rune。那如果碰到不符合utf8编码规范的字节切片时,utf8.decoderune会返回一个容错的unicodeufffd,这个unicode对应上面输出的16进制0xfffd。

问题也就出现在这个容错的unicodeufffd上,因为字节切片不符合utf8编码规范无法得到正确的unicode,既ufffd占据了本应该是正确的unicode所在的位置。这个时候再将已经含有容错字符的rune切片转为字符串时,字符串存储的就是合法的utf8字节切片了,因此第六行输出的是含有ufffd的合法utf8字节切片,也就产生了和最初始的字节切片不一致的情况了。

⚠️:在平时的开发中要注意rune切片和byte切片的相互转换一定要基于没有乱码的字符串(内部是符合utf8编码规则的字节切片),否则容易出现上述类似的错误

字符串的多种表示方式

本节算是扩展了,在开发中还是尽量别用这种特殊的表示方式,虽然看起来很高级但是可读性太差。

下面直接看代码:

bs := &#91;]byte(&#91;]byte("新"))
for i := 0; i fmt.printf("0x%x ", bs&#91;i])
}
fmt.println()
fmt.println("xe6x96xb0")
fmt.println("xe6x96xb0世界杂货铺" == "新世界杂货铺")
fmt.println('u65b0' == '新')
fmt.println("u65b0世界杂货铺" == "新世界杂货铺")
// 输出:
// 0xe6 0x96 0xb0
// 新
// true
// true
// true

目前笔者仅发现unicode和单字节的16进制可以直接用在字符串中, 欢迎读者提供更多的表示方式以供交流。



推荐阅读
  • This article discusses the efficiency of using char str[] and char *str and whether there is any reason to prefer one over the other. It explains the difference between the two and provides an example to illustrate their usage. ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • 本文介绍了在CentOS上安装Python2.7.2的详细步骤,包括下载、解压、编译和安装等操作。同时提供了一些注意事项,以及测试安装是否成功的方法。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 本文介绍了一个题目的解法,通过二分答案来解决问题,但困难在于如何进行检查。文章提供了一种逃逸方式,通过移动最慢的宿管来锁门时跑到更居中的位置,从而使所有合格的寝室都居中。文章还提到可以分开判断两边的情况,并使用前缀和的方式来求出在任意时刻能够到达宿管即将锁门的寝室的人数。最后,文章提到可以改成O(n)的直接枚举来解决问题。 ... [详细]
  • 本文介绍了在Linux下安装和配置Kafka的方法,包括安装JDK、下载和解压Kafka、配置Kafka的参数,以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例,帮助读者快速完成Kafka的安装和配置。 ... [详细]
  • 本文介绍了深入浅出Linux设备驱动编程的重要性,以及两种加载和删除Linux内核模块的方法。通过一个内核模块的例子,展示了模块的编译和加载过程,并讨论了模块对内核大小的控制。深入理解Linux设备驱动编程对于开发者来说非常重要。 ... [详细]
  • 本文讨论了一个数列求和问题,该数列按照一定规律生成。通过观察数列的规律,我们可以得出求解该问题的算法。具体算法为计算前n项i*f[i]的和,其中f[i]表示数列中有i个数字。根据参考的思路,我们可以将算法的时间复杂度控制在O(n),即计算到5e5即可满足1e9的要求。 ... [详细]
  • Java自带的观察者模式及实现方法详解
    本文介绍了Java自带的观察者模式,包括Observer和Observable对象的定义和使用方法。通过添加观察者和设置内部标志位,当被观察者中的事件发生变化时,通知观察者对象并执行相应的操作。实现观察者模式非常简单,只需继承Observable类和实现Observer接口即可。详情请参考Java官方api文档。 ... [详细]
  • 先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]
  • 海马s5近光灯能否直接更换为H7?
    本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡,并提供了完整的教程下载地址。此外,还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]
  • Java 11相对于Java 8,OptaPlanner性能提升有多大?
    本文通过基准测试比较了Java 11和Java 8对OptaPlanner的性能提升。测试结果表明,在相同的硬件环境下,Java 11相对于Java 8在垃圾回收方面表现更好,从而提升了OptaPlanner的性能。 ... [详细]
  • 深入理解计算机系统之链接(一)
    程序是怎样运行的写好的c程序怎样运行的呢?答案是一个写好的程序要先经过语言预处理器,编译器,汇编器和链接器生成最后的可执行文件,然后加载器将可执行文件加载到内存中才能运行。这里以一 ... [详细]
author-avatar
天雨
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有