c++builderbyte转字符串_Go语言中的字符与字符串遍历

作者：lucky燕子加加加 | 来源：互联网 | 2023-09-06 15:55

和其他语言不同，在Go语言中没有字符类型，字符只是整数的特殊用例。为什么说字符只是整数的特殊用例呢？因为在Go中，用于表示字

和其他语言不同&＃xff0c;在 Go 语言中没有字符类型&＃xff0c;字符只是整数的特殊用例。

为什么说字符只是整数的特殊用例呢&＃xff1f;因为在 Go 中&＃xff0c;用于表示字符的 byte 和 rune 类型都是整型的别名。在 Go 的源码中我们可以看到&＃xff1a;

// byte is an alias for uint8 and is equivalent to uint8 in all ways. It is // used, by convention, to distinguish byte values from 8-bit unsigned // integer values. type byte &＃61; uint8// rune is an alias for int32 and is equivalent to int32 in all ways. It is // used, by convention, to distinguish character values from integer values. type rune &＃61; int32

byte 是 uint8 的别名&＃xff0c;长度为 1 个字节&＃xff0c;用于表示 ASCII 字符
rune 是 int32 的别名&＃xff0c;长度为 4 个字节&＃xff0c;用于表示以 UTF-8 编码的 Unicode 码点

Tips&＃xff1a;Unicode 从 0 开始&＃xff0c;为每个符号指定一个编号&＃xff0c;这叫做「码点」&＃xff08;code point&＃xff09;。

字符的表示

那么&＃xff0c;如何在 Go 语言中表示字符呢&＃xff1f;

在 Go 语言中使用单引号包围来表示字符&＃xff0c;例如 &＃39;j&＃39;。

byte

如果要表示 byte 类型的字符&＃xff0c;可以使用 byte 关键字来指明字符变量的类型&＃xff1a;

var byteC byte &＃61; &＃39;j&＃39;

又因为 byte 实质上是整型 uint8&＃xff0c;所以可以直接转成整型值。在格式化说明符中我们使用 %c 表示字符&＃xff0c;%d 表示整型&＃xff1a;

// 声明 byte 类型字符 var byteC byte &＃61; &＃39;j&＃39; fmt.Printf("字符 %c 对应的整型为 %dn", byteC, byteC) // Output: 字符 j 对应的整型为 106

rune

与 byte 相同&＃xff0c;想要声明 rune 类型的字符可以使用 rune 关键字指明&＃xff1a;

var runeC rune &＃61; &＃39;J&＃39;

但如果在声明一个字符变量时没有指明类型&＃xff0c;Go 会默认它是 rune 类型&＃xff1a;

runeC :&＃61; &＃39;J&＃39; fmt.Printf("字符 %c 的类型为 %Tn", runeC, runeC) // Output: 字符 J 的类型为 int32

为什么需要两种类型&＃xff1f;

看到这里你可能会问了&＃xff0c;既然都用于表示字符&＃xff0c;为什么还需要两种类型呢&＃xff1f;

我们知道&＃xff0c;byte 占用一个字节&＃xff0c;因此它可以用于表示 ASCII 字符。而 UTF-8 是一种变长的编码方法&＃xff0c;字符长度从 1 个字节到 4 个字节不等。byte 显然不擅长这样的表示&＃xff0c;就算你想要使用多个 byte 进行表示&＃xff0c;你也无从知晓你要处理的 UTF-8 字符究竟占了几个字节。

因此&＃xff0c;如果你在中文字符串上狂妄地进行截取&＃xff0c;一定会输出乱码&＃xff1a;

testString :&＃61; "你好&＃xff0c;世界" fmt.Println(testString[:2]) // 输出乱码&＃xff0c;因为截取了前两个字节 fmt.Println(testString[:3]) // 输出「你」&＃xff0c;一个中文字符由三个字节表示

此时就需要 rune 的帮助了。利用 []rune() 将字符串转为 Unicode 码点再进行截取&＃xff0c;这样就无需考虑字符串中含有 UTF-8 字符的情况了&＃xff1a;

testString :&＃61; "你好&＃xff0c;世界" fmt.Println(string([]rune(testString)[:2])) // 输出&＃xff1a;「你好」

Tips&＃xff1a;Unicode 和 ASCII 一样&＃xff0c;是一种字符集&＃xff0c;UTF-8 则是一种编码方式。

遍历字符串

字符串遍历有两种方式&＃xff0c;一种是下标遍历&＃xff0c;一种是使用 range。

下标遍历

由于在 Go 语言中&＃xff0c;字符串以 UTF-8 编码方式存储&＃xff0c;使用 len() 函数获取字符串长度时&＃xff0c;获取到的是该 UTF-8 编码字符串的字节长度&＃xff0c;通过下标索引字符串将会产生一个字节。因此&＃xff0c;如果字符串中含有 UTF-8 编码字符&＃xff0c;就会出现乱码&＃xff1a;

testString :&＃61; "Hello&＃xff0c;世界"for i :&＃61; 0; i }/* Output: H 的类型是 uint8&＃xff08;ASCII 字符返回正常&＃xff09; e 的类型是 uint8 l 的类型是 uint8 l 的类型是 uint8 o 的类型是 uint8 ï 的类型是 uint8&＃xff08;从这里开始出现了奇怪的乱码&＃xff09; ¼ 的类型是 uint8的类型是 uint8 ä 的类型是 uint8 ¸ 的类型是 uint8的类型是 uint8 ç 的类型是 uint8的类型是 uint8的类型是 uint8 */

range

range 遍历则会得到 rune 类型的字符&＃xff1a;

testString :&＃61; "Hello&＃xff0c;世界"for _, c :&＃61; range testString {fmt.Printf("%c 的类型是 %sn", c, reflect.TypeOf(c)) }/* Output: H 的类型是 int32 e 的类型是 int32 l 的类型是 int32 l 的类型是 int32 o 的类型是 int32 &＃xff0c; 的类型是 int32 世的类型是 int32 界的类型是 int32 */

总结

Go 语言中没有字符的概念&＃xff0c;一个字符就是一堆字节&＃xff0c;它可能是单个字节&＃xff08;ASCII 字符集&＃xff09;&＃xff0c;也有可能是多个字节&＃xff08;Unicode 字符集&＃xff09;
byte 是 uint8 的别名&＃xff0c;长度为 1 个字节&＃xff0c;用于表示 ASCII 字符
rune 则是 int32 的别名&＃xff0c;长度为 4 个字节&＃xff0c;用于表示以 UTF-8 编码的 Unicode 码点
字符串的截取是以字节为单位的
使用下标索引字符串会产生字节
想要遍历 rune 类型的字符则使用 range 方法进行遍历

参考资料

阮一峰 - Unicode 与 Javascript 详解: https://www.ruanyifeng.com/blog/2014/12/unicode.html
The Go Blog - Strings, bytes, runes and characters in Go: https://blog.golang.org/strings

推荐阅读

future
伊振华作品 | 沈阳市智慧城市运行管理中心的设计与建设

本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计，并以数字赋能和创新驱动高质量发展的理念，建设了集成、智慧、高效的一体化城市综合管理平台，促进了城市的数字化转型。该中心被称为当代城市的智能心脏，为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]

蜡笔小新 2023-12-14 16:35:39
int
CF：3D City Model（小思维）问题解析和代码实现

本文通过解析CF：3D City Model问题，介绍了问题的背景和要求，并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景，每个网格单元可以作为建筑的基础，建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路，并给出了相应的代码实现供读者参考。 ... [详细]

蜡笔小新 2023-12-13 14:17:11
java
Netty拆包粘包问题解决 —— 特殊结束符

本文介绍了解决Netty拆包粘包问题的一种方法——使用特殊结束符。在通讯过程中，客户端和服务器协商定义一个特殊的分隔符号，只要没有发送分隔符号，就代表一条数据没有结束。文章还提供了服务端的示例代码。 ... [详细]

蜡笔小新 2023-12-14 18:02:45
java
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
java
自动轮播，反转播放的ViewPagerAdapter的使用方法和效果展示

本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter，并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]

蜡笔小新 2023-12-13 14:41:31
include
C++字符字符串处理及字符集编码方案

本文介绍了C++中字符字符串处理的问题，并详细解释了字符集编码方案，包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码，否则将使用windows code page编译。最后，给出了相关的头文件和数据类型定义。 ... [详细]

蜡笔小新 2023-12-13 04:59:58
java
java boolean 大小_java boolean 大小

先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]

蜡笔小新 2023-12-12 13:36:56
int
Which is more efficient: char str[] or char *str?

This article discusses the efficiency of using char str[] and char *str and whether there is any reason to prefer one over the other. It explains the difference between the two and provides an example to illustrate their usage. ... [详细]

蜡笔小新 2023-12-12 10:13:35
int
移动端常用单位——rem的使用方法和注意事项

本文介绍了移动端常用的单位rem的使用方法和注意事项，包括px、%、em、vw、vh等其他常用单位的比较。同时还介绍了如何通过JS获取视口宽度并动态调整rem的值，以适应不同设备的屏幕大小。此外，还提到了rem目前在移动端的主流地位。 ... [详细]

蜡笔小新 2023-12-12 07:20:50
bash
树莓派语音控制的配置方法和步骤

本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助，文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行，然后使用Eoman的控制方法，即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]

蜡笔小新 2023-12-12 03:02:49
select
Swing组件及其用法，图标接口的定义和创建方法

本文介绍了Swing组件的用法，重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联，可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法，并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]

蜡笔小新 2023-12-11 21:03:59
java
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
search
Python爬虫中使用正则表达式的方法和注意事项

本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤，并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法，包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块，并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习，读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]

蜡笔小新 2023-12-12 11:51:07
select
Oracle 11g物理Active Data Guard实时查询（Realtime query）特性

在Oracle11g以前版本中的的DataGuard物理备用数据库，可以以只读的方式打开数据库，但此时MediaRecovery利用日志进行数据同步的过 ... [详细]

蜡笔小新 2023-12-11 15:49:10
java
Java SE从入门到放弃（三）的逻辑运算符详解

本文详细介绍了Java SE中的逻辑运算符，包括逻辑运算符的操作和运算结果，以及与运算符的不同之处。通过代码演示，展示了逻辑运算符的使用方法和注意事项。文章以Java SE从入门到放弃（三）为背景，对逻辑运算符进行了深入的解析。 ... [详细]

蜡笔小新 2023-12-11 14:15:55

lucky燕子加加加

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章