当前位置: 开发笔记 > 运维 > 正文

C++11Unicode编码转换

作者：cindy翻不清的旧伟_334 | 来源：互联网 | 2021-09-05 02:21

这篇文章主要介绍了C++11Unicode编码转换的相关资料，帮助大家更好的理解和学习c++11，感兴趣的朋友可以了解下

1.char16_t与char32_t

在C++98中，为了支持Unicode字符，使用wchar_t类型来表示“宽字符”，但并没有严格规定位宽，而是让wchar_t的宽度由编译器实现，因此不同的编译器有着不同的实现方式，GNU C++规定wchar_t为32位，Visual C++规定为16位。由于wchar_t宽度没有一个统规定，导致使用wchar_t的代码在不同平台间移植时，可能出现问题。这一状况在C++11中得到了一定的改善，从此Unicode字符的存储有了统一类型：

（1）char16_t：用于存储UTF-16编码的Unicode字符。
（2）char32_t：用于存储UTF-32编码的Unicode字符。

至于UTF-8编码的Unicode数据，C++11还是使用了8bits宽度的char类型数组来表示，而char16_t和char32_t的宽度由其名称可以看出，char16_t为16bits，char32_t为32bits。

2.定义字符串的5种方式

除了使用新类型char16_t与char32_t来表示Unicode字符，此外，C++11还新增了三种前缀来定义不同编码的字符串，新增前缀如下：

（1）u8表示为UTF-8编码；
（2）u表示为UTF-16编码；
（3）U表示为UTF-32编码。

C++98中有两种定义字符串的方式，一是直接使用双引号定义多字节字符串，二是通过前缀“L”表示wchar_t字符串（宽字符串）。至此，C++中共有5种定义字符串的方式。

3.影响字符串正确处理的因素

在使用不同方式定义不同编码的字符串时，我们需要注意影响字符串处理和显示的几个因素有编辑器、编译器和输出环境。

代码编辑器采用何种编码方式决定了字符串最初的编码，比如编辑器如果采用GBK，那么代码文件中的所有字符都是以GBK编码存储。当编译器处理字符串时，可以通过前缀来判断字符串的编码类型，如果目标编码与原编码不同，则编译器会进行转换，比如C++11中的前缀u8表示目标编码为UTF-8的字符，如果代码文件采用的是GBK，编译器按照UTF-8去解析字符串常量，则可能会出现错误。

//代码文件为GBK编码
#include 
#include  
using namespace std;

int main()
{
  const char* sTest = u8"你好";
  for(int i=0;sTest[i]!=0;++i)
  {
    cout<

程序输出结果：C4 E3 BA C3。这个码值是GBK的码值，因为“你”的GBK码值是0xC4E3，“好”的GBK码值是0xBAC3。可见，编译器未成功地将GBK编码的“你好”转换为UTF-8的码值“你”（E4 BD A0）“好”（E5 A5 BD），原因是使用编译选项-finput-charset=utf-8指定代码文件编码为UTF-8，而实际上代码文件编码为GBK，导致编译器出现错误的认知。如果使用-finput-charset=gbk，那么编译器在编译时会将GBK编码的“你好”转换为UTF-8编码，正确输出E4 BD A0 E5 A5 BD。

代码编辑器和编译器这两个环节在处理字符串如果没有问题，那么最后就是显示环节。字符串的正确显示依赖于输出环境。C++输出流对象cout能够保证的是将数据以二进制输出到输出设备，但输出设备（比如Linux shell或者Windows console）是否能够支持特定的编码类型的输出，则取决于输出环境。比如Linux虚拟终端XShell，配置终端编码类型为GBK，则无法显示输出的UTF-8编码字符串。

一个字符串从定义到处理再到输出，涉及到编辑器、编译器和输出环境三个因素，正确的处理和显示需要三个因素的共同保障，每一个环节都不能出错。一个字符串的处理流程与因素如下图所示：

当然如果想避开编辑器编码对字符串的影响，可以使用Unicode码值来定义字符串常量，参看如下代码：

//代码文件为GBK编码
#include 
#include  
using namespace std;

int main()
{
  const char* sTest = u8"\u4F60\u597D";  //你好的Uunicode码值分别是：0x4F60和0x597D
  for(int i=0;sTest[i]!=0;++i)
  {
    cout<

程序输出结果：E4 BD A0 E5 A5 BD。可见，即使编译器对代码文件的编码理解有误，仍然可以正确地以UTF-8编码输出“你好”的码值。原因是ASCII字符使用GBK与UTF-8编码码值是相同的，所以直接书写Unicode码值来表示字符串是一种比较保险的做法，缺点就是难以阅读。

4.Unicode的库支持

C++11在标准库中增加了一些Unicode编码转换的函数，开发人员可以使用库中的一些新增编码转换函数来完成各种Unicode编码间的转换，函数原型如下：

//多字节字符转换为UTF-16编码
size_t mbrtoc16 ( char16_t * pc16, const char * pmb, size_t max, mbstate_t * ps);

//UTF-16字符转换为多字节字符
size_t c16rtomb ( char * pmb, char16_t c16, mbstate_t * ps );

//多字节字符转换为UTF-32编码
size_t mbrtoc32 ( char32_t * pc32, const char * pmb, size_t max, mbstate_t * ps);

//UTF-32字符转换为多字节字符
size_t c32rtomb ( char * pmb, char32_t c32, mbstate_t * ps );

函数名称中mb表示multi-byte（多字节），rto表示convert to（转换为），c16表示char16_t，了解这些，可以根据函数名称直观的理解它们的作用。下面给一下UTF-16字符串转换为多字节字符串（以GBK为例）的例子：

#include 
#include 
#include 
#include 
#include  
using namespace std;

int main()
{
  const char16_t* utf16 = u"\u4F60\u597D\u554A";
  size_t utf16Len=char_traits::length(utf16);

  char* gbk =new char[utf16Len*2+1];
  memset(gbk,0, utf16Len * 2 + 1);
  char* pGbk = gbk;

  setlocale(LC_ALL, "zh_CN.gbk");
  mbstate_t mbs;            //转换状态
  size_t length = 0;
  while (*utf16)
  {
    pGbk += length;
    length = c16rtomb(pGbk, *utf16, &mbs);
    if (length == 0 || pGbk - gbk>sizeof(gbk))
    {
      cout <<"failed" <

程序输出结果：C4 E3 BA C3 B0 A1。可见，使用c16rtomb()完成了将“你好啊”从UTF-16编码到多字节编码（GBK）的转换。上面的转换，我们用到了locale机制。locale表示的是一个地域的特征，包括字符编码、数字时间表示形式、货币符号等。locale串使用“zh_CN.gbk”表示目的多字节字符串使用GBK编码。

上面通过Unicode字符的转换来完成字符串的转换，实际上C++提供了一个类模板codecvt用于完成Unicode字符串与多字节字符串之间的转换，主要分为4种：

codecvt   //performs no conversion
codecvt //converts between native wide and narrow character sets
codecvt //converts between UTF16 and UTF8 encodings, since C++11
codecvt //converts between UTF32 and UTF8 encodings,since C++11

上面的codecvt实际上是locale的一个facet，facet可以简单地理解为locale的一些接口。通过codecvt，可以完成当前locale下多字节编码字符串与Unicode字符间的转换，也包括Unicode字符编码间的转换。这里的多字节字符串不仅可以试UTF-8，也可以是GBK或者其它编码，实际依赖于locale所采用的编码方式。每种codecvt负责不同类型编码的转换，但是目前编译器的支持情况并没有那么完整，一种locale并不一定支持所有的codecvt，程序员可以通过has_facet函数模板来查询指定locale下的支持情况。参考代码如下：

#include 
#include  
using namespace std;

int main()
{
  //定义一个locale并查询该locale是否支持一些facet
  locale lc("zh_CN.gbk");
  bool can_cvt = has_facet>(lc);
  if (!can_cvt)
    cout<<"do not support char-char facet"<>(lc);
  if (!can_cvt)
    cout <<"do not support wchar_t-char facet" <>(lc);
  if (!can_cvt)
    cout <<"do not support char16_t-char facet" <>(lc);
  if (!can_cvt)
    cout <<"do not support char32_t-char facet" <

程序输出结果：

do not support char16_t-char facet
do not support char32_t-char facet

由此可见，从char到char16_t与char32_t转换的两种facet还没有被实验机使用的编译器支持。

假如实验机支持从char与char16_t的转换，可参考如下代码：

#include 
#include 
#include 
#include 
#include  
using namespace std;

int main()
{
  typedef std::codecvt facet_type;
  std::locale mylocale("zh_CN.gbk");

  try
  {
    const facet_type& myfacet = std::use_facet(mylocale);

    const char16_t* utf16 = u"\u4F60\u597D\u554A";   //你好啊
    size_t utf16Len = char_traits::length(utf16);
    cout<

由于实验环境并不支持char与char16_t相互转换的facet，所以程序输出结果为：do not support char16_t-char facet。

5.u16string与u32string

C++11新增了UTF-16和UTF-32编码的字符类型char16_t和char32_t，当然少不了对应的字符串类型，分别是u16string与与u32string，二者的存在类似与string与wstring。四者的定义如下：

typedef basic_string string;
typedef basic_string wstring;
typedef basic_string u16string;
typedef basic_string u32string;

我们对string与wstring应该比较熟悉，对于u16string与u32string在用法上是差不多了，有相同的成员接口与类型，只需要记住其存储的字符编码类型不同即可。下面看一下u16string使用的简单示例。

#include 
#include  
using namespace std;

int main()
{
  u16string u16str = u"\u4F60\u597D\u554A";  //你好啊
  cout <

程序输出：

3
4F60 597D 554A。

以上就是C++11 Unicode编码转换的详细内容，更多关于C++11 Unicode编码转换的资料请关注其它相关文章！

推荐阅读

dns
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
运维
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
shell
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
port
在Linux系统中配置并启动ActiveMQ

本文详细介绍了如何在Linux环境中安装和配置ActiveMQ，包括端口开放及防火墙设置。通过本文，您可以掌握完整的ActiveMQ部署流程，确保其在网络环境中正常运行。 ... [详细]

蜡笔小新 2024-12-27 14:38:54
dns
如何配置Unturned服务器及其消息设置

本文详细介绍了Unturned服务器的配置方法和消息设置技巧，帮助用户了解并优化服务器管理。同时，提供了关于云服务资源操作记录、远程登录设置以及文件传输的相关补充信息。 ... [详细]

蜡笔小新 2024-12-27 13:47:38
dns
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40
linux
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33
linux
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
linux
通过类型和标签选择元素

本文介绍了如何使用jQuery根据元素的类型（如复选框）和标签名（如段落）来获取DOM对象。这有助于更高效地操作网页中的特定元素。 ... [详细]

蜡笔小新 2024-12-27 19:44:14
linux
Xcode 中多行代码缩进技巧

本文介绍如何在 Xcode 中使用快捷键和菜单命令对多行代码进行缩进，包括右缩进和左缩进的具体操作方法。 ... [详细]

蜡笔小新 2024-12-27 17:52:34
linux
CMake跨平台开发实践

本文介绍如何使用CMake支持不同平台的代码编译。通过一个简单的示例，我们将展示如何编写CMakeLists.txt以适应Linux和Windows平台，并实现跨平台的函数调用。 ... [详细]

蜡笔小新 2024-12-27 14:43:56
linux
存储器层次结构、随机访问存储器与数据存取机制

理解存储器的层次结构有助于程序员优化程序性能，通过合理安排数据在不同层级的存储位置，提升CPU的数据访问速度。本文详细探讨了静态随机访问存储器（SRAM）和动态随机访问存储器（DRAM）的工作原理及其应用场景，并介绍了存储器模块中的数据存取过程及局部性原理。 ... [详细]

蜡笔小新 2024-12-27 12:06:47
server
使用Windows批处理脚本监控并重启Java应用程序

本文介绍如何通过Windows批处理脚本定期检查并重启Java应用程序，确保其持续稳定运行。脚本每30分钟检查一次，并在需要时重启Java程序。同时，它会将任务结果发送到Redis。 ... [详细]

蜡笔小新 2024-12-27 10:44:39
server
启动MySQL服务的命令行步骤

本文详细介绍了如何通过命令行启动MySQL服务，包括打开命令提示符窗口、进入MySQL的bin目录、输入正确的连接命令以及注意事项。文中还提供了更多相关命令的资源链接。 ... [详细]

蜡笔小新 2024-12-26 20:16:36
server
如何验证Windows 7系统中U盘启动盘的制作是否成功

本文将详细介绍在Windows 7环境下，检查U盘启动盘是否制作成功的多种方法，包括通过BIOS设置和使用模拟启动工具。 ... [详细]

蜡笔小新 2024-12-26 19:40:06

cindy翻不清的旧伟_334

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章