有关UNICODE、ANSI字符集和相关字符串操作的总结（一）

作者：KL | 来源：互联网 | 2023-10-15 12:47

对论坛中有关UNICODE、ANSI字符集和相关字符串操作的总结！先声明不是我的杰作。我这里只是总结了一部分，如果有错误请指出，同时欢迎大

对论坛中有关UNICODE、ANSI字符集和相关字符串操作的总结&＃xff01;先声明不是我的杰作。我这里只是总结了一部分&＃xff0c;如果有错误请指出&＃xff0c;同时欢迎大家参与进来&＃xff01;

Q UNICODE字符串如何显示

A

如果程序定义了_UNICODE宏直接用

WCHAR *str&＃61;L"unicodestring";

TextOut(0,0&＃xff0c;str);

否则就需要转换类型

#include

WCHAR *str&＃61;L"unicodestring";

bstr_t str1&＃61;str;

TextOut(0,0&＃xff0c;(char*)str1);

Q 如何实现ANSI和UNICODE的相互转换

A

将ANSI转换到Unicode

(1)通过L这个宏来实现&＃xff0c;例如: CLSIDFromProgID( L"MAPI.Folder",&clsid);

(2)通过MultiByteToWideChar函数实现转换,例如:

char *szProgID &＃61; "MAPI.Folder";

WCHAR szWideProgID[128];

CLSID clsid;

long lLen &＃61; MultiByteToWideChar(CP_ACP,0,szProgID,strlen(szProgID),szWideProgID,sizeof(szWideProgID));

szWideProgID[lLen] &＃61; &＃39;\0&＃39;;

(3)通过A2W宏来实现,例如:

USES_CONVERSION;

CLSIDFromProgID( A2W(szProgID),&clsid);

将Unicode转换到ANSI

(1)使用WideCharToMultiByte,例如:

// 假设已经有了一个Unicode 串 wszSomeString...

char szANSIString [MAX_PATH];

WideCharToMultiByte ( CP_ACP, WC_COMPOSITECHECK, wszSomeString, -1, szANSIString, sizeof(szANSIString), NULL, NULL );

(2)使用W2A宏来实现,例如:

USES_CONVERSION;

pTemp&＃61;W2A(wszSomeString);

注意在转换时可能存在的问题&＃xff1a;

因为ANSI转UNICODE,如果使用A2W或MultiByteToWideChar&＃xff08;第一个参数是CP_ACP)的话,是根据系统默认的转码表&＃xff0c;把转入的ANSI字符串看作Multi-Bytes字符串处理的&＃xff0c;如果是中文&＃xff08;中文windows默认就是中文&＃xff09;&＃xff0c;一个大于0x87的byte可能和下一byte一起被看作一个汉字&＃xff0c;然后根据汉字的Unicode编码转换为相同的Unicode汉字&＃xff0c;如果找不到相应的编码&＃xff0c;一般就用一个默认的字符来取代它&＃xff08;一般是问号“&＃xff1f;”&＃xff09;,由此看&＃xff0c;如果随便把一段数据给他转&＃xff0c;转化很复杂而且极可能不可逆&＃xff0c;而且你加密过的ANSI码是相当混乱的有很多〉0x87的byte,转换就变得不可逆了。

建议自己直接就这样写&＃xff1a;

CHAR lpANSI[COUNT];

WCHAR lpUnicode[COUNT];

int i &＃61; 0;

while(lpANSI[i] !&＃61; &＃39;\0&＃39; ) {

lpUnicode[i] &＃61; (WCHAR)lpANSI[i];

}

lpUnicode[i] &＃61; L&＃39;\0&＃39;;

然后按相同的方法转回来&＃xff0c;因为对于0~0x87的ANSI字符串&＃xff0c;对应的Unicode码就是相同的16位值&＃xff0c;至于其他的&＃xff0c;你的字符串反正加了密&＃xff0c;没必要转换成显示出来是一样的字符&＃xff0c;就按同样的方法处理了&＃xff0c;其实如果中间的字符串不用显示或别的&＃xff0c;直接reutrn (LPWSTR)lpANSI;过去也可以, 反正接受的时候自己清楚就可以了。

Q 如何让程序支持UNICODE

A

NT系统的内核是unicode代码,通常vc分创建的工程默认都是ansi代码&＃xff08;可以兼容win9x&＃xff09;,在nt下ansi程式在调用windows API的时系统实际又进行了一次ansi到unicode的代码转化,如MoveWindowA实际上又调用MoveWindowW.如果以我们的程序不考虑win9x(早晚是明日黄花)的话,直接用unicode编译&＃xff0c;那么程式的代码执行效率一定能增色不少.具体:

(0).在vc编译选项上,在vc7.0以上在工程的属性页中的“字符集”选上"使用 Unicode 字符集"即可&＃xff0c;在vc6.0下可能麻烦一点&＃xff0c;得先把vc运行库的unicode版本复制到vc路径下,一般都是和xxx.lib的ansi对应xxxU.lib,默认装vc时是不会装的&＃xff0c;将工程属性

(0).1.改语言定义:

在project settings的"C&＃43;&＃43;"页中的"preprocessor definitions"中改_MBCS为_UNICODE

(0).2.改入口函数:

在"link"页中的"project Options"加入/entry:"wWinMainCRTStartup"即可.

(1)在代码上,处理字符中的多用TCHAR.H中的宏,如strcpy用_tcscpy代替,用TCHAR代char,

用TCHAR m_mystr[]&＃61;_T("xxxx")代替 char m_mystr[]&＃61;"xxxx";

(2)注意调试UNICODE程序时&＃xff0c;需要在安装时VC选择所有选项&＃xff0c;否则会缺少动态库和相应的.lib文件

Q 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数&＃xff1f;

A

可以调用Microsoft Visual C&＃43;&＃43;的运行期库包含函数_mbslen来操作多字节&＃xff08;既包括单字节也包括双字节&＃xff09;字符串。

调用strlen函数&＃xff0c;无法真正了解字符串中究竟有多少字符&＃xff0c;它只能告诉你到达结尾的0之前有多少个字节。

Q 如何对DBCS&＃xff08;双字节字符集&＃xff09;字符串进行操作&＃xff1f;

A

函数描述

PTSTR CharNext &＃xff08; LPCTSTR &＃xff09;; 返回字符串中下一个字符的地址

PTSTR CharPrev &＃xff08; LPCTSTR, LPCTSTR &＃xff09;&＃xff1b; 返回字符串中上一个字符的地址

BOOL IsDBCSLeadByte( BYTE )&＃xff1b; 如果该字节是DBCS字符的第一个字节&＃xff0c;则返回非0值

Q 为什么要使用Unicode&＃xff1f;

A

(1) 可以很容易地在不同语言之间进行数据交换。

(2) 使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。

(3) 提高应用程序的运行效率。

Windows 2000是使用Unicode从头进行开发的&＃xff0c;如果调用任何一个Windows函数并给它传递一个ANSI字符串&＃xff0c;那么系统首先要将字符串转换成Unicode&＃xff0c;然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串&＃xff0c;系统就会首先将Unicode字符串转换成ANSI字符串&＃xff0c;然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序&＃xff0c;就能够使你的应用程序更加有效地运行。

Windows CE 本身就是使用Unicode的一种操作系统&＃xff0c;完全不支持ANSI Windows函数

Windows 98 只支持ANSI&＃xff0c;只能为ANSI开发应用程序。

Microsoft公司将COM从16位Windows转换成Win32时&＃xff0c;公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。

Q 如何编写Unicode源代码&＃xff1f;

A

Microsoft公司为Unicode设计了WindowsAPI&＃xff0c;这样&＃xff0c;可以尽量减少代码的影响。实际上&＃xff0c;可以编写单个源代码文件&＃xff0c;以便使用或者不使用Unicode来对它进行编译。只需要定义两个宏&＃xff08;UNICODE和_UNICODE&＃xff09;&＃xff0c;就可以修改然后重新编译该源文件。

_UNICODE宏用于C运行期头文件&＃xff0c;而UNICODE宏则用于Windows头文件。当编译源代码模块时&＃xff0c;通常必须同时定义这两个宏。

Q Windows定义的Unicode数据类型有哪些&＃xff1f;

A

数据类型说明

WCHAR Unicode字符

PWSTR 指向Unicode字符串的指针

PCWSTR 指向一个恒定的Unicode字符串的指针

对应的ANSI数据类型为CHAR&＃xff0c;LPSTR和LPCSTR。

ANSI/Unicode通用数据类型为TCHAR&＃xff0c;PTSTR,LPCTSTR。

Q 如何对Unicode进行操作&＃xff1f;

A

字符集特性实例

ANSI 操作函数以str开头 strcpy

Unicode 操作函数以wcs开头 wcscpy

MBCS 操作函数以_mbs开头 _mbscpy

ANSI/Unicode 操作函数以_tcs开头 _tcscpy&＃xff08;C运行期库&＃xff09;

ANSI/Unicode 操作函数以lstr开头 lstrcpy&＃xff08;Windows函数&＃xff09;

所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示&＃xff1b;Unicode版本函数结尾以W表示。Windows会如下定义&＃xff1a;

#ifdef UNICODE

#define CreateWindowEx CreateWindowExW

#else

#define CreateWindowEx CreateWindowExA

#endif // !UNICODE

推荐阅读

js
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
version
CMake跨平台开发实践

本文介绍如何使用CMake支持不同平台的代码编译。通过一个简单的示例，我们将展示如何编写CMakeLists.txt以适应Linux和Windows平台，并实现跨平台的函数调用。 ... [详细]

蜡笔小新 2024-12-27 14:43:56
io
优化Kafka流状态存储查询的最佳实践

本文探讨了如何优化和正确配置Kafka Streams应用程序以确保准确的状态存储查询。通过调整配置参数和代码逻辑，可以有效解决数据不一致的问题。 ... [详细]

蜡笔小新 2024-12-26 18:17:14
buffer
计算机图形学实训：OpenGL入门与直线光栅化算法

本教程涵盖OpenGL基础操作及直线光栅化技术，包括点的绘制、简单图形绘制、直线绘制以及DDA和中点画线算法。通过逐步实践，帮助读者掌握OpenGL的基本使用方法。 ... [详细]

蜡笔小新 2024-12-26 12:24:25
io
Objective-C 编程中的关键语法点

本文探讨了 Objective-C 中的一些重要语法特性，包括 goto 语句、块（block）的使用、访问修饰符以及属性管理等。通过实例代码和详细解释，帮助开发者更好地理解和应用这些特性。 ... [详细]

蜡笔小新 2024-12-26 19:42:38
io
基因组浏览器中的Wig格式解析

本文详细介绍了Wiggle（Wig）格式及其在基因组浏览器中的应用，涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时，还提供了关于数据值和自定义参数的补充信息。 ... [详细]

蜡笔小新 2024-12-26 11:21:09
rsa
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
post
GDI基础介绍之几何绘图

使用GDI的一些AIP函数我们可以轻易的绘制出简 ... [详细]

蜡笔小新 2024-12-25 18:23:37
io
实体映射最强工具类：MapStruct真香

实体映射最强工具类：MapStruct真香 ... [详细]

蜡笔小新 2024-12-25 16:22:17
io
Linux系统中设置服务启动优先级的方法

本文详细介绍了Linux系统中init进程的作用及其启动过程，解释了运行级别的概念，并提供了调整服务启动顺序的具体步骤和实例。通过了解这些内容，用户可以更好地管理系统的启动流程和服务配置。 ... [详细]

蜡笔小新 2024-12-25 16:16:05
io
dotnet 通过 Elmish.WPF 使用 F# 编写 WPF 应用

本文来安利大家一个有趣而且强大的库，通过F#和C#混合编程编写WPF应用，可以在WPF中使用到F#强大的数据处理能力在GitHub上完全开源Elmis ... [详细]

蜡笔小新 2024-12-25 16:06:42
metadata
微软Exchange服务器遭遇2022年版“千年虫”漏洞

微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞，导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]

蜡笔小新 2024-12-25 14:08:03
js
优化局域网SSH连接延迟问题的解决方案

本文介绍了解决局域网内SSH连接到服务器时出现长时间等待问题的方法。通过调整配置和优化网络设置，可以显著缩短SSH连接的时间。 ... [详细]

蜡笔小新 2024-12-25 11:31:48
io
在Linux Mint上配置Rust开发环境

本文介绍如何在Linux Mint系统上搭建Rust开发环境，包括安装IntelliJ IDEA、Rust工具链及必要的插件。通过详细步骤，帮助开发者快速上手。 ... [详细]

蜡笔小新 2024-12-25 11:22:56
utf-8
在Android中排列多行小部件 - Arranging Rows of Widgets in Android

本文介绍如何使用布局文件在Android应用中排列多行TextView和Button，使其占据屏幕的特定比例，并提供示例代码以帮助理解和实现。 ... [详细]

蜡笔小新 2024-12-25 10:33:17

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章