`
javababy1
  • 浏览: 1170111 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

Unicode: 宽字节字符集  

 
阅读更多

Unicode: 宽字节字符集

1. 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数

可以调用Microsoft Visual C++的运行期库包含函数_mbslen来操作多字节(既包括单字节也包括双字节)字符串。

调用strlen函数,无法真正了解字符串中究竟有多少字符,它只能告诉你到达结尾的0之前有多少个字节。

2. 如何对DBCS(双字节字符集)字符串进行操作?

函数 描述

PTSTR CharNext LPCTSTR ; 返回字符串中下一个字符的地址

PTSTR CharPrev LPCTSTR, LPCTSTR ); 返回字符串中上一个字符的地址

BOOL IsDBCSLeadByte( BYTE );如果该字节是DBCS字符的第一个字节,则返回非0值

3. 为什么要使用Unicode

1)可以很容易地在不同语言之间进行数据交换。

2 使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。

3)提高应用程序的运行效率。

Windows 2000是使用Unicode从头进行开发的,如果调用任何一个Windows函数并给它传递一个ANSI字符串,那么系统首先要将字符串转换成Unicode,然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串,系统就会首先将Unicode字符串转换成ANSI字符串,然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序,就能够使你的应用程序更加有效地运行。

Windows CE 本身就是使用Unicode的一种操作系统,完全不支持ANSI Windows函数

Windows 98 只支持ANSI,只能为ANSI开发应用程序。

Microsoft公司将COM16Windows转换成Win32时,公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。

4. 如何编写Unicode源代码?

Microsoft公司为Unicode设计了WindowsAPI,这样,可以尽量减少代码的影响。实际上,可以编写单个源代码文件,以便使用或者不使用Unicode来对它进行编译。只需要定义两个宏(UNICODE_UNICODE),就可以修改然后重新编译该源文件。

_UNICODE宏用于C运行期头文件,而UNICODE宏则用于Windows头文件。当编译源代码模块时,通常必须同时定义这两个宏。

5. Windows定义的Unicode数据类型有哪些?

数据类型 说明

WCHAR Unicode字符

PWSTR 指向Unicode字符串的指针

PCWSTR 指向一个恒定的Unicode字符串的指针

对应的ANSI数据类型为CHARLPSTRLPCSTR

ANSI/Unicode通用数据类型为TCHARPTSTR,LPCTSTR

6. 如何对Unicode进行操作?

字符集 特性 实例

ANSI 操作函数以str开头 strcpy

Unicode 操作函数以wcs开头 wcscpy

MBCS 操作函数以_mbs开头 _mbscpy

ANSI/Unicode 操作函数以_tcs开头 _tcscpyC运行期库)

ANSI/Unicode 操作函数以lstr开头 lstrcpy(Windows函数)

所有新的和未过时的函数在Windows2000中都同时拥有ANSIUnicode两个版本。ANSI版本函数结尾以A表示;Unicode版本函数结尾以W表示Windows会如下定义:

#ifdef UNICODE

#define CreateWindowEx CreateWindowExW

#else

#define CreateWindowEx CreateWindowExA

#endif // !UNICODE

7. 如何表示Unicode字符串常量?

字符集 实例

ANSI “string”

Unicode L“string”

ANSI/Unicode T(“string”)_TEXT(string)if( szError[0] == _TEXT(‘J’) ){ }

8. 为什么应当尽量使用操作系统函数?

这将有助于稍稍提高应用程序的运行性能,因为操作系统字符串函数常常被大型应用程序比如操作系统的外壳进程Explorer.exe所使用。由于这些函数使用得很多,因此,在应用程序运行时,它们可能已经被装入RAM

如:StrCatStrChrStrCmpStrCpy等。

9. 如何编写符合ANSIUnicode的应用程序?

1 将文本串视为字符数组,而不是chars数组或字节数组。

2)将通用数据类型(如TCHAR和PTSTR)用于文本字符和字符串。

3 将显式数据类型(如BYTEPBYTE)用于字节、字节指针和数据缓存。

4 TEXT宏用于原义字符和字符串。

5 执行全局性替换(例如用PTSTR替换PSTR)。

6 修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小,而不是字节。这意味着不应该传递sizeof(szBuffer),而应该传递(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要为字符串分配一个内存块,并且拥有该字符串中的字符数目,那么请记住要按字节来分配内存。这就是说,应该调用malloc(nCharacters *sizeof(TCHAR)),而不是调用malloc(nCharacters)

10. 如何对字符串进行有选择的比较

通过调用CompareString来实现。

标志 含义

NORM_IGNORECASE 忽略字母的大小写

NORM_IGNOREKANATYPE 不区分平假名与片假名字符

NORM_IGNORENONSPACE 忽略无间隔字符

NORM_IGNORESYMBOLS 忽略符号

NORM_IGNOREWIDTH 不区分单字节字符与作为双字节字符的同一个字符

SORT_STRINGSORT 将标点符号作为普通符号来处理

11. 如何判断一个文本文件是ANSI还是Unicode

判断如果文本文件的开头两个字节是0xFF0xFE,那么就是Unicode,否则是ANSI

12. 如何判断一段字符串是ANSI还是Unicode

IsTextUnicode进行判断。IsTextUnicode使用一系列统计方法和定性方法,以便猜测缓存的内容。由于这不是一种确切的科学方法,因此 IsTextUnicode有可能返回不正确的结果。

13. 如何在UnicodeANSI之间转换字符串?

Windows函数MultiByteToWideChar用于将多字节字符串转换成宽字符串;函数WideCharToMultiByte将宽字符串转换成等价的多字节字符串。

源文档 <http://www.diybl.com/course/3_program/c++/cppjs/20100308/196997.html>

分享到:
评论

相关推荐

    Unicode--宽字节字符集[文].pdf

    Unicode--宽字节字符集[文].pdf

    unicode 字符集 与 多字节字符集 转换的代码

    unicode 字符集 与 多字节字符集转换/kekegeneral

    MFC在unicode字符集下的多字节串口调试助手

    MFC在unicode字符集下的多字节串口调试助手,涉及到了MFC在unicode编码和多字节编码之间的转换,所用的编译器为VS2013,可以直接在VS2013中运行

    Unicode字符集和多字节字符集关系[借鉴].pdf

    Unicode字符集和多字节字符集关系[借鉴].pdf

    VS2013 多字节字符集支持

    VS2013 编译MFC 使用多字节字符集时报错 error MSB8031: Building an MFC project for a non-Unicode character set is deprecated. 安装补丁解决。

    多字节、Unicode和UTF8字符串的互换

    多字节、Unicode和UTF8字符串的互换VB技术很实用的源码

    字符编码 大全

    TXT文本的编码问题 1 VC++的Unicode编程 4 字符,字节和编码 - Characters, Bytes And Encoding 14 Unicode:宽字节字符集 23 ANSI and Unicode strings 26 UTF8与ANSI等编码间如何转换 27 ANSI ...

    vs2008-Unicode字符集下CString与char_互转换

    在VS2008中,默认的字符集形式是Unicode,但在VC6.0等工程中,默认的字符集形式是多字节字符集(MBCS:Multi-Byte Character Set),这样导致在VC6.0中非常简单实用的各类字符操作和函数在VS2008环境下运行时会报...

    unicode字符集下编写多字节的串口调试助手

    unicode字符集下编写多字节的串口调试助手,涉及到了unicode和多字节之间的转换

    win系统GB18030字符集实现工具

    支持包安装成功后,转换工具 (gbunicnv.exe) 和微软4字节字符集编码支持包 (ms4bsp.dll) 会被安装在系统的 Program Files\GB18030Tools 文件夹下。用户可通过 Windows 2000 中的中文内码(Unicode) 输入法输入所需的 ...

    UTF8,ANSI,UTF7,UNICODE,UTF32等字符集字符串与字节数组互转工具

    UTF8,ANSI,UTF7,UNICODE,UTF32等字符集字符串与字节数组互转工具,方便调试学习

    众多字符集编码的区别Unicode向GB2312转换方法说明及示例

    众多字符集编码的区别Unicode向GB2312转换方法说明及包括ASCII码部分及GB2312字符集。 ASCII码部分为128个字符,GB2312字符集为7445个字符。 ASCII码部分不需要用映射表。 GB2312 table可分为4段,每段都是连续的。...

    vs打开vc工程后unicode字符串替换

    当vs2013只支持unicode字符集,打开vc6.0版本的工程后,需要把字符串的形式从 "aaa" 转换成 _T("aaa"),手工转换工作量大,本程序可实现批量转换,操作方法是将原文件内容复制过来,点击转换按钮,然后再复制回去即可...

    Unicode下CString与char*之间的转换(vs2008绝对实用)

    在VS2008中,默认的字符集形式是Unicode,但在VC6.0等工程中,默认的字符集形式是多字节字符集(MBCS:Multi-Byte Character Set),这样导致在VC6.0中非常简单实用的各类字符操作和函数在VS2008环境下运行时会报...

    conv_gbk_ibm1388:GBKIBM1388字符集转换

    这两个字符集不能通过像Unicode在UTF-8和UTF-16之间所做的操作来直接互换。 它们基于具有不同汉字顺序的不同编码(ASCII / EBCDIC)。 ICU( )支持两种字符集,但占用空间很大。 这是一种占地面积小,快速的解决...

    让开源项目TinyXml支持Unicode(wchar_t)

    开源项目TinyXml项目所涉及的字符编码说明... - 新增适用于`宽字符`参数的函数接口,调用字符集转换功能,转换为`窄字符`参数,再回调TinyXml原版接口。 - 对于以UTF16编码、或UTF32编码的Xml字符串,转换为UTF8编 --

    python3字符集说明.docx

    Unicode字符集是一种更广泛的字符集,它包含了世界上所有的字符,包括各种语言的字母、符号和标点符号。Unicode字符集可以使用不同的编码方式来表示,其中最常用的是UTF-8编码。 UTF-8编码是一种可变长度的编码方式...

    unicode格式的字符串进行URL编码

    今天写一个POST程序的时候有一段UNICODE字符串需要进行URL编码后进行提交。...就得到易语言支持的url编码unicode字节集的结果。有可能的话我建议精易模块也收录一下或者做一下这方便的URL编码。@龙卷风暴。

    EnumSerial(unicode)

    使用该方法要在你的程序中,添加“ EnumSerial.cpp ”和“ EnumSerial.h ”两个文件,并且将 Setupapi.lib 包含进你的工程,方法在项目属性-配置属性-连接器-... 修改如下属性【字符集】的值为【使用多字节字符集】

    Delphi中处理字符串的相关方法

    Delphi中处理字符串的相关方法 1、字符集转换方法 (1)stringtowidechar function stringtowidechar(const ...将sourcelen长度的unicode编码字符串转换为单字节或多字节字符串。实际的转换是通过调用win32 API函数

Global site tag (gtag.js) - Google Analytics