多语言处理 --> UNICODE --> IBM的ICU类库
最近写的一个C++程序里需要处理不同语言编码之间的相互转换问题,主要是GBK、BIG5、UTF-8和UTF-16这几种编码,程序虽小,但转换操作相对复杂一些。起初只想用C++本身提供的功能——包括C++标准里的wchar_t类型,C语言运行库中的locale函数集、mbstowcs和wcstombs函数,以及标准C++库中的wstring、wfstream等类——解决问题。不过,实际编起程序来,这些东西虽然能实现编码转换的功能,但总显得比较繁琐,缺少面向对象的流畅感。最讨厌的是,不同的C++编译器对这些东西的支持程度也不一样,vc相对好一些,其他的总要调上半天才能运行起来,有时还会碰上奇怪的编码错误。
现在想一想,以前在MFC中,直接用CString或TCHAR数组存储字符串,用WIN32的MultiByteToWideChar和WideCharToMultiByte函数处理编码转换的做法也比上面的方法好不到哪儿去,而且更难于移植。
所以,这会儿就特别怀念用Java语言处理类似问题的惬意了,Java本身的char类型就是UNICODE的,同时又在API中提供了面向对象的编码转换机制。所以,在Java中,下面这种转换文件编码的操作看上去就相当舒服:
InputStreamReader in = new InputStreamReader(new FileInputStream(old_name), "BIG5");
OutputStreamWriter out = new OutputStreamWriter(new FileOutputStream(new_name), "GBK");
while((i = in.read()) >= 0)
out.write(i);
更复杂的编码转换问题,在Java中解决起来也非常简单。这里面最本质的问题在哪里呢?是不是Java把自己的内核(“内核”这个词不恰当,有点儿像以前说的“内核级汉化”了)设计成UNICODE的缘故呢?换句话说,是不是Java里char类型本身就是UNICODE类型带来的好处呢?.NET平台的语言,像C#和VB.NET也是按照类似Java的模式设计的,在这些语言中处理编码转换问题似乎也很方便。C/C++是后来才引入的国际化功能,char和wchar_t也是相互分离的,是不是必然会有许多麻烦呢?
前几天在Linux上写一个Ruby脚本,用于管理和监控我自己家里的宽带连接(我对Ruby不熟,是边查Ruby手册边写程序的),发现Ruby内建的字符类型也是单字节的,如果处理UNICODE或编码转换时,还得使用其他的库,也需要来回转换,而且,用Ruby Tk编写控制界面时,在Linux上显示中文的问题就搞得我头疼不已。这是不是说,像Ruby这样的脚本语言,如果把内部的字符类型改为UNICODE的,就会对国际化功能支持得更好,就会被更多的人接受呢?或者说,以后出现的解释型脚本语言(动态语言?),都应该使用类似Java的机制呢?
回到C++上来。我发现C++本身的国际化功能有限以后,就开始寻找好用的类库。我先去查了查Boost,发现Boost里没有太多相关的东西,唯一一个对我有用的类库Date-Time还实现得非常糟糕,Boost中的Date-Time支持的年代范围非常有限,还只实现了格列高里改历后的现代历法(Gregorian System),比起Java中的GregorianCalendar类和.NET中的System.Globalization.Calendar类族,差了太多太多。
随后,我想起的是Apache的Xerces-C++,这个处理XML的类库,当然应该支持编码转换和UNICODE编程。但翻了翻文档,发现Xerces-C++毕竟只是个专用于XML处理的类库,其中虽然有一些国际化支持,但缺少的东西更多。
然后,我就在IBM的网站上发现了Mark Davis的文章Forms of UNICODE(http://www-900.ibm.com/developerWorks/cn/unicode/utfencodingforms/index_eng.shtml),这篇东西真好,不仅讲UNICODE基础知识,还让我找到了一个叫ICU的类库。这个ICU现在是International Components for Unicode的缩写,网址是
http://oss.software.ibm.com/icu/
然后我就特别高兴地发现,Java中的国际化功能最早就是由ICU那帮人实现的(我以前怎么没发现呢?)。所以,现在的ICU类库(包括C++和Java的版本)在接口上和Java API非常类似。ICU对各种编码转换的支持非常全面,还提供regular expression这样实用的功能,ICU中的GregorianCalendar类可以提供和Java中的GregorianCalendar类大致相同的功能(我在http://www.csdnblog.net/wangyonggang/archive/2004/05/17/732.aspx中说过这些东西)。
哎呀哎呀,IBM真好,ICU不错!我需要的功能都有,现在可以停止辛苦的寻找,研究研究ICU,编写我的程序了。
分享到:
相关推荐
ANSI --> Unicode ANSI --> Unicode big endian ANSI --> UTF-8 Unicode --> ANSI Unicode --> UTF-8 UTF-8 --> ANSI UTF-8 --> Unicode UTF-8 --> Unicode big endian ansi转别的,不检验BOM,一律作为ansi编码...
esri-fonts-pbf-arial-unicode-ms-bold
unicode -> utf-8 utf-8 -> unicode 国际化必备工具
<br>可用于eclipse 3.X<br>使用方法:<br>windows---->Preferences----> PropertiesEditor<br>在Encode at reading a file中选US--ASCII<br>这样在ApplicationResources.properties写中文,它会自动转换为ASCII;...
text --> ANSI --->UNICODE--->UniBigEnd--->UTF8 ----> UTF7 编码转化小工具,快速的解决编码的转化。 不需要在线,是一款独立运行的小软件。
Unicode East Asian Width 1.33
MyEclipse作为Eclipse的一款插件迅速“走红”,为当今企业的开发J2EE项目的... MyEclipse -> Perferences -> MyEclipse -> Files and Editor -> JSP选择右边的Encoding , 然后选择ISO 10646/Unicode(UTF-8),点击OK.
<-------------------- Maxthon Information ------------------------> Version=1.6.5.18 Unicode URL = http://u.download.csdn.net/upfile Content Filter = Enabled Popup Filter = Enabled Auto Popup Filter ...
-----MySQL 字符集: UTF-8 Unicode (utf8) -----> 3)在 php 文件头部加入 <meta http-equiv="Content-Type" content="text/html; charset=utf-8"></HEAD> "说明此文件编码为utf8" 4)在 mysql_select_db("表名",$id...
----------------------------------<br>Section 1: The Basics<br> chap1-Getting Started<br> chap2-An Introduction to Unicode<br> chap3-Windows and Messages<br> chap4-An Exercise in Text Output<br> chap5...
所有的文件复制到 winntsyste32注册 wh.dll使用方法看wh.asp
delphi 6-XE读取ANSI,unicode,unicode big,utf-8,utf-8BOM文件,保存utf8
bazel编译tensorflow需要的包 https://github.com/unicode-org/icu/archive/release-62-1.tar.gz 还是要科学上网来通过bazel获取这个包的,不知道怎么从缓存加载它。
ICU4C是ICU在C/C++平台下的版本, ICU(International Component for Unicode)是基于"IBM公共许可证"的,与开源组织合作研究的, 用于支持软件国际化的开源项目。ICU4C提供了C/C++平台强大的国际化开发能力,软件开发者...
[]--->>>() , |--->>>: , ` --->>> . 0x14143:0F85B76C0100--->>>0F856F6C0100 ============================== 将检索字符集“GB2312”与“Unicode”的颜色对换: 7392B890 0FB605 BC1E9273 movzx eax,byte ptr ds...
ArcGIS API For JavaScript 字体文件PBF,可本地部署
[]--->>>() , |--->>>: , ` --->>> . 0x14143:0F85B76C0100--->>>0F856F6C0100 ============================== 将检索字符集“GB2312”与“Unicode”的颜色对换: 7392B890 0FB605 BC1E9273 movzx eax,byte ptr ds...
按照以下格式对所有汉字编码进行说明<br>-----------------------------------------------------------------------------------------<br>汉字 全拼 五笔 郑码 UNICODE GBK 笔画数 部首 笔顺编号<br>-------------...
arial-unicode-ms-regular离线字体
unicode匹配属性的电子书 unicode-match-property-ecmascript将给定的Unicode属性或与其规范的属性名称,而无需用于的算法应用。 认为它是松散匹配的严格替代方案。安装要以编程方式使用unicode-match-property-...