黑马程序员技术交流社区

标题: UTF-8。。 [打印本页]

作者: 张明星    时间: 2012-3-28 09:50
标题: UTF-8。。
字符编码那部分,什么时候使用的是UTF-8,什么时候使用的是UTF-8修改版?有点乱
作者: 鲍亚坤    时间: 2012-3-28 09:59
utf-8一个汉字占用两个字节,一个英文占用两个字节
utf-8可以在全球所有的地方使用。
如果做的是简体中文的用gb2312可以省空间。
gb2312一个汉字占用两个字节,一个英文占用一个字节

作者: 李涛涛    时间: 2012-3-28 13:51
UTF_8是国际通用的编码,至于什么时候用,要看你的平台支持的编码格式。
作者: 翟友伟    时间: 2012-3-28 13:59
好像记得视频有说过  至于用什么编码 不是由你决定的  看平台 和要求  你只是被动的
作者: izwj    时间: 2012-3-28 14:00
标准UTF-8和修正的UTF-8有两点不同:   
修正的UTF-8中,null字符编码成2个字节(1100000010000000)而不是标准的1个字节(00000000),这样作可以保证编码后的字符串中不会嵌入null字符。因此如果在类C语言中处理字符串,文本不会在第一个null字符时截断(C字符串以null结尾)。   在标准UTF-8编码中,超出基本多语言范围(BMP-BasicMultilingualPlain)的字符被编码为4字节格式,但是在修正的UTF-8编码中,他们由代理编码对(surrogatepairs)表示,然后这些代理编码对在序列中分别重新编码。结果标准UTF-8编码中需要4个字节的字符,在修正后的UTF-8编码中将需要6个字节。
作者: dangfei    时间: 2012-3-28 14:11
每个国家对自己的文字都有一套编码方式,utf-8集合了所有的编码方式,因此又被称为万国码。
我们国家汉子的码表是gbk以及后来出现包含更多汉子的gb2312,gb18030等.我在应用jsp时用默认的utf-8编码
经常出现乱码,多改成gbk。
至于UTF8修正版,主要有两点不同:
一,null字符编码成2个字节(1100000010000000)而不是标准的1个字节(00000000)。
二,在标准UTF-8编码中,超出基本多语言范围(BMP-BasicMultilingualPlain)的字符被编码为4字节格式,但是在修正的UTF-8编码中,他们由代理编码对(surrogatepairs)表示,然后这些代理编码对在序列中分别重新编码。
看具体情况,来确定用哪种编码方式。
作者: 袁野    时间: 2012-3-28 23:15
看需求啦




欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2