黑马程序员技术交流社区

标题: 字符串的序列化 [打印本页]

作者: 柳春华    时间: 2016-4-19 00:06
标题: 字符串的序列化
从char序列到byte序列的转换,叫"编码"
1) String 字符串本质上是Char
2)utf-16be 编码-----将16位char从中间切开为2个byte
utf -16be是将 unicode char[] 序列化为byte[]的编码方案
能够支持65535个字符编码,英文浪费空间
如:
char[] = ['A', 'B', '中']
对应  0041,0042,4e2d
utf-8:国际标准,是将unicode编码为byte序列的方案,采用变长编码 1-N方案,其中英文1个byte,中文3个byte
unicoded的" 中": 4e 2d = 01001110 00101101
utf-8的"中":e4 b8 ad =11100100 10111000 10101101
1110xxxx 10xxxxxx 10xxxxxx
以0开头的是英文(0-127)
110表示连续2字节表示一个字符
1110表示连续3字节表示一个字符
每个数据字节以10开头
GBK: 中国标准,支持20000+中日韩文,英文编码1byte,中文2byte
与unicode不兼容,中文windows默认gbk
ISO8859-1:只支持255个英文字符,不支持中文(Sun服务器默认编码,如tomcat等)




欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2