A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© 王阳 中级黑马   /  2012-11-10 16:30  /  1468 人查看  /  2 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

public static void main(String[] args) {
          String str = "联通";

           byte [] arr = str.getBytes("gbk");
          for (byte b : arr) {
                        System.out.println(Integer.toBinaryString(b&255));
                }
        }

输出结果:
1100000110101010
11001101
10101000

今天看老毕的视频,说这段代码输出的结果有点类似UTF-8的编码形式,有点不理解,求解答。。

评分

参与人数 1技术分 +1 收起 理由
奋斗的青春 + 1 赞一个!

查看全部评分

2 个回复

倒序浏览
1.UTF-8可以用一个字节,两个字节或则三个字节来表示一个字符。
具体是通过UTF-8的头位信息来区分的。
头位是0,表示用一个字节
头位是110- - - -10- - - - - -,表示用两个字节
头位是1110- - - -10- - - - - -10- - - - - -,表示用三个字节
2.具体的楼主可以查阅api文档:
在java.io包中DataOutputStream 类中的writeUTF(String str)方法中UTF-8 修改版,
点击进去,里面写的很清楚。
3.此程序中的头字节刚好为110- - - - -10- - - - - - ,会被误用UTF-8来解码。
而原本却是用jbk编的码,所以会导致解码错误。
4.以上为本人理解,希望可以帮到楼主。

评分

参与人数 1技术分 +1 收起 理由
奋斗的青春 + 1 很给力!

查看全部评分

回复 使用道具 举报
谢谢,了解了。
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马