UTF-8编码判断获取几个字节的问题

杨佳名

UTF-8修改版获取编码字节数是根据字节头来获取的。
UTF-8修改版编码字节获取方式如下：
第一个字节是0开头，是读一个字节，例如：01101001
第一个字节是110 开头，第二个字节是10开头。是读两个字节，例如：11001101 10101011
第一个字节是1110 开头，第二个字节是10开头第三个字节也是10开头。是读三个字节，例如：11101010 10100101  10100101
但是如果碰上如下情况怎么读？
情况1：1111开头的字节，例如：11110101
情况2：第一个字节10开头的字节，例如：10010100
情况3：第一个字节110开头第二个字节不是10开头的字节，例如：11001100  01001001
情况4：第一个字节1110开头，第二个字节或第三个字节不是10开头的字节，例如：11100001 11001001  01101001
像以上情况的话，编码是怎么判断获取字节数的？
是还能获取呢？还是不能继续获取？
还是原来获取方式的话，是不是就是出现乱码呢？

zhangyangLengen · zhangyangLengen

那么这种情况，就不会进行读码，以不存在的字符进行处理

Eagle · Eagle

zhangyangLengen 发表于 2014-11-12 08:48
那么这种情况，就不会进行读码，以不存在的字符进行处理

不是乱码吗？

zhangyangLengen · zhangyangLengen

应该就是乱码

帐号		自动登录	找回密码
密码			加入黑马

UTF-8编码判断获取几个字节的问题

评分

3 个回复