A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© 学python的排骨 中级黑马   /  2019-8-8 14:11  /  984 人查看  /  0 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

ASCII

ASCII 是用来表示英文字符的一种编码规范。每个ASCII字符占用1 个字节,因此,ASCII 编码可以表示的最大字符数是255(00H—FFH)。这对于英文而言,是没有问题的,一般只什么用到前128个(00H--7FH,最高位为0)。而最高位为1 的另128 个字符(80H—FFH)被称为“扩展ASCII”,一般用来存放英文的制表符、部分音标字符等等的一些其它符号。但是对于中文等比较复杂的语言,255个字符显然不够用。

URL就是用的ASCII编码,所以只能是英文,而不能有任何的中文

Unicode

Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了,Unicode与ASCII一样也是一种字符编码方法,它占用两个字节(0000H—FFFFH)(如果要用到非常偏僻的字符,就需要4个字节),容纳65536 个字符。使用Unicode 编码可以使您的工程同时支持多种语言。即在不同语言的系统下不至于产生乱码。

UTF-8

新的问题又出现了:如果统一成Unicode编码,乱码问题从此消失了。但是,如果你写的文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。

本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。UTF-8编码有一个额外的好处,就是ASCII编码实际上可以被看成是UTF-8编码的一部分,所以,大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作

0 个回复

您需要登录后才可以回帖 登录 | 加入黑马