字符编码

来源：互联网收集：自由互联发布时间：2022-08-10

#字符=====》计算机翻译=====》二进制====》内存======》硬盘 #GBK 中文编码标准 #16位表示65536个字符 #1994年，包括世界上所有国家字符的标准UNICODE #2个字节表示一个汉字，生僻字用4个或8个

#字符=====》计算机翻译=====》二进制====》内存======》硬盘

#GBK 中文编码标准

#16位表示65536个字符

#1994年，包括世界上所有国家字符的标准UNICODE

#2个字节表示一个汉字，生僻字用4个或8个字节表示

#一些老文件使用了各种各样的编码 “abc”----unicode----指定GBK格式保存-----GBK格式文件

#都包括在UNICODE内的编码是可以通过UNICODE进行保存

#例如：韩文-----UNICODE----指定韩文编码保存-----韩文文件

#两个互不包括的编码不能通过UNICODE进行保存

#例如：韩文-----UNICODE----指定GBK格式保存文件-----gbk文件（不成功；产生乱码）

#因为韩文编码与中文编码GBK互不兼容

#GB2312常用汉字编码

#BIG-5 大5码，台湾繁体字编码

#GB18030包括简繁文字

#UTF-8是对UNICODE的精简

#字符---》编码=====》UNICODE====》编码=====》GBK\UTF-98

#GBK\UTF-8=====>解码====》UNICODE=====>解码=====》字符

#UTF-8 一字节字符，三字节一个汉字

#内存中都是UNICODE码，只有保存时才选择具体以什么编码保存，读取时也一样。如果读取时用的编码格式与实际保存的不一致，可能出现乱码（保存文件编码===》UNICODE）

# PY文件头要按时指定该文件要用什么编码保存。比如 #coding ： GBK 这是指示PYTHON要用GBK编码格式读取。如果写时用的utf8,则读取时也会乱码

#python2 要把中文存成unicode 要在中文值前加u a=u"人民“

#从UNICODE====>编码====》其他编码其他编码=====》解码=====》UNICODE

#编码： A=“人” res=A.encode("GBK") A由unicode转为GBK

#解码： res.decode("GBK") 由 GBK编码转为unicode

上一篇：django订阅gerrit事件流数据
下一篇：没有了

相关文章