#字符=====》计算机翻译=====》二进制====》内存======》硬盘
#GBK 中文编码标准
#16位表示65536个字符
#1994年,包括世界上所有国家字符的标准UNICODE
#2个字节表示一个汉字,生僻字用4个或8个字节表示
#一些老文件使用了各种各样的编码 “abc”----unicode----指定GBK格式保存-----GBK格式文件
#都包括在UNICODE内的编码是可以通过UNICODE进行保存
#例如:韩文-----UNICODE----指定韩文编码保存-----韩文文件
#两个互不包括的编码不能通过UNICODE进行保存
#例如:韩文-----UNICODE----指定GBK格式保存文件-----gbk文件(不成功;产生乱码)
#因为韩文编码与中文编码GBK互不兼容
#GB2312常用汉字编码
#BIG-5 大5码,台湾繁体字编码
#GB18030包括简繁文字
#UTF-8是对UNICODE的精简
#字符---》编码=====》UNICODE====》编码=====》GBK\UTF-98
#GBK\UTF-8=====>解码====》UNICODE=====>解码=====》字符
#UTF-8 一字节字符,三字节一个汉字
#内存中都是UNICODE码,只有保存时才选择具体以什么编码保存,读取时也一样。如果读取时用的编码格式与实际保存的不一致,可能出现乱码(保存文件编码===》UNICODE)
# PY文件头要按时指定该文件要用什么编码保存。比如 #coding : GBK 这是指示PYTHON要用GBK编码格式读取。如果写时用的utf8,则读取时也会乱码
#python2 要把中文存成unicode 要在中文值前加u a=u"人民“
#从UNICODE====>编码====》其他编码 其他编码=====》解码=====》UNICODE
#编码: A=“人” res=A.encode("GBK") A由unicode转为GBK
#解码: res.decode("GBK") 由 GBK编码转为unicode