python字符编码文件方法介绍

字符编码发展

ascii 255 只支持英文字母和数字,特殊字符 1bytes

unicode 中文和英文 统一2bytes

utf-8 中文>3bytes 英文>1bytes

bytes类型

文本数据总是unicode由str类型表示,二进制数据则由bytes类型表示

二进制数据用在视频,音频文件以及发送socket网络传输数据等

字符串转成二进制 str.encode(“encoding=utf-8”)

二进制转成字符串 b’\xe2\x82′.decode(“encoding=utf-8”)

文件句柄 就是 文件对象的内存地址

字符编码和转码

ascii码表中不能存中文,windows默认的系统字符编码是gbk.

unicode 字符编码能存储世界上所有的字符,但所有字符都占用了两个字节,原来一个2m

的英文文件使用unicode后需要占用4m的存储空间

utf-8字符串转换成gbk字符

任何两种编码的字符串进行转换都必须通过先转成unicode编码来实现

unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码.

乱码的出现基本上就两种情况:

1、字符编码没有

2、字符编码冲突了,人家在写这个程序的时候指定的字符集和咱们使用的字符集的位置不对

在2.x版本的python中pyton在解释.py文件的时候,默认是给他一个编码的就是ascii码

python3中默认就是unicode编码

因为在python2.x中默认是ascii编码,你在文件中指定编码为utf-8,但是utf-8如果你想转gbk的话是不能直接转的,的需要unicode做一个转接站点。

字符串特性,一旦修改,重新创建

以上就是python字符编码文件方法介绍的详细内容,更多请关注 第一php社区 其它相关文章!

Posted in 未分类