文本模式与二进制模式打开文件对比

 分类: Python

问题是在用Python抓取一个网站上的图片时出现的,代码如下:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib2
img="https://www.baidu.com/img/bdlogo.png"

imgdata=urllib2.urlopen(img).read()

png=open("logo.png","w")
png.write(imgdata)
png.close()

发现下载来下的图片已经损坏,无法被打开。对两张图片进行hash运算,发现内容确实发生了改变,大小也由原来的5331字节变成了5345字节,用二进制查看器进行查看,发现第6个字节由原来的0x0a变成了0x0d。经过细致对于分析,发现新文件在所有的0x0a之前都添加了0x0d这个字节。熟悉ASCII码表的可能知道,0d0a代表是回车换行,通常在windows下表示新的一行开始,同样的代码放到linux下,发现下载图片完全正常,而linux下换成则是0x0a,这里推测由于文件是文本方式打开的,所以程序自动在0x0a前增加了0x0d,殊不知更改了原来的数据导致图片打不开(这点非常像windows自作聪明的给utf-8编码的文件自动加上BOM)。

文本模式与二进制模式打开方式

那么,针对这种二进制数据,python如何处理呢?Python打开模式中提供了一个”b”参数,表示用二进制方式打开,并对b模式做了如下说明:
On Windows, ‘b’ appended to the mode opens the file in binary mode, so there are also modes like ‘rb’, ‘wb’, and ‘r+b’. Python on Windows makes a distinction between text and binary files; the end-of-line characters in text files are automatically altered slightly when data is read or written. This behind-the-scenes modification to file data is fine for ASCII text files, but it’ll corrupt binary data like that in JPEG or EXE files. Be very careful to use binary mode when reading and writing such files. On Unix, it doesn’t hurt to append a ‘b’ to the mode, so you can use it platform-independently for all binary files.

上面的情况是对文件进行写操作,如果是对文件进行读操作,会发现fileformat=dos的文件,在windows下用”r”模式进行打开,python会自动去掉0x0d,而linux平台则不会。
综上,我们可以理解python中的b模式主要是针对在windows下换成和unix平台不一样而采用的兼容性举措,在unix平台下,用不用‘b’模式不影响处理的数据。

发表回复