[学习交流] 用Python读取大文件（上）

用Python读取大文件（上）（hackstoic） 通常我们在读取文件的时候，会用到read（）， readline（）， readlines（）。通常可能会有这样的用法：

def test1(): with open("/tmp/test.log", "r") as f:       print f.read()
或者
def test2(): f = open("/tmp/test.log", "r") for line in f.readlines():       print line f.close()

read （）的方法是一次性把文件的内容以字符串的方式读到内存，放到一个字符串变量中

readlines（）的方法是一次性读取所有内容，并按行生成一个list

因为read（）和readlines（）是一次性把文件加载到内存，如果文件较大，甚至比内存的大小还大，内存就会爆掉。所以，这两种方法只适合读取小的文件。

实际工作中，会碰到读取10几G的大文件的需求，比如说日志文件。这时候就要用的新的读取文件的方法。这里提供两种方法，有简单，有复杂，但基本原理都是一样的。就是利用到生成器generator。

方法一：
将文件切分成小段，每次处理完小段内容后，释放内存
这里会使用yield生成自定义可迭代对象，即generator，每一个带有yield的函数就是一个generator。

def read_in_block(file_path): BLOCK_SIZE = 1024 with open(file_path, "r") as f:       while True:          block = f.read(BLOCK_SIZE)  # 每次读取固定长度到内存缓冲区          if block:             yield block          else:             return  # 如果读取到文件末尾，则退出def test3(): file_path = "/tmp/test.log" for block in read_in_block(file_path):       print block

方法二：
利用open（“”， “”）系统自带方法生成的迭代对象
def test4(): with open("/tmp/test.log") as f:       for line in f:          print line  for line in f 这种用法是把文件对象f当作迭代对象，系统将自动处理IO缓冲和内存管理，这种方法是更加pythonic的方法。比较简洁。

以上代码均在python2.7环境调试通过。

本文大略讲解了几种处理文件的方法，并介绍了大文件的正确打开‘姿势’。这里提到了几个概念：分别是生成器，迭代器，文件对象。你可能会对这些概念比较陌生，没关系，我会在下篇再深入解释这些

zzxt · zzxt

一楼顶顶顶

lanqi0820 · lanqi0820

多谢分享，目前正在学习yeild生成器，用来读文件确实不错

baby14 · baby14

多谢分享

帐号		自动登录	找回密码
密码			加入黑马

[学习交流] 用Python读取大文件（上）

3 个回复