黑马程序员技术交流社区
标题: 【上海校区】吃货 Python [打印本页]
作者: 不二晨 时间: 2018-11-12 09:04
标题: 【上海校区】吃货 Python
多说也挺惨的,不能平静的死去,不知道哪里冒出一堆垃圾用户 ..
Python 慢是因为这货吃 CPU,而且多线程还不能有效利用多核,然而这货不仅吃 CPU 还吃内存,非常贪婪。
我的前一篇文章里面提到过一个项目,一直都没留心,这货大概加载了 70M 的磁盘文件到内存中以 dict 的形式保存,内存使用立马就飙升了大几百兆 .. (⊙v⊙) 看看 Python 的对象到底有多吃内存(下面的代码都是基于 Python3.6 的,Python2.x 只会多不会少):
>>> import sys>>> sys.getsizeof(1) 28 # bytes>>> sys.getsizeof(1<<64) # long in Py2 36>>> sys.getsizeof(1.1) 24>>> sys.getsizeof('s') 50>>> sys.getsizeof('ss') 51>>> sys.getsizeof(b'b') 34>>> sys.getsizeof(b'bb') 35>>> from decimal import Decimal>>> sys.getsizeof(Decimal(3.4)) 104对于容器类型的对象,我们得使用这段 代码 递归的计算内存大小,这里就直接复制过来了: from __future__ import print_functionfrom sys import getsizeof, stderrfrom itertools import chainfrom collections import dequetry: from reprlib import reprexcept ImportError: passdef total_size(o, handlers={}, verbose=False): """ Returns the approximate memory footprint an object and all of its contents. Automatically finds the contents of the following builtin containers and their subclasses: tuple, list, deque, dict, set and frozenset. To search other containers, add handlers to iterate over their contents: handlers = {SomeContainerClass: iter, OtherContainerClass: OtherContainerClass.get_elements} """ dict_handler = lambda d: chain.from_iterable(d.items()) all_handlers = { tuple: iter, list: iter, deque: iter, dict: dict_handler, set: iter, frozenset: iter, } all_handlers.update(handlers) # user handlers take precedence seen = set() # track which object id's have already been seen default_size = getsizeof(0) # estimate sizeof object without __sizeof__ def sizeof(o): if id(o) in seen: # do not double count the same object return 0 seen.add(id(o)) s = getsizeof(o, default_size) if verbose: print(s, type(o), repr(o), file=stderr) for typ, handler in all_handlers.items(): if isinstance(o, typ): s += sum(map(sizeof, handler(o))) break return s return sizeof(o)##### Example call #####if __name__ == '__main__': d = dict( a=1, b=2.5, c=1<<64, d=(1, 2, 3), e=[4, 5, 6], f={7, 8, 9}, g=b'bytes', h='unicode' ) print(total_size(d, verbose=True))输出是这样的:
368 <class 'dict'> {'a': 1, 'b': 2.5, 'c': 18446744073709551616, 'd': (1, 2, 3), ...}50 <class 'str'> 'a'28 <class 'int'> 150 <class 'str'> 'b'24 <class 'float'> 2.550 <class 'str'> 'c'36 <class 'int'> 1844674407370955161650 <class 'str'> 'd'72 <class 'tuple'> (1, 2, 3)28 <class 'int'> 228 <class 'int'> 350 <class 'str'> 'e'88 <class 'list'> [4, 5, 6]28 <class 'int'> 428 <class 'int'> 528 <class 'int'> 650 <class 'str'> 'f'224 <class 'set'> {7, 8, 9}28 <class 'int'> 828 <class 'int'> 928 <class 'int'> 750 <class 'str'> 'g'38 <class 'bytes'> b'bytes'50 <class 'str'> 'h'56 <class 'str'> 'unicode'1558没看错,这个小小的 dict 就干掉了近 1.5K 的内存... 可以的,实力在这里大家都看得到。
当然 Python 对于小型对象会使用对象池的方式来优化内存的使用率,但是这只能应用于大量相同的小对象,而且这篇文章里面提到了: CPython manages small objects (less than 256 bytes) in special pools on 8-byte boundaries. There are pools for 1-8 bytes, 9-16 bytes, and all the way to 249-256 bytes. When an object of size 10 is allocated, it is allocated from the 16-byte pool for objects 9-16 bytes in size. So, even though it contains only 10 bytes of data, it will cost 16 bytes of memory. If you allocate 1,000,000 objects of size 10, you actually use 16,000,000 bytes and not 10,000,000 bytes as you may assume. This 60% overhead is obviously not trivial.
所以,谨慎使用 Python 对象缓存过大的数据集,万能的 Google 告诉我们可以使用标准库shelve / sqlite3.connect(':memory:') ,第三方工具 numpy / redis 以及优化过的数据结构trie 等等来代替 dict-like 的数据集。
BTW这篇文章提供了一个案例教我们怎样去优化内存的使用率,主要使用了 Heapy 这个工具来定位吃内存较多的对象,通过干掉临时对象(del large_data),使用__slots__ 魔法,干掉 tuple,使用 Cython,将对象的方法变成函数等方式来优化内存使用率。
作者: 不二晨 时间: 2018-11-14 15:21
~(。≧3≦)ノ⌒☆
作者: 梦缠绕的时候 时间: 2018-11-15 15:04
作者: 魔都黑马少年梦 时间: 2018-11-15 16:31
欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) |
黑马程序员IT技术论坛 X3.2 |