【Python核心】深入理解迭代器和生成器-编程知识网

本站消息

出租广告位,需要合作请联系站长

今日名言-想象你自己对困难作出的反应，不是逃避或绕开它们，而是面对它们，同它们打交道，以一种进取的和明智的方式同它们奋斗。——马克斯威尔·马尔兹

今日名言-用谅解、宽恕的目光和心理看人、待人。人就会觉得葱笼的世界里，春意盎然，到处充满温暖。——蔡文甫

机甲战士

文章

20673

访问

+关注

分类

暂无分类

日期归档

暂无数据

【Python核心】深入理解迭代器和生成器

发布于2021-07-25 06:08 阅读(1195) 评论(0) 点赞(8) 收藏(2)

在第一次接触Python的时候，可能写过类似for i in [2, 3, 5, 7, 11, 13]: print(i)这样的语句。for in语句理解起来很直观形象

但是，Python在处理for in语句的时候具体发生了什么呢？什么样的对象可以被for in来枚举呢？

接下来深入到Python的容器类型实现底层中，了解一种叫做迭代器和生成器的东西

一、容器、可迭代对象和迭代器

容器这个概念非常好理解，在Python中一切皆对象，对象的抽象就是类，而对象的集合就是容器

列表(list: [0, 1, 2])，元组(tuple: (0, 1, 2))，字典(dict: {0:0, 1:1, 2:2})，集合(set: set([0, 1, 2]))都是容器
对于容器，可以直观地想象成多个元素在一起的单元，而不同容器的区别在于内部数据结构的实现方法。然后，可以针对不同场景选择不同时间和空间复杂度的容器

所有的容器都是可迭代的(iterable)
这里的迭代和枚举不完全一样，迭代可以想象成是去买苹果，卖家并不告诉你他有多少库存。这样，每次都需要告诉卖家你要一个苹果，然后卖家采取行为：
要么给你拿一个苹果，要么告诉你苹果已经卖完了。而你并不需要知道卖家在仓库是怎么摆放苹果的

严谨地说，迭代器(iterator)提供了一个next的方法
调用这个方法后，要么得到这个容器的下一个对象，要么得到一个StopIteration的错误(苹果卖完了)。不需要像列表一样指定元素的索引，因为字典和集合这样的容器并没有索引一说
比如，字典采用哈希表实现，那么只需要知道next函数可以不重复不遗漏地一个一个拿到所有元素即可

而可迭代对象，通过iter()函数返回一个迭代器，再通过next()函数就可以实现遍历
for in语句将这个过程隐式化，所以只需要知道它大概做了什么就行了

看下面这段代码，主要展示怎么判断一个对象是否可迭代。当然，这还有另一种做法是isinstance(obj, Iterable)

def is_iterable(param):
    try: 
        iter(param) 
        return True
    except TypeError:
        return False

params = [
    1234,
    '1234',
    [1, 2, 3, 4],
    set([1, 2, 3, 4]),
    {1:1, 2:2, 3:3, 4:4},
    (1, 2, 3, 4)
]
    
for param in params:
    print('{} is iterable? {}'.format(param, is_iterable(param)))

########## 输出 ##########

1234 is iterable? False
1234 is iterable? True
[1, 2, 3, 4] is iterable? True
{1, 2, 3, 4} is iterable? True
{1: 1, 2: 2, 3: 3, 4: 4} is iterable? True
(1, 2, 3, 4) is iterable? True

通过这段代码可以知道，给出的类型中除了数字1234之外，其它的数据类型都是可迭代的

二、生成器是什么

很多人对生成器这个概念会比较陌生，因为生成器在很多常用语言中并没有相对应的模型，只需要记着一点：生成器是懒人版本的迭代器

在迭代器中，如果想要枚举它的元素，这些元素需要事先生成。这里，先看下面这个简单的样例：

import os
import psutil

# 显示当前 python 程序占用的内存大小
def show_memory_info(hint):
    pid = os.getpid()
    p = psutil.Process(pid)
    
    info = p.memory_full_info()
    memory = info.uss / 1024. / 1024
    print('{} memory used: {} MB'.format(hint, memory))

def test_iterator():
    show_memory_info('initing iterator')
    list_1 = [i for i in range(100000000)]
    show_memory_info('after iterator initiated')
    print(sum(list_1))
    show_memory_info('after sum called')

def test_generator():
    show_memory_info('initing generator')
    list_2 = (i for i in range(100000000))
    show_memory_info('after generator initiated')
    print(sum(list_2))
    show_memory_info('after sum called')

%time test_iterator()
%time test_generator()

########## 输出 ##########

initing iterator memory used: 48.9765625 MB
after iterator initiated memory used: 3920.30078125 MB
4999999950000000
after sum called memory used: 3920.3046875 MB
Wall time: 17 s
initing generator memory used: 50.359375 MB
after generator initiated memory used: 50.359375 MB
4999999950000000
after sum called memory used: 50.109375 MB
Wall time: 12.5 s

声明一个迭代器很简单，[i for i in range(100000000)]可以生成一个包含一亿元素的列表。每个元素在生成后都会保存到内存中，通过代码可以看到它们占用巨量的内存，内存不够的话就会出现OOM错误

不过，并不需要在内存中同时保存这么多东西，比如对元素求和只需要知道每个元素在相加的那一刻是多少就行了，用完就即可扔掉

于是，生成器的概念应运而生。在调用next()函数的时候，才会生成下一个变量
生成器在Python的写法是用小括号括起来(i for i in range(100000000))，即初始化了一个生成器

这样一来，可以清晰地看到生成器并不会像迭代器一样占用大量内存，只有在被使用的时候才会调用。而且生成器在初始化的时候并不需要运行一次生成操作，相比于test_iterator()、test_generator()函数节省了一次生成一亿个元素的过程，因此耗时明显比迭代器短

到这里，可能说生成器不过如此嘛，不就是多占一些内存和计算资源嘛，多出点钱就是了呗。不过，先看一个自定义的生成器

三、生成器的新花样

数学中有一个恒等式(1 + 2 + 3 + ... + n)^2 = 1^3 + 2^3 + 3^3 + ... + n^3 ，接下来验证一下这个公式的正确性，看看实现的代码

def generator(k):
    i = 1
    while True:
        yield i ** k
        i += 1

gen_1 = generator(1)
gen_3 = generator(3)
print(gen_1)
print(gen_3)

def get_sum(n):
    sum_1, sum_3 = 0, 0
    for i in range(n):
        next_1 = next(gen_1)
        next_3 = next(gen_3)
        print('next_1 = {}, next_3 = {}'.format(next_1, next_3))
        sum_1 += next_1
        sum_3 += next_3
    print(sum_1 * sum_1, sum_3)

get_sum(8)

########## 输出 ##########

<generator object generator at 0x000001E70651C4F8>
<generator object generator at 0x000001E70651C390>
next_1 = 1, next_3 = 1
next_1 = 2, next_3 = 8
next_1 = 3, next_3 = 27
next_1 = 4, next_3 = 64
next_1 = 5, next_3 = 125
next_1 = 6, next_3 = 216
next_1 = 7, next_3 = 343
next_1 = 8, next_3 = 512
1296 1296

这段代码中，首先注意一下generator()这个函数，它返回了一个生成器

接下来的 yield 是魔术的关键，可以理解为函数运行到这一行的时候，程序会从这里暂停然后跳出，不过跳到哪里呢？答案是next()函数。那么i ** k是干什么的呢？它其实成了next()函数的返回值

这样，每次next(gen)函数被调用的时候，暂停的程序就又复活了，从 yield 这里向下继续执行，同时注意局部变量i并没有被清除掉，而是会继续累加。可以看到next_1从1变到8，next_3从1变到512

可以发现，这个生成器可以一直进行下去！没错，事实上迭代器是一个有限集合，生成器则可以成为一个无限集。只管调用next()，生成器根据运算会自动生成新的元素然后返回

再来看一个问题：给定一个list和一个指定数字，求这个数字在list中的位置

下面这段代码应该不陌生，也就是常规做法，枚举每个元素和它的index，判断后加入result，最后返回

def index_normal(L, target):
    result = []
    for i, num in enumerate(L):
        if num == target:
            result.append(i)
    return result

print(index_normal([1, 6, 2, 4, 5, 2, 8, 6, 3, 2], 2))

########## 输出 ##########

[2, 5, 9]

那么使用迭代器可以怎么做呢？看下面的代码

def index_generator(L, target):
    for i, num in enumerate(L):
        if num == target:
            yield i

print(list(index_generator([1, 6, 2, 4, 5, 2, 8, 6, 3, 2], 2)))

########## 输出 ##########

[2, 5, 9]

可以看到明显的区别，唯一需要强调的是index_generator会返回一个Generator对象，需要使用list转换为列表后，才能用print输出

接下来再来看一个LeetCode的问题：给定两个序列，判定第一个是不是第二个的子序列

先来解读一下这个问题本身。序列就是列表，子序列则指的是一个列表的元素在第二个列表中都按顺序出现，但是并不必挨在一起。举个例子，[1, 3, 5] 是 [1, 2, 3, 4, 5] 的子序列，[1, 4, 3] 则不是

要解决这个问题，常规算法是贪心算法。维护两个指针指向两个列表的最开始，然后对第二个序列一路扫过去，如果某个数字和第一个指针指的一样，那么就把第一个指针前进一步。第一个指针移出第一个序列最后一个元素的时候，返回True，否则返回False

那么如果用迭代器和生成器呢？

def is_subsequence(a, b):
    b = iter(b)
    return all(i in b for i in a)

print(is_subsequence([1, 3, 5], [1, 2, 3, 4, 5]))
print(is_subsequence([1, 4, 3], [1, 2, 3, 4, 5]))

########## 输出 ##########

True
False

这简短的几行代码，是不是看得一头雾水，不知道发生了什么？

先把这段代码复杂化，然后一步步看

def is_subsequence(a, b):
    b = iter(b)
    print(b)

    gen = (i for i in a)
    print(gen)

    for i in gen:
        print(i)

    gen = ((i in b) for i in a)
    print(gen)

    for i in gen:
        print(i)

    return all(((i in b) for i in a))

print(is_subsequence([1, 3, 5], [1, 2, 3, 4, 5]))
print(is_subsequence([1, 4, 3], [1, 2, 3, 4, 5]))

########## 输出 ##########

<list_iterator object at 0x000001E7063D0E80>
<generator object is_subsequence.<locals>.<genexpr> at 0x000001E70651C570>
1
3
5
<generator object is_subsequence.<locals>.<genexpr> at 0x000001E70651C5E8>
True
True
True
False
<list_iterator object at 0x000001E7063D0D30>
<generator object is_subsequence.<locals>.<genexpr> at 0x000001E70651C5E8>
1
4
3
<generator object is_subsequence.<locals>.<genexpr> at 0x000001E70651C570>
True
True
False
False

首先，第二行的b = iter(b)，把列表 b 转化成了一个迭代器

接下来的gen = (i for i in a)语句产生一个生成器，这个生成器可以遍历对象a，因此能够输出1, 3, 5
而 (i in b)需要好好揣摩，这里是不是可以联想到for in语句？没错，(i in b)大致等价于下面这段代码：

while True:
    val = next(b)
    if val == i:
        yield True

这里非常巧妙地利用生成器的特性，next()函数运行的时候保存了当前的指针。比如再看下面这个示例：

b = (i for i in range(5))

print(2 in b)
print(4 in b)
print(3 in b)

########## 输出 ##########

True
True
False

至于最后的all()函数，它用来判断一个迭代器的元素是否全部为True，如果是则返回True，否则就返回False

四、总结

总结一下，讲了四种不同的对象，分别是容器、可迭代对象、迭代器和生成器

容器是可迭代对象，可迭代对象调用iter()函数可以得到一个迭代器。迭代器可以通过next()函数来得到下一个元素，从而支持遍历
生成器是一种特殊的迭代器，使用生成器可以写出来更加清晰的代码，合理使用生成器可以降低内存占用、优化程序结构、提高程序速度
生成器在Python 2的版本上，是协程的一种重要实现方式，而 Python 3.5引入async await语法糖后，生成器实现协程的方式就已经落后

原文链接:https://blog.csdn.net/lluozh2015/article/details/119011546

所属网站分类: 技术文章 > 博客

作者：机甲战士

链接：http://www.pythonpdf.com/blog/article/420/80078036275a074d5f00/

来源：编程知识网

任何形式的转载都请注明出处,如有侵权一经发现必将追究其法律责任

8 0

收藏该文

昵称:

评论内容：(最多支持255个字符)

程序员的那些事(new)

数据仓库hive概念与数据仓库分层、概念模型、逻辑模型、物理模型

Qt TCP/UDP通讯封装

2021-07-01常见的Dos命令

干了八年java开发，被比自己小7岁的主管羞辱，这一刻好像真的意识到了什么是中年危机

[建议收藏] 妹子惊叹: 原来测试执行的流程竟是这样的？！

C语言实现双人猜数游戏

程序人生3

程序员（媛）不懂汉服？岂能让别人小看，咱先靠肉眼大数据识别万张穿搭照

筛选系统架构设计师考试上午综合知识易错常考真题，及详细解答

【SaaS云会议系统开发】项目实训——2021.07.06

电子书(new)

Python3.2.3官方文档（中文版）pdf下载

Head First Python（中文版）pdf下载

FlaskWeb开发：基于Python的Web应用开发实战 pdf下载

Beginning Python Games Development(2nd) pdf下载

Python Cookbook第三版中文PDF下载高清完整扫描原版

django book 2.0中文 PDF下载高清完整扫描原版

python编码规范PDF下载高清完整

笨办法学python pdf下载

Java与模式 pdf下载

深入剖析Tomcat pdf下载

脚本(new)

用python画国旗

python文件解压脚本

python分类文件脚本下载

实时跟踪人物运动轨迹

PYTHON画樱花树

100行的加强型字符串 python实用脚本下载

一些有趣的java小程序

菱形的图形生成器，2到100以内的质数-java实用小程序

java代码游戏编写

9个有趣的java代码

博客(new)

linux screen

计算日期到天数的转化（华为机试python）

Windows平台搭建Swig环境示例，并且解决python无法返回double类型的问题

Python调用C语言实现数独计算逻辑提速100倍以上

python 类中列表使用append出现实例重复的问题

python 对象引用、可变性和垃圾回收

关于不同版本torch保存训练参数的问题及其他（SPIN）

Python&Qt——yolov5手势识别隔空操纵车载音乐播放器

Hanlp工具安装问题解决(windows)

python +opencv 进行移动端UI自动化

视频教程(new)

Python网络爬虫实战爬虫视频教程下载

2020年抗疫之作java基础进阶13天

系统学习让你轻松定义java类加载器-java视频教程下载

真小白福音，完全从0带你掌握计算机与编程基础

撩课-Python大数据+人工智能1 python视频教程下载

撩课-Python大数据+人工智能2 python视频教程下载

java零基础入门到精通（2019版）

2020JAVA基础-深入系统的学习数据结构与算法

图灵学院 Python全系列教程全栈工程师 python视频教程下载

9天快速掌握java基础，更适合小白学习的Java基础,java视频教程下载

项目实战(new)

实战项目之拉勾网

前端实战项目之幸福西饼

实战项目之头条

实战项目之网易云

Vue实战项目之喵喵电影

小程序全栈开发之喵喵交友

2020前端React项目实战

2020版uni-app项目实战

打造仿小米电商网站

NodeJS+Express+MongoDB实战项目

问答(new)

在 Django forms.ChoiceField 上设置选定的值

如何读取Model实例的数据库表名？

在 Django 1.7 中运行单元测试时禁用迁移

使用 django-allauth 时如何自定义用户配置文件

Django admin：如何在模型中显示标记为 editable=False' 的字段？

Django：使用整数设置外键？

如何在 Django 中对文件上传进行单元测试

在 Django 中导航

如何为基本身份验证发送正确的授权标头

导入错误：无法从“django.utils”导入名称“6”

游戏(new)

java游戏-蛙人

经典骰子游戏,java游戏源码下载

一些java小游戏

python小游戏五子棋之人机对战源码下载

python小游戏贪吃蛇源码下载

java小游戏-抓住这只球

二十一点，java小游戏源码下载

java小游戏集合下载

java五子棋游戏源码下载

java贪吃蛇游戏

其他资源(new)

Maven+JSP+SSM+Mysql实现的音乐网站

HTML5中国象棋游戏

地图拼图游戏

网页版台球小游戏

HTML5街头霸王游戏源码

jQuery五子棋游戏

驴子跳跳网页游戏源码

小球撞击游戏源码

HTML5制作的2048游戏

jQuery益智拼图游戏