74、Python之函数式编程：深入理解惰性求值与生成器

引言

我们在过程式编程或者面向对象编程中（当然也不局限于这些），涉及到计算、数据的转换处理时，通常是执行到对应的语句或者表达式时，就会完成计算或者数据处理。大多数场景下，这样立即计算的方式是没有问题的，但是当涉及到大数据场景时，可能会存在性能上的问题。

本文介绍的函数式编程中的另一个关键特性：惰性求值，可以用来涉及到大数据的计算、处理场景。

本文的主要内容有：

1、什么是惰性求值

2、惰性求值的适用场景

3、基于生成器实现惰性求值

什么是惰性求值

所谓“惰性求值（Lazy Evaluation）”是一种计算的策略，即在真正需要时才进行计算，而不是立即计算。

在惰性求值中，表达式的计算被推迟，直到结果确实需要的时候才进行真正的计算。

与之相对的是“及早计算（Eager Evaluation）”，这种策略是我们之前已经广泛使用到的，执行到表达式时，就会立即完成计算，并获取结果。

在不同的教材中，有时也会用另一种表述方式：“严格求值”与“非严格求值”。从字面意思就可以理解，所谓严格求值就是及早计算，所谓非严格求值就是惰性求值的意思。

需要说明的是，前面的其他特性更多的体现了函数式编程范式的简洁性、状态管理比较清晰、易于调试、测试等。而函数式编程之所以高效，原因之一就在于这种惰性求值的特性。

其实，Python或者其他语言中，经常用到的“短路运算”，也可以算作是惰性求值的一种形式。

比如：

上面代码中，只有第一个print()会被执行，最后两个print()都不会被执行，由于短路运算的操作，没有执行的必要了。

在Python中，运算符and、or和if-else等都是非严格的，因为它们不需要计算全部参数就能提前得到整个表达式的最终结果了。

在其他语言中，也有同样的短路运算的实现。

惰性求值的适用场景

惰性求值的出发点在于进行性能优化，提升效率。所以，只要涉及到有性能优化的需要，都可以试着考虑能否通过惰性求值来实现。

惰性求值的典型场景主要有：

1、处理大数据集：当需要处理无法一次性装入内存的大数据集时，比如较大的文件、大型数据库的查询结果等，都可以使用惰性求值来优化内存的使用。

2、生成无限序列：如果需要一个无限的序列或者序列比较大，很可能导致内存溢出，这时，也可以考虑使用惰性求值来实现。

3、延迟计算以提高性能：当某些计算开销较大时，但是，并不总是需要用到其计算结果，那么就可以使用惰性求值，从而避免不必要的计算，从而提高性能。

4、流处理（Stream Processing）：在大数据计算中，除了离线的批量计算外，还有一类场景的使用越来越频繁，就是实时大数据处理，也可以理解为实时流式数据处理，数据像流水一样，是持续的流转的，比如用户行为日志、传感器的监测数据等。这些场景也适合惰性求值。

基于生成器实现惰性求值

在Python中，要实现惰性求值，除了前面提到的“短路运算”外，其实更常用的是使用“生成器”。

生成器（Generator）是Python中一种特殊的迭代器，允许我们以惰性（lazy）的方式来生成序列的元素。

生成器主要是使用yield关键字来返回值，而不是像普通函数那样使用return返回。生成器函数在每次被调用时会暂停，并在下次调用时继续执行当前的位置，从而节省内存和提高效率。

Python中有两种方式来使用生成器：

1、使用生成器表达式来获得生成器，类似于列表推导式，只需要把[]换为()，既可以快速得到一个生成器。

2、通过定义函数的方式定义一个生成器，主要是使用yield关键字。

生成器表达式

首先来看生成器表达式的使用，直接看代码：

执行结果：

从上述程序的执行可以得出：

1、列表推导式得到的是一个真实的列表对象，会直接占用对应的内存。

2、生成器表达式得到的是一个生成器对象，并不会直接分配同样大小的内存，只有在对生成器进行遍历时，才会真正计算每一个需要的元素。

3、两者在定义语法上的区别，只有[]与()的区别。

需要说明的是，列表可以进行多次遍历，但是，生成器只能进行一次遍历，所有的元素遍历完成了，不会从头来过。

此外，可以使用list(生成器对象)的方式将生成器对象转换为一个列表对象，本质上是对生成器对象进行遍历，用获得到的所有元素构建一个新的列表对象。当然构建之后，生成器对象本身如果使用for进行遍历，是获取不到任何元素的，因为已经被遍历一趟了。小数据集时，可以进行这种操作，数据量比较大时，需要注意性能。

使用yield定义生成器

直接看一个定义生成器函数的代码实例：