WithCoderWithCoderWithCoder

PHP生成器yield介绍

    在PHP 5.5.0版本中,引入了yield生成器这个功能。

    PHP的生成器提供了一种更容易的方法来实现简单的对象迭代,相比较定义类实现 Iterator 接口的方式,使用生成器的性能开销和复杂性会大大降低。生成器允许我们在 foreach 代码块中迭代一组数据而不需要在内存中创建相应的数组。如果在内存中创建数组,如果数据量过大(如创建一个存储1000万数字的整数数组),可能会让计算机的内存达到上限,或者会占用很长的处理时间。

    但是,我们可以自定义一个生成器函数,和普通函数只返回一次结果不同, 生成器可以根据需要 yield 多次,以便生成需要迭代的值。

    上面说了生成器的概念,看完可能一头雾水,我们通过例子来引入生成器的概念。

    1. 首先,创建一个生成整数数组的普通PHP函数:

function createRange($num)
{
   $data = [];
   for ($i = 0; $i < $num; $i++) {
       $data[] = time();
   }
   return $data;
}

    这是一个非常简单的PHP函数,我们在处理一些数组的时候经常会使用。代码逻辑也比较简单,就是使用 for 循环,把当前时间放到$data数组里面,执行完指定次数的 for 循环后,把 $data 数组返回。

    2. 然后,我们再写一个函数,把 createRange() 函数的返回值循环打印出来:

function read()
{
   $data = $this->createRange(10);
   foreach ($data as $item) {
       sleep(1);
       echo $item . '<br>';
   }
}

    打印结果如下:

    1-200422223TC47.png

    细心的同学可能注意到,输出的10个结果值是一样的(按照我们的想法,sleep 1秒,预期的结果应该是自增加1的,这个我们先不解释,文章后面会有解释)。

    另外,我们在调用函数 createRange() 的时候给 $num 的传值是10,一个很小的数字。假设,现在传递一个值10000000(1000万)。那么,在函数 createRange() 里面,for循环就需要执行1000万次,同时这1000万个值被放到 $data 数组里面,而$data数组在是被放在内存内。

    所以,在调用函数时候会占用大量内存,如果内存不够大,程序就会报致命错误,提示内存不足

    1-20042222305EU.png

    3. 这个时候,生成器就可以大显身手了。根据文章开头介绍的生成器概念,我们可以创建一个生成器函数。将createRange() 函数修改如下:   

function createRange($num)
{
   for ($i = 0; $i < $num; $i++) {
       yield time();
   }
}

    看下这段代码,我们删除了数组 $data ,而且函数也没有返回任何内容,而是在值 time() 之前使用了一个关键字yield。

    这时,我们再用同样的方法调用生成器代码,结果如下:

    1-200422224329533.png

    我们奇迹般的发现了,输出的值和第一次没有使用生成器的不一样。这里的值(时间戳)和我们预期的一样,中间间隔了1秒。

    这里的间隔一秒其实就是 sleep(1) 造成的后果。但是为什么调用普通函数打印的结果没有间隔?下面是对上面问题的解释:

    未使用生成器时: createRange() 函数内的 for 循环结果被很快放到 $data 数组中,函数一次返回全部的结果。所以, foreach 循环的是一个固定的数组。

    使用生成器时: createRange() 的值不是一次性快速生成,而是依赖于调用的 foreach 循环。 foreach 循环一次, for 执行一次。

    到这里,我们应该对生成器有点儿头绪。我们可以还原一下代码执行过程

    1. 首先调用 createRange() 函数,传入参数10,但是 for 值执行了一次然后停止了,并且告诉 foreach 第一次循环可以用的值。

    2. foreach 开始对 $result 循环,进来首先 sleep(1) ,然后开始使用 for 给的一个值执行输出。

    3. foreach 准备第二次循环,开始第二次循环之前,它向 for 循环又请求了一次。

    4. for 循环于是又执行了一次,将生成的时间戳告诉 foreach 

    5. foreach 拿到第二个值,并且输出。由于 foreach 中 sleep(1) ,所以, for 循环延迟了1秒生成当前时间

    所以,整个代码执行中,始终只有一个记录值参与循环,内存中也只有一条信息。无论开始传入的 $num 有多大,由于并不会立即生成所有结果集,所以内存始终是一条循环的值。

    4. 概念理解

    到这里,你应该已经大概理解什么是生成器了。下面我们来说下生成器原理。

    首先明确一个概念:生成器yield关键字不是返回值,他的专业术语叫产出值,只是生成一个值。

    那么代码中 foreach 循环的是什么?其实是PHP在使用生成器的时候,会返回一个 Generator 类的对象。 foreach 可以对该对象进行迭代,每一次迭代,PHP会通过 Generator 实例计算出下一次需要迭代的值。这样 foreach 就知道下一次需要迭代的值了。

    而且,在运行中 for 循环执行后,会立即停止。等待 foreach 下次循环时候再次和  for  索要下次的值的时候,循环才会再执行一次,然后立即再次停止。直到不满足条件不执行结束。

    5. 实际开发应用

    很多PHP开发者不了解生成器,其实主要是不了解应用领域。那么,生成器在实际开发中有哪些应用?

    5.1 读取超大文件

    PHP开发很多时候都要读取大文件,比如csv文件、text文件,或者一些日志文件。这些文件如果很大,比如5个G。这时,直接一次性把所有的内容读取到内存中计算不太现实。这里生成器就可以派上用场啦。在打开文件后,使用生成器读取文件,每次读取一行,每次被加载到内存中的文字只有一行,大大的减小了内存的使用。这样,即使读取上G的文本也不用担心,完全可以像读取很小文件一样编写代码。

    5.2 百万级别的访问量

    yield生成器是php5.5之后出现的,yield提供了一种更容易的方法来实现简单的迭代对象,相比较定义类实现 Iterator 接口的方式,性能开销和复杂性大大降低。正如前面文章中提到的,yield生成器允许你 在 foreach 代码块中写代码来迭代一组数据而不需要在内存中创建一个数组。

欢迎分享交流,转载请注明出处:WithCoder » PHP生成器yield介绍