迭代器設(shè)計(jì)模式,幫你大幅提升Python性能
今天給大家介紹的設(shè)計(jì)模式非常簡(jiǎn)單,叫做iterator,也就是 迭代器模式 。迭代器是Python語言當(dāng)中一個(gè)非常重要的內(nèi)容,借助迭代器我們可以很方便地實(shí)現(xiàn)很多復(fù)雜的功能。在深度學(xué)習(xí)當(dāng)中,數(shù)據(jù)的獲取往往也是通過迭代器實(shí)現(xiàn)的。因此這部分的內(nèi)容非常重要,推薦大家一定要掌握。
簡(jiǎn)單案例
在開始介紹設(shè)計(jì)模式之前,我們先來看一個(gè)簡(jiǎn)單的需求。假設(shè)現(xiàn)在我們需要根據(jù)傳入的變量獲取每周的前幾天,比如說我們傳入3返回的就是[Mon, Tue, Wed],我們傳入5返回[Mon, Tue, Wed, Thu, Fri]。這個(gè)需求大家應(yīng)該都能理解,非常非常簡(jiǎn)單。
如果用一個(gè)函數(shù)來實(shí)現(xiàn)的話,就是這樣:
- def return_days(n):
- week = ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun']
- return week[:n]
你看三行代碼就實(shí)現(xiàn)了,在這個(gè)問題場(chǎng)景當(dāng)中這樣寫當(dāng)然是沒有問題。但假如我們把題目稍微變一變,這里的week不是一個(gè)固定的數(shù)據(jù),而是從上游或者是某個(gè)文件當(dāng)中讀取的。這里的n也是一個(gè)很大的數(shù),我們把這個(gè)函數(shù)改寫成這樣:
- def get_data(n):
- data = []
- for i in range(n):
- data.append(get_from_upstream())
- return data
我們假設(shè)get_from_upstream這個(gè)函數(shù)當(dāng)中實(shí)現(xiàn)了獲取數(shù)據(jù)的具體邏輯,那么上面這一段函數(shù)有一個(gè)什么問題?
有些同學(xué)會(huì)說這沒有問題啊,因?yàn)橄袷瞧渌Z言實(shí)現(xiàn)數(shù)據(jù)獲取的時(shí)候也都是這么干的。的確,像是Java等語言可能都是這么干的。但是其他語言這么干沒錯(cuò),不代表Python這么干也沒錯(cuò)。因?yàn)槲覀?nbsp;沒有把Python的能力發(fā)揮到最大 。
這里有兩個(gè)問題,第一個(gè)問題是 延遲 ,因?yàn)榍懊嬲f了,n是一個(gè)很大的數(shù)。我們從上游獲取數(shù)據(jù),無論是通過網(wǎng)絡(luò)還是文件讀取,本質(zhì)上都是IO操作,IO操作的延遲是非常大的。那么我們把這n條數(shù)據(jù)全部搜集完可能需要很長(zhǎng)的時(shí)間,導(dǎo)致下游的漫長(zhǎng)等待。第二個(gè)問題就是內(nèi)存,因?yàn)槲覀兇鎯?chǔ)了這n條數(shù)據(jù)一起返回的,如果n很大,對(duì)于內(nèi)存的開銷壓力也很大,如果機(jī)器內(nèi)存不夠很有可能導(dǎo)致崩潰。
那怎么解決呢?
其實(shí)解決的方法很簡(jiǎn)單,如果對(duì)迭代器熟悉的話,會(huì)發(fā)現(xiàn)迭代器針對(duì)的恰恰是這兩個(gè)問題。我們把上面的邏輯改寫成迭代器實(shí)現(xiàn)即可,這也就是iterator模式。
iterator模式
iterator模式嚴(yán)格說起來其實(shí)只是迭代器的一種應(yīng)用,它非常巧妙地 將迭代器與匿名函數(shù)結(jié)合在一起 ,里面也沒有太多的門道可以說,我們把剛才的代碼改寫一下,細(xì)節(jié)都在代碼當(dāng)中。
- def get_data(n):
- for i in range(n):
- yield get_from_upstream()
- data_10 = lambda: get_data(10)
- data_100 = lambda: get_data(100)
- # use
- for d in data_10:
- print(d)
很簡(jiǎn)單吧,但可能你要問了,我們既然寫出了get_data這個(gè)迭代器,那么我們使用的時(shí)候直接for d in get_data(10)這樣用不就好了,為什么中間要用匿名函數(shù)包一層呢?
道理也很簡(jiǎn)單,如果這個(gè)數(shù)據(jù)是我們自己使用,當(dāng)然是沒必要中間包一層的。但如果我們是傳給下游使用的話,對(duì)于下游來說它肯定是不希望考慮上游太多的細(xì)節(jié)的,越簡(jiǎn)單越好。所以我們直接丟一個(gè)包裝好的迭代器過去,下游直接call即可。否則的話,下游還需要感知get_data這個(gè)函數(shù)傳入的參數(shù),顯然是不夠合理的。