Python列表和集合的效率對比
程序運行效率
程序的運行效率分為兩種:第一種是時間效率,第二種是空間效率。時間效率被稱為時間復(fù)雜度,而空間效率被稱作空間復(fù)雜度。時間復(fù)雜度主要衡量的是一個程序的運行速度,而空間復(fù)雜度主要衡量一個程序所需要的額外存儲空間。
一個程序執(zhí)行所耗費的時間,從理論上說,是不能算出來的,只有你把程序放在機器上跑起來,才能知道,不同機器不同時間得出的結(jié)果可能不一樣。但是我們需要每個程序都上機測試嗎?顯然不現(xiàn)實,所以才有了時間復(fù)雜度這個分析方式。實際中我們計算時間復(fù)雜度時,其實并不一定要計算精確的執(zhí)行次數(shù),而只需要大概執(zhí)行次數(shù),一般會使用大O漸進表示法,平時執(zhí)行次數(shù)為1次的我們就可以說時間復(fù)雜度是O(1),需要n次的就可以說時間復(fù)雜度是O(n)。
空間復(fù)雜度是對一個算法在運行過程中臨時占用存儲空間大小的量度。空間復(fù)雜度不是程序占用了多少個字節(jié)的空間,因為這個實際運行過程中很難計算,所以空間復(fù)雜度算的是變量的個數(shù)。空間復(fù)雜度計算規(guī)則基本跟時間復(fù)雜度類似,也使用大O漸進表示法。
Python組合數(shù)據(jù)類型中常用的主要有元組、列表、集合和字典,每種數(shù)據(jù)類型不同操作的時間復(fù)雜度可以參考Python的官方鏈接,網(wǎng)頁中有詳細的說明,
- https://wiki.python.org/moin/TimeComplexity
元組和列表都屬于序列類型,他們存儲機制基本一致;集合和字典也是基本相同,唯一的區(qū)別就是集合每個元素沒有對應(yīng)的值。接下來我們以集合和列表為例看看他們的查找效率和存儲開銷。
數(shù)據(jù)查找效率
關(guān)于集合和列表數(shù)據(jù)查找效率差距到底有多大?先看一組實例:
import time
import random
nums = [random.randint(0, 2000000) for i in range(1000)]
list_test = list(range(1000000))
set_test = set(list_test)
count_list, count_set = 0, 0
t1 = time.time() # 測試在列表中進行查找
for num in nums:
if num in list_test:
count_list += 1
t2 = time.time()
for num in nums: # 測試在集合中進行查找
if num in set_test:
count_set += 1
t3 = time.time() # 測試在集合中進行查找
print('找到個數(shù),列表:{},集合:{}'.format(count_list, count_set))
print('使用時間,列表:{:.4f}s'.format(t2 - t1))
print('使用時間,集合:{:.4f}s'.format(t3 - t2))
輸出結(jié)果為:
找到個數(shù),列表:515,集合:515
使用時間,列表:7.7953s
使用時間,集合:0.0010s
從上面例子可以清楚地看出,集合的查找效率遠遠高于列表,因此在不同的應(yīng)用場景下,一定要選擇合適的數(shù)據(jù)類型,在小數(shù)據(jù)量下看不出來性能區(qū)別,一旦換到大數(shù)據(jù)量下,就會變得差異性很大。
數(shù)據(jù)存儲開銷
集合的查找效率比列表要快得多,主要就是他們的存儲原理不一樣,集合需要消耗更多的空間來存儲額外的信息,用空間開銷來換時間效率,接下來我們通過getsizeof()函數(shù)看看他們存儲開銷的差異,getiszeof()函數(shù)是python的sys模塊中用來獲取對象內(nèi)存大小的函數(shù),返回的大小以字節(jié)為單位。
import sys
import random
list_test = list(range(1000000))
set_test = set(range(1000000))
print('列表占用大?。?, sys.getsizeof(list_test))
print('集合占用大?。?, sys.getsizeof(set_test))
輸出結(jié)果為:
列表占用大?。?000112
集合占用大?。?3554656
從結(jié)果可以看出,同樣的數(shù)據(jù)內(nèi)容,集合存儲的開銷是列表的好幾倍。