自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

深入Python字典的內(nèi)部實現(xiàn)

作者：佚名 2017-05-22 15:42:39

開發(fā) 后端

在Python中，字典是通過哈希表實現(xiàn)的。也就是說，字典是一個數(shù)組，而數(shù)組的索引是鍵經(jīng)過哈希函數(shù)處理后得到的。哈希函數(shù)的目的是使鍵均勻地分布在數(shù)組中。由于不同的鍵可能具有相同的哈希值，即可能出現(xiàn)沖突，高級的哈希函數(shù)能夠使沖突數(shù)目最小化。

字典是通過鍵(key)索引的，因此，字典也可視作彼此關(guān)聯(lián)的兩個數(shù)組。下面我們嘗試向字典中添加3個鍵/值(key/value)對：

>>> d = {'a': 1, 'b': 2} 
 
>>> d['c'] = 3 
 
>>> d 
 
{'a': 1, 'b': 2, 'c': 3}

這些值可通過如下方法訪問：

>>> d['a'] 
 
1 
 
>>> d['b'] 
 
2 
 
>>> d['c'] 
 
3 
 
>>> d['d'] 
 
Traceback (most recent call last): 
 
  File "<stdin>", line 1, in <module> 
 
KeyError: 'd'

由于不存在 'd' 這個鍵，所以引發(fā)了KeyError異常。

哈希表(Hash tables)

在Python中，字典是通過哈希表實現(xiàn)的。也就是說，字典是一個數(shù)組，而數(shù)組的索引是鍵經(jīng)過哈希函數(shù)處理后得到的。哈希函數(shù)的目的是使鍵均勻地分布在數(shù)組中。由于不同的鍵可能具有相同的哈希值，即可能出現(xiàn)沖突，高級的哈希函數(shù)能夠使沖突數(shù)目最小化。Python中并不包含這樣高級的哈希函數(shù)，幾個重要(用于處理字符串和整數(shù))的哈希函數(shù)通常情況下均是常規(guī)的類型：

>>> map(hash, (0, 1, 2, 3)) 
 
[0, 1, 2, 3] 
 
>>> map(hash, ("namea", "nameb", "namec", "named")) 
 
[-1658398457, -1658398460, -1658398459, -1658398462]

在以下的篇幅中，我們僅考慮用字符串作為鍵的情況。在Python中，用于處理字符串的哈希函數(shù)是這樣定義的：

arguments: string object 
 
returns: hash 
 
function string_hash: 
 
    if hash cached: 
 
        return it 
 
    set len to string's length 
 
    initialize var p pointing to 1st char of string object 
 
    set x to value pointed by p left shifted by 7 bits 
 
    while len >= 0: 
 
        set var x to (1000003 * x) xor value pointed by p 
 
        increment pointer p 
 
    set x to x xor length of string object 
 
    cache x as the hash so we don't need to calculate it again 
 
    return x as the hash

如果在Python中運行 hash('a') ，后臺將執(zhí)行 string_hash()函數(shù)，然后返回 12416037344 (這里我們假設(shè)采用的是64位的平臺)。

如果用長度為 x 的數(shù)組存儲鍵/值對，則我們需要用值為 x-1 的掩碼計算槽(slot，存儲鍵/值對的單元)在數(shù)組中的索引。這可使計算索引的過程變得非常迅速。字典結(jié)構(gòu)調(diào)整長度的機(jī)制(以下會詳細(xì)介紹)會使找到空槽的概率很高，也就意味著在多數(shù)情況下只需要進(jìn)行簡單的計算。假如字典中所用數(shù)組的長度是 8 ，那么鍵'a'的索引為：hash('a') & 7 = 0，同理'b'的索引為 3 ,'c'的索引為 2 , 而'z'的索引與'b'相同，也為 3 ，這就出現(xiàn)了沖突。

可以看出，Python的哈希函數(shù)在鍵彼此連續(xù)的時候表現(xiàn)得很理想，這主要是考慮到通常情況下處理的都是這類形式的數(shù)據(jù)。然而，一旦我們添加了鍵'z'就會出現(xiàn)沖突，因為這個鍵值并不毗鄰其他鍵，且相距較遠(yuǎn)。

當(dāng)然，我們也可以用索引為鍵的哈希值的鏈表來存儲鍵/值對，但會增加查找元素的時間，時間復(fù)雜度也不再是 O(1) 了。下一節(jié)將介紹Python的字典解決沖突所采用的方法。

開放尋址法( Open addressing )

開放尋址法是一種用探測手段處理沖突的方法。在上述鍵'z'沖突的例子中，索引 3 在數(shù)組中已經(jīng)被占用了，因而需要探尋一個當(dāng)前未被使用的索引。增加和搜尋鍵/值對需要的時間均為 O(1)。

搜尋空閑槽用到了一個二次探測序列(quadratic probing sequence)，其代碼如下：

j = (5*j) + 1 + perturb; 
 
perturb >>= PERTURB_SHIFT; 
 
use j % 2**i as the next table index;

循環(huán)地5*j+1可以快速放大不影響初始索引的哈希值二進(jìn)位的微小差異。變量perturb可使其他二進(jìn)位也不斷變化。

出于好奇，我們來看一看當(dāng)數(shù)組長度為 32 時的探測序列，j = 3 -> 11 -> 19 -> 29 -> 5 -> 6 -> 16 -> 31 -> 28 -> 13 -> 2…

關(guān)于探測序列的更多介紹可以參閱dictobject.c的源碼。文件的開頭包含了對探測機(jī)理的詳細(xì)介紹。

下面我們結(jié)合例子來看一看 Python 內(nèi)部代碼。

基于C語言的字典結(jié)構(gòu)

以下基于C語言的數(shù)據(jù)結(jié)構(gòu)用于存儲字典的鍵/值對(也稱作 entry)，存儲內(nèi)容有哈希值，鍵和值。PyObject 是 Python 對象的一個基類。

typedef struct { 
 
    Py_ssize_t me_hash; 
 
    PyObject *me_key; 
 
    PyObject *me_value 
 
} PyDictEntry;

下面為字典對應(yīng)的數(shù)據(jù)結(jié)構(gòu)。其中，ma_fill為活動槽以及啞槽(dummy slot)的總數(shù)。當(dāng)一個活動槽中的鍵/值對被刪除后，該槽則被標(biāo)記為啞槽。ma_used為活動槽的總數(shù)。ma_mask值為數(shù)組的長度減 1 ，用于計算槽的索引。ma_table為數(shù)組本身，ma_smalltable為長度為 8 的初始數(shù)組。

typedef struct _dictobject PyDictObject; 
 
struct _dictobject { 
 
    PyObject_HEAD 
 
    Py_ssize_t ma_fill; 
 
    Py_ssize_t ma_used; 
 
    Py_ssize_t ma_mask; 
 
    PyDictEntry *ma_table; 
 
    PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash); 
 
    PyDictEntry ma_smalltable[PyDict_MINSIZE]; 
 
};

字典初始化

字典在初次創(chuàng)建時將調(diào)用PyDict_New()函數(shù)。這里刪掉了源代碼中的部分行，并且將C語言代碼轉(zhuǎn)換成了偽代碼以突出其中的幾個關(guān)鍵概念。

returns new dictionary object 
 
function PyDict_New: 
 
    allocate new dictionary object 
 
    clear dictionary's table 
 
    set dictionary's number of used slots + dummy slots (ma_fill) to 0 
 
    set dictionary's number of active slots (ma_used) to 0 
 
    set dictionary's mask (ma_value) to dictionary size - 1 = 7 
 
    set dictionary's lookup function to lookdict_string 
 
    return allocated dictionary object

添加項

添加新的鍵/值對調(diào)用的是PyDict_SetItem()函數(shù)。函數(shù)將使用一個指針指向字典對象和鍵/值對。這一過程中，首先會檢查鍵是否是字符串，然后計算哈希值，如果先前已經(jīng)計算并緩存了鍵的哈希值，則直接使用緩存的值。接著調(diào)用insertdict()函數(shù)添加新鍵/值對。如果活動槽和空槽的總數(shù)超過數(shù)組長度的2/3，則需調(diào)整數(shù)組的長度。為什么是 2/3 ?這主要是為了保證探測序列能夠以足夠快的速度找到空閑槽。后面我們會介紹調(diào)整長度的函數(shù)。

arguments: dictionary, key, value 
 
returns: 0 if OK or -1 
 
function PyDict_SetItem: 
 
    if key's hash cached: 
 
        use hash 
 
    else: 
 
        calculate hash 
 
    call insertdict with dictionary object, key, hash and value 
 
    if key/value pair added successfully and capacity over 2/3: 
 
        call dictresize to resize dictionary's table

inserdict() 使用搜尋函數(shù) lookdict_string() 來查找空閑槽。這跟查找鍵所用的是同一函數(shù)。lookdict_string() 使用哈希值和掩碼計算槽的索引。如果用“索引 = 哈希值&掩碼”的方法未找到鍵，則會用調(diào)用先前介紹的循環(huán)方法探測，直至找到一個空閑槽。***輪探測，如果未找到匹配的鍵的且探測過程中遇到過啞槽，則返回一個啞槽。這可使優(yōu)先選擇先前刪除的槽。

現(xiàn)在我們想添加如下的鍵/值對：{‘a’: 1, ‘b’: 2′, ‘z’: 26, ‘y’: 25, ‘c’: 5, ‘x’: 24}，那么將會發(fā)生如下過程：

分配一個字典結(jié)構(gòu)，內(nèi)部表的尺寸為8。

以下就是我們目前所得到的：

8個槽中的6個已被使用，使用量已經(jīng)超過了總?cè)萘康?/3，因而，dictresize()函數(shù)將會被調(diào)用，用以分配一個長度更大的數(shù)組，同時將舊表中的條目復(fù)制到新的表中。

在我們這個例子中，dictresize()函數(shù)被調(diào)用后，數(shù)組長度調(diào)整后的長度不小于活動槽數(shù)量的 4 倍，即minused = 24 = 4*ma_used。而當(dāng)活動槽的數(shù)量非常大(大于50000)時，調(diào)整后長度應(yīng)不小于活動槽數(shù)量的2倍，即2*ma_used。為什么是 4 倍?這主要是為了減少調(diào)用調(diào)整長度函數(shù)的次數(shù)，同時能顯著提高稀疏度。

新表的長度應(yīng)大于 24，計算長度值時會不斷對當(dāng)前長度值進(jìn)行升位運算，直到大于 24，最終得到的長度是 32，例如當(dāng)前長度為 8 ，則計算過程如8 -> 16 -> 32。

這就是長度調(diào)整的過程：分配一個長度為 32 的新表，然后用新的掩碼，也就是 31 ，將舊表中的條目插入到新表。最終得到的結(jié)果如下：

刪除項

刪除條目時將調(diào)用PyDict_DelItem()函數(shù)。刪除時，首先計算鍵的哈希值，然后調(diào)用搜詢函數(shù)返回到該條目，***該槽被標(biāo)記為啞槽。

假設(shè)我們想要從字典中刪除鍵'c'，我們最終將得到如下結(jié)果：

注意，刪除項目后，即使最終活動槽的數(shù)量遠(yuǎn)小于總的數(shù)量也不會觸發(fā)調(diào)整數(shù)組長度的動作。但是，若刪減后又增加鍵/值對時，由于調(diào)整長度的條件判斷基于的是活動槽與啞槽的總數(shù)量，因而可能會縮減數(shù)組長度。

責(zé)任編輯：龐桂玉來源： Python開發(fā)者

Python 字典哈希表

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營