自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深入 Python 解釋器源碼,我終于搞明白了字符串駐留的原理!

開發(fā) 后端
每種編程語言為了表現(xiàn)出色,并且實現(xiàn)卓越的性能,都需要有大量編譯器級與解釋器級的優(yōu)化。

[[381854]]

每種編程語言為了表現(xiàn)出色,并且實現(xiàn)卓越的性能,都需要有大量編譯器級與解釋器級的優(yōu)化。

由于字符串是任何編程語言中不可或缺的一個部分,因此,如果有快速操作字符串的能力,就可以迅速地提高整體的性能。

在本文中,我們將深入研究 Python 的內(nèi)部實現(xiàn),并了解 Python 如何使用一種名為字符串駐留(String Interning)的技術(shù),實現(xiàn)解釋器的高性能。 本文的目的不僅在于介紹 Python 的內(nèi)部知識,而且還旨在使讀者能夠輕松地瀏覽 Python 的源代碼;因此,本文中將有很多出自 CPython 的代碼片段。

全文提綱如下:

 

(在 Python貓 公眾號回復(fù)數(shù)字“0215”,下載思維導(dǎo)圖)

1、什么是“字符串駐留”?

字符串駐留是一種編譯器/解釋器的優(yōu)化方法,它通過緩存一般性的字符串,從而節(jié)省字符串處理任務(wù)的空間和時間。

這種優(yōu)化方法不會每次都創(chuàng)建一個新的字符串副本,而是僅為每個適當(dāng)?shù)牟豢勺冎当A粢粋€字符串副本,并使用指針引用之。

每個字符串的唯一拷貝被稱為它的intern,并因此而得名 String Interning。

Python貓注:String Interning 一般被譯為“字符串駐留”或“字符串留用”,在某些語言中可能習(xí)慣用 String Pool(字符串常量池)的概念,其實是對同一種機制的不同表述。intern 作為名詞時,是“實習(xí)生、實習(xí)醫(yī)生”的意思,在此可以理解成“駐留物、駐留值”。

查找字符串 intern 的方法可能作為公開接口公開,也可能不公開?,F(xiàn)代編程語言如 Java、Python、PHP、Ruby、Julia 等等,都支持字符串駐留,以使其編譯器和解釋器做到高性能。

 

2、為什么要駐留字符串?

字符串駐留提升了字符串比較的速度。 如果沒有駐留,當(dāng)我們要比較兩個字符串是否相等時,它的時間復(fù)雜度將上升到 O(n),即需要檢查兩個字符串中的每個字符,才能判斷出它們是否相等。

但是,如果字符串是固定的,由于相同的字符串將使用同一個對象引用,因此只需檢查指針是否相同,就足以判斷出兩個字符串是否相等,不必再逐一檢查每個字符。由于這是一個非常普遍的操作,因此,它被典型地實現(xiàn)為指針相等性校驗,僅使用一條完全沒有內(nèi)存引用的機器指令。

字符串駐留減少了內(nèi)存占用。 Python 避免內(nèi)存中充斥多余的字符串對象,通過享元設(shè)計模式共享和重用已經(jīng)定義的對象,從而優(yōu)化內(nèi)存占用。

3、Python的字符串駐留

像大多數(shù)其它現(xiàn)代編程語言一樣,Python 也使用字符串駐留來提高性能。在 Python 中,我們可以使用is運算符,檢查兩個對象是否引用了同一個內(nèi)存對象。

因此,如果兩個字符串對象引用了相同的內(nèi)存對象,則is運算符將得出True,否則為False。

  1. >>> 'python' is 'python' 
  2. True 

我們可以使用這個特定的運算符,來判斷哪些字符串是被駐留的。在 CPython 的,字符串駐留是通過以下函數(shù)實現(xiàn)的,聲明在 unicodeobject.h 中,定義在 unicodeobject.c 中。

  1. PyAPI_FUNC(void) PyUnicode_InternInPlace(PyObject **); 

為了檢查一個字符串是否被駐留,CPython 實現(xiàn)了一個名為PyUnicode_CHECK_INTERNED的宏,同樣是定義在 unicodeobject.h 中。

這個宏表明了 Python 在PyASCIIObject結(jié)構(gòu)中維護著一個名為interned的成員變量,它的值表示相應(yīng)的字符串是否被駐留。

  1. #define PyUnicode_CHECK_INTERNED(op) \ 
  2.     (((PyASCIIObject *)(op))->state.interned) 

4、字符串駐留的原理

在 CPython 中,字符串的引用被一個名為interned的 Python 字典所存儲、訪問和管理。 該字典在第一次調(diào)用字符串駐留時,被延遲地初始化,并持有全部已駐留字符串對象的引用。

4.1 如何駐留字符串?

負責(zé)駐留字符串的核心函數(shù)是PyUnicode_InternInPlace,它定義在 unicodeobject.c 中,當(dāng)調(diào)用時,它會創(chuàng)建一個準備容納所有駐留的字符串的字典interned,然后登記入?yún)⒅械膶ο?,令其鍵和值都使用相同的對象引用。

以下函數(shù)片段顯示了 Python 實現(xiàn)字符串駐留的過程。

  1. void 
  2. PyUnicode_InternInPlace(PyObject **p) 
  3.     PyObject *s = *p; 
  4.  
  5.     ......... 
  6.  
  7.     // Lazily build the dictionary to hold interned Strings 
  8.     if (interned == NULL) { 
  9.         interned = PyDict_New(); 
  10.         if (interned == NULL) { 
  11.             PyErr_Clear(); 
  12.             return
  13.         } 
  14.     } 
  15.  
  16.     PyObject *t; 
  17.  
  18.     // Make an entry to the interned dictionary for the 
  19.     // given object 
  20.     t = PyDict_SetDefault(interned, s, s); 
  21.  
  22.     ......... 
  23.      
  24.     // The two references in interned dict (key and value) are 
  25.     // not counted by refcnt. 
  26.     // unicode_dealloc() and _PyUnicode_ClearInterned() take 
  27.     // care of this. 
  28.     Py_SET_REFCNT(s, Py_REFCNT(s) - 2); 
  29.  
  30.     // Set the state of the string to be INTERNED 
  31.     _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL; 

4.2 如何清理駐留的字符串?

清理函數(shù)從interned字典中遍歷所有的字符串,調(diào)整這些對象的引用計數(shù),并把它們標記為NOT_INTERNED,使其被垃圾回收。一旦所有的字符串都被標記為NOT_INTERNED,則interned字典會被清空并刪除。

這個清理函數(shù)就是_PyUnicode_ClearInterned,在 unicodeobject.c 中定義。

  1. void 
  2. _PyUnicode_ClearInterned(PyThreadState *tstate) 
  3.     ......... 
  4.  
  5.     // Get all the keys to the interned dictionary 
  6.     PyObject *keys = PyDict_Keys(interned); 
  7.  
  8.     ......... 
  9.  
  10.     // Interned Unicode strings are not forcibly deallocated; 
  11.     // rather, we give them their stolen references back 
  12.     // and then clear and DECREF the interned dict. 
  13.  
  14.     for (Py_ssize_t i = 0; i < n; i++) { 
  15.         PyObject *s = PyList_GET_ITEM(keys, i); 
  16.  
  17.         ......... 
  18.  
  19.         switch (PyUnicode_CHECK_INTERNED(s)) { 
  20.         case SSTATE_INTERNED_IMMORTAL: 
  21.             Py_SET_REFCNT(s, Py_REFCNT(s) + 1); 
  22.             break; 
  23.         case SSTATE_INTERNED_MORTAL: 
  24.             // Restore the two references (key and value) ignored 
  25.             // by PyUnicode_InternInPlace(). 
  26.             Py_SET_REFCNT(s, Py_REFCNT(s) + 2); 
  27.             break; 
  28.         case SSTATE_NOT_INTERNED: 
  29.             /* fall through */ 
  30.         default
  31.             Py_UNREACHABLE(); 
  32.         } 
  33.  
  34.         // marking the string to be NOT_INTERNED 
  35.         _PyUnicode_STATE(s).interned = SSTATE_NOT_INTERNED; 
  36.     } 
  37.  
  38.     // decreasing the reference to the initialized and 
  39.     // access keys object. 
  40.     Py_DECREF(keys); 
  41.  
  42.     // clearing the dictionary 
  43.     PyDict_Clear(interned); 
  44.  
  45.     // clearing the object interned 
  46.     Py_CLEAR(interned); 

5、字符串駐留的實現(xiàn)

既然了解了字符串駐留及清理的內(nèi)部原理,我們就可以找出 Python 中所有會被駐留的字符串。

為了做到這點,我們要做的就是在 CPython 源代碼中查找PyUnicode_InternInPlace 函數(shù)的調(diào)用,并查看其附近的代碼。下面是在 Python 中關(guān)于字符串駐留的一些有趣的發(fā)現(xiàn)。

5.1 變量、常量與函數(shù)名

CPython 對常量(例如函數(shù)名、變量名、字符串字面量等)執(zhí)行字符串駐留。

以下代碼出自codeobject.c,它表明在創(chuàng)建新的PyCode對象時,解釋器將對所有編譯期的常量、名稱和字面量進行駐留。

  1. PyCodeObject * 
  2. PyCode_NewWithPosOnlyArgs(int argcount, int posonlyargcount, int kwonlyargcount, 
  3.                           int nlocals, int stacksize, int flags, 
  4.                           PyObject *code, PyObject *consts, PyObject *names, 
  5.                           PyObject *varnames, PyObject *freevars, PyObject *cellvars, 
  6.                           PyObject *filename, PyObject *nameint firstlineno, 
  7.                           PyObject *linetable) 
  8.  
  9.     ........ 
  10.  
  11.     if (intern_strings(names) < 0) { 
  12.         return NULL
  13.     } 
  14.  
  15.     if (intern_strings(varnames) < 0) { 
  16.         return NULL
  17.     } 
  18.  
  19.     if (intern_strings(freevars) < 0) { 
  20.         return NULL
  21.     } 
  22.  
  23.     if (intern_strings(cellvars) < 0) { 
  24.         return NULL
  25.     } 
  26.  
  27.     if (intern_string_constants(consts, NULL) < 0) { 
  28.         return NULL
  29.     } 
  30.  
  31.     ........ 
  32.  

5.2 字典的鍵

CPython 還會駐留任何字典對象的字符串鍵。

當(dāng)在字典中插入元素時,解釋器會對該元素的鍵作字符串駐留。以下代碼出自 dictobject.c,展示了實際的行為。

有趣的地方:在PyUnicode_InternInPlace函數(shù)被調(diào)用處有一條注釋,它問道,我們是否真的需要對所有字典中的全部鍵進行駐留?

  1. int 
  2. PyDict_SetItemString(PyObject *v, const char *key, PyObject *item) 
  3.     PyObject *kv; 
  4.     int err; 
  5.     kv = PyUnicode_FromString(key); 
  6.     if (kv == NULL
  7.         return -1; 
  8.  
  9.     // Invoking String Interning on the key 
  10.     PyUnicode_InternInPlace(&kv); /* XXX Should we really? */ 
  11.  
  12.     err = PyDict_SetItem(v, kv, item); 
  13.     Py_DECREF(kv); 
  14.     return err; 

5.3 任何對象的屬性

Python 中對象的屬性可以通過setattr函數(shù)顯式地設(shè)置,也可以作為類成員的一部分而隱式地設(shè)置,或者在其數(shù)據(jù)類型中預(yù)定義。

CPython 會駐留所有這些屬性名,以便實現(xiàn)快速查找。 以下是函數(shù)PyObject_SetAttr的代碼片段,該函數(shù)定義在文件object.c中,負責(zé)為 Python 對象設(shè)置新屬性。

  1. int 
  2. PyObject_SetAttr(PyObject *v, PyObject *name, PyObject *value) 
  3.  
  4.     ........ 
  5.  
  6.     PyUnicode_InternInPlace(&name); 
  7.  
  8.     ........ 

5.4 顯式地駐留

Python 還支持通過sys模塊中的intern函數(shù)進行顯式地字符串駐留。

當(dāng)使用任何字符串對象調(diào)用此函數(shù)時,該字符串對象將被駐留。以下是 sysmodule.c 文件的代碼片段,它展示了在sys_intern_impl函數(shù)中的字符串駐留過程。

  1. static PyObject * 
  2. sys_intern_impl(PyObject *module, PyObject *s) 
  3.  
  4.     ........ 
  5.  
  6.     if (PyUnicode_CheckExact(s)) { 
  7.         Py_INCREF(s); 
  8.         PyUnicode_InternInPlace(&s); 
  9.         return s; 
  10.     } 
  11.  
  12.     ........ 

6、字符串駐留的其它發(fā)現(xiàn)

只有編譯期的字符串會被駐留。 在解釋時或編譯時指定的字符串會被駐留,而動態(tài)創(chuàng)建的字符串則不會。

Python貓注:這一條規(guī)則值得展開思考,我曾經(jīng)在上面踩過坑……有兩個知識點,我相信 99% 的人都不知道:字符串的 join() 方法是動態(tài)創(chuàng)建字符串,因此其創(chuàng)建的字符串不會被駐留;常量折疊機制也發(fā)生在編譯期,因此有時候容易把它跟字符串駐留搞混淆。

包含 ASCII 字符和下劃線的字符串會被駐留。 在編譯期間,當(dāng)對字符串字面量進行駐留時,CPython 確保僅對匹配正則表達式[a-zA-Z0-9_]*的常量進行駐留,因為它們非常貼近于 Python 的標識符。

Python貓注:關(guān)于 Python 中標識符的命名規(guī)則,在 Python2 版本只有“字母、數(shù)字和下劃線”,但在 Python 3.x 版本中,已經(jīng)支持 Unicode 編碼。

參考材料字符串駐留(https://en.wikipedia.org/wiki/String_interning)

CPython優(yōu)化(https://stummjr.org/post/cpython-optimizations/)

Python對象第三部分:字符串駐留(https://medium.com/@bdov_/https-medium-com-bdov-python-objects-part-iii-string-interning-625d3c7319de)

Python字符串駐留的內(nèi)部原理(http://guilload.com/python-string-interning/)

Python優(yōu)化機制:常量折疊(https://mp.weixin.qq.com/s/p1Zb_linFLWwPlNyA5Ui1Q)

join()方法的神奇用處與Intern機制的軟肋(https://mp.weixin.qq.com/s/M2uHVqaHe_nyO5jT60V_6Q)

英文:https://arpitbhayani.me/blogs/string-interning

作者:arpit

譯者:豌豆花下貓(“Python貓”公眾號作者)

聲明:本翻譯是出于交流學(xué)習(xí)的目的,基于 CC BY-NC-SA 4.0 授權(quán)協(xié)議。為便于閱讀,內(nèi)容略有改動。

本文轉(zhuǎn)載自微信公眾號「Python貓」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系Python貓公眾號。

 

責(zé)任編輯:武曉燕 來源: Python貓
相關(guān)推薦

2021-10-11 10:41:14

TCP傳輸層協(xié)議網(wǎng)絡(luò)

2021-06-28 21:04:09

顯示器花屏電腦

2021-12-30 20:20:46

機器學(xué)習(xí)銷售語言

2018-11-30 10:00:53

Python字符串編程語言

2021-12-10 08:17:48

字符串拼接場景

2021-11-19 06:50:17

OAuth協(xié)議授權(quán)

2021-07-26 05:00:16

算法DfsBfs

2017-06-13 12:40:47

Python字符串對象

2024-06-12 13:54:37

編程語言字符串代碼

2020-08-19 07:54:40

TCP傳輸層協(xié)議

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2022-03-27 20:32:28

Knative容器事件模型

2022-12-31 08:17:02

2020-03-09 09:13:40

HTTPSTCP網(wǎng)絡(luò)協(xié)議

2022-08-08 20:18:51

flexible.j移動端的適配

2018-11-23 09:25:00

TCC分布式事務(wù)

2009-11-30 14:08:42

PHP字符串原理

2010-11-26 11:57:35

MySQL結(jié)果字符串

2009-11-18 12:38:04

PHP字符串函數(shù)
點贊
收藏

51CTO技術(shù)棧公眾號