自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

9個提高代碼運行效率的小技巧你知道幾個?

系統(tǒng) Linux
在程序開發(fā)和優(yōu)化的過程中,我們必須考慮代碼使用的方式,以及影響它的關鍵因素。通常,我們必須在程序的簡潔性與它的運行速度之間做出權衡。今天我們就來聊一聊如何優(yōu)化程序的性能。

[[380880]]

我們寫程序的目的就是使它在任何情況下都可以穩(wěn)定工作。一個運行的很快但是結(jié)果錯誤的程序并沒有任何用處。在程序開發(fā)和優(yōu)化的過程中,我們必須考慮代碼使用的方式,以及影響它的關鍵因素。通常,我們必須在程序的簡潔性與它的運行速度之間做出權衡。今天我們就來聊一聊如何優(yōu)化程序的性能。

  •  1. 減小程序計算量
    •  1.1 示例代碼
    •  1.2 分析代碼
    •  1.3 改進代碼
  •  2. 提取代碼中的公共部分
    •  2.1 示例代碼
    •  2.2 分析代碼
    •  2.3 改進代碼
  •  3. 消除循環(huán)中低效代碼
    •  3.1 示例代碼
    •  3.2 分析代碼
    •  3.3 改進代碼
  •  4. 消除不必要的內(nèi)存引用
    •  4.1 示例代碼
    •  4.2 分析代碼
    •  4.3 改進代碼
  • 5.  減小不必要的調(diào)用
    •  5.1 示例代碼
    •  5.2 分析代碼
    •  5.3 改進代碼
  •  6. 循環(huán)展開
    •  6.1 示例代碼
    •  6.2 分析代碼
    •  6.3 改進代碼
  •  7. 累計變量,多路并行
    •  7.1 示例代碼
    •  7.2 分析代碼
    •  7.3 改進代碼
  •  8. 重新結(jié)合變換
    •  8.1 示例代碼
    •  8.2 分析代碼
    •  8.3 改進代碼
  • 9 條件傳送風格的代碼
    •  9.1 示例代碼
    •  9.2 分析代碼
    •  9.3 改進代碼
  •  10. 總結(jié)

1. 減小程序計算量

1.1 示例代碼 

  1. for (i = 0; i < n; i++) {  
  2.   int nni = n*i;  
  3.   for (j = 0; j < n; j++)  
  4.     a[ni + j] = b[j];  

1.2 分析代碼

代碼如上所示,外循環(huán)每執(zhí)行一次,我們要進行一次乘法計算。i = 0,ni = 0;i = 1,ni = n;i = 2,ni = 2n。因此,我們可以把乘法換成加法,以n為步長,這樣就減小了外循環(huán)的代碼量。

1.3 改進代碼 

  1. int ni = 0 
  2. for (i = 0; i < n; i++) {  
  3.   for (j = 0; j < n; j++)  
  4.     a[ni + j] = b[j];  
  5.   ni += n;         //乘法改加法  

計算機中乘法指令要比加法指令慢得多。

2. 提取代碼中的公共部分

2.1 示例代碼

想象一下,我們有一個圖像,我們把圖像表示為二維數(shù)組,數(shù)組元素代表像素點。我們想要得到給定像素的東、南、西、北四個鄰居的總和。并求他們的平均值或他們的和。代碼如下所示。 

  1. up =    val[(i-1)*n + j  ];  
  2. down =  val[(i+1)*n + j  ];  
  3. left =  val[i*n     + j-1];  
  4. right = val[i*n     + j+1];  
  5. sum = up + down + left + right; 

2.2 分析代碼

將以上代碼編譯后得到匯編代碼如下所示,注意下3,4,5行,有三個乘以n的乘法運算。我們把上面的up和down展開后會發(fā)現(xiàn)四格表達式中都有i*n + j。因此,可以提取出公共部分,再通過加減運算分別得出up、down等的值。 

  1. leaq   1(%rsi), %rax  # i+1  
  2. leaq   -1(%rsi), %r8  # i-1  
  3. imulq  %rcx, %rsi     # i*n  
  4. imulq  %rcx, %rax     # (i+1)*n  
  5. imulq  %rcx, %r8      # (i-1)*n  
  6. addq   %rdx, %rsi     # i*n+j  
  7. addq   %rdx, %rax     # (i+1)*n+j  
  8. addq   %rdx, %r8      # (i-1)*n+j 

2.3 改進代碼 

  1. long iinj = i*n + j;  
  2. up =    val[inj - n];  
  3. down =  val[inj + n];  
  4. left =  val[inj - 1];  
  5. right = val[inj + 1];  
  6. sum = up + down + left + right; 

改進后的代碼的匯編如下所示。編譯后只有一個乘法。減少了6個時鐘周期(一個乘法周期大約為3個時鐘周期)。 

  1. imulq %rcx, %rsi  # i*n  
  2. addq %rdx, %rsi  # i*n+j  
  3. movq %rsi, %rax  # i*n+j  
  4. subq %rcx, %rax  # i*n+j-n  
  5. leaq (%rsi,%rcx), %rcx # i*n+j+n 
  6. ... 

對于GCC編譯器來說,編譯器可以根據(jù)不同的優(yōu)化等級,有不同的優(yōu)化方式,會自動完成以上的優(yōu)化操作。下面我們介紹下,那些必須是我們要手動優(yōu)化的。

3. 消除循環(huán)中低效代碼

3.1 示例代碼

程序看起來沒什么問題,一個很平常的大小寫轉(zhuǎn)換的代碼,但是為什么隨著字符串輸入長度的變長,代碼的執(zhí)行時間會呈指數(shù)式增長呢? 

  1. void lower1(char *s)  
  2.  
  3.   size_t i;  
  4.   for (i = 0; i < strlen(s); i++)  
  5.     if (s[i] >= 'A' && s[i] <= 'Z')  
  6.       s[i] -= ('A' - 'a');  

3.2 分析代碼

那么我們就測試下代碼,輸入一系列字符串。

lower1代碼性能測試

當輸入字符串長度低于100000時,程序運行時間差別不大。但是,隨著字符串長度的增加,程序的運行時間呈指數(shù)時增長。

我們把代碼轉(zhuǎn)換成goto形式看下。 

  1. void lower1(char *s)  
  2.  
  3.    size_t i = 0 
  4.    if (i >= strlen(s))  
  5.      goto done;  
  6.  loop:  
  7.    if (s[i] >= 'A' && s[i] <= 'Z')  
  8.        s[i] -= ('A' - 'a');  
  9.    i++;  
  10.    if (i < strlen(s))  
  11.      goto loop;  
  12.  done:  

以上代碼分為初始化(第3行),測試(第4行),更新(第9,10行)三部分。初始化只會執(zhí)行一次。但是測試和更新每次都會執(zhí)行。每進行一次循環(huán),都會對strlen調(diào)用一次。

下面我們看下strlen函數(shù)的源碼是如何計算字符串長度的。 

  1. size_t strlen(const char *s)  
  2.  
  3.     size_t length = 0 
  4.     while (*s != '\0') {  
  5.  s++;   
  6.  length++;  
  7.     }  
  8.     return length;  

strlen函數(shù)計算字符串長度的原理為:遍歷字符串,直到遇到‘\0’才會停止。因此,strlen函數(shù)的時間復雜度為O(N)。lower1中,對于長度為N的字符串來說,strlen 的調(diào)用次數(shù)為N,N-1,N-2 ... 1。對于一個線性時間的函數(shù)調(diào)用N次,其時間復雜度接近于O(N2)。

3.3 改進代碼

對于循環(huán)中出現(xiàn)的這種冗余調(diào)用,我們可以將其移動到循環(huán)外。將計算結(jié)果用于循環(huán)中。改進后的代碼如下所示。 

  1. void lower2(char *s)  
  2.  
  3.   size_t i;  
  4.   size_t len = strlen(s);  
  5.   for (i = 0; i < len; i++)  
  6.     if (s[i] >= 'A' && s[i] <= 'Z')  
  7.       s[i] -= ('A' - 'a');  

將兩個函數(shù)對比下,如下圖所示。lower2函數(shù)的執(zhí)行時間得到明顯提升。

lower1和lower2代碼效率

4. 消除不必要的內(nèi)存引用

4.1 示例代碼

以下代碼作用為,計算a數(shù)組中每一行所有元素的和存在b[i]中。 

  1. void sum_rows1(double *a, double *b, long n) {  
  2.     long i, j;  
  3.     for (i = 0; i < n; i++) {  
  4.  b[i] = 0;  
  5.  for (j = 0; j < n; j++)  
  6.      b[i] += a[i*n + j];  
  7.     }  

4.2 分析代碼

匯編代碼如下所示。 

  1. # sum_rows1 inner loop  
  2. .L4:  
  3.         movsd   (%rsi,%rax,8), %xmm0 # 從內(nèi)存中讀取某個值放到%xmm0  
  4.         addsd   (%rdi), %xmm0      # %xmm0 加上某個值 
  5.          movsd   %xmm0, (%rsi,%rax,8) # %xmm0 的值寫回內(nèi)存,其實就是b[i]  
  6.         addq    $8, %rdi  
  7.         cmpq    %rcx, %rdi  
  8.         jne     .L4 

這意味著每次循環(huán)都需要從內(nèi)存中讀取b[i],然后再把b[i]寫回內(nèi)存 。b[i] +=  b[i] + a[i*n + j]; 其實每次循環(huán)開始的時候,b[i]就是上一次的值。為什么每次都要從內(nèi)存中讀取出來再寫回呢?

4.3 改進代碼 

  1. /* Sum rows is of n X n matrix a  
  2.    and store in vector b  */  
  3. void sum_rows2(double *a, double *b, long n) {  
  4.     long i, j;  
  5.     for (i = 0; i < n; i++) {  
  6.  double val = 0 
  7.  for (j = 0; j < n; j++)  
  8.      val += a[i*n + j];  
  9.          b[i] = val;  
  10.     }  

匯編如下所示。 

  1. # sum_rows2 inner loop  
  2. .L10:  
  3.         addsd   (%rdi), %xmm0 # FP load + add  
  4.         addq    $8, %rdi  
  5.         cmpq    %rax, %rdi  
  6.         jne     .L10 

改進后的代碼引入了臨時變量來保存中間結(jié)果,只有在最后的值計算出來時,才將結(jié)果存放到數(shù)組或全局變量中。

5.  減小不必要的調(diào)用

5.1 示例代碼

為了方便舉例,我們定義一個包含數(shù)組和數(shù)組長度的結(jié)構(gòu)體,主要是為了防止數(shù)組訪問越界,data_t可以是int,long等類型。具體如下所示。 

  1. typedef struct{  
  2.  size_t len;  
  3.  data_t *data;    
  4. } vec; 

vec向量示意圖

get_vec_element函數(shù)的作用是遍歷data數(shù)組中元素并存儲在val中。 

  1. int get_vec_element (*vec v, size_t idx, data_t *val)  
  2.  
  3.  if (idx >= v->len)  
  4.   return 0;  
  5.  *vval = v->data[idx];  
  6.  return 1;  

我們將以以下代碼為例開始一步步優(yōu)化程序。 

  1. void combine1(vec_ptr v, data_t *dest)  
  2.     long int i;  
  3.     *dest = NULL 
  4.     for (i = 0; i < vec_length(v); i++) {  
  5.  data_t val;  
  6.  get_vec_element(v, i, &val);  
  7.  *dest = *dest * val;  
  8.     } 
  9.  

5.2 分析代碼

get_vec_element函數(shù)的作用是獲取下一個元素,在get_vec_element函數(shù)中,每次循環(huán)都要與v->len作比較,防止越界。進行邊界檢查是個好習慣,但是每次都進行就會造成效率降低。

5.3 改進代碼

我們可以把求向量長度的代碼移到循環(huán)體外,同時抽象數(shù)據(jù)類型增加一個函數(shù)get_vec_start。這個函數(shù)返回數(shù)組的起始地址。這樣在循環(huán)體中就沒有了函數(shù)調(diào)用,而是直接訪問數(shù)組。 

  1. data_t *get_vec_start(vec_ptr v)  
  2.  
  3.  return v->data;  
  4.  
  5. void combine2 (vec_ptr v, data_t *dest)  
  6.  
  7.  long i;  
  8.  long length  = vec_length(v);  
  9.     data_t *data = get_vec_start(v);  
  10.  *dest = NULL 
  11.  for (i=0;i < length;i++)  
  12.  {  
  13.   *dest = *dest * data[i];  
  14.  }  

6. 循環(huán)展開

6.1 示例代碼

我們在combine2的代碼上進行改進。

6.2 分析代碼

循環(huán)展開是通過增加每次迭代計算的元素的數(shù)量,減少循環(huán)的迭代次數(shù)。

6.3 改進代碼 

  1. void combine3(vec_ptr v, data_t *dest)  
  2.  
  3.     long i;  
  4.     long length = vec_length(v);  
  5.     long limit = length-1;  
  6.     data_t *data = get_vec_start(v);  
  7.     data_t acc = NULL  
  8.     /* 一次循環(huán)處理兩個元素 */  
  9.     for (i = 0; i < limit; i+=2) {  
  10.     acc = (acc * data[i]) * data[i+1];  
  11.     }  
  12.     /*     完成剩余數(shù)組元素的計算    */  
  13.     for (; i < length; i++) {  
  14.   accacc = acc * data[i];  
  15.     }  
  16.     *dest = acc 

在改進后的代碼中,第一個循環(huán)每次處理數(shù)組的兩個元素。也就是每次迭代,循環(huán)索引i加2,在一次迭代中,對數(shù)組元素i和i+1使用合并運算。一般我們稱這種為2×1循環(huán)展開,這種變換能減小循環(huán)開銷的影響。

注意訪問不要越界,正確設置limit,n個元素,一般設置界限n-1

7. 累計變量,多路并行

7.1 示例代碼

我們在combine3的代碼上進行改進。

7.2 分析代碼

對于一個可結(jié)合和可交換的合并運算來說,比如說整數(shù)加法或乘法,我們可以通過將一組合并運算分割成兩個或更多的部分,并在最后合并結(jié)果來提高性能。

特別注意:不要輕易對浮點數(shù)進行結(jié)合。浮點數(shù)的編碼格式和其他整型數(shù)等都不一樣。

7.3 改進代碼 

  1. void combine4(vec_ptr v, data_t *dest)  
  2.  
  3.  long i; 
  4.     long length = vec_length(v);  
  5.     long limit = length-1;  
  6.     data_t *data = get_vec_start(v);  
  7.     data_t acc0 = 0;  
  8.     data_t acc1 = 0   
  9.     /* 循環(huán)展開,并維護兩個累計變量 */  
  10.     for (i = 0; i < limit; i+=2) {  
  11.     acc0acc0 = acc0 * data[i];  
  12.     acc1acc1 = acc1 * data[i+1];  
  13.     }  
  14.     /*     完成剩余數(shù)組元素的計算    */  
  15.     for (; i < length; i++) {  
  16.         acc0acc0 = acc0 * data[i];  
  17.     }  
  18.     *dest = acc0 * acc1; 

上述代碼用了兩次循環(huán)展開,以使每次迭代合并更多的元素,也使用了兩路并行,將索引值為偶數(shù)的元素累積在變量acc0中,而索引值為奇數(shù)的元素累積在變量acc1中。因此,我們將其稱為”2×2循環(huán)展開”。運用2×2循環(huán)展開。通過維護多個累積變量,這種方法利用了多個功能單元以及它們的流水線能力

8. 重新結(jié)合變換

8.1 示例代碼

我們在combine3的代碼上進行改進。

8.2 分析代碼

到這里其實代碼的性能已經(jīng)基本接近極限了,就算做再多的循環(huán)展開性能提升已經(jīng)不明顯了。我們需要換個思路,注意下combine3代碼中第12行的代碼,我們可以改變下向量元素合并的順序(浮點數(shù)不適用)。重新結(jié)合前combine3代碼的關鍵路徑如下圖所示。

combine3代碼的關鍵路徑

8.3 改進代碼 

  1. void combine7(vec_ptr v, data_t *dest)  
  2.  
  3.  long i;  
  4.     long length = vec_length(v);  
  5.     long limit = length-1;  
  6.     data_t *data = get_vec_start(v);  
  7.     data_t acc = IDENT    
  8.     /* Combine 2 elements at a time */  
  9.     for (i = 0; i < limit; i+=2) {  
  10.    accacc = acc * (data[i] * data[i+1]);   }  
  11.     /* Finish any remaining elements */  
  12.     for (; i < length; i++) {  
  13.         accacc = acc * data[i];    }  
  14.     *dest = acc 

重新結(jié)合變換能夠減少計算中關鍵路徑上操作的數(shù)量,這種方法增加了可以并行執(zhí)行的操作數(shù)量了,更好地利用功能單元的流水線能力得到更好的性能。重新結(jié)合后關鍵路徑如下所示。

combine3重新結(jié)合后關鍵路徑

9 條件傳送風格的代碼

9.1 示例代碼 

  1. void minmax1(long a[],long b[],long n){  
  2.  long i;  
  3.  for(i = 0;i,n;i++){  
  4.         if(a[i]>b[i]){  
  5.             long t = a[i];  
  6.             a[i] = b[i];  
  7.             b[i] = t; 
  8.         }  
  9.    }  

9.2 分析代碼

現(xiàn)代處理器的流水線性能使得處理器的工作遠遠超前于當前正在執(zhí)行的指令。處理器中的分支預測在遇到比較指令時會進行預測下一步跳轉(zhuǎn)到哪里。如果預測錯誤,就要重新回到分支跳轉(zhuǎn)的原地。分支預測錯誤會嚴重影響程序的執(zhí)行效率。因此,我們應該編寫讓處理器預測準確率提高的代碼,即使用條件傳送指令。我們用條件操作來計算值,然后用這些值來更新程序狀態(tài),具體如改進后的代碼所示。

9.3 改進代碼 

  1. void minmax2(long a[],long b[],long n){  
  2.  long i;  
  3.  forfor(i = 0;i&lt;n;i++){  
  4.  long min = a[i] < b[i] ? a[i]:b[i];  
  5.  long max = a[i] < b[i] ? b[i]:a[i];  
  6.  a[i] = min;  
  7.  b[i] = max;  
  8.  }  

在原代碼的第4行中,需要對a[i]和b[i]進行比較,再進行下一步操作,這樣的后果是每次都要進行預測。改進后的代碼實現(xiàn)這個函數(shù)是計算每個位置i的最大值和最小值,然后將這些值分別賦給a[i]和b[i],而不是進行分支預測。 

本文轉(zhuǎn)載自微信公眾號「嵌入式與Linux那些事」,可以通過以下二維碼關注。轉(zhuǎn)載本文請聯(lián)系嵌入式與Linux那些事公眾號。

 

責任編輯:龐桂玉 來源: 嵌入式與Linux那些事
相關推薦

2020-04-20 17:43:28

Java代碼優(yōu)化開發(fā)

2020-07-08 17:06:00

Python開發(fā)工具

2019-05-16 14:09:03

容器技巧開發(fā)

2023-11-23 10:21:37

2019-05-10 14:50:09

Java代碼技巧

2022-02-28 10:02:54

Linux技巧命令

2022-09-06 08:07:24

SQL語句查詢

2020-09-23 09:20:58

代碼Java字符串

2024-01-16 15:19:29

Python內(nèi)存

2022-11-16 09:04:36

SQL查詢SELECT

2019-03-19 14:20:58

Linux在機器學習腳本

2022-07-18 08:08:16

Go?語言技巧

2019-11-05 14:37:24

Java性能優(yōu)化編程語言

2019-07-08 14:45:17

Excel數(shù)據(jù)分析數(shù)據(jù)處理

2020-02-23 23:29:07

Python編程開發(fā)

2021-11-19 16:54:11

Python代碼開發(fā)

2021-12-08 23:38:25

Python工具代碼

2019-11-25 10:20:54

CSS代碼javascript

2022-09-05 14:17:48

Javascript技巧

2015-08-04 10:51:26

vim效率技巧
點贊
收藏

51CTO技術棧公眾號