并發(fā)編程中需要謹記的規(guī)則
最小化臨界區(qū)
Amdahl定律和Gustafson定律都將并行算法中的順序執(zhí)行的工作視為性能問題的頭號敵人。兩個執(zhí)行代碼區(qū)段中間的時間需要順序執(zhí)行,這就是眾所周知的臨界值。在圖1-16的分析Gustafson定律的圖表中有四個這樣的臨界區(qū)。
圖 1-16
當你并行化你的任務(wù)的時候,為了實現(xiàn)最好的性能我們需要最小化這些臨界區(qū)。大多的時候,是難以避免并行執(zhí)行區(qū)域之間的串行執(zhí)行的代碼的,因為需要加載并行任務(wù)和收集執(zhí)行結(jié)果。然而,優(yōu)化這些臨界區(qū)域的代碼并且移除不必要的代碼比協(xié)調(diào)并行代碼甚至更重要。
當你面對一個擁有太多臨街區(qū)域的執(zhí)行計劃的時候,要謹記Amdahl定律。如果你不能減少這些區(qū)域,那就盡力找到可以與這些區(qū)域并行執(zhí)行的任務(wù)。例如,你可以提前取出要同時執(zhí)行的并行代碼需要的數(shù)據(jù)來提高解決方案的性能。謹記現(xiàn)在多核硬件提供的能力并避免總是想著你僅有一個執(zhí)行單元。
理解多核并發(fā)編程的規(guī)則
James Reinders在Dr.Dobb’sJournal上發(fā)表了題為“多核并發(fā)編程的規(guī)則”的文章。他列舉了八條規(guī)則來幫助開發(fā)人員進行多核編程。他的規(guī)則對使用C#和.NET 4編寫的并行應(yīng)用程序一樣很有用。這些規(guī)則的描述如下
1. 并發(fā)編程的思想—這條規(guī)則就是要謹記并發(fā)編程思想進行設(shè)計,就像前邊章節(jié)所提交的。
2. 面向抽象編程-你可以利用.NET4中的TPL提供的新特性使你的高層代碼反映解決的問題,并且不是底層線程管理技術(shù)復雜化。第二章將會引入TPL。
3. 基于任務(wù)模型編程,而不是線程—TPL允許你你編寫代碼實現(xiàn)基于任務(wù)模型的設(shè)計而不用擔心底層的線程。
4. 設(shè)計可以選擇關(guān)閉并發(fā)—當你使用TPL寫代碼的時候,這些代碼頁可能會運行在單核的微處理器上。
5. 避免使用鎖—利用新的類和方法、結(jié)構(gòu)體解決對于復雜同步方式的需求是很重要的。TPL使避免在很多復雜的情景下使用重量級鎖變得更簡單,它提供了新的輕量級的同步方法。
6. 借助已有的工具和類庫的幫助進行并發(fā)編程—Visual Studio 2010提供了新的工具調(diào)試、測試、協(xié)調(diào)并行代碼。在本書中你將會學習很多相關(guān)的工具和類庫。
7. 使用可伸縮的內(nèi)存分配策略—TPL在CLR里提供了可伸縮的內(nèi)存分配策略,當任務(wù)和線程執(zhí)行的時候,它會自動的執(zhí)行內(nèi)存分配策略。然而,為了最大程度的利用緩存,你必須分析不同的分配可能性,并且盡力避免在每個任務(wù)里消耗過多的內(nèi)存。
8. 設(shè)計的可伸縮性可以通過增加負載的方式實現(xiàn)—一旦你精通了并行擴展庫,那么使用TPL提供的新的類考慮Gustafson定律就會很容易。如果你的設(shè)計需要具有很強的伸縮性,你將可以編寫代碼根據(jù)核心的增加進行調(diào)整。Windows 7 和windows Server 2008 R2支持多大256個硬件線程或者邏輯處理器;所以,有足夠的伸縮性空間。
為NUMA和更好伸縮性進行設(shè)計
近年來,對多處理器支持的最廣泛的模型是NUMA(non-uniform memory access)架構(gòu),而不是SMP(symmetricmultiprocessor)架構(gòu)。SMP的一個最大的問題就是處理器總線會成為將來可伸縮性的瓶頸,因為每個處理器都擁有等同的能力方位內(nèi)存和io。
使用NUMA,于離得比較遠的內(nèi)存相比,每個處理器總是可以更快的訪問離自己近的內(nèi)存。當處理器的數(shù)目超過四個的時候,NUMA提供了更好的伸縮性。在windows的 scale-up-technology中,NUMA是以一下方式進行組織的,如圖1-17
一個單個的電腦或者機器可以有一個或者多個group。
每一個group有一個或者多個NUMA節(jié)點。
每個NUMA節(jié)點有一個或者多個物理處理器。
每個處理器有一個或者多個物理核心,因為它經(jīng)常是多核處理器。
每個物理內(nèi)核可以提供一個或者多個邏輯處理器或者硬件線程。
圖1-17
圖1-18展示了由兩個NUMA節(jié)點構(gòu)成一個group的計算機。每個NUMA節(jié)點有兩個共享訪問局部內(nèi)存和io的兩個處理器組成。如果NUMA節(jié)點0的處理器0的物理核心0的線程需要訪問位于NUMA節(jié)點1的數(shù)據(jù),則它必須使用兩個NUMA節(jié)點之間的共享總線,這會比直接訪問自己的局部內(nèi)存要慢很多。
圖 1-18
帶有NUMA的計算機擁有多于一個的系統(tǒng)總線。每個特定的處理器集合使用自己可用的系統(tǒng)總線。同樣的他們也訪問自己自由的內(nèi)存和io通道。就像前邊描述的,他們可以使用合適的協(xié)調(diào)策略,使他們具有訪問其他處理器的內(nèi)存的能力。然而,很明顯訪問其他NUMA節(jié)點所有的內(nèi)存要比方位自己NUMA節(jié)點內(nèi)的付出的代價昂貴的多。
NUMA的硬件需要特殊的優(yōu)化。應(yīng)用程序必須知道NUMA硬件和配置。我們可以執(zhí)行那些需要訪問NUMA節(jié)點的相同的內(nèi)存的任務(wù)和線程模型。應(yīng)用程序應(yīng)該避免無效的內(nèi)存方位,并且他們喜歡并發(fā),考慮到內(nèi)存的未知。
原文鏈接:http://blog.csdn.net/hou478410969/article/details/7661487