自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="z7p8u"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

TensorFlow分布式計算機制解讀：以數(shù)據(jù)并行為重

作者：機器之心編譯 2017-06-18 10:45:10

開發(fā) 開發(fā)工具分布式

Tensorflow 是一個為數(shù)值計算(最常見的是訓(xùn)練神經(jīng)網(wǎng)絡(luò))設(shè)計的流行開源庫，本文地闡述了與分布式 TensorFlow 分布式計算機制以及相關(guān)的一些術(shù)語和技術(shù)。

Tensorflow 是一個為數(shù)值計算(最常見的是訓(xùn)練神經(jīng)網(wǎng)絡(luò))設(shè)計的流行開源庫。在這個框架中，計算流程通過數(shù)據(jù)流程圖(data flow graph)設(shè)計，這為更改操作結(jié)構(gòu)與安置提供了很大靈活性。TensorFlow 允許多個 worker 并行計算，這對必須通過處理的大量訓(xùn)練數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是有益的。此外，如果模型足夠大，這種并行化有時可能是必須的。在本文中，我們將探討 TensorFlow 的分布式計算機制。

TensorFlow 計算圖示例

數(shù)據(jù)并行 VS. 模型并行

當在多個計算節(jié)點間分配神經(jīng)網(wǎng)絡(luò)訓(xùn)練時，通常采用兩種策略：數(shù)據(jù)并行和模型并行。在前者中，在每個節(jié)點上單***建模型的實例，并饋送不同的訓(xùn)練樣本;這種架構(gòu)允許更高的訓(xùn)練吞吐量。相反，在模型并行中，模型的單一實例在多個節(jié)點間分配，這種架構(gòu)允許訓(xùn)練更大的模型(可能不一定適合單節(jié)點的存儲器)。如果需要，也可以組合這兩種策略，使給定模型擁有多個實例，每個實例跨越多個節(jié)點。在本文中，我們將重點關(guān)注數(shù)據(jù)并行。

數(shù)據(jù)并行與模型并行的不同形式。左：數(shù)據(jù)并行;中：模型并行;右：數(shù)據(jù)并行與模型并行

TensorFlow 中的數(shù)據(jù)并行

當使用 TensorFlow 時，數(shù)據(jù)并行主要表現(xiàn)為兩種形式：圖內(nèi)復(fù)制(in-graph replication)和圖間復(fù)制(between-graph replication)。兩種策略之間最顯著的區(qū)別在于流程圖的結(jié)構(gòu)與其結(jié)果。

1. 圖內(nèi)復(fù)制

圖內(nèi)復(fù)制通常被認為是兩種方法中更簡單和更直接(但更不可擴展的)的方法。當采用這種策略時，需要在分布式的主機上創(chuàng)建一個包含所有 worker 設(shè)備中副本的流程圖?？梢韵胂螅S著 worker 數(shù)量的增長，這樣的流程圖可能會大幅擴展，這可能會對模型性能產(chǎn)生不利影響。然而，對于小系統(tǒng)(例如，雙 GPU 臺式計算機)，由于其簡單性，圖內(nèi)復(fù)制可能是***的。

以下是使用單個 GPU 的基線 TensorFlow 方法與應(yīng)用圖內(nèi)復(fù)制方法的代碼片段的對比?？紤]到圖內(nèi)復(fù)制方法與擴展(scaling)相關(guān)的問題，我們將僅考慮單機、多 GPU 配置的情況。這兩個代碼片段之間的差異非常小，它們的差異僅存在于：對輸入數(shù)據(jù)的分塊，使得數(shù)據(jù)在各 worker 間均勻分配，遍歷每個含有 worker 流程圖的設(shè)備，并將來自不同 worker 的結(jié)果連接起來。通過少量代碼更改，我們可以利用多個設(shè)備，這種方法使可擴展性不再成為大障礙，從而在簡單配置下更受歡迎。

# single GPU (baseline)   單個 GPU（基線） 
import tensorflow as tf 
# place the initial data on the cpu 
with tf.device('/cpu:0'): 
   input_data = tf.Variable([[1., 2., 3.],[4., 5., 6.],[7., 8., 9.],[10., 11., 12.]]) 
   b = tf.Variable([[1.], [1.], [2.]])# compute the result on the 0th gpuwith tf.device('/gpu:0'): 
   output = tf.matmul(input_data, b)# create a session and runwith tf.Session() as sess: 
   sess.run(tf.global_variables_initializer())print sess.run(output)

# in-graph replication   圖內(nèi)復(fù)制 
import tensorflow as tf 
num_gpus = 2 
# place the initial data on the cpu 
with tf.device('/cpu:0'): 
   input_data = tf.Variable([[1., 2., 3.],[4., 5., 6.],[7., 8., 9.],[10., 11., 12.]]) 
   b = tf.Variable([[1.], [1.], [2.]])# split the data into chunks for each gpu 
inputs = tf.split(input_data, num_gpus) 
outputs = []# loop over available gpus and pass input datafor i in range(num_gpus):with tf.device('/gpu:'+str(i)): 
       outputs.append(tf.matmul(inputs[i], b))# merge the results of the deviceswith tf.device('/cpu:0'): 
   output = tf.concat(outputs, axis=0)# create a session and runwith tf.Session() as sess: 
   sess.run(tf.global_variables_initializer())print sess.run(output)

這些更改也可以通過檢查下面的 TensorFlow 流程圖來可視化。增加的 GPU 模塊說明了原始方法的擴展方式。

圖內(nèi)復(fù)制的可視化。左：原始圖。右：圖內(nèi)復(fù)制的結(jié)果圖。

2. 圖間復(fù)制

認識到圖內(nèi)復(fù)制在擴展上的局限性，圖間復(fù)制的優(yōu)勢在于運用大量節(jié)點時保證模型性能。這是通過在每個 worker 上創(chuàng)建計算圖的副本來實現(xiàn)的，并且不需要主機保存每個 worker 的圖副本。通過一些 TensorFlow 技巧來協(xié)調(diào)這些 worker 的圖——如果兩個單獨的節(jié)點在同一個 TensorFlow 設(shè)備上分配一個具有相同名稱的變量，則這些分配將被合并，變量將共享相同的后端存儲，從而這兩個 worker 將合并在一起。

但是，必須確保設(shè)備的正確配置。如果兩個 worker 在不同的設(shè)備上分配變量，則不會發(fā)生合并。對此，TensorFlow 提供了 replica_device_setter 函數(shù)。只要每個 worker 以相同的順序創(chuàng)建計算圖，replica_device_setter 為變量分配提供了確定的方法，確保變量在同一設(shè)備上。這將在下面的代碼中演示。

由于圖間復(fù)制在很大程度上重復(fù)了原始圖，因此多數(shù)相關(guān)的修改實際上都在集群中節(jié)點的配置上。因此，下面的代碼段將只針對這一點進行改動。重要的是要注意，這個腳本通常會在集群中的每臺機器上執(zhí)行，但具體的命令行參數(shù)不同。下面來逐行研究代碼。

import sysimport tensorflow as tf 
# specify the cluster's architecture 
cluster = tf.train.ClusterSpec({'ps': ['192.168.1.1:1111'],'worker': ['192.168.1.2:1111','192.168.1.3:1111']})# parse command-line to specify machine 
job_type = sys.argv[1]  # job type: "worker" or "ps" 
task_idx = sys.argv[2]  # index job in the worker or ps list# as defined in the ClusterSpec# create TensorFlow Server. This is how the machines communicate. 
server = tf.train.Server(cluster, job_name=job_type, task_index=task_idx)# parameter server is updated by remote clients.# will not proceed beyond this if statement.if job_type == 'ps': 
   server.join()else:# workers onlywith tf.device(tf.train.replica_device_setter( 
                       worker_device='/job:worker/task:'+task_idx, 
                       clustercluster=cluster)):# build your model here as if you only were using a single machinewith tf.Session(server.target):# train your model here

運行分布式 TensorFlow 的***步是使用 tf.train.ClusterSpec 來指定集群的架構(gòu)。節(jié)點通常分為兩個角色(或「job」)：含有變量的參數(shù)服務(wù)器(「ps」)和執(zhí)行大量計算的「worker」。下面提供每個節(jié)點的 IP 地址和端口。接下來，腳本必須確定其 job 類型和在網(wǎng)絡(luò)中的索引;這通常是通過將命令行參數(shù)傳遞給腳本并解析來實現(xiàn)的。job_type 指定節(jié)點是運行 ps 還是 worker 任務(wù)，而 task_idx 指定節(jié)點在 ps 或 worker 列表中的索引。使用以上變量創(chuàng)建 TensorFlow 服務(wù)器，用于連接各設(shè)備。

接下來，如果節(jié)點是參數(shù)服務(wù)器，它只連接它們的線程并等待它們終止。雖然似乎沒有特定的 ps 代碼，但圖元素實際上是由 worker 推送到 ps 的。

相反，如果設(shè)備是 worker，則使用 replica_device_setter 構(gòu)建我們的模型，以便在前面討論的這些 ps 服務(wù)器上連續(xù)分配參數(shù)。這些副本將在很大程度上與單機的流程圖相同。***，我們創(chuàng)建一個 tf.Session 并訓(xùn)練我們的模型。

總結(jié)

希望本文清楚地闡述了與分布式 TensorFlow 相關(guān)的一些術(shù)語和技術(shù)。在以后的文章中，我們將詳細探討與此相關(guān)及其它的主題。

原文：https://clindatsci.com/blog/2017/5/31/distributed-tensorflow

【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)譯文，微信公眾號“機器之心( id: almosthuman2014)”】

戳這里，看該作者更多好文

責(zé)任編輯：趙寧寧來源： 51CTO專欄

TensorFlow 分布式計算

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="mdrm3"><p id="mdrm3"></p></sub>

<style id="mdrm3"></style>