首個GPU高級語言，大規(guī)模并行就像寫Python，已獲8500 Star

作者：機器之心 2024-05-20 13:12:00

上周末，一種名為 Bend 的編程語言在開源社區(qū)引發(fā)了熱烈的討論，GitHub 的 Star 量已經(jīng)超過了 8500。

經(jīng)過近 10 年的不懈努力，對計算機科學(xué)核心的深入研究，人們終于實現(xiàn)了一個夢想：在 GPU 上運行高級語言。

上周末，一種名為 Bend 的編程語言在開源社區(qū)引發(fā)了熱烈的討論，GitHub 的 Star 量已經(jīng)超過了 8500。

GitHub：https://github.com/HigherOrderCO/Bend

作為一種大規(guī)模并行的高級編程語言，它仍處于研究階段，但提出的思路已經(jīng)讓人們感到非常驚訝。使用 Bend，你可以為多核 CPU/GPU 編寫并行代碼，而無需成為具有 10 年經(jīng)驗的 C/CUDA 專家，感覺就像 Python 一樣！

是的，Bend 采用了 Python 語法。

與 CUDA、Metal 等低級替代方案不同，Bend 具有 Python、Haskell 等表達性語言的功能，包括快速對象分配、完全閉包支持的高階函數(shù)、無限制的遞歸，甚至 continuation。Bend 運行在大規(guī)模并行硬件上，具有基于核心數(shù)量的近線性加速。Bend 由 HVM2 運行時提供支持。

該項目的主要貢獻者 Victor Taelin 來自巴西，他在 X 平臺上分享了 Bend 的主要特性和開發(fā)思路。

首先，Bend 不適用于現(xiàn)代機器學(xué)習算法，因為這些算法是高度正則化的（矩陣乘法），具有預(yù)先分配的內(nèi)存，并且通常已經(jīng)有編寫好的 CUDA 內(nèi)核。

Bend 的巨大優(yōu)勢體現(xiàn)在實際應(yīng)用中，這是因為「真正的應(yīng)用程序」通常沒有預(yù)算來制作專用的 GPU 內(nèi)核。試問，誰在 CUDA 中制作了網(wǎng)站？而且，即使有人這樣做了，也是不可行的，因為：

1. 真正的應(yīng)用程序需要從許多不同的庫導(dǎo)入函數(shù)，無法為它們編寫 CUDA 內(nèi)核；

2. 真實的應(yīng)用程序具有動態(tài)函數(shù)和閉包；

3. 真實的應(yīng)用程序會動態(tài)且不可預(yù)測地分配大量內(nèi)存。

Bend 完成了一些新的嘗試，并且在某些情況下可以相當快，但現(xiàn)在想寫大語言模型肯定是不行的。

作者對比了一下舊方法和新的方法，使用相同的算法樹中的雙調(diào)排序，涉及 JSON 分配和操作。Node.js 的速度是 3.5 秒（Apple M3 Max），Bend 的速度是 0.5 秒（NVIDIA RTX 4090）。

是的，目前 Bend 需要整塊 GPU 才能在一個核心上擊敗 Node.js。但另一方面，這還是一個初生的新方法與大公司（Google）優(yōu)化了 16 年的 JIT 編譯器在進行比較。未來還有很多可能性。

如何使用

在 GitHub 上，作者簡要介紹了 Bend 的使用流程。

首先，安裝 Rust。如果你想使用 C 運行時，請安裝 C 編譯器（例如 GCC 或 Clang）；如果要使用 CUDA 運行時，請安裝 CUDA 工具包（CUDA 和 nvcc）版本 12.x。Bend 目前僅支持 Nvidia GPU。

然后，安裝 HVM2 和 Bend：

cargo +nightly install hvm
cargo +nightly install bend-lang

最后，編寫一些 Bend 文件，并使用以下命令之一運行它：

bend run    <file.bend> # uses the Rust interpreter (sequential)
bend run-c  <file.bend> # uses the C interpreter (parallel)
bend run-cu <file.bend> # uses the CUDA interpreter (massively parallel)

你還可以使用 gen-c 和 gen-cu 將 Bend 編譯為獨立的 C/CUDA 文件，以獲得最佳性能。但 gen-c、gen-cu 仍處于起步階段，遠沒有像 GCC 和 GHC 這樣的 SOTA 編譯器那么成熟。

Bend 中的并行編程

這里舉例說明可以在 Bend 中并行運行的程序。例如，表達式：

(((1 + 2) + 3) + 4)

不能并行運行，因為 + 4 取決于 + 3，而 + 3 又取決于 (1+2)。而表達式：

((1 + 2) + (3 + 4))

可以并行運行，因為 (1+2) 和 (3+4) 是獨立的。Bend 并行運行的條件就是符合并行邏輯。

再來看一個更完整的代碼示例：

# Sorting Network = just rotate trees!
def sort (d, s, tree):
  switch d:
    case 0:
      return tree
case _:
      (x,y) = tree
lft   = sort (d-1, 0, x)
      rgt   = sort (d-1, 1, y)
      return rots (d, s, lft, rgt)
# Rotates sub-trees (Blue/Green Box)
def rots (d, s, tree):
  switch d:
    case 0:
      return tree
case _:
      (x,y) = tree
return down (d, s, warp (d-1, s, x, y))




(...)

該文件實現(xiàn)了具有不可變樹旋轉(zhuǎn)的雙調(diào)排序器。它不是很多人期望的在 GPU 上快速運行的算法。然而，由于它使用本質(zhì)上并行的分治方法，因此 Bend 會以多線程方式運行它。一些速度基準：

CPU，Apple M3 Max，1 個線程：12.15 秒
CPU，Apple M3 Max，16 線程：0.96 秒
GPU，NVIDIA RTX 4090，16k 線程：0.21 秒

不執(zhí)行任何操作即可實現(xiàn) 57 倍的加速。沒有線程產(chǎn)生，沒有鎖、互斥鎖的顯式管理。我們只是要求 Bend 在 RTX 上運行我們的程序，就這么簡單。

Bend 不限于特定范例，例如張量或矩陣。任何的并發(fā)系統(tǒng)，從著色器到類 Erlang 的 actor 模型都可以在 Bend 上進行模擬。例如，要實時渲染圖像，我們可以簡單地在每個幀上分配一個不可變的樹：

# given a shader, returns a square image
def render (depth, shader):
  bend d = 0, i = 0:
    when d < depth:
      color = (fork (d+1, i*2+0), fork (d+1, i*2+1))
    else:
      width = depth / 2
color = shader (i % width, i /width)
  return color
# given a position, returns a color
# for this demo, it just busy loops
def demo_shader (x, y):
  bend i = 0:
    when i < 5000:
      color = fork (i + 1)
    else:
      color = 0x000001
return color
# renders a 256x256 image using demo_shader
def main:
  return render (16, demo_shader)

它確實會起作用，即使涉及的算法在 Bend 上也能很好地并行。長距離通信通過全局 beta 縮減（根據(jù)交互演算）執(zhí)行，并通過 HVM2 的原子鏈接器正確有效地同步。

最后，作者表示 Bend 現(xiàn)在僅僅是第一個版本，還沒有在合適的編譯器上投入太多精力。大家可以預(yù)期未來每個版本的原始性能都會大幅提高。而現(xiàn)在，我們已經(jīng)可以使用解釋器，從 Python 高級語言的角度一睹大規(guī)模并行編程的樣子了。

責任編輯：張燕妮來源：機器之心

模型訓(xùn)練

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個GPU高級語言，大規(guī)模并行就像寫Python，已獲8500 Star

如何使用

首個GPU高級語言，大規(guī)模并行就像寫Python，已獲8500 Star