昂貴LLM的救星?Nature新研究提出新型憶阻器,比Haswell CPU高效460倍
前些天,OpenAI 發(fā)布了 ο1 系列模型,它那「超越博士水平的」強大推理性能預示著其必將在人們的生產(chǎn)生活中大有作為。但它的使用成本也很高,以至于 OpenAI 不得不限制每位用戶的使用量:每位用戶每周僅能給 o1-preview 發(fā)送 30 條消息,給 o1-mini 發(fā)送 50 條消息。
實在是少!
為了降低 LLM 的使用成本,研究者們已經(jīng)想出了各式各樣的方法。有些方法的目標是提升模型的效率,比如對模型進行量化或蒸餾,但這種方法往往也伴隨著模型性能的下降。另一種思路則是提升運行這些模型的硬件——英偉達正是這一路線的推動者和受益者,但該公司的主要策略還是提升 GPU 的性能;另一些研究者則正在探索針對 AI 構建高效高性能的新型硬件體系。憶阻器(memristor)便是其中一個重要的研究方向。
憶阻器是一種電子元件,其能夠限制或調(diào)節(jié)電路中電流的流動,并且可以記憶之前通過的電荷量。憶阻器在許多實際應用中具有重要意義,原因之一是其具備非易失性特性,即在斷電情況下仍能保持記憶,這使得其在無電源或電源中斷時依然能夠持續(xù)使用。憶阻器被認為是和電阻器、電容器、電感同層級的基礎電子元件。憶阻器的概念最早在 1971 年由華人科學家蔡少棠提出。
近日,Nature 發(fā)布了一篇來自印度科學學院、得克薩斯農(nóng)工大學和愛爾蘭利莫瑞克大學的一篇論文,其中提出了一種「線性對稱的自選擇式 14 bit 的動力學分子憶阻器」。
論文標題:Linear symmetric self-selecting 14-bit kinetic molecular memristors
論文地址:https://www.nature.com/articles/s41586-024-07902-2
該論文的核心亮點是,其中提出的分子憶阻器在核心的矩陣運算上能實現(xiàn)遠超電子器件效率的 14 bit 模擬計算;并且其實現(xiàn)了超過 73 dB 的信噪比,比之前的最佳水平直接高出了 4 個數(shù)量級,同時其能耗量比電子計算機低 460 倍!
這樣的出色表現(xiàn)讓 AI 工程師 Rohan Paul 忍不住驚嘆:「如果這是真的,算是到了 LLM 的真空管變硅晶體管時刻嗎?」
那么,這篇論文究竟提出了什么呢?真的有希望將 LLM 從高功耗高成本的困境中解脫出來嗎?讓我們來簡單了解一下。
挑戰(zhàn)
我們知道,向量-矩陣乘法(VMM)是神經(jīng)網(wǎng)絡等許多計算算法的基礎。但是,VMM 很難實現(xiàn),因為對于長度為 n 的向量,所需的計算步驟為 n2。盡管對稱運算可以降低 VMM 的復雜性,但它們只適用于特定的矩陣結構,比如人工智能中的非結構化數(shù)據(jù)。
為了得到高效的通用型 VMM 引擎,人們一直在推動硬件的發(fā)展,尤其是點積引擎(DPE)——一種可在單個時間步長內(nèi)實現(xiàn) VMM 的模擬加速器。盡管 DPE 有應對計算規(guī)模擴展的潛力,但其應用也受限于其精度,因為模擬電路元件僅提供 2-6 個等效比特。這種精度不足的根源在于其物理性質(zhì)不夠理想,包括非線性的權重更新、不對稱行為、噪聲、電導漂移和設備間差異。這是神經(jīng)形態(tài)計算的一個根本性挑戰(zhàn)。
為了解決這個問題,需要發(fā)明一種能嵌入到電路中的元件,并且嵌入數(shù)量要比目前可用的模擬級別高出幾個數(shù)量級。
解決方案
該團隊宣稱已經(jīng)發(fā)明出了這樣的元件。這是一種分子憶阻器交叉開關矩陣,可集成在電路板中。其展現(xiàn)出了 14 比特的模擬精度、近乎理想的線性和對稱權重更新,以及每個電導層級的一步式可編程性(one-step programmability)。
如圖 1a 所示,該團隊構建了有史以來最大的分子憶阻器交叉開關矩陣(64×64)結構。使用的材料是夾在頂部和底部金電極之間的 60 nm 厚的 薄膜。更多詳細的設計參數(shù)請參看原論文。
總之,該器件實現(xiàn)了想要的功能,并且具有相當好的非易失性和穩(wěn)健性。如圖 2a 所示,這個交叉開關矩陣耐久性很好,經(jīng)過 10^9 個操作周期后,權重更新特性依舊保持不變。另外,圖 2b 表明使用 500 mV 直流電壓在 85°C 環(huán)境下,該結構能在 11 天內(nèi)不出現(xiàn)明顯的電導漂移。另外,他們還測試發(fā)現(xiàn),其能維持長達 7 個月的電導保持率。
實驗
使用這個 64×64 的分子交叉開關矩陣,該團隊執(zhí)行了 VMM 實驗,這用到了一個他們定制的超過 16 比特準確度的混合信號外圍電路,如下圖 4 所示。a 圖是對其編程,使之執(zhí)行離散傅里葉變換(DFT)。b 圖則比較了計算出的 DFT 輸出與軟件計算的結果,可以看到它們之間非常一致,這表明這個結構是有效的。
此外,他們還執(zhí)行了矩陣-矩陣乘法運算,這是幾乎所有 AI 和機器學習算法的基礎運算。結果發(fā)現(xiàn),如果讓兩個 64×64 的矩陣相乘,則該結構僅需要執(zhí)行 64 步,但如果讓電子計算機來干同樣的事,則需要執(zhí)行 262,144 次運算。
圖 4c 表示其矩陣乘法的準確度不依賴于對稱性,這是處理非結構化數(shù)據(jù)的一個關鍵屬性。
該團隊評估了不同矩陣組合,包括對稱、隨機和雙隨機矩陣。最終得到了 73-79 dB 的信噪比。該團隊表示這是一個非常重大的進步。
他們還展示了一個非常有趣的用例。使用矩陣乘法,他們使用從韋伯望遠鏡數(shù)據(jù)庫檢索到的頻域數(shù)據(jù),通過逆傅里葉變換重建了標志性的「創(chuàng)生之柱」圖像,見圖 4d-f。
之所以選擇外太空數(shù)據(jù),是因為它缺乏對稱性。這項任務每個平面都需要 26,256 個時間步驟,而數(shù)字計算機所需的步驟數(shù)超過了 10^8。
結果,他們得到的信噪比為 74 dB,峰值信噪比為 76.5 dB,直接高出了之前最佳的 DPE 4 個數(shù)量級。
這個轉譯過程的后續(xù)階段將需要進一步擴展這個交叉開關矩陣,并開發(fā)具有高精度的片上外圍電路。
該團隊在論文中描述了一種經(jīng)過功率優(yōu)化的外圍電路設計,可以提供超高的能效:每秒每瓦 4.1 萬億次運算 (TOPS/W) 。這個數(shù)據(jù)比 18 核 Haswell CPU 高 460 倍,比當前最高效的英偉達 K80 GPU 高 220 倍,并且這還有很大的改進空間。
這個示例展示了基于分子的技術的巨大潛力,通過將其集成到 CMOS 電路中,可以大幅超越最先進的加速器的性能。
如果 OpenAI 等未來開發(fā)的大模型也能運行在基于此類技術開發(fā)的硬件上,那 AI 的使用成本必定能下降很多。
更多研究細節(jié)、數(shù)據(jù)和代碼請訪問原論文。