自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="eklmb"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

昂貴LLM的救星？Nature新研究提出新型憶阻器，比Haswell CPU高效460倍

作者：機器之心 2024-09-18 09:40:00

人工智能新聞

如果 OpenAI 等未來開發(fā)的大模型也能運行在基于此類技術開發(fā)的硬件上，那 AI 的使用成本必定能下降很多。

前些天，OpenAI 發(fā)布了 ο1 系列模型，它那「超越博士水平的」強大推理性能預示著其必將在人們的生產(chǎn)生活中大有作為。但它的使用成本也很高，以至于 OpenAI 不得不限制每位用戶的使用量：每位用戶每周僅能給 o1-preview 發(fā)送 30 條消息，給 o1-mini 發(fā)送 50 條消息。

實在是少！

為了降低 LLM 的使用成本，研究者們已經(jīng)想出了各式各樣的方法。有些方法的目標是提升模型的效率，比如對模型進行量化或蒸餾，但這種方法往往也伴隨著模型性能的下降。另一種思路則是提升運行這些模型的硬件——英偉達正是這一路線的推動者和受益者，但該公司的主要策略還是提升 GPU 的性能；另一些研究者則正在探索針對 AI 構建高效高性能的新型硬件體系。憶阻器（memristor）便是其中一個重要的研究方向。

憶阻器是一種電子元件，其能夠限制或調(diào)節(jié)電路中電流的流動，并且可以記憶之前通過的電荷量。憶阻器在許多實際應用中具有重要意義，原因之一是其具備非易失性特性，即在斷電情況下仍能保持記憶，這使得其在無電源或電源中斷時依然能夠持續(xù)使用。憶阻器被認為是和電阻器、電容器、電感同層級的基礎電子元件。憶阻器的概念最早在 1971 年由華人科學家蔡少棠提出。

近日，Nature 發(fā)布了一篇來自印度科學學院、得克薩斯農(nóng)工大學和愛爾蘭利莫瑞克大學的一篇論文，其中提出了一種「線性對稱的自選擇式 14 bit 的動力學分子憶阻器」。

論文標題：Linear symmetric self-selecting 14-bit kinetic molecular memristors

論文地址：https://www.nature.com/articles/s41586-024-07902-2

該論文的核心亮點是，其中提出的分子憶阻器在核心的矩陣運算上能實現(xiàn)遠超電子器件效率的 14 bit 模擬計算；并且其實現(xiàn)了超過 73 dB 的信噪比，比之前的最佳水平直接高出了 4 個數(shù)量級，同時其能耗量比電子計算機低 460 倍！

這樣的出色表現(xiàn)讓 AI 工程師 Rohan Paul 忍不住驚嘆：「如果這是真的，算是到了 LLM 的真空管變硅晶體管時刻嗎？」

那么，這篇論文究竟提出了什么呢？真的有希望將 LLM 從高功耗高成本的困境中解脫出來嗎？讓我們來簡單了解一下。

挑戰(zhàn)

我們知道，向量-矩陣乘法（VMM）是神經(jīng)網(wǎng)絡等許多計算算法的基礎。但是，VMM 很難實現(xiàn)，因為對于長度為 n 的向量，所需的計算步驟為 n2。盡管對稱運算可以降低 VMM 的復雜性，但它們只適用于特定的矩陣結構，比如人工智能中的非結構化數(shù)據(jù)。

為了得到高效的通用型 VMM 引擎，人們一直在推動硬件的發(fā)展，尤其是點積引擎（DPE）——一種可在單個時間步長內(nèi)實現(xiàn) VMM 的模擬加速器。盡管 DPE 有應對計算規(guī)模擴展的潛力，但其應用也受限于其精度，因為模擬電路元件僅提供 2-6 個等效比特。這種精度不足的根源在于其物理性質(zhì)不夠理想，包括非線性的權重更新、不對稱行為、噪聲、電導漂移和設備間差異。這是神經(jīng)形態(tài)計算的一個根本性挑戰(zhàn)。

為了解決這個問題，需要發(fā)明一種能嵌入到電路中的元件，并且嵌入數(shù)量要比目前可用的模擬級別高出幾個數(shù)量級。

解決方案

該團隊宣稱已經(jīng)發(fā)明出了這樣的元件。這是一種分子憶阻器交叉開關矩陣，可集成在電路板中。其展現(xiàn)出了 14 比特的模擬精度、近乎理想的線性和對稱權重更新，以及每個電導層級的一步式可編程性（one-step programmability）。

如圖 1a 所示，該團隊構建了有史以來最大的分子憶阻器交叉開關矩陣（64×64）結構。使用的材料是夾在頂部和底部金電極之間的 60 nm 厚的薄膜。更多詳細的設計參數(shù)請參看原論文。

總之，該器件實現(xiàn)了想要的功能，并且具有相當好的非易失性和穩(wěn)健性。如圖 2a 所示，這個交叉開關矩陣耐久性很好，經(jīng)過 10^9 個操作周期后，權重更新特性依舊保持不變。另外，圖 2b 表明使用 500 mV 直流電壓在 85°C 環(huán)境下，該結構能在 11 天內(nèi)不出現(xiàn)明顯的電導漂移。另外，他們還測試發(fā)現(xiàn)，其能維持長達 7 個月的電導保持率。

實驗

使用這個 64×64 的分子交叉開關矩陣，該團隊執(zhí)行了 VMM 實驗，這用到了一個他們定制的超過 16 比特準確度的混合信號外圍電路，如下圖 4 所示。a 圖是對其編程，使之執(zhí)行離散傅里葉變換（DFT）。b 圖則比較了計算出的 DFT 輸出與軟件計算的結果，可以看到它們之間非常一致，這表明這個結構是有效的。

此外，他們還執(zhí)行了矩陣-矩陣乘法運算，這是幾乎所有 AI 和機器學習算法的基礎運算。結果發(fā)現(xiàn)，如果讓兩個 64×64 的矩陣相乘，則該結構僅需要執(zhí)行 64 步，但如果讓電子計算機來干同樣的事，則需要執(zhí)行 262,144 次運算。

圖 4c 表示其矩陣乘法的準確度不依賴于對稱性，這是處理非結構化數(shù)據(jù)的一個關鍵屬性。

該團隊評估了不同矩陣組合，包括對稱、隨機和雙隨機矩陣。最終得到了 73-79 dB 的信噪比。該團隊表示這是一個非常重大的進步。

他們還展示了一個非常有趣的用例。使用矩陣乘法，他們使用從韋伯望遠鏡數(shù)據(jù)庫檢索到的頻域數(shù)據(jù)，通過逆傅里葉變換重建了標志性的「創(chuàng)生之柱」圖像，見圖 4d-f。

之所以選擇外太空數(shù)據(jù)，是因為它缺乏對稱性。這項任務每個平面都需要 26,256 個時間步驟，而數(shù)字計算機所需的步驟數(shù)超過了 10^8。

結果，他們得到的信噪比為 74 dB，峰值信噪比為 76.5 dB，直接高出了之前最佳的 DPE 4 個數(shù)量級。

這個轉譯過程的后續(xù)階段將需要進一步擴展這個交叉開關矩陣，并開發(fā)具有高精度的片上外圍電路。

該團隊在論文中描述了一種經(jīng)過功率優(yōu)化的外圍電路設計，可以提供超高的能效：每秒每瓦 4.1 萬億次運算 (TOPS/W) 。這個數(shù)據(jù)比 18 核 Haswell CPU 高 460 倍，比當前最高效的英偉達 K80 GPU 高 220 倍，并且這還有很大的改進空間。

這個示例展示了基于分子的技術的巨大潛力，通過將其集成到 CMOS 電路中，可以大幅超越最先進的加速器的性能。

如果 OpenAI 等未來開發(fā)的大模型也能運行在基于此類技術開發(fā)的硬件上，那 AI 的使用成本必定能下降很多。

更多研究細節(jié)、數(shù)據(jù)和代碼請訪問原論文。

責任編輯：張燕妮來源：機器之心

大模型 LLM AI

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="lrl1b"></sub>

<thead id="lrl1b"><rt id="lrl1b"></rt></thead>