自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

黑匣子被打開(kāi)了!能玩的Transformer可視化解釋工具,本地運(yùn)行GPT-2、還可實(shí)時(shí)推理

人工智能 新聞
都 2024 年,還有人不了解 Transformer 工作原理嗎?快來(lái)試一試這個(gè)交互式工具吧。

2017 年,谷歌在論文《Attention is all you need》中提出了 Transformer,成為了深度學(xué)習(xí)領(lǐng)域的重大突破。該論文的引用數(shù)已經(jīng)將近 13 萬(wàn),后來(lái)的 GPT 家族所有模型也都是基于 Transformer 架構(gòu),可見(jiàn)其影響之廣。

作為一種神經(jīng)網(wǎng)絡(luò)架構(gòu),Transformer 在從文本到視覺(jué)的多樣任務(wù)中廣受歡迎,尤其是在當(dāng)前火熱的 AI 聊天機(jī)器人領(lǐng)域。

圖片

不過(guò),對(duì)于很多非專(zhuān)業(yè)人士來(lái)說(shuō),Transformer 的內(nèi)部工作原理仍然不透明,阻礙了他們的理解和參與進(jìn)來(lái)。因此,揭開(kāi)這一架構(gòu)的神秘面紗尤其必要。但很多博客、視頻教程和 3D 可視化往往強(qiáng)調(diào)數(shù)學(xué)的復(fù)雜性和模型實(shí)現(xiàn),可能會(huì)讓初學(xué)者無(wú)所適從。同時(shí)為 AI 從業(yè)者設(shè)計(jì)的可視化工作側(cè)重于神經(jīng)元和層級(jí)可解釋性,對(duì)于非專(zhuān)業(yè)人士來(lái)說(shuō)具有挑戰(zhàn)性。

因此,佐治亞理工學(xué)院和 IBM 研究院的幾位研究者開(kāi)發(fā)了一款基于 web 的開(kāi)源交互式可視化工具「Transformer Explainer」,幫助非專(zhuān)業(yè)人士了解 Transformer 的高級(jí)模型結(jié)構(gòu)和低級(jí)數(shù)學(xué)運(yùn)算。如下圖 1 所示。

圖片

Transformer Explainer 通過(guò)文本生成來(lái)解釋 Transformer 內(nèi)部工作原理,采用了?;鶊D可視化設(shè)計(jì),靈感來(lái)自最近將 Transformer 視為動(dòng)態(tài)系統(tǒng)的工作,強(qiáng)調(diào)了輸入數(shù)據(jù)如何流經(jīng)模型組件。從結(jié)果來(lái)看,?;鶊D有效地說(shuō)明了信息如何在模型中傳遞,并展示了輸入如何通過(guò) Transformer 操作進(jìn)行處理和變換。

在內(nèi)容上,Transformer Explainer 緊密集成了對(duì) Transformer 結(jié)構(gòu)進(jìn)行總結(jié)的模型概述,并允許用戶(hù)在多個(gè)抽象層級(jí)之間平滑過(guò)渡,以可視化低級(jí)數(shù)學(xué)運(yùn)算和高級(jí)模型結(jié)構(gòu)之間的相互作用,幫助他們?nèi)胬斫?Transformer 中的復(fù)雜概念。

在功能上,Transformer Explainer 在提供基于 web 的實(shí)現(xiàn)之外,還具有實(shí)時(shí)推理的功能。與現(xiàn)有很多需要自定義軟件安裝或缺乏推理功能的工具不同,它集成了一個(gè)實(shí)時(shí) GPT-2 模型,使用現(xiàn)代前端框架在瀏覽器本地運(yùn)行。用戶(hù)可以交互式地試驗(yàn)自己的輸入文本,并實(shí)時(shí)觀察 Transformer 內(nèi)部組件和參數(shù)如何協(xié)同工作以預(yù)測(cè)下一個(gè) token。

在意義上,Transformer Explainer 拓展了對(duì)現(xiàn)代生成式 AI 技術(shù)的訪問(wèn),且不需要高級(jí)計(jì)算資源、安裝或編程技能。而之所以選擇 GPT-2,是因?yàn)樵撃P椭雀?、推理速度快,并且與 GPT-3、GPT-4 等更高級(jí)的模型在架構(gòu)上相似。

圖片

  • 論文地址:https://arxiv.org/pdf/2408.04619
  • GitHub 地址:http://poloclub.github.io/transformer-explainer/
  • 在線體驗(yàn)地址:https://t.co/jyBlJTMa7m

既然支持自己輸入,機(jī)器之心也試用了一下「what a beautiful day」,運(yùn)行結(jié)果如下圖所示。

圖片

對(duì)于 Transformer Explainer,一眾網(wǎng)友給出了很高的評(píng)價(jià)。有人表示,這是非??岬慕换ナ焦ぞ?。

圖片

有人稱(chēng)自己一直在等待一個(gè)直觀的工具來(lái)解釋自注意力和位置編碼,就是 Transformer Explainer 了。它會(huì)是一個(gè)改變游戲規(guī)則的工具。

圖片

還有人做出了中譯版。

圖片

展示地址:http://llm-viz-cn.iiiai.com/llm

這里不禁想到了另一位科普界的大牛 Karpathy,它之前寫(xiě)了很多關(guān)于復(fù)現(xiàn) GPT-2 的教程,包括「純 C 語(yǔ)言手搓 GPT-2,前 OpenAI、特斯拉高管新項(xiàng)目火了」、「Karpathy 最新四小時(shí)視頻教程:從零復(fù)現(xiàn) GPT-2,通宵運(yùn)行即搞定」等。如今有了 Transformer 內(nèi)部原理可視化工具,看起來(lái)兩者搭配使用,學(xué)習(xí)效果會(huì)更佳。

Transformer Explainer 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

Transformer Explainer 可視化展示了基于 Transformer 的 GPT-2 模型經(jīng)過(guò)訓(xùn)練是如何處理文本輸入并預(yù)測(cè)下一個(gè) token 的。前端使用了 Svelte 和 D3 實(shí)現(xiàn)交互式可視化,后端則利用 ONNX runtime 和 HuggingFace 的 Transformers 庫(kù)在瀏覽器中運(yùn)行 GPT-2 模型。

設(shè)計(jì) Transformer Explainer 的過(guò)程中,一個(gè)主要的挑戰(zhàn)是如何管理底層架構(gòu)的復(fù)雜性,因?yàn)橥瑫r(shí)展示所有細(xì)節(jié)會(huì)讓人抓不住重點(diǎn)。為了解決這個(gè)問(wèn)題,研究者十分注意兩個(gè)關(guān)鍵的設(shè)計(jì)原則。 

首先,研究者通過(guò)多級(jí)抽象來(lái)降低復(fù)雜性。他們將工具進(jìn)行結(jié)構(gòu)化設(shè)計(jì),以不同的抽象層次呈現(xiàn)信息。這讓用戶(hù)能夠從高層概覽開(kāi)始,并根據(jù)需要逐步深入了解細(xì)節(jié),從而避免信息過(guò)載。在最高層,工具展示了完整的處理流程:從接收用戶(hù)提供的文本作為輸入(圖 1A),將其嵌入,經(jīng)過(guò)多個(gè) Transformer 塊處理,再到使用處理后的數(shù)據(jù)來(lái)對(duì)最有可能的下一個(gè) token 預(yù)測(cè)進(jìn)行排序。

中間操作,如注意力矩陣的計(jì)算(圖 1C),這在默認(rèn)情況下被折疊起來(lái),以便直觀地顯示計(jì)算結(jié)果的重要性,用戶(hù)可以選擇展開(kāi),通過(guò)動(dòng)畫(huà)序列查看其推導(dǎo)過(guò)程。研究者采用了一致的視覺(jué)語(yǔ)言,比如堆疊注意力頭和折疊重復(fù)的 Transformer 塊,以幫助用戶(hù)識(shí)別架構(gòu)中的重復(fù)模式,同時(shí)保持?jǐn)?shù)據(jù)的端到端流程。 

其次,研究者通過(guò)交互性增強(qiáng)理解和參與。 溫度參數(shù)在控制 Transformer 的輸出概率分布中至關(guān)重要,它會(huì)影響下一個(gè) token 預(yù)測(cè)的確定性(低溫時(shí))或隨機(jī)性(高溫時(shí))。但是現(xiàn)有關(guān)于 Transformers 的教育資源往往忽視了這一方面。用戶(hù)現(xiàn)在能夠使用這個(gè)新工具實(shí)時(shí)調(diào)整溫度參數(shù)(圖 1B),并可視化其在控制預(yù)測(cè)確定性中的關(guān)鍵作用(圖 2)。

圖片

此外,用戶(hù)可以從提供的示例中選擇或輸入自己的文本(圖 1A)。支持自定義輸入文本可以讓用戶(hù)更深入?yún)⑴c,通過(guò)分析模型在不同條件下的行為,并根據(jù)不同的文本輸入對(duì)自己的假設(shè)進(jìn)行交互式測(cè)試,增強(qiáng)了用戶(hù)的參與感。 

那在實(shí)際中有哪些應(yīng)用場(chǎng)景呢?

Rousseau 教授正在對(duì)自然語(yǔ)言處理課程的課程內(nèi)容進(jìn)行現(xiàn)代化改造,以突出生成式 AI 的最新進(jìn)展。她注意到,一些學(xué)生將基于 Transformer 的模型視為捉摸不透的「魔法」,而另一些學(xué)生則希望了解這些模型的工作原理,但不確定從何入手。

為了解決這一問(wèn)題,她引導(dǎo)學(xué)生使用 Transformer Explainer,該工具提供了 Transformer 的互動(dòng)概覽(圖 1),鼓勵(lì)學(xué)生積極進(jìn)行實(shí)驗(yàn)和學(xué)習(xí)。她的班級(jí)有 300 多名學(xué)生,而 Transformer Explainer 能夠完全在學(xué)生的瀏覽器中運(yùn)行,無(wú)需安裝軟件或特殊硬件,這是一個(gè)顯著的優(yōu)勢(shì),消除了學(xué)生對(duì)管理軟件或硬件設(shè)置的擔(dān)憂。

該工具通過(guò)動(dòng)畫(huà)和互動(dòng)的可逆抽象(圖 1C),向?qū)W生介紹了復(fù)雜的數(shù)學(xué)運(yùn)算,如注意力計(jì)算。這種方法幫助學(xué)生既獲得了對(duì)操作的高層次理解,又能深入了解產(chǎn)生這些結(jié)果的底層細(xì)節(jié)。

Rousseau 教授還意識(shí)到,Transformer 的技術(shù)能力和局限性有時(shí)會(huì)被擬人化(例如,將溫度參數(shù)視為「創(chuàng)造力」控制)。通過(guò)鼓勵(lì)學(xué)生實(shí)驗(yàn)溫度滑塊(圖 1B),她向?qū)W生展示了溫度實(shí)際上是如何修改下一個(gè)詞元的概率分布(圖 2),從而控制預(yù)測(cè)的隨機(jī)性,在確定性和更具創(chuàng)造性的輸出之間取得平衡。

此外,當(dāng)系統(tǒng)可視化 token 處理流程時(shí),學(xué)生們可以看到這里并沒(méi)有任何所謂的「魔法」—— 無(wú)論輸入文本是什么(圖 1A),模型都遵循一個(gè)定義明確的操作順序,使用 Transformer 架構(gòu),一次只采樣一個(gè) token,然后重復(fù)這一過(guò)程。

未來(lái)工作

研究者們正在增強(qiáng)工具的交互式解釋來(lái)改善學(xué)習(xí)體驗(yàn)。同時(shí),他們還在通過(guò) WebGPU 提升推理速度,并通過(guò)壓縮技術(shù)來(lái)減小模型的大小。他們還計(jì)劃進(jìn)行用戶(hù)研究,來(lái)評(píng)估 Transformer Explainer 的效能和可用性,觀察 AI 新手、學(xué)生、教育者和從業(yè)者如何使用該工具,并收集他們希望支持的額外功能的反饋意見(jiàn)。 

還在等什么,你也上手體驗(yàn)一下,打破對(duì) Transformer 的「魔法」幻想,真正了解這背后的原理吧。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-07-11 07:59:18

2021-09-16 09:09:03

“可解釋的”人工智能XAI人工智能

2013-03-27 10:40:29

2023-11-27 14:48:34

人工智能深度學(xué)習(xí)大語(yǔ)言模型

2022-03-25 13:56:37

黑匣子數(shù)據(jù)分析數(shù)據(jù)

2014-01-17 13:59:14

騰訊開(kāi)放平臺(tái)

2023-09-20 11:42:44

人工智能AI

2022-04-12 14:13:01

云計(jì)算云存儲(chǔ)黑匣子

2022-03-23 10:01:56

黑匣子云端

2019-06-04 05:52:20

神經(jīng)網(wǎng)絡(luò)可視化CNN)

2023-10-06 23:31:25

可視化Go

2011-12-28 10:37:21

2023-09-15 11:32:18

selectGo可視化解釋

2023-06-05 14:04:59

模型AI

2020-10-30 11:25:15

神經(jīng)網(wǎng)絡(luò)人工智能黑匣子

2023-09-25 12:45:45

Go 語(yǔ)言可視化sync.Mute

2023-10-20 13:35:19

GoWaitGroup

2021-01-28 10:55:31

算法可視化數(shù)據(jù)

2015-10-12 15:13:45

銳捷網(wǎng)絡(luò)

2021-11-30 15:39:00

汽車(chē)智能技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)