撰稿 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
現(xiàn)在的大型語言模型(LLM)就像牙膏一樣雞賊,你必須非常用力地擠壓(正確地提示)才能得到適量的牙膏(答案)。
就像奧特曼形容現(xiàn)在的GPT4一樣:“如果你問 GPT-4 大部分問題 10000 次,這 10000 次中可能有一次回答得很好,但它不一定知道是哪一次?!?/p>
也就是說,當你拿出大模型這個牙刷開始刷牙時,你的牙齒可能已經(jīng)被蛀掉了。
這個問題,似乎也是一個無解的問題。但就在前天,黑馬出現(xiàn)了!它直接把大語言模型比了下去,讓大家看到了“超級產(chǎn)品”的希望!
“幾乎以兔子的速度——比現(xiàn)有大型語言模型快10倍”,正如AI創(chuàng)業(yè)公司Rabbit的創(chuàng)始人Jesse Lyu(呂聘)在CES會上分享時所說。
圖片
Jesse 給出了一個嶄新的模型:大型動作模型(LAM),似乎可以解決這個問題。它可以通過擠牙膏的方式(通過文本或語音提示)迅速搞定一個大模型需要很久才能完成的任務。
1、一個小玩意,賣瘋了
本周二,一款口袋大小的橙色小設備,Rabbit R1迅速走紅網(wǎng)絡,這款設備在正式發(fā)布后的24小時內售出了10,000臺,售罄。
這小東西外觀大小如同“小霸王”掌中機,觸摸屏、旋轉式攝像頭、滾動輪。然而指令上,優(yōu)先考慮直觀的手勢和語音命令,而不是鍵盤和菜單。具體參數(shù)不妨看下:
圖片
Rabbit R1擁有2.88英寸的觸摸屏,由強大的2.3GHz MediaTek處理器提供動力,配備4GB RAM和128GB的存儲容量。
此外,它還配備了該公司自研的Rabbit OS操作系統(tǒng),可以快速高效地導航所有應用程序,全程無需自己動手。
從體驗上講,Rabbit有兩個讓人驚艷叫好的能力。
首先,它能很好地在人和手機之間扮演一個非常智能的接口,無須切換應用程序和登錄,只要說出你的需求,就能讓它為你服務。不管是打車、訂餐、發(fā)消息、聽音樂,全都能通過一個界面來實現(xiàn),并且售價非常親民:199美元。
同時有趣的是,Rabbit還引入了升級的“teach mode”,只需要用戶演示一遍工作流程,它就可以通過不同的界面進化,獲得新技能。會上,Jesse演示了現(xiàn)場教Rabbit學習如何使用Midjourney作圖。
圖片
圖片
Jesse表示,該公司使命是創(chuàng)造最簡單的計算機,簡單到甚至不需要學習如何使用。而最好的實現(xiàn)方法就是,擺脫目前智能手機使用的基于應用程序的操作系統(tǒng)。相反,我們設想了一種以自然語言為中心的方法?!彼a充說。
這背后是如何做到的?
2、自研大動作模型(LAM)不依賴GPT,速度快10倍
首先,Rabbit沒有依賴OpenAI的模型,而是創(chuàng)建了自己的基礎模型,他們稱之為LAM(大型動作模型)。
Jesse說:“大型動作模型,我們稱之為LAM,是一種新的基礎模型,可以在計算機上理解和執(zhí)行人類意圖?!?/p>
圖片
該模型背后基于神經(jīng)符號系統(tǒng)的研究,“通過大型動作模型從根本上找到了解決應用程序、API或Agent面臨的挑戰(zhàn)的方法?!?/p>
具體什么原理呢?不同于LLM,LAM的建模方法是基于模仿,即學習演示,目的在于讓AI系統(tǒng)像人類一樣看待和操作應用程序。通過“觀察和復刻”,它可以了解應用程序和服務是如何被用戶日常使用的,而無須依賴于應用程序的編程接口(API)。
換言之,LAM已經(jīng)觀察學習了大多數(shù)互聯(lián)網(wǎng)App的交互,并且隨著用戶提供更多的行為數(shù)據(jù),能力也會進化得更強。
這也是為什么,LAM會比LLM響應速度更快的原因!
因為一旦為它提供了演示,新合成的指令就可以直接在目標應用程序上運行,而不需要“觀察”或“思考”的忙碌循環(huán)。LAM隨著時間的推移從演示中積累知識,它深入了解了應用程序所暴露的界面的各個方面,并創(chuàng)建了應用程序所提供的底層服務的“概念藍圖”。LAM可以被視為一座橋梁,通過應用程序的界面將用戶連接到這些服務。
圖片
此外,“LAM可以學習任何軟件的任何界面,無論它們在哪個平臺上運行。簡而言之,LLM理解你說的話,而LAM模型則將事情付諸行動。我們使用LAM將AI從語言轉化為行動?!盝esse說。
與LLM相比,LAM的突破之處在于,它不僅超越了語言處理,還旨在根據(jù)文本指令在現(xiàn)實世界中執(zhí)行操作。它接受指令并利用其語言理解力在數(shù)字環(huán)境中導航并完成任務,例如預訂航班、訂購食物或控制智能家居設備。
“大型語言模型,如ChatGPT,展示了AI理解自然語言的可能性;而我們的大型動作模型更進一步:它不僅根據(jù)人類輸入生成文本,還代表用戶生成行動以幫助我們完成任務?!盝esse提到。
LAM與Rabbit OS一起工作,該操作系統(tǒng)在安全的云上運行應用程序。Rabbit Hole是一個一體化的網(wǎng)絡門戶,旨在管理與Rabbit OS和配套設備的各種關系。例如,如果有人想聽音樂,他們可以訪問Rabbit Hole Web門戶并登錄到第三方應用程序如Spotify。
圖片
具體分為三步:intention、inferface、interaction。
意圖:Rabbit OS將首先理解你所說的話是什么意思。人類的意圖是非常個人化的,有層次性的,可能是不完整的,可能會一時興起而改變。rabbit OS利用其對用戶的長期記憶,將用戶的請求轉化為LAM可以實時利用的可操作步驟和響應。
接口:然后,LAM了解如何日常使用應用程序和服務,而不依賴于應用程序編程接口(API)。LAM可以像人類一樣學會在世界上觀察和行動。
交互:LAM是會在云端的虛擬環(huán)境中完成這些任務,從預訂航班或預訂等基本任務到在Photoshop上編輯圖像或流媒體音樂和電影等復雜任務。不需要復雜的本地設置,例如安裝應用程序、Chrome插件或在命令行中鍵入代碼。只需與rabbit操作系統(tǒng)對話即可。
3、大模型的短板:不擅長理解原始文本的App
Rabbit做了一項研究,顯示大語言模型,即便強如GPT-4,在理解原始文本的應用程序方面,能力依舊不足。
Rabbit測量了在不同HTML快照中表示常見網(wǎng)絡應用程序所需的Token數(shù)。即便用GPT-4,使用其現(xiàn)有的分詞器,很難將原始文本應用程序的表示形式適應其上下文窗口。
圖片
神經(jīng)語言模型在設計上并不適合單獨執(zhí)行這些任務。盡管它們已經(jīng)顯示出理解和利用應用程序編程接口的能力,但用戶界面與之非常不同,而且本質上不兼容文本。
這意味著任何操作用戶界面的神經(jīng)語言模型都需要進行預處理步驟,將應用程序和在其上執(zhí)行的操作轉換為原始文本、柵格化圖像或某種標記序列的過渡表示。然后,將使用測試時間自適應提示模板、指令驅動或基于強化學習的微調的某種推理形式。
這就說明,讓語言模型充當端到端(行動)推理器,目前還是一項難以出色完成的任務。
而通過利用符號算法,Rabbit做到了,可以實現(xiàn)可解釋性、快速推理,并執(zhí)行滿足用戶意圖的行動。
據(jù)悉,受到機器學習和神經(jīng)技術成功的啟發(fā),PL/FM社區(qū)最近在神經(jīng)符號方法方面取得了重大進展:通過將神經(jīng)技術(如LLM)和符號技術相結合,人們最終將兩個世界的最佳部分結合在一起,使創(chuàng)建可擴展和可解釋的學習代理成為可行的任務。
然而,迄今為止,還沒有人將尖端的神經(jīng)符號技術投入生產(chǎn)——LAM旨在開拓這一方向。
4、在網(wǎng)頁導航任務中LAM性能一騎絕塵
Web環(huán)境,以及移動和桌面環(huán)境,都是LAM的適用場景。MiniWoB++算法盡管最近在模擬環(huán)境中展示的網(wǎng)頁導航算法已經(jīng)達到了人類水平的表現(xiàn),但從實際效果上看,依然差強人意。在MindWeb基準數(shù)據(jù)集上測試時,最有效的方法僅在定位目標元素時達到70.8%的準確率。而LAM則可以做到89.6%!
Rabbit團隊使用內部基準對LAM進行了初步評估。該數(shù)據(jù)集包括283個事件,其中包含從14個不同的實際網(wǎng)站收集的17個任務,包括Airbb、Google Flights、Shein、Spotify等。團隊評估了純神經(jīng)方法和神經(jīng)符號方法。結果顯示,純神經(jīng)方法在定位目標元素方面表現(xiàn)出競爭力,而整合符號方法可顯著提高準確性和延遲。
圖片
為了使AI能夠表現(xiàn)得像人類一樣,Rabbit構建了一個特殊的虛擬化環(huán)境集群來運行LAM,用于消費者應用程序。無論是在測試階段還是生產(chǎn)階段,它都提供了先進的安全性和可擴展性,進而快速構建出了LAM的原型。
5、為什么不干脆做成個App?Siri會跟進嗎?
不過也有人表示,確實看起來不錯,但為啥不干脆做成一個App呢?
這個問題很快被網(wǎng)友回答了:首先蘋果或谷歌幾乎不可能允許平臺上架這樣一個能隨意授權調用其它應用的App,并且R1就是奔著App去冗余來的,自然會淘汰這種形式。更重要的是,R1的通用解決方案可以與不同服務進行交互,無論是網(wǎng)站、應用程序還是其他平臺,而這正是它的獨特之處。
另外的聲音還有,覺得Siri和谷歌助手很快也會實現(xiàn)這些功能,它到底能占有多少市場?“人們?yōu)槭裁葱枰粋€新設備去做原來設備已經(jīng)能做的事情呢?”話雖如此,這位網(wǎng)友還是表示,迫不及待看看R2會是什么樣。
這個問題Jesse坦言,Rabbit R1并不是要取代手機,只是希望提供一種更快、更直接、更通用集成設備的途徑。畢竟基于App的交互界面已經(jīng)存在了超過15年,而AI驅動的原生硬件才剛剛開始。
6、并不完美,回應質疑
Rabbit R1在云端運行,不具備邊緣計算能力。同時,大多數(shù)科技巨頭都在嘗試將LLMs引入邊緣計算領域,包括蘋果、谷歌和三星。
Jesse聲稱,使用Rabbit OS,他的響應速度比大多數(shù)語音AI項目快10倍?!癛abbit在500毫秒內回答我的問題?!比欢?,Hacker News上的一位用戶質疑這一說法:“推理在哪里運行?我不相信它在設備上。如果它在云端,那么為什么聲稱它低于500毫秒?”
Rabbit認為,終端用戶手中的智能是可以在不需要強大的客戶端計算能力的情況下實現(xiàn)的。通過仔細且安全地將大部分計算工作負載卸載到數(shù)據(jù)中心,我們?yōu)樾阅芎统杀緝?yōu)化創(chuàng)造了機會,使得尖端的交互式AI體驗變得極其經(jīng)濟實惠。
雖然LAM在云端運行,但與其交互的硬件設備不需要昂貴和笨重的處理器,對環(huán)境非常友好,并且功耗很小。隨著與LAM相關的工作負載不斷整合,我們設想了一條通向專門構建的服務器端和邊緣芯片的道路。
7、寫在最后:一款不錯的AI Agent
整體而言,對于Rabbit R1來說,魅力之處并不在于其硬件本身,它可能并不在最佳可用硬件之列。
但這是截止目前為止,讓我們看到AI Agent 發(fā)揮最大效用的一次不錯嘗試,讓大家看到它能夠有效地采取行動,帶來價值。
正如Hacker News上的另一位用戶寫道:“我認為硬件不是主要產(chǎn)品。我相信AI才是,但他們不想只是‘一個應用程序’;他們的目標是成為新型計算方式的第一個操作系統(tǒng)。因此,他們設計了一款新設備?!?/p>
值得一提的是,該產(chǎn)品的發(fā)布人,Jesse Lyu,其實在國內互聯(lián)網(wǎng)創(chuàng)客圈內可謂人人熟悉,作為明星智能硬件公司渡鴉的創(chuàng)始人,呂騁,當年在大三時就創(chuàng)立了時間匹配的社交工具timeet,據(jù)說只用一分鐘就拿下了百萬融資。
2017年渡鴉被百度收購,26歲的呂騁加入百度出任智能家居硬件總經(jīng)理,而一手推動完成這場收購的正是當時任百度集團總裁和首席運營官的陸奇。
參考鏈接:
https://assets.lotofcarrots.com/media/research/rabbit-lam.mp4
https://www.theverge.com/2024/1/10/24033498/rabbit-r1-sold-out-ces-ai