AI在操作系統(tǒng)里復(fù)制自己,這一天還是來了
這一天還是來了,AI在操作系統(tǒng)里啟動了一個自己的副本。
往小了說,不過是多模態(tài)大模型通過操縱鼠標鍵盤的API執(zhí)行任務(wù)。
往大了說,也可以算是“AI復(fù)制自己”的雛形了。
(別被作者的藍天白云壁紙騙到了,這其實是MacOS)
從AI這一頓眼花繚亂的操作中可以看出,核心是多模態(tài)大模型,通過截圖判斷屏幕上正在發(fā)生什么,生成下一步操作的計劃,調(diào)用系統(tǒng)接口執(zhí)行之后再次截圖。
要按網(wǎng)友建議加上語音識別功能,真就能模擬鋼鐵俠的賈維斯了。
AI能不能復(fù)制自己,是OpenAI內(nèi)部始終關(guān)注的安全測試內(nèi)容之一。但GPT-4出道至今,這項測試結(jié)果一直沒有公布。
如今,先不管模型本身有沒有這個能力,接入GPT4V的開源項目已經(jīng)可以做到了。
AI與操作系統(tǒng)結(jié)合
這個開源項目叫做Open Interpreter,GitHub熱榜???,半年時間已積攢3.7萬星。
從名字也可以看出,最早只是一個ChatGPT代碼解釋器的開源升級版。
與OpenAI官方版相比,沒有3小時50條對話的限制,以及可以連接網(wǎng)絡(luò)、可以自定義預(yù)安裝的Python包等等好處。
發(fā)布不久后初代作者Killian Lucas就想到,為什么一定要在虛擬沙箱環(huán)境執(zhí)行代碼?直接讓AI接入真實系統(tǒng)有更大的可能性。
于是,第二個大版本就是操作系統(tǒng)級AI Agent了。
Open Interpreter最近更新了第三個大版本,其中接入的大模型改為多模態(tài)版本。
核心貢獻者Ty Fiero展示了AI自動發(fā)送郵件。
以及更復(fù)雜的AI操作專業(yè)編曲軟件作曲。
團隊在這個版本設(shè)計了全新的Computer API,并且與原本的Open Interpreter分離,可以獨立運作。
在新版本更新文檔中,可以看出團隊更大的野心:著手開發(fā)AI時代新的計算機架構(gòu),也就是語言模型計算機LMC(Language Model Computer)。
Kilian借助CES上199元的AI掌機Rabbit R1爆火的機會公開招募開發(fā)者加入,打算快速復(fù)刻一個開源版本,硬件成本不到50美元。
不到48小時,就有超過200位工程師和設(shè)計師愿意加入這個項目,評論區(qū)中還不斷有人繼續(xù)申請中。
不知道這個團隊回復(fù)大量應(yīng)聘郵件和私信,用的是不是AI。
參考鏈接:
[1]https://twitter.com/fieroty/status/1746639975234560101。
[2]https://github.com/KillianLucas/open-interpreter。