谷歌推出AI模型RT-2,可將視覺和語言轉化為機器人的動作
7月29日消息,據(jù)外媒報道,日前,谷歌推出一款名為Robotics?Transformer2(RT-2)人工智能學習模型,旨在使其機器人更加智能。
據(jù)悉,RT-2是一種視覺語言行動模型的新版本,可教會機器人更好地識別視覺和語言模式,以解釋指令,并推斷出最適合請求的對象。
該公司在一篇論文中表示,新模型在網(wǎng)絡和機器人數(shù)據(jù)上進行訓練,利用谷歌自己的Bard等大語言模型的研究進展,并將其與機器人數(shù)據(jù),如要移動的關節(jié)結合起來。它還能識別除英語以外的其他語言的方向。
多年來,研究人員一直試圖給機器人灌輸更好的推理能力,以解決如何在現(xiàn)實環(huán)境中生存的問題。但在現(xiàn)實生活中,機器人需要更多的指導才能為人類做一些簡單的事情。例如,清理灑出的飲料。人類本能地知道該怎么做:撿起玻璃杯,找個東西把殘羹剩飯清理掉,扔出去。
以前,訓練機器人需要很長時間。研究人員必須單獨編寫指令。但借助RT-2等VLA模型的強大功能,機器人可以訪問更大的信息集來推斷下一步該做什么。