Google人工智能技術(shù)“Transframer”可根據(jù)一張圖片創(chuàng)建短視頻
隨著技術(shù)的發(fā)展,研究人員繼續(xù)尋找新的方法來利用人工智能和機器學習能力。本周早些時候,Google科學家宣布創(chuàng)建了Transframer,這是一個新的框架,它能根據(jù)單一的圖像輸入來生成短視頻。這項新技術(shù)有朝一日可以增強傳統(tǒng)的渲染解決方案并使開發(fā)者能夠基于機器學習能力創(chuàng)建虛擬環(huán)境。
這個新框架的名稱(及在某些方面的概念)是對另一個基于人工智能的模型Transformer的點贊。Transformer最初于2017年推出,是一個新穎的神經(jīng)網(wǎng)絡架構(gòu),它有能力通過建模和比較句子中的其他詞來生成文本。此后,該模型被納入了標準的深度學習框架如TensorFlow和PyTorch。
據(jù)悉,Transframer使用具有類似屬性的背景圖像,結(jié)合查詢注釋來創(chuàng)建短視頻。盡管在原始圖像輸入中沒有提供任何幾何數(shù)據(jù),但產(chǎn)生的視頻在目標圖像周圍移動并將準確的視角可視化。
????
這項新技術(shù)使用Google的DeepMind人工智能平臺進行了演示,其功能是分析單一的照片背景圖像以此來獲得關(guān)鍵的圖像數(shù)據(jù)并生成額外的圖像。在這一分析過程中,系統(tǒng)確定了圖片的框架,這反過來又幫助系統(tǒng)預測圖片的周圍環(huán)境。
然后,語境圖像被用來進一步預測圖片從不同角度會出現(xiàn)的情況。預測根據(jù)數(shù)據(jù)、注釋及語境框架中的任何其他信息對額外圖像框架的概率進行建模。
該框架通過提供基于非常有限的數(shù)據(jù)集生成合理準確的視頻的能力,這標志著視頻技術(shù)的巨大進步。Transframer任務在其他跟視頻有關(guān)的任務和基準上也顯示出極有前景的結(jié)果,如語義分割、圖像分類和光流預測。
對基于視頻的行業(yè)如游戲開發(fā)可能具有潛在的巨大影響。目前的游戲開發(fā)環(huán)境依賴于核心渲染技術(shù),如著色、紋理映射、景深和光線追蹤。像Transframer這樣的技術(shù)有可能通過使用人工智能和機器學習來構(gòu)建他們的環(huán)境并與此同時來減少創(chuàng)建環(huán)境所需的時間、資源和精力以為開發(fā)者提供一個全新的開發(fā)路徑。