作者 | 王瑞平
審校 | 云昭
51CTO讀者成長(zhǎng)計(jì)劃社群招募,咨詢小助手(微信號(hào):CTOjishuzhan)
最近出現(xiàn)的人工智能產(chǎn)品五花八門、功能各異,從文本輸出到繪畫、視頻、音頻。這些人工智能工具將藝術(shù)創(chuàng)作變得形象生動(dòng),展現(xiàn)出用AI描繪的另一個(gè)世界。
繪畫作為一種熟悉而有趣的表達(dá)方式,能夠?qū)⑸钭兊蒙拾邤?。在?chuàng)作繪畫的同時(shí),我們同樣希望將討人喜歡的靜態(tài)角色變成動(dòng)畫,使其能夠在書頁上“走動(dòng)”,甚至還有書籍和電視劇講述了這種幻想。
不幸的是,實(shí)現(xiàn)這樣的效果相當(dāng)困難!通過創(chuàng)建圖形產(chǎn)生運(yùn)動(dòng)錯(cuò)覺(如,翻頁書)呈現(xiàn)出的效果往往很乏味,新用戶使用現(xiàn)有的動(dòng)畫工具又很困難。因此,許多繪畫角色仍在紙面上保持靜態(tài)。
前不久,Meta團(tuán)隊(duì)腦洞大開,運(yùn)用人工智能技術(shù)成功將手繪涂鴉變成了栩栩如生的動(dòng)畫。
這款開源AI動(dòng)畫繪圖工具(Animated Drawings)是由Meta AI基礎(chǔ)人工智能研究團(tuán)隊(duì)(FAIR)發(fā)布的。該工具用AI技術(shù)輕松讓各種人物涂鴉變成動(dòng)畫,旨在幫助創(chuàng)作者和開發(fā)人員輕松將繪圖變成動(dòng)畫產(chǎn)品。
據(jù)悉,該項(xiàng)目始于2021年。當(dāng)時(shí),F(xiàn)AIR的研究人員旨在將計(jì)算機(jī)視覺變得更直觀,將繪畫中的人物形象動(dòng)畫化。
1、讓AI模型讀懂繪畫
普通人能夠輕松看懂繪畫,但這對(duì)于AI模型來講卻沒那么容易。
為了讓AI模型能夠“讀懂”繪畫,F(xiàn)AIR的研究者首先運(yùn)用目標(biāo)檢測(cè)模型、姿勢(shì)估計(jì)模型和基于圖像處理的分割方法快速創(chuàng)建數(shù)字版本的繪畫。然后,他們使用傳統(tǒng)的計(jì)算機(jī)繪圖技術(shù)將這些數(shù)字版本的繪畫變形和動(dòng)畫化。
但是,這種方法具有一定的缺陷,即很難獲得訓(xùn)練計(jì)算機(jī)視覺模型所需規(guī)模的人物畫集。并且,這些畫集還需要被標(biāo)注好邊界框、分割掩碼、關(guān)節(jié)位置等信息,根本不存在這樣的數(shù)據(jù)集!
另一種讓AI模型“讀懂”繪畫的方法是綜合創(chuàng)建繪圖。這種方法也存在問題,即,生成方法需要大量樣本數(shù)據(jù)來學(xué)習(xí)、風(fēng)格遷移方法無法捕捉到繪圖與照片的所有細(xì)微差別,而且可能做不出像紙張折痕、擦除的線條、強(qiáng)光和陰影等實(shí)際繪圖中呈現(xiàn)出的變化。
為此,F(xiàn)AIR團(tuán)隊(duì)將單張圖形生成動(dòng)畫的任務(wù)構(gòu)建為人體圖形檢測(cè)、分割、姿勢(shì)估計(jì)和動(dòng)畫等一系列子任務(wù),并創(chuàng)建出動(dòng)畫繪圖演示功能。該功能以公眾可訪問的網(wǎng)站形態(tài)呈現(xiàn),創(chuàng)作者可在瀏覽器上公開訪問這個(gè)動(dòng)畫繪圖演示網(wǎng)站,還可以上傳他們的繪圖,查看或修正一些模型預(yù)測(cè),并在不到1分鐘的時(shí)間內(nèi)接受到用繪圖中的角色創(chuàng)建出的動(dòng)畫。
2、用戶:期待更全面的AI繪圖工具
作為接下來的流程之一,用戶可以自由選擇允許或不允許Meta保留圖像和注釋,無論用戶作何選擇都不會(huì)影響該工具未來的使用。研究人員希望通過該功能最終收集到1萬張圖紙,用來提升模型的功能。
用戶對(duì)此表現(xiàn)的非常積極。他們?cè)谧畛醯膸讉€(gè)月里就上傳并同意使用超過160萬張圖片。而且很多上傳的圖片根本不是業(yè)余畫作,而是公司徽標(biāo)、毛絨玩具、動(dòng)漫人物、寵物、可動(dòng)人偶以及人們想要制作動(dòng)畫的各種其他事物的圖片。
雖然在演示功能的說明中指定需要呈現(xiàn)出人物形象,但用戶還是上傳了四足動(dòng)物、鳥、魚等其它形象。他們還在社交媒體帖子和演示中的Bug報(bào)告中表達(dá),希望獲得具有更全面功能的工具。這些功能包括:透明背景、支持不同的骨骼類型、多個(gè)交互角色、音效、背景風(fēng)景和文本疊加等。
感受到大家將繪圖變成動(dòng)畫的熱情后,Meta決定將動(dòng)畫繪圖演示功能使用的模型和代碼的開源版本發(fā)布出來,激勵(lì)更多開發(fā)者嘗試和體驗(yàn)。
3、將手繪人物變成動(dòng)畫
如果用戶需要將創(chuàng)作出的人物繪畫角色變成動(dòng)畫,可以在瀏覽器登陸Animated Drawings網(wǎng)站。
上傳繪圖后,用戶可以選擇調(diào)整檢測(cè)到的邊界框、分割蒙版和關(guān)節(jié)位置,并選擇一個(gè)動(dòng)作制作動(dòng)畫。
首先,用戶需要上傳人物形象繪圖,它需要畫在一張沒有線條與褶皺的白紙上,并保證光線充足。畫像中的手臂和腿不能疊放在身體上,同時(shí)不能侵權(quán)。
然后,你需要調(diào)整角色周圍框的大小,確保它正好框住角色。下一步,你需要將角色從背景中分離出來,并突出顯示它。第四步,檢查角色的關(guān)節(jié)。
最后一步便是用動(dòng)作捕捉數(shù)據(jù)將上傳的角色動(dòng)畫化。你可以任意選擇想讓這個(gè)角色做出的動(dòng)作。
4、自己運(yùn)行開源代碼
要是你想自己下載和運(yùn)行代碼,GitHub提供了指引步驟。
需要注意的是,Meta的動(dòng)畫繪圖項(xiàng)目已經(jīng)在macOS Ventura 13.2.1和Ubuntu 18.04上進(jìn)行了測(cè)試。如果在其它操作系統(tǒng)上安裝,可能會(huì)遇到問題。
因此,Meta建議先激活Python虛擬環(huán)境,比如,用Conda的Miniconda,然后按照下述步驟下載安裝。
首先運(yùn)行如下命令:
然后,你就可以制作動(dòng)畫了。如果一切都正確安裝,屏幕上將出現(xiàn)一個(gè)交互式窗口。角色、動(dòng)作、場(chǎng)景等都由配置文件控制。你可以通過改變配置文件,導(dǎo)出MP4視頻、動(dòng)圖等不同格式文件。
此外,Meta還訓(xùn)練了人形圖形檢測(cè)器和姿態(tài)估計(jì)器,并提供了從模型預(yù)測(cè)自動(dòng)生成標(biāo)注文件的腳本。為了讓它工作,你需要設(shè)置一個(gè)運(yùn)行TorchServe的Docker容器,GitHub上有詳細(xì)的設(shè)置步驟說明。
設(shè)置完成后,只需輸入如下命令,就能立即將圖像轉(zhuǎn)化成動(dòng)畫:
5、寫在最后AI技術(shù)開源,激活創(chuàng)造力
繪畫是一種特殊的語言,將你的想象力變成栩栩如生的形象。你可以通過自由的創(chuàng)作記錄下天馬行空的想法,讓別人讀懂你的內(nèi)心世界。而用AI技術(shù)將這些靜態(tài)的圖片秒轉(zhuǎn)動(dòng)畫,則將進(jìn)一步打開想象力之門。
Meta也正是通過將項(xiàng)目代碼和業(yè)余繪畫數(shù)據(jù)集開源,為更多有興趣參與這類研究及體驗(yàn)的研究人員及創(chuàng)作者們降低開發(fā)門檻,使更多人能夠更輕松地探索用AI技術(shù)創(chuàng)造出的另一個(gè)世界。
Meta在一篇博文中寫道:“通過將模型和代碼作為開放源碼發(fā)布,為開發(fā)者提供了一個(gè)起點(diǎn),使他們能夠建立和擴(kuò)展該項(xiàng)目,并促進(jìn)社區(qū)內(nèi)用戶的創(chuàng)新和協(xié)作?!?/p>
參考資料:
??https://baijiahao.baidu.com/s?id=1763153584880974511&wfr=spider&for=pc??