無界AI算法總監(jiān)鄒國平:Midjourney領(lǐng)跑,沒有標(biāo)準(zhǔn)答案的文生圖,下半場還能怎么卷? 原創(chuàng)
撰稿 | 李美涵
采訪 | 云昭
嘉賓 | 鄒國平
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
進(jìn)入2024,AI應(yīng)用落地的步伐悄然加速。
AI文生圖產(chǎn)品——連接著千行百業(yè)的設(shè)計(jì)需求,極大地壓縮了創(chuàng)意實(shí)現(xiàn)的周期——正成為快速掘金的AI領(lǐng)域之一。
AI生圖自2022年底開始爆發(fā),過去一年多的時間已經(jīng)讓這條賽道變得內(nèi)卷起來,前有 Midjourney、DALL·E、Stable Diffusion 穩(wěn)穩(wěn)占據(jù)頭部市場,后有GPT4等多模態(tài)大模型隨時可能抄后路的危險(xiǎn),再加上諸多類似服務(wù)的圖像編輯及設(shè)計(jì)工具也在加快融合"文生圖"能力,多方都在對這塊最穩(wěn)定的AIGC賽道虎視眈眈。
在激烈的內(nèi)卷中,文生圖玩家想要“出頭”,就必須打出自己的特色來。
作為國內(nèi)最早一批的AIGC產(chǎn)品落地實(shí)踐者,無界AI算法總監(jiān)鄒國平有著非常深刻的體會。鄒國平給出了一個令人意想不到的答案。
破局的關(guān)鍵就在于“場景”:你面向什么樣的場景?你擅長什么場景?在這個場景里,你是否能夠深耕到一個非常領(lǐng)先的水平?他向我們拋出了這一連串的問題。
在通用AI模型盛行的今天,為什么文生圖領(lǐng)域依舊是個很“吃”場景的命題?
追問之下,謎底揭開:文生圖看似相對較低的門檻,卻建在審美、設(shè)計(jì)以及專業(yè)場景知識的高山之上。
AI文生圖比文生文更模糊、更沒有標(biāo)準(zhǔn)答案。
最近,51CTO直播欄目《AIGC實(shí)戰(zhàn)派》有幸邀請到了鄒國平老師,在兩個小時的交流中,他向我們分享了自己在文生圖領(lǐng)域的探索心得與洞察,詳細(xì)探討了在文生圖下半場如何“卷”出技術(shù)壁壘。這次交談,澄清和刷新了原來大眾對于文生圖領(lǐng)域的”誤解“與認(rèn)知,其中他提出了幾個很有意思的觀點(diǎn):
- 國外文生圖產(chǎn)品Leonardo.AI、yodayo等從定位出發(fā)逐漸完成差異化,國內(nèi)還缺少真正領(lǐng)先的產(chǎn)品
- Midjourney將工程和產(chǎn)品部分托給Disco diffusion平臺,保證了探索模型和算法的專注度
- Midjourney通過廣泛的用戶接觸和使用,已經(jīng)形成了一套關(guān)于如何描述prompt的范式
- Sora的技術(shù)路線將作為我們的一個重要參考,無論是在圖像生成還是視頻生成的應(yīng)用
- 提示詞與文生圖效果的對齊、生成圖像時長的壓縮和個性化生成將是文生圖產(chǎn)品繼續(xù)跟進(jìn)的幾個方向
- 文生圖作為新興領(lǐng)域,許多B端客戶無法給出需求的準(zhǔn)確描述,交付過程是個共同探索與改進(jìn)的過程
- 為了應(yīng)對千萬級流量情況,我們聯(lián)合了幾家GPU廠商,準(zhǔn)備了上萬規(guī)模的GPU資源進(jìn)行調(diào)度。
以下是整理后的對話內(nèi)容。
1.Midjourney先發(fā)優(yōu)勢太“難殺”,國內(nèi)追平還需多維度發(fā)力
51CTO《AIGC實(shí)戰(zhàn)派》: Midjourney現(xiàn)在是全球范圍內(nèi)公認(rèn)的用戶最多、效果最好的文生圖產(chǎn)品之一。在您看來,國內(nèi)的文生圖產(chǎn)品距離Midjourney還有哪些差距?
鄒國平:
差距肯定存在。Midjourney無論是用戶體量,還是整體營收完全是遙遙領(lǐng)先的。
相比國內(nèi)的文生圖產(chǎn)品Midjourney的先發(fā)優(yōu)勢非常大?;仡橫idjourney的發(fā)展歷程,22年的時候,他們就已經(jīng)進(jìn)行了兩年多的研發(fā)積累。剛開始的第一版產(chǎn)品效果也不理想,但他們通過邀請制去招募用戶參與到迭代中,持續(xù)改進(jìn)產(chǎn)品。
22年下半年,Stable Diffusion的技術(shù)橫空出世,給Midjourney的產(chǎn)品帶來了一個爆發(fā)點(diǎn)。直到迭代至V4版本,已經(jīng)呈現(xiàn)出行業(yè)標(biāo)桿級的效果。
Midjourney自身有強(qiáng)大的專注度,完全focus在模型和算法探索領(lǐng)域。
至于工程和產(chǎn)品的部分,則更多在Disco diffusion平臺上去實(shí)現(xiàn),一來節(jié)省了不少的開發(fā)成本,其次這個平臺帶有的社群屬性,讓Midjourney用戶持續(xù)裂變,通過口口相傳沉淀起龐大的用戶基礎(chǔ)。
51CTO《AIGC實(shí)戰(zhàn)派》:在Midjourney迭代到V4之前,國內(nèi)大概在做什么?
鄒國平:
更古老一點(diǎn)的,還沒有走到文生圖這一步。早期所謂的圖像生成,更多的是特效及其他特定場景的生成,不是具體物品的成像。
51CTO《AIGC實(shí)戰(zhàn)派》: Midjourney V4之后領(lǐng)先在哪?
鄒國平:
V4版本的生成效果非常出色。特別是在特定領(lǐng)域,已經(jīng)達(dá)到了實(shí)際可用的狀態(tài)。Midjourney在數(shù)據(jù)處理方面有個非常獨(dú)特之處,無論是數(shù)據(jù)質(zhì)量還是數(shù)據(jù)標(biāo)注都非常精細(xì)。通過廣泛的用戶接觸和使用,已經(jīng)形成了一套關(guān)于如何描述prompt的范式,這些關(guān)鍵詞在構(gòu)圖、風(fēng)格和藝術(shù)家風(fēng)格的表達(dá)中起到了關(guān)鍵作用。
51CTO《AIGC實(shí)戰(zhàn)派》: 我們現(xiàn)在做國內(nèi)外文生圖領(lǐng)域的比較,像您剛才說的模型、提示詞,可能基本算是一個追齊的狀態(tài)?您覺得我們還差在哪里?
鄒國平:
在模型層面,一些國內(nèi)的模型在特定測試集上已經(jīng)能夠與Midjourney的V5.2版本相媲美,但在廣泛的用戶場景測試中,我們的數(shù)據(jù)量還遠(yuǎn)遠(yuǎn)不夠,所以很難精準(zhǔn)的去回答“追平”的問題。因?yàn)槲覀兯苓M(jìn)行的測試有限,要進(jìn)行用戶測試,讓用戶用手投票,這樣的用戶反饋可能僅有幾千例。而Midjourney擁有2000萬用戶。
所以在小范圍上去測,那確實(shí)可以說國內(nèi)產(chǎn)品跟他的效果差不多。但如果要推廣到所有的場景,確實(shí)是會有差距的。
但像Midjourney這樣,能做到領(lǐng)先的,目前還是不太能看到。再往下走,每個環(huán)節(jié)還有很多工作需要補(bǔ)充。
2. Sora不只給方向,還給正在探索DIT的人吃了“定心丸”
51CTO《AIGC實(shí)戰(zhàn)派》: 今年2月份,sora出現(xiàn)之后,有沒有沖擊到現(xiàn)在的AI生圖領(lǐng)域?
鄒國平:
會有影響的。首先像你剛才所說的,視頻的確是流量的高地。國內(nèi)在做Open-Sora項(xiàng)目時,也是按照既能生成視頻也能生成圖片的思路去做的。兩者在技術(shù)上有相通之處。
Sora給了這個領(lǐng)域很大的信心。在此之前,基于DIT的嘗試已經(jīng)有一些,只是效果都沒能達(dá)到實(shí)際可用的水平。Sora證明了端到端的視頻生成這條路是能走通的。
51CTO《AIGC實(shí)戰(zhàn)派》: 從Sora在技術(shù)報(bào)告中公開的那部分來看,能給圖像生成領(lǐng)域帶來哪些啟發(fā)或者值得借鑒的地方?
鄒國平:
說到方向的話,大家更多是采用DIT技術(shù)構(gòu)建的模型,比如PixArt文生圖模型,展示了在少量參數(shù)的模型(0.6B)上也能取得良好效果的可能性。
此外,目前的文生圖還不足以實(shí)現(xiàn)精準(zhǔn)控制。因此,引入額外的控制機(jī)制,就像PixArt在第二版本中所增加的功能,是完善模型的關(guān)鍵。這些控制可以平滑地集成到現(xiàn)有功能中,提供強(qiáng)大的設(shè)計(jì)和創(chuàng)造能力。
例如,在汽車設(shè)計(jì)中,可以將線稿圖的規(guī)范與文本描述結(jié)合,實(shí)現(xiàn)更精確的圖像生成控制。
51CTO《AIGC實(shí)戰(zhàn)派》: 拋開Sora,文生圖未來可能有哪些比較熱的演進(jìn)方向?
鄒國平:
我從文生圖領(lǐng)域目前面臨的一些主要問題出發(fā)來談?wù)劇?/p>
首先,提示詞的精準(zhǔn)度和生成效果的對齊是一個需要解決的問題。盡管我們可以將提示詞寫得非常精細(xì),但圖像的細(xì)節(jié)呈現(xiàn)并不總是像文本描述的那樣,典型的如手部細(xì)節(jié)的處理問題。
其次,生成圖像的時間壓縮也是一個挑戰(zhàn)。目前,生成一張圖像可能需要數(shù)秒的時間,如果加入更多控制,時間可能會更長。因此,工程上需要探索模型蒸餾和加速手段來提升效率。
最后,個性化生成是另一個重要的應(yīng)用方向,這往往涉及到相關(guān)的參考圖像。具體到圖片生成,目前相似度的穩(wěn)定性還有待提高,比如處理logo的自由變換時保持其細(xì)節(jié)不變等等。
51CTO《AIGC實(shí)戰(zhàn)派》: 您覺得專有的AI生成工具,會不會被類似Sora這種很強(qiáng)大的通用工具吃掉?
鄒國平:
通用的文生圖能力最終可能會被大型模型所覆蓋。像GPT-4 Vision這樣的模型已經(jīng)具備了視覺感知能力,能夠識別和描述圖片內(nèi)容,但目前還未實(shí)現(xiàn)生成或創(chuàng)造能力。語言模型在認(rèn)知方面已經(jīng)達(dá)到了高水平,但視覺、理解以及創(chuàng)造的過程則更為復(fù)雜。
Sora對OpenAI來說,意義是找到了一個通往世界模型的道路。OpenAI的使命和站位讓他不會開發(fā)非常垂的產(chǎn)品,他們做的是提供一個平臺,類似于樂高積木,讓用戶根據(jù)需求自己去搭建想要的應(yīng)用。
3.文生圖要“卷”出技術(shù)壁壘,先要從場景出發(fā)
51CTO《AIGC實(shí)戰(zhàn)派》: 都說文生圖的創(chuàng)業(yè)門檻低,在現(xiàn)在這么卷的情況之下,大家都很好奇技術(shù)圈到底是在卷哪塊東西?在什么維度還可以打出差異化,還能拼出技術(shù)實(shí)力、拼出競爭力來?
鄒國平:
我們可以看看,現(xiàn)在領(lǐng)先的文生圖產(chǎn)品都是怎么做的。
不少文生圖產(chǎn)品已經(jīng)取得了不錯的成績,其實(shí)他們的產(chǎn)品理念卻是各不相同:比如Leonardo.AI,它最初的著陸點(diǎn)在生成游戲角色的物料,后來才慢慢發(fā)展成一個全類別的文生圖平臺。還有yodayo,則一開始做二次元領(lǐng)域的生成起家,后來擴(kuò)展到用戶與虛擬角色的聊天服務(wù)上。而由前谷歌imagen團(tuán)隊(duì)大佬創(chuàng)立的Ideogram,則以文字生成為長板。
這些產(chǎn)品都是成功實(shí)現(xiàn)差異化的案例?,F(xiàn)在Leonardo.AI每月的PV將近1000萬。
回到問題本身,文生圖要“卷”出自己的技術(shù)壁壘,首先就要從場景出發(fā)。你面向什么樣的場景?你擅長什么場景?在這個場景里,你是否能夠深耕到一個非常領(lǐng)先的水平?——這其實(shí)也跟模型有關(guān),需要你的模型有一定的獨(dú)到之處。
51CTO《AIGC實(shí)戰(zhàn)派》: 怎么把模型做出獨(dú)到之處?
鄒國平:
首先是有個目標(biāo),了解模型面向的用戶和場景。比如,模型focus在游戲素材生成上,那么就針對這個領(lǐng)域深入優(yōu)化,去做材質(zhì)、光照等屬性的編輯。
51CTO《AIGC實(shí)戰(zhàn)派》: 現(xiàn)在是哪種模式更多一點(diǎn)?是讓設(shè)計(jì)和AI的專才進(jìn)行合作,還是直接尋找兩個領(lǐng)域的通才?無界AI團(tuán)隊(duì)是怎么考慮的?
鄒國平:
我們?nèi)プ瞿P陀?xùn)練,會有一個模型主理人,他需要在這個領(lǐng)域有一定的知識儲備,去把輸入和輸出對齊。
AI如何讓強(qiáng)者更強(qiáng),就是能利用強(qiáng)者的知識儲備,通過大模型描述性的方式,最終呈現(xiàn)出來。
51CTO《AIGC實(shí)戰(zhàn)派》: 人才也是技術(shù)壁壘的一部分?
鄒國平:
AI時代,拼的就是三個要素,人才、數(shù)據(jù)、算力。
剛才說了文生圖要“卷”場景。其次,數(shù)據(jù)處理能力也是關(guān)鍵,行業(yè)數(shù)據(jù)和算力的儲備對于圖像生成領(lǐng)域的積累至關(guān)重要。
雖然文生圖模型的參數(shù)量相對較小,可能億級別就足夠,但這并不意味著算力不是門檻,對算力的需要取決于模型的訓(xùn)練目標(biāo)。訓(xùn)練的數(shù)據(jù)量小,那一張消費(fèi)級顯卡就能搞定,但像Midjourney這種規(guī)模還是需要強(qiáng)大算力支撐的。他們早期在亞馬遜拿到了1000萬美元的算力。
4.“幾家GPU廠商提供了非常動態(tài)的擴(kuò)容能力,極短時間對接上千塊顯卡”
51CTO《AIGC實(shí)戰(zhàn)派》: AI產(chǎn)品用戶達(dá)到百萬級甚至千萬級,這時候我們該怎么應(yīng)對?無界AI在短時間內(nèi)積累到百萬用戶的時候,都進(jìn)行了怎樣的備案?
鄒國平:用戶的涌入會需要處理一些突發(fā)的事件。相比文字,圖像生成對GPU資源的消耗更高,我們需要及時增加GPU資源,避免用戶動輒為一張圖像的生成等待10s以上。目前主要用的GPU資源都是云端的卡。
其次,文生圖需要面臨更為復(fù)雜的情況,我們有多個模型,而每個模型的用戶量又不同。這就要求我們建立一個高效的調(diào)度系統(tǒng)來處理用戶提交的任務(wù)。系統(tǒng)應(yīng)該能夠根據(jù)模型的使用情況動態(tài)調(diào)整資源分配,對于不同的模型,我們可能需要定制化的調(diào)度方案。
此外,我們還需要優(yōu)化單個GPU卡的工作效率,通過加速方案和模型優(yōu)化來提高單次圖像生成任務(wù)的效率。這包括提高模型的加載速度、生成和切換速度,以及優(yōu)化整個系統(tǒng)的擴(kuò)展性。
舉個例子,我們與頭部消費(fèi)品品牌合作進(jìn)行營銷活動時,就面臨過千萬級別的流量挑戰(zhàn)。為了應(yīng)對這種情況,我們聯(lián)合了幾家GPU廠商,準(zhǔn)備了上萬規(guī)模的GPU資源進(jìn)行調(diào)度。我們自有的GPU云平臺可以快速地基于第三方GPU資源進(jìn)行動態(tài)擴(kuò)容,在很短的時間內(nèi)就響應(yīng)上千塊顯卡的對接。
51CTO《AIGC實(shí)戰(zhàn)派》: 說到用戶體驗(yàn),文生圖用戶對于排隊(duì)這個現(xiàn)象的忍受度怎么樣?
鄒國平:
如果產(chǎn)品提供的文生圖效果很好的話,那排隊(duì)也是能被用戶接受的。有些時候,你不是VIP用戶可能會故意讓你生成速度慢一點(diǎn),就是逼你交錢的(笑)。
不過,也分應(yīng)用場景,比如進(jìn)行定制化的化身或是視頻風(fēng)格轉(zhuǎn)換,這些任務(wù)本身就需要較長的處理時間。不過用戶自己也會有預(yù)期,所以就愿意為此等待。
5.不同于文生文,AI文生圖不存在標(biāo)準(zhǔn)答案
51CTO《AIGC實(shí)戰(zhàn)派》: 做一款A(yù)I原生應(yīng)用的產(chǎn)品,最抓狂的地方是在哪里?
鄒國平:
AIGC發(fā)展到現(xiàn)在,已經(jīng)有一段的時間了。隨著時間的推移,AI生成技術(shù)已經(jīng)從效果一般發(fā)展到可用狀態(tài),我們一直在進(jìn)行用戶教育,去同步認(rèn)知。首先是怎么去生成圖像,其次就是讓用戶理解在當(dāng)前技術(shù)的限制下,生成的圖像仍然存在瑕疵。
最抓狂的是,在某些場景下,用戶可能非常挑剔,尤其是B端用戶。眾所周知,AI生成確實(shí)有一定的隨機(jī)性和不可控制性,bad case總是存在的,而且時不時就會冒出來,這給產(chǎn)品的維護(hù)帶來挑戰(zhàn)。
51CTO《AIGC實(shí)戰(zhàn)派》: B端用戶要做一個定制方案,需要多久才能交付完成?
鄒國平:
交付時長按月計(jì),但不確定性很大。
總體來講,文生圖還是一個比較新興的東西。客戶的需求在他腦海中,有些是很難用語言描述出來的,因此前期是一個相互探索的過程,需要不斷地提供初步方案、產(chǎn)出結(jié)果,等拿到客戶的反饋以后才知道怎么跟進(jìn)。
這也說明了,盡管文生圖看似門檻低,但在細(xì)節(jié)把握上卻非常具有挑戰(zhàn)性。這也是為什么我們(無界AI)的專業(yè)版工作流功能旨在賦予用戶更多的自主發(fā)揮空間,讓有探索和動手能力的用戶設(shè)計(jì)個性化的文生圖流程。
51CTO《AIGC實(shí)戰(zhàn)派》: 正在研究的哪些方向,可以透露一下嗎?
鄒國平:我們目前的研究重點(diǎn)是圍繞幾個創(chuàng)新方向進(jìn)行的。首先最大的期待還是Sora模型的復(fù)現(xiàn)。Sora涉及到從視頻噪聲片段出發(fā),生成連貫且穩(wěn)定的視頻內(nèi)容,這與以往的單幀生成完全不同。Sora的技術(shù)路線將作為我們的一個重要參考,無論是在圖像生成還是視頻生成的應(yīng)用上。
在3D領(lǐng)域,我們也在進(jìn)行一些嘗試,包括通過單張圖像重建3D模型。比如通過線稿生成具有真實(shí)質(zhì)感紋理的3D模型。
另一個有趣的研究方向是通過文本直接生成具有透明背景的PNG圖片,這意味著用戶無需再進(jìn)行摳圖。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:李美涵
