AI設(shè)計(jì)師“鹿班”核心技術(shù)公開(kāi):如何1秒設(shè)計(jì)8000張海報(bào)?
AI 改變了圍棋,現(xiàn)在也在改變海報(bào)設(shè)計(jì)。阿里有一位名為 "鹿班" 的 AI 設(shè)計(jì)師,平均 1 秒鐘就能完成 8000 張海報(bào)設(shè)計(jì),一天可以制作 4000 萬(wàn)張,單單去年雙 11 就設(shè)計(jì)了高達(dá) 4 億張 banner 海報(bào)。究竟其背后的技術(shù)原理是什么?今天讓我們一起來(lái)細(xì)細(xì)探究。
本文介紹了視覺(jué)生成的現(xiàn)狀,智能設(shè)計(jì)的框架和流程、應(yīng)用案例及未來(lái)前景。通過(guò)本文的學(xué)習(xí),可以對(duì)鹿班這個(gè)產(chǎn)品,以及視覺(jué)生成相關(guān)技術(shù)有基礎(chǔ)性的認(rèn)識(shí)、了解行業(yè)的現(xiàn)狀以及未來(lái)的發(fā)展趨勢(shì)。
演講嘉賓簡(jiǎn)介:星瞳,阿里巴巴機(jī)器智能技術(shù)實(shí)驗(yàn)室資深算法專家,專注于視覺(jué)生成、智能醫(yī)療、圖像搜索、信息抽取等方面技術(shù)研發(fā)和落地;阿里巴巴智能設(shè)計(jì)(鹿班)的創(chuàng)始成員和算法技術(shù)負(fù)責(zé)人,醫(yī)療影像智能診斷方向負(fù)責(zé)人,圖像搜索拍立淘的早期創(chuàng)始成員。
本次分享主要分為以下幾個(gè)部分:
- 定義、目標(biāo)和愿景
- 設(shè)計(jì)行業(yè)現(xiàn)狀
- 使用場(chǎng)景
- 技術(shù)框架和生產(chǎn)流程
- 關(guān)鍵算法
- 業(yè)務(wù)進(jìn)展
- 案例展示
- 鹿班(新零售UED、淘寶技術(shù)部等共創(chuàng)的典型案例)
- 前景展望
一、定義、目標(biāo)和愿景
視覺(jué)生成的定義:可控視覺(jué)內(nèi)容設(shè)計(jì)和生成,聚焦?jié)M足用戶、場(chǎng)景需求的數(shù)字視覺(jué)內(nèi)容制造,包括針對(duì)圖像、視頻及圖形的增強(qiáng)、編輯、渲染、生成、評(píng)估等視覺(jué)內(nèi)容設(shè)計(jì)與制作。用技術(shù)賦能和改革設(shè)計(jì)、廣告及數(shù)娛行業(yè)。
目標(biāo):可控視覺(jué)內(nèi)容設(shè)計(jì)和生成,讓AI做設(shè)計(jì),使數(shù)字內(nèi)容制造變得高質(zhì)、高效、普惠、低成本;
愿景:所想,即所見(jiàn)。
視覺(jué)生成主要分成三個(gè)方向。***,針對(duì)非結(jié)構(gòu)化的圖像。第二,針對(duì)結(jié)構(gòu)化的圖形。第三,針對(duì)序列化的視頻。
二、設(shè)計(jì)行業(yè)現(xiàn)狀
視覺(jué)生成較年輕,起初,基本都是通過(guò)人工方式完成。小到海報(bào)或畢業(yè)設(shè)計(jì)封面的設(shè)計(jì)這樣的小需求,大到阿里巴巴中海量商家的投放渠道及效果這樣的大型需求都與其相關(guān)。從業(yè)人員數(shù)量龐大,市場(chǎng)與廣告、商家關(guān)系緊密,市場(chǎng)容量非常大。
從技術(shù)上說(shuō),近幾年,大家常提到供給側(cè)改革,以前的供給側(cè)基本都是通過(guò)人或工具來(lái)形成圖像、視頻等,但這樣有很大的局限性,包括:
效率低成本高
數(shù)據(jù)利用率低,比如去年雙十一和今年雙十一由于主題不同,需要全盤重做。
無(wú)法在線化,從提出需求到得到結(jié)果無(wú)法做到實(shí)時(shí)。
難以上下文相關(guān),設(shè)計(jì)師不會(huì)結(jié)合用戶的個(gè)性化需求,形成與上下文相關(guān)的結(jié)果。
而在消費(fèi)端,對(duì)個(gè)性化、精準(zhǔn)度、實(shí)時(shí)性有很高的需求。因此,在供給和需求之間還存在差距。在AI行業(yè)中,IN的多:識(shí)別、理解、搜索。OUT的少:生成、融合還限于學(xué)術(shù)圈,系統(tǒng)性落地工程、可商用的產(chǎn)品沒(méi)有。
因此,“The best way to predict is to create”。
三、使用場(chǎng)景
視覺(jué)生成引擎的使用場(chǎng)景大致可抽象成下圖。以顯式輸入而言,用戶可以輸入標(biāo)簽需要的風(fēng)格、色彩、構(gòu)圖等,或者輸入一個(gè)例子,或者進(jìn)行一些交互的輸入。除顯式輸入之外還可以有隱式輸入,比如人群信息、場(chǎng)景信息、上下文信息等??偟膩?lái)說(shuō),輸入可以是千變?nèi)f化的,但通過(guò)規(guī)范化之后就會(huì)減少變化,使得生成過(guò)程可控,輸出質(zhì)量可控。
對(duì)視覺(jué)生成引擎來(lái)說(shuō),它要求輸入是規(guī)范化的。但在輸入前,可以加入各種交互方式,如自然語(yǔ)言處理,語(yǔ)音識(shí)別等,將其轉(zhuǎn)化成規(guī)范化輸入。***輸出結(jié)構(gòu)化信息或可視成圖。
四、技術(shù)框架和生產(chǎn)流程
其技術(shù)框架如下圖左側(cè)。首先對(duì)視覺(jué)內(nèi)容進(jìn)行結(jié)構(gòu)化理解,如分類、量化、特征化。其次通過(guò)一系列學(xué)習(xí)、決策變成滿足用戶需求的結(jié)構(gòu)化信息即數(shù)據(jù),***將數(shù)據(jù)轉(zhuǎn)化成可視的圖像或視頻。這一框架依賴于大量的現(xiàn)有數(shù)據(jù)。其核心是一個(gè)設(shè)計(jì)內(nèi)核。同時(shí),引入效用循環(huán),利用使用后的反饋來(lái)不斷迭代和改進(jìn)系統(tǒng)。
其生產(chǎn)流程分成六個(gè)步驟,如下圖右側(cè)所示。首先用戶提出需求,將需求特征化轉(zhuǎn)變成系統(tǒng)可以理解的結(jié)構(gòu)化信息。其次將信息進(jìn)行規(guī)劃得到草圖。有了粗略的草圖后再將其轉(zhuǎn)變成相對(duì)更精確的圖,然后調(diào)整細(xì)節(jié),***通過(guò)數(shù)據(jù)可視化形成最終的圖。當(dāng)然其中還有很多的trick,以及各部分的優(yōu)化。
五、關(guān)鍵算法
下面介紹一些關(guān)鍵算法。我們希望基于下圖最左的耐克鞋生成最右的圖。先通過(guò)規(guī)劃器得到草圖,再通過(guò)強(qiáng)化學(xué)習(xí)獲得相對(duì)細(xì)致的結(jié)果,再通過(guò)對(duì)抗學(xué)習(xí)及渲染算法得到圖片,再通過(guò)評(píng)估器進(jìn)行評(píng)估,***形成業(yè)務(wù)閉環(huán),其中還會(huì)有一些基礎(chǔ)的能力,包含更強(qiáng)的聯(lián)合特征(非普通 CNN特征)及多維度檢索算法等。
基本上,處理的***步是將圖片中的信息結(jié)構(gòu)化,這也是與現(xiàn)有的識(shí)別理解技術(shù)結(jié)合最緊密的地方。其中的難點(diǎn)和重點(diǎn)包括,對(duì)圖像中多目標(biāo)的識(shí)別、遮擋和互包含情況如何得到分割的信息等,下圖只是個(gè)簡(jiǎn)單的示例。
有了結(jié)構(gòu)化信息之后,需要對(duì)信息進(jìn)行量化??梢粤炕商卣骰蛄炕瘓D。量化過(guò)程中會(huì)包含很多信息,比如主題風(fēng)格、布局配色、元素種類、量化空間等。有了這些信息后可以在主題、種類、風(fēng)格、視覺(jué)特征大小位置上,量化成各種碼,用相對(duì)有限的特征來(lái)表達(dá)***的圖。
下一步是通過(guò)用戶的輸入,得到一個(gè)相對(duì)粗略的結(jié)果即草圖。目前主要使用的是深度序列學(xué)習(xí)。從圖像角度,首先選定一個(gè)點(diǎn)的像素顏色再選擇位置,再迭代進(jìn)行操作,***形成一張圖。規(guī)劃器模擬的就是這個(gè)過(guò)程。本質(zhì)上預(yù)測(cè)過(guò)程是一棵樹(shù),當(dāng)然也可以拆成一條條路徑。為了簡(jiǎn)化,可以分成幾步進(jìn)行,比如空間序列,視覺(jué)序列。***形成量化特征模型,主要應(yīng)用的是LSTM模型。它把設(shè)計(jì)的過(guò)程轉(zhuǎn)化成基于遞歸、循環(huán)的過(guò)程。
得到草圖后,利用行動(dòng)器將草圖細(xì)化。如果將圖中的每個(gè)元素看作一個(gè)Agent,那么它將有若干個(gè)可選的行動(dòng)空間。
假設(shè)一張圖中有20個(gè)元素,每個(gè)元素在視覺(jué)上有多種可選的行動(dòng)空間,由其組合成的可選行動(dòng)空間非常龐大。我們有很多trick可以解決這一問(wèn)題,比如在空間上,只允許在有限范圍內(nèi)進(jìn)行變動(dòng),且行動(dòng)方向有序,即狀態(tài)有序,行動(dòng)有限。
下一步是如何衡量結(jié)果的好壞。圖像的評(píng)估相對(duì)比較主觀,主要可以從美學(xué)和效果兩方面來(lái)評(píng)估。美學(xué)角度可以包括是否對(duì)齊、色系搭配是否合理、有無(wú)遮擋這些較低級(jí)別的判斷標(biāo)準(zhǔn),以及較高級(jí)的,比如風(fēng)格是否一致,是否切合主題。從效果上,產(chǎn)品投放后是否會(huì)在點(diǎn)擊率等方面實(shí)現(xiàn)提升。***將多個(gè)指標(biāo)形成對(duì)應(yīng)權(quán)重并形成多個(gè)DeepLR聯(lián)合模型。
但在衡量結(jié)果之前,需要形成像素級(jí)別可見(jiàn)的圖。這里有以下幾種構(gòu)造器分類,包括臨摹、遷移、創(chuàng)造、搭配與生成。
前面介紹了,如何通過(guò)用戶的需求形成可見(jiàn)的圖。后續(xù)還需要進(jìn)行投放和反饋并進(jìn)行優(yōu)化,形成效用外循環(huán)。這樣才能使得系統(tǒng)效用不斷得到提升,形成一個(gè)在線閉環(huán),這也是智能設(shè)計(jì)相對(duì)設(shè)計(jì)師的一大優(yōu)勢(shì)。
六、業(yè)務(wù)進(jìn)展
下面是一些實(shí)際的例子。
在這個(gè)系統(tǒng)中也加入了大量的人的信息,知識(shí)圖譜。設(shè)計(jì)師在進(jìn)行設(shè)計(jì)時(shí)都會(huì)存在一些共性的東西,包括在色彩、復(fù)雜度、風(fēng)格、結(jié)構(gòu)上的應(yīng)用,這與自然語(yǔ)言處理有些相似,但自然語(yǔ)言處理方面的知識(shí)圖譜已經(jīng)非常成熟,而設(shè)計(jì)上的還需要不斷探索打磨。
在影響力方面,鹿班作為業(yè)界首創(chuàng)的AI設(shè)計(jì)系統(tǒng),成為集團(tuán)雙十一的一個(gè)AI協(xié)同典型案例,獲得了大量的報(bào)道。在其中,運(yùn)用了對(duì)抗學(xué)習(xí),該技術(shù)是MIT2018全球十大突破性技術(shù)之一。
七、案例展示
從多樣性看,生成的圖片可以是多主體、多主體、多配色和類型自適應(yīng)的。
同時(shí),也可以生成多種尺寸的圖片。
八、前景展望
上面所說(shuō)的基本都是平面設(shè)計(jì)層面的。但在視頻和圖形上是另一片藍(lán)海。如果說(shuō)人工做一張圖片的成本比較高,而制作視頻的成本則遠(yuǎn)高于圖片。
下圖是目前的行業(yè)市場(chǎng)空間展示。
下圖是在視頻中進(jìn)行廣告植入的案例。需要檢測(cè)視頻中哪個(gè)位置適合插入廣告,對(duì)位置進(jìn)行優(yōu)化。
下圖是網(wǎng)球賽中將阿里巴巴的品牌logo無(wú)縫投影到賽場(chǎng)中。
為了強(qiáng)調(diào)視頻中的一部分,可以生成整體靜止局部運(yùn)動(dòng)的可循環(huán)視頻。
在游戲領(lǐng)域中,現(xiàn)在的游戲場(chǎng)景需要大量的美工、設(shè)計(jì)師等。如果希望生成的結(jié)果能滿足多樣性,那么純靠人工進(jìn)行需要大量的成本,并且由于游戲的生命周期通常較短,因此批量高效的場(chǎng)景制作是一個(gè)很有前景的應(yīng)用。
九、結(jié)語(yǔ)
通過(guò)視覺(jué)生成引擎,我們希望能基于用戶的所想,使得一切皆可生成。長(zhǎng)遠(yuǎn)的目標(biāo)就是:所想,即所見(jiàn)。
【本文為51CTO專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者】