全新「多模態(tài)」生圖AI文字渲染暴打Midjourney+DALL·E 3!5億融資Karpathy都投了
文生圖領域作為一個跑出「10人團隊年收入過億美金初創(chuàng)公司」的賽道,已經(jīng)成了AI創(chuàng)業(yè)公司掘第一桶金的最佳起點。
但是在谷歌,微軟等大廠都已經(jīng)花了大量資源去布局的領域,留給初創(chuàng)公司的機會到底在哪里?
最近一家名為Ideogram的文生圖工具,憑借優(yōu)秀的文字渲染能力,成功融資8000萬美元!
包括Jeff Dean和Andrej Karpathy在內(nèi)的一眾硅谷大佬和知名機構(gòu)都是它的投資人。
只要在prompt里將文字打上去,就能非常自然可控地出現(xiàn)在生成的圖片中。
而且生成的圖片不僅能簡單的以平面文字的形式出現(xiàn)在圖片之中,還能根據(jù)用戶的要求,生成自然的懸浮文字,或者是立體的文字。
甚至用一句提示詞,它能直接給你畫出圖文高度配合的梗圖!
文生圖也能做出「多模態(tài)」
而圖片中的文字生成,一直以來是各大生圖AI做不好的痛點。
如果要求圖片中有某些確定的文字,需要在生成圖片之后還要花費很多后期的加工。
而Ideogram對于生圖文字的控制能力,不僅在對比數(shù)據(jù)上比DALL·E 3要好出不少。
實際生成的帶有文字圖片也是非常自然。
文字可以像很多商業(yè)廣告一樣自然的懸浮在圖片上,也可以和圖片中的物體自然地融為一體。
像這種配文字的電影海報級的圖片都可以直接一步生成。
而漫畫形式的配圖文字也同樣不在話下。
用戶可以非常精準地將自己想要表達的文字內(nèi)容和各種風格的圖片組合在一起。
除了能嚴格按照作者的要求生成精準的文字,甚至像開頭的梗圖一樣,它能按照圖片的設定無中生有的配上契合圖片的文字。
簡直成了另一種形式的多模態(tài)模型。
普通的生圖能力也是行業(yè)頂尖
而除了最優(yōu)秀的文字渲染能力之外,作為生圖工具,它在其他方面的表現(xiàn)也毫不遜色于行業(yè)頂尖水準。
Ideogram 1.0 可在理解冗長、復雜提示詞的同時生成清晰、細致的圖像。
宛如相片一樣的海報
對于各種動物以及奇怪組合的完美呈現(xiàn)能力。
逼真的照片級圖片生成能力,足以以假亂真。
也能準確地生成復雜的手部動作。
人物表情,光影都非常和諧。
而且它還能通過工具,配合提示詞,控制主要內(nèi)容在圖片中生成的形狀和范圍。
Ideogram 1.0 除了能夠生成照片級逼真的圖像,對于超自然的風格的圖片也有很強的表現(xiàn)能力。
Ideogram 1.0還提供了一個名為「Magic Prompt」的功能,可以自動增強、擴展和翻譯用戶的提示,大大降低用戶生成精美的創(chuàng)意圖片的門檻。
原提示:創(chuàng)建一個關于貓的有趣的表情包
增強提示: 以一只表情驚訝的波斯貓為主題的備忘錄。貓的眼睛睜得大大的,讓人覺得它很震驚或很有趣。背景是其他貓咪擺出的各種姿勢的彩色拼貼畫,主題為 「當你意識到貓咪已經(jīng)占領互聯(lián)網(wǎng)時」。整個畫面輕松幽默,展現(xiàn)了網(wǎng)上對貓的持久熱愛。
有了這個功能,表情包可以直接出圖片了:
提示: ??????。
增強提示: 一個幽靈、萬圣節(jié)燈籠和骷髏的恐怖萬圣節(jié)場景。鬼魂穿著破舊的長袍,漂浮在南瓜之間,而南瓜燈則露出頑皮的笑容。背景中,一個戴著高帽的骷髏站在鬼屋附近。月亮在畫面上灑下銀色的光輝,氣氛既陰森恐怖又充滿童趣。
Ideogram 1.0本身也很擅長解釋復雜的提示。每個對應的圖像準確地反映了其提示的每個細節(jié):
這是一幅迷人的全家福,一個純色啞光紅色球體圣誕禮物棲息在一個藍色立方體包裝的圣誕禮物上,一棵鮮艷的綠色圣誕樹矗立在它們身后,樹底纏著一塊綠布。右邊是一只好奇的小狗,左邊是一只可愛的貓咪。
一只完全由香脆炸雞制作而成的公雞,如電影般逼真。它的身體覆蓋著一層金黃色的外殼,淋上番茄醬,羽毛上還點綴著完美烹制的熱氣騰騰的炸薯條。公雞的眼睛是由兩個又小又圓的番茄醬斑點組成的,它的喙是由一塊香脆的雞皮制作而成的。場景的背景是一家燈光昏暗的復古餐廳,霓虹燈和格子桌布為餐廳增添了懷舊和奇特的氛圍。
書房里的兩個男人。左邊的男子站著,身穿長外套和花紋襯衫,手持拐杖。他面容邋遢,留著胡子。右邊的男人坐在椅子上,身著正裝,手持拐杖。他們身后的墻上掛著一幅裝裱好的男子肖像。房間里有華麗的窗簾和鋪著地毯的地板,給人一種復古的感覺。
而根據(jù) DALL·E 3 這樣的評估標準,人類評估者在提示對齊、圖像連貫性、整體偏好和文本渲染質(zhì)量方面Ideogram 1.0,比 DALL·E 3 和 Midjourney V6還更收到歡迎。
免費額度大,訂閱價格也不貴
有如此強大的能力,但是他的收費卻非常親民。
免費用戶每天能使用25個提示詞,生成100張圖。
8刀一個月的用戶每天可以生成100個提示詞,400張圖。
20刀一個月就可以無限使用,確實是價格不貴量又足。
最新實測:Ideogram VS Midjourney
顯然,想要在文生圖這個領域與現(xiàn)有的競爭者抗衡,挑戰(zhàn)堪稱天花板的Midjourney V6是避無可避的。
根據(jù)大佬Sorin Ciornei的最新測試,Ideogram 1.0和Midjourney相比,也不落下風。
Test 1:奧黛麗-赫本飾演的小丑
用一個簡單的提示生成一個包含赫本和小丑的人物圖片。
提示非常含糊,因為沒有特別需要的圖片細節(jié)??梢哉f雙方生成的效果不相上下。
Test 2:真實攝影
在作者看來,Ideogram生成的第一張圖碾壓了所有其他圖片。
Test 3 :想象力
這個測試考驗的是AI的想象力,因為在沒有任何細節(jié)的情況下,圖片 AI 要決定加入什么元素以及如何讓圖片看起來超現(xiàn)實。
Midjourney確實更勝一籌。
Test 4:風格碰撞
現(xiàn)實和復古主題的碰撞似乎Midjourney做得更好。
必須將黑白攝影與彩色鴨子混合在一起,讓Ideogram有點不知所措。
Test 5:全息投影
Midjourney的全息效果不太清晰,但是畫面風格比較一致協(xié)調(diào)。Ideogram全息效果比較正常,但是整體畫面割裂感比較強。
雙方算是各有所長的但是整體上表現(xiàn)都不太好。
Test 6:官方案例實測
在官方放出的例子中,Midjourney似乎表現(xiàn)要更好一些,圖中有更多的細節(jié),風格也更真實一些。但是雙方的差異似乎不大。
Test 7:Logo
作者又測了測需要帶有文字的logo生成,雖然Ideogram的logo似乎也不能拿來就用,但是它至少符合要求,有明顯的文字效果,而Midjourney似乎就完全沒有體現(xiàn)出文字內(nèi)容。
Test 8:用魔法提示完成Logo
作者還測試了官方提供的「魔法提示功能」,它把用戶輸入的提示變得更加詳細。
他用這個Logo的提示再次對比了兩個工具的生成效果,從創(chuàng)意的角度,似乎Ideogram更好。
Test 9 :梗圖&表情包
而Ideogram強大的文字能力簡直是生成梗圖的利器,而它強大的文字功能在這里體現(xiàn)得淋漓盡致。
Midjourney完敗。
某種程度上來說,他的能力似乎都接近一個多模態(tài)「圖+文」的模型了