谷歌官宣Bard免費(fèi)生圖,無限續(xù)杯網(wǎng)友玩瘋了!一手實(shí)測(cè)頂流模型大混戰(zhàn)
前幾天,谷歌Bard瞬間登上LLM榜單第二,趕超GPT-4,AI圈瞬間炸鍋。
「Bard什么時(shí)候這么頂了」?
原來,并不是沒有道理。
就在剛剛,谷歌官方宣布:在最新版Gemini Pro的加持下,Bard不僅獲得了推理、理解、總結(jié)、編碼能力的迅速飛升,而且還能支持230多個(gè)國(guó)家的40多種語言。
與此同時(shí),「只能炫圖無法實(shí)操」的谷歌至尊文生圖模型Imagen 2,也被免費(fèi)集成到了Bard當(dāng)中!
文生圖能力還可以在谷歌的ImageFX、Search和Vertex AI上體驗(yàn)
Bard生圖有多強(qiáng)?
去年12月,谷歌推出了最新的Imagen 2模型,便能夠?qū)崿F(xiàn)高質(zhì)量、照片級(jí)逼真的輸出。
生成效果雖驚艷,卻遭到眾多網(wǎng)友吐槽:不開源沒什么用。
如今,所有人都能上手試試Imagen 2的能力了。先來看看谷歌官方給出了Bard生圖的許多例子。
比如,生成一只腳踩沖浪板的狗。
還有更多Bard生成的精彩的圖片:
提示:Generate a collage art, with photorealistic images of oceans and plants with muted colors and 3D shading, that’s mixed media.
提示:Write a social media post and generate a mouthwatering image that I can use for a buffalo wing festival.
提示:Generate an image of a fashion show in steampunk style digital art. Zoom in on their face.
提示:Generate an image of a futuristic car driving through an old mountain road surrounded by nature.
提示:Generate a vibrant and lively image depicting an elephant partying in the heart of a lush, vibrant jungle. The elephant should be in various colors and be adorned with fun accessories.
提示:Generate an image of a cluttered alchemist's workshop, filled with bubbling flasks, glowing crystals, and the tiny, luminous world swirling within the bottle.
提示:Generate a realistic photo of a person looking off camera during sunset. Portrait mode so the background is faded.
為了負(fù)責(zé)任生成,Bard生成的圖像都將由SynthID進(jìn)行標(biāo)記。
SynthID是谷歌DeepMind開發(fā)的一種水印工具,可將數(shù)字水印直接嵌入到我們生成的圖像的像素中。SynthID的水印人眼無法察覺,但可檢測(cè)以進(jìn)行識(shí)別。
網(wǎng)友大波評(píng)測(cè)
網(wǎng)友Pete Blackshaw用Bard生成了「一只吹著喇叭的貴賓犬」,看著有種抽大煙的趕腳。
他還用同一個(gè)提示「Draw the #Cincinnati skyline with a historic paddle wheeler」讓Bard和GPT-4大比拼,看著Bard生成的圖片可能因?yàn)樯{(diào),多了一分真實(shí)感。
另一位初創(chuàng)公司創(chuàng)始人Ryan Carson同樣用一個(gè)提示分別測(cè)試了DALL·E 3和Bard。
他表示自己還是更喜歡DALL·E 3生成的圖片,盡管貴了32倍。另外,Bard忽視了1792x1024大小的請(qǐng)求。
Create an image that is an isometric video game tile featuring a fox. The scene is stylized with a low-poly design, typical of modern digital illustrations in video games. The tile should be rendered in a digital art style, with soft, warm lighting gently highlighting the faceted surfaces, emphasizing the minimalist aesthetic. The overall effect should convey serene simplicity, characteristic of contemporary digital landscapes in video games or modern digital art. The focus is on the fox, which should be rendered with geometric shapes, maintaining the isometric and low-poly theme. 1792x1024. NO LOGOS, TEXT OR WORDS.
小編更覺得Bard生成狐貍的鮮艷度,更像是「小王子」中的那只狐貍。
左:DALL·E 3;右:Bard
另外一位網(wǎng)友在Midjourney中嘗試了下,花了0.04美元。
來源:Alex Andru
著名的導(dǎo)演Yam Laranas用Bad畫了一幅「好萊塢的攝影稻草人」。
網(wǎng)友Yam Laranas生成的壽司看起來很美味。
馬庫(kù)斯自己用「draw a videogame hedgehog」生成的刺猬。
網(wǎng)友Raj Goodman Anand表示,被Bard的圖片生成技巧震撼到了!它不僅在視覺上很出色,而且還能準(zhǔn)確地生成文字,這是DALL·E經(jīng)常遇到的問題。
海綿寶寶吃墨西哥卷餅。
來源:Matt Wolfe
網(wǎng)友chientrm做了一個(gè)火星系列。
從火星的基地、到城市全貌、宇宙飛船、再到室內(nèi)環(huán)境,全都設(shè)想出來了。
左右滑動(dòng)查看
Andrew C. Becker發(fā)現(xiàn)Bard雙手也可以畫的非常完美。
自稱AI發(fā)燒友Edward嘗試了四次,畫出了一位藍(lán)眼睛棕發(fā)的女人。
要是和Midjourney相比,人物面部形象的生成確實(shí)差了一大截。
一大波網(wǎng)友實(shí)測(cè)
來源:nixCraft
來源:Edward
卡通動(dòng)漫風(fēng)把控的還是不錯(cuò)。
來源:Edward(左右滑動(dòng)查看)
宮本武藏。
來源:Edward
禪宗花園。
來源:Edward
魔法城堡。
來源:Edward
來源:RubenTainoAI
來源:Michael King(左右滑動(dòng)查看)
來源:Sahil kakurle(左右滑動(dòng))
失敗案例
騎在馬上的駱駝,第一張圖突然多了一條人腿。
來源:Dhiren V
網(wǎng)友LoudEgg創(chuàng)造了一個(gè)正在喝啤酒的七星瓢蟲,不過貌似它在喝的是咖啡。
create a ladybug using a computer while drinking beer
這些手的生成也失敗了。
來源:Edward
還有怪異的,眼睛。
有些內(nèi)容,是Bard無法創(chuàng)作的。
Bard/GPT-4/Midjourney三家對(duì)打,誰是用戶的心頭愛
既然Bard已經(jīng)放開使用了,我們就上手對(duì)比了Bard,GPT-4(DALL·E 3),Midjourney在生圖質(zhì)量和相同提示詞下生圖的區(qū)別。
各家都有自己的特點(diǎn),DALL·E 3勝在結(jié)合了GPT-4之后有最強(qiáng)的語意理解能力,只要用戶能提得出的需求,他就能畫出來。
Midjourney依然有最強(qiáng)的美學(xué)表現(xiàn)力和多樣的風(fēng)格。
要畫得圖賞心悅目,10刀一個(gè)月的Midjourney依然是最有性價(jià)比的選擇。
Bard勝在一個(gè)免費(fèi),畢竟不要錢對(duì)很多偶爾體驗(yàn)一下的用戶來說真的非常重要。
而且它的風(fēng)格整體上偏寫實(shí),如果你想方便地創(chuàng)作出寫實(shí),風(fēng)格自然的圖片,Bard甚至比前面兩家更好用。
我們先從一些簡(jiǎn)單的提示詞開始,看看他們對(duì)于那種比較籠統(tǒng)的提示詞處理起來有多大區(qū)別。
plz create an image of a table of delicious family dinner
Bard:
Bard生成的圖片風(fēng)格相當(dāng)?shù)淖匀徽鎸?shí),光影和構(gòu)圖都已經(jīng)非常趨近于照片了,效果相當(dāng)不錯(cuò)。
GPT-4:
GPT-4生成的圖片內(nèi)容更加豐富,甚至有一點(diǎn)點(diǎn)浮夸,色彩和構(gòu)圖都更偏向于動(dòng)畫的風(fēng)格。
而Midjourney的效果就更加驚艷了,特別下面兩張圖真的是和照片幾乎沒有區(qū)別,光影,食材細(xì)節(jié)和真實(shí)度,鏡頭感全都拉滿。
總結(jié)3家表現(xiàn),Midjourney略勝一籌。
既然做了豐盛的美食,我們?cè)僭嚵嗽嚾绻梢蛔篮岬娘埐耍P偷谋憩F(xiàn)會(huì)怎么樣呢?
plz create an image of a table of low quality family dinner
GPT-4真的是秒懂,同一句提示詞就是把形容詞一換,效果馬上大變樣,語意理解能力和生圖效果非常精準(zhǔn)!
而Midjourney似乎沒有看出提示詞發(fā)生了什么區(qū)別,還是上了一桌色香味俱全的菜,甚至讓我懷疑是不是提示詞打錯(cuò)了。
再次確認(rèn)了提示詞之后,只能感嘆,模型的提示詞理解的能力,果然OpenAI還是第一檔。
而最讓人意外的是,Bard也感知到了提示的變化,但是它覺得這個(gè)提示詞觸發(fā)了它的護(hù)欄,拒絕作畫。
而在我們測(cè)試的過程中也發(fā)現(xiàn),Bard的安全護(hù)欄幾乎是使用的所有AI產(chǎn)品中最敏感的,只要提示詞中出現(xiàn)感情色彩「中性以下」的詞,就很大概率觸發(fā)護(hù)欄,拒絕生成。
plz create an image of family members watching a football game on TV
接下來我們?cè)贉y(cè)了一下和人物有關(guān)的簡(jiǎn)單提示詞的生圖效果。
Bard對(duì)人物的處理還是不太好,手和表情都會(huì)偶爾出現(xiàn)失真的情況,細(xì)節(jié)處理的也不太好。但是風(fēng)格上還是保持了比較真實(shí)樸素的效果,「AI味」不太濃。
而且Bard的圖片構(gòu)圖方式會(huì)比較多樣化一些,有從電視的視角構(gòu)圖,也有從其他角度。
而GPT-4的畫面風(fēng)格整體上還是偏動(dòng)畫一些,「AI味」比較濃。
而且從細(xì)節(jié)上來看,GPT-4一直都試圖在畫面中融入更多的人物和物品,給人一種量大管飽的感覺。而這點(diǎn)Bard就處理的比較自然。
Midjourney依然還是延續(xù)畫面風(fēng)格最多樣,審美表現(xiàn)最高的表現(xiàn)。美中不足的只是構(gòu)圖上似乎比較重復(fù),沒有太大的變化。
還有個(gè)小問題是似乎電視里面的風(fēng)格和電視外面的風(fēng)格不一致,比如右下電視里感覺比較寫實(shí),而電視外的人物卻是動(dòng)畫版,感覺次元壁似乎出了點(diǎn)問題。
plz create an image of a crying boy watching cartoons on TV
我們讓AI生成一幅小男孩哭著看動(dòng)畫片的圖片,想試試在另一個(gè)背景下AI能不能捕捉到提示詞中的感情風(fēng)格的差異。
GPT-4非常好的呈現(xiàn)了這幅畫面,補(bǔ)充了一個(gè)黑色的房間作為背景。
小男孩哭泣的表情也很到位。
而Bard還是老問題,一涉及到負(fù)面的情感,它就觸發(fā)了護(hù)欄,拒絕生成。
Midjourney生成的效果也很不錯(cuò),不但很好地捕捉到了提示詞感情色彩的變化,而且構(gòu)圖和美術(shù)風(fēng)格都有多樣的呈現(xiàn)。
然后,我們又嘗試了復(fù)雜的提示詞生成的效果,看看3個(gè)模型對(duì)于提示詞理解和畫面效果有什么區(qū)別。
Create an image of a bustling city street at dusk, teeming with life and energy. The scene is set in a vibrant downtown area, with the setting sun casting a warm, golden hue over the buildings.
People of diverse backgrounds are walking on the sidewalks, some in a hurry, others leisurely strolling, capturing the essence of urban life. Among them, a street musician is playing a violin, adding a melodious soundtrack to the urban hustle. Street vendors line the sidewalks, selling everything from hot food to handmade crafts. The architecture is a mix of modern skyscrapers and historic buildings, illustrating the city's dynamic growth and rich history.
Neon signs flicker, inviting passersby into cozy cafes and bustling shops. This detailed urban scene is alive with the rhythm of city life, embodying the harmony of chaos and order that defines a metropolis at twilight.
GPT-4確實(shí)能很好的捕捉和還原提示詞中細(xì)節(jié),內(nèi)容非常豐富。
不過似乎為了追求細(xì)節(jié)的豐富,讓畫面整體覺得有點(diǎn)不自然,像是專門「擺拍」出來的,而且卡通風(fēng)格有點(diǎn)過于濃重了。
Bard的畫面整體上要自然很多,沒有為了故意反應(yīng)提示詞中的細(xì)節(jié)而畫很多的人物。
而且畫面構(gòu)圖也比較多樣,美術(shù)風(fēng)格也和畫面內(nèi)容搭配的很好。
而這種風(fēng)格還得看Midjourney,細(xì)節(jié)飽滿,美術(shù)風(fēng)格多樣,畫面自然,甚至畫面中所有人物的穿衣指數(shù)都很一致,在審美和準(zhǔn)確度上達(dá)到了最好的平衡效果。
Create an image of Envision an ancient library, hidden away from the modern world, filled with towering shelves of old books and scrolls, casting long shadows in the dim candlelight.
The air is thick with the scent of aged paper and the whisper of knowledge passed through centuries. In the center, a large wooden table is strewn with open tomes and ancient artifacts, under the soft glow of a hanging lantern.
A solitary scholar, cloaked in a robe, pores over an ancient manuscript, using a quill to take notes. Around him, the walls are adorned with maps of forgotten worlds and portraits of scholars past.
The atmosphere is one of solemnity and reverence for the pursuit of wisdom. This scene captures a moment frozen in time, a sanctuary of learning untouched by the passage of ages.
GPT-4依然是畫面細(xì)節(jié)最為豐富的模型,再次體現(xiàn)出了OpenAI對(duì)于語言的把握能力特別強(qiáng)。但缺點(diǎn)就是從畫面始終有點(diǎn)不是很自然,為了追求細(xì)節(jié)始終讓人感覺有些「擺畫」的感覺。
Bard就感覺沒有辦法把原提示詞中很多氛圍感的描述體現(xiàn)出來,整體上畫面比較簡(jiǎn)單,細(xì)節(jié)丟失的比較多。
而Midjourney整體上依然讓人感覺更像是藝術(shù)品,審美水平,細(xì)節(jié)還原度和氛圍感都做到了統(tǒng)一。
經(jīng)過實(shí)測(cè)之后,明顯能夠看出3個(gè)生圖AI各自的特點(diǎn)還是有很大區(qū)別的,但是Bard因?yàn)槊赓M(fèi),所以效果比兩個(gè)收費(fèi)的模型還是稍微遜色一點(diǎn)。
但是它非常自然真實(shí)的畫風(fēng)給人的觀感還是很好的,如果能在后續(xù)的更新進(jìn)一步改進(jìn)模型的細(xì)節(jié)質(zhì)量,一定也會(huì)吸引一波自己的忠粉。
至少,現(xiàn)在免費(fèi)的生圖工具又多了一個(gè)。