自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

截胡OpenAI,谷歌全模態(tài)模型首次解禁!Gemini 2.0中文嘮嗑式P圖,動(dòng)漫游戲圈沸騰

人工智能 新聞
OpenAI的全模態(tài)模型沒來,谷歌的全模態(tài)圖像生成器倒是搶先上線了!Gemini 2.0 Flash中上線的原生圖像生成功能,動(dòng)動(dòng)嘴就能PS,還能輕松制作海報(bào)和表情包,動(dòng)漫和漫畫圈已經(jīng)沸騰了。

就在剛剛,谷歌Gemini支持原生圖像生成功能了!這是谷歌首個(gè)向公眾發(fā)布的全模態(tài)圖像生成器。

現(xiàn)在,所有開發(fā)者都可以使用Gemini 2.0 Flash進(jìn)行原生圖像生成了,使用Gemini API 和Google AI Studio中的實(shí)驗(yàn)版本即可。

圖片

全模態(tài)圖像生成器,跟其他AI生圖模型最大的區(qū)別在哪里?

因?yàn)樗陨砭邆涞某瑥?qiáng)推理能力,能結(jié)合現(xiàn)實(shí)世界的知識(shí)生成更符合上下文的圖像,理解更多細(xì)節(jié),更遵循文化背景特征。

其中,全程都是由Gemini模型完成,無需調(diào)用其他模型,只需通過自然語言提示。

此外,傳統(tǒng)的AI生圖器需要分開處理文本和圖片,它則是能同時(shí)輸出文本和插圖,保持驚人的一致性。

· 真正的多模態(tài)能力:同時(shí)理解文字、圖像,以及二者聯(lián)系
· 理解世界知識(shí):能做智能推理,結(jié)合現(xiàn)實(shí)世界知識(shí)生成準(zhǔn)確內(nèi)容
· 自然語言交互:僅用對(duì)話修改圖片,真正實(shí)現(xiàn)動(dòng)嘴PS

下面這張圖,就是用Gemini 2.0 Flash生成的,包括黑板上的文字。

此前很多圖像生成模型,都死在渲染長(zhǎng)序列文本上,這個(gè)致命弱點(diǎn),竟被它克服了。

圖片

有趣的是,其實(shí)第一個(gè)展示全模態(tài)圖像生成的是OpenAI,比谷歌早了整整8個(gè)月。

而就在昨天,OpenAI要發(fā)布第一個(gè)全模態(tài)模型的消息更是傳得沸沸揚(yáng)揚(yáng),沒想到今天,竟是谷歌成功發(fā)布了第一個(gè)版本。

谷歌的這個(gè)新功能,可以根據(jù)上下文生成相關(guān)圖像,支持對(duì)話式編輯,還能在圖像中生成長(zhǎng)文本。

比如,你只要?jiǎng)觿?dòng)嘴,告訴模型給牛角面包加點(diǎn)巧克力邊,啪的一下,它在對(duì)話框里立馬給你滿意的圖像。

圖片

跟它說:可以在桌子上加一些花嗎?它立刻給你在桌子上加上花瓶。

圖片

如果告訴它,自己不太滿意,更喜歡紅色郁金香,它能在幾秒內(nèi)立刻換成你滿意的圖像。

圖片

網(wǎng)友驚呼:太炸了

現(xiàn)在,我們終于有了原生圖像輸出功能,這樣圖像就能遵循智能的上下文了。

圖片

這個(gè)模型的真正厲害之處,就在于它真正能夠理解多模態(tài)的信息。

比如在這位網(wǎng)友的實(shí)測(cè)中,它就可以直接從URL解析YouTube視頻,給出內(nèi)容摘要,還是基于時(shí)間戳分析的。

圖片

圖片

手快的網(wǎng)友,已經(jīng)開始瘋狂實(shí)測(cè)了。

圖片

圖片

圖片

圖片

圖片

生成30歲的中年女性不同角度的兩張照片,一致性非常驚艷。

圖片

以后你想要的照片,想怎么p就怎么p。

圖片

一輛小汽車、一個(gè)模特,拿著小汽車的廣告大片實(shí)時(shí)生成。

圖片

圖片

圖片

甚至,你還可以用Gemini來迭代圖像,創(chuàng)建任何游戲!

圖片

Gemini 2.0 Flash的自畫像,有點(diǎn)意思。

圖片

有人表示,這個(gè)功能太酷了,自己手中的不少圖,將煥然一新。

圖片

圖片

圖片

有人說,谷歌的首個(gè)原生圖像生成功能,可能是今年最棒的發(fā)布之一。它的編輯過程和一致性如此簡(jiǎn)潔,忍不住讓人期待何時(shí)能在Gemini上集成。

圖片

當(dāng)然,也有人實(shí)測(cè)后發(fā)現(xiàn),有些情況下很難讓模型輸出不帶文字的圖片,即使嘗試了五六種不同的prompt也不行。

比如,讓它根據(jù)奧特曼昨天分享的OpenAI創(chuàng)意寫作模型寫的元小說,來創(chuàng)作一幅畫。

文字太多的話,它就失去了想象能力,只能輸出純文字。

圖片

小編親測(cè)了一下,結(jié)果也是如此。

圖片

對(duì)此,谷歌Gemini團(tuán)隊(duì)的研究者現(xiàn)身表示,會(huì)改進(jìn)這項(xiàng)功能,并且建議如果讓模型先以文本形式思考,可能會(huì)更好。

圖片

但好笑的是,「一只馬騎宇航員」這樣的圖像,它依然無法生成。

圖片

漫畫和動(dòng)漫圈,沸騰了

這次,Gemini 2.0 Flash直接攻陷了漫畫圈。

現(xiàn)在用它來生成漫畫,只需要?jiǎng)觿?dòng)嘴的功夫。

圖片

有網(wǎng)友嘗試后,發(fā)現(xiàn)自己根本停不下來。只需一個(gè)簡(jiǎn)單的提示,就能進(jìn)行選擇性修改,而不會(huì)破壞整個(gè)圖像。

他激動(dòng)地表示,「用它來制作漫畫和故事分鏡會(huì)變得非常輕松」。

圖片

給漫畫加個(gè)色,也是一句話的事兒。

圖片

圖片

就連漫畫角色的動(dòng)作——抬起手臂,也能用嘴完成。而且,輸出圖像與原圖保持了高度的一致性。

圖片

動(dòng)漫圈的二次元們更是激動(dòng)不已,有人驚呼,這是史上最佳動(dòng)漫模型!

圖片

圖片

動(dòng)漫創(chuàng)作的全流程,它都能依指示完成,比如把素描轉(zhuǎn)換為線稿;填充基礎(chǔ)色;添加一些柔和的陰影,光源位于左上角;添加一個(gè)室內(nèi)背景,使其與當(dāng)前的光源和陰影環(huán)境相匹配,使用合適的角度;調(diào)整為單色灰度,以符合輕小說插畫風(fēng)格等等。

圖片

圖片

圖片

更多的測(cè)試demo,自己體會(huì)。

圖片

圖片

故事分鏡

Gemini 2.0 Flash還可以支持文字+配圖輸出的形式,比如繪本、食譜之類的,它都能通通拿下。

有網(wǎng)友讓它去生成,一個(gè)「烏鴉喝水」的經(jīng)典故事。

圖片

從內(nèi)容到配圖,Gemini 2.0 Flash對(duì)故事把控度,和現(xiàn)實(shí)邏輯,非常合理。

更驚艷的是,以下這些全部都是一次性輸出的。

圖片

圖片

圖片

圖片

還有網(wǎng)友讓Gemini 2.0解釋生命的意義,只用圖像回答。

圖片

模型一鏡到底,輸出了一大串圖像。網(wǎng)友表示,「事實(shí)上,大部分的寫作是不連貫的,讓這件事更加怪異」。

惡搞表情包

用Gemini 2.0 Flash制作表情包,也是一個(gè)不錯(cuò)的選擇。

網(wǎng)友上傳一張照片后,要求它把人替換成吉卜力工作室風(fēng)格的狗,并配上一把機(jī)關(guān)槍。

Gemini 2.0 Flash瞬間完成替換,像那么回事兒。

圖片

又或者,給Hugging Face抱抱臉加個(gè)胡子。

圖片

再比如,給經(jīng)典表情包,配上文字。

圖片

一個(gè)提示,完成多個(gè)編輯

更令人驚掉下巴的是,Gemini 2.0 Flash還可以根據(jù)一個(gè)提示,完成圖像多處編輯。

沃頓商學(xué)院教授Ethan Mollick表示,如果你使用過LLM圖像生成器,你會(huì)知道它們很難控制:LLM需要向一個(gè)獨(dú)立的圖像生成工具發(fā)送提示詞,而不是直接生成圖像。

而Gemini 是首個(gè)公開發(fā)布的「完全多模態(tài)」LLM,能夠直接生成圖像。

圖片

下面這個(gè)例子中,是Mollick在一家本地手工藝品店拍的照片,提示中核心要求是——把這本小冊(cè)子改成關(guān)于拿破侖的主題,子任務(wù)有多個(gè):

將文本修改為「Napoleon Crochet」,字體保持不變。調(diào)整圖片,使其與拿破侖相關(guān),同時(shí)保留白色括號(hào)和圖像中的其他元素。確保頭部朝向與原圖一致,圖片保持縱向格式。將價(jià)格更改為$99.00。

看到Gemini 2.0 Flash生成的圖片后,他完全驚到了,并表示生成的藝術(shù)風(fēng)格竟然完全匹配。

圖片

原生圖像生成,四大亮點(diǎn)

去年12月,谷歌首次將Gemini 2.0 Flash,向內(nèi)部測(cè)試者推出了原生圖像生成的功能。

經(jīng)過幾個(gè)月的優(yōu)化打磨,就在巴黎開發(fā)者日期間,正式向支持Google AI Studio所有地區(qū)開放。

開發(fā)者們可以通過這個(gè)平臺(tái),選擇Gemini 2.0 Flash實(shí)驗(yàn)版本——gemini-2.0-flash-exp,或通過Gemini API即可上手新功能。

圖片

如上測(cè)試中,不難看出,Gemini 2.0 Flash是一款集多模態(tài)輸入、增強(qiáng)推理能力、自然語言理解于一身的模型,能夠直接生成圖像。

接下來,一起看看Gemini 2.0 Flash在多模態(tài)輸出上的幾大亮點(diǎn):

1 文本與圖像結(jié)合

假設(shè)你正在創(chuàng)作一個(gè)奇幻冒險(xiǎn)的故事,只用文字描述情節(jié),Gemini 2.0 Flash就能自動(dòng)生成與故事配套的插圖。

更厲害的是,它還能在整個(gè)故事中,保持角色和場(chǎng)景的一致性。

圖片

如果對(duì)插圖風(fēng)格、敘述方式不滿意,你可以直接給出反饋,Gemini 2.0 Flash會(huì)根據(jù)你的意見重新調(diào)整故事,或優(yōu)化圖像。

2 對(duì)話式圖像編輯

傳統(tǒng)的圖像編輯,往往需要專業(yè)軟件和復(fù)雜的操作,而Gemini 2.0 Flash讓你通過自然語言對(duì)話,就能完成一切。

只要告訴它你的想法,模型就會(huì)實(shí)時(shí)調(diào)整,并在多輪對(duì)話中不斷優(yōu)化。

這種方式不僅適合快速迭代創(chuàng)意,還能幫助你在探索不同風(fēng)格時(shí),節(jié)省大量的時(shí)間。

圖片

3 世界知識(shí)理解

與其他圖像生成模型不同,Gemini 2.0 Flash的獨(dú)特優(yōu)勢(shì)在于,融合了世界知識(shí)和增強(qiáng)推理能力。

這意味著,它不僅能生成美觀的圖像,還更符合現(xiàn)實(shí)邏輯。

比如,當(dāng)你讓它生成一份巧克力曲奇餅干食譜,并繪制插圖,Gemini 2.0 Flash的表現(xiàn)著實(shí)令人驚艷。

圖片

當(dāng)然,作為語言模型,Gemini 2.0 Flash并非絕對(duì)完美,偶爾需要稍作調(diào)整。

4 文本渲染

對(duì)于大多數(shù)圖像生成模型來說,準(zhǔn)確呈現(xiàn)長(zhǎng)短文字一直是個(gè)難題——要么格式混亂,要么字符模糊,甚至拼寫錯(cuò)誤層出不窮。

但Gemini 2.0 Flash在這方面表現(xiàn),非常搶眼。

內(nèi)部基準(zhǔn)測(cè)試表明,它在文本渲染上的性能,優(yōu)于主流競(jìng)品。

不論是制作廣告、社交媒體帖子,甚至是邀請(qǐng)函,Gemini 2.0 Flash都能清晰、準(zhǔn)確呈現(xiàn)文字內(nèi)容。

圖片

用Gemini API快速上手

現(xiàn)在,開發(fā)者可以直接通過Gemini API測(cè)試Gemini 2.0 Flash圖像生成模型了。

from google import genai
from google.genai import types


client = genai.Client(api_key="GEMINI_API_KEY")


response = client.models.generate_content(
model="gemini-2.0-flash-exp",
cnotallow=(
"Generate a story about a cute baby turtle in a 3d digital art style. ""For each scene, generate an image."
),
cnotallow=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

Gemini團(tuán)隊(duì)研究人員為此還做了一個(gè)邀請(qǐng)廣大開發(fā)者適用的圖像,快點(diǎn)上手吧。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-05-17 08:33:33

視覺語言模型

2024-12-12 09:09:24

2023-12-07 11:48:00

2025-04-10 10:41:36

2024-12-12 11:29:51

2024-12-30 08:33:54

大型模型GeminiLLM

2023-11-06 12:34:14

模型訓(xùn)練

2024-12-16 19:16:03

Gemini 2.0P圖神器人工智能

2024-08-14 14:21:00

2025-03-17 10:56:18

谷歌Gemini大模型

2023-12-09 14:30:50

2018-01-03 22:20:23

移動(dòng)

2023-12-07 11:12:54

大型語言模型Gemini人工智能

2025-02-06 13:13:07

2024-12-12 08:18:50

2025-03-24 12:07:34

2023-09-19 12:45:36

2024-10-09 08:27:30

2013-09-25 09:52:16

wifi 2.0無線網(wǎng)絡(luò)

2024-02-02 16:24:43

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)