自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

截胡OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0中文嘮嗑式P圖，動(dòng)漫游戲圈沸騰

作者：新智元 2025-03-14 09:37:08

人工智能新聞

OpenAI的全模態(tài)模型沒來，谷歌的全模態(tài)圖像生成器倒是搶先上線了！Gemini 2.0 Flash中上線的原生圖像生成功能，動(dòng)動(dòng)嘴就能PS，還能輕松制作海報(bào)和表情包，動(dòng)漫和漫畫圈已經(jīng)沸騰了。

就在剛剛，谷歌Gemini支持原生圖像生成功能了！這是谷歌首個(gè)向公眾發(fā)布的全模態(tài)圖像生成器。

現(xiàn)在，所有開發(fā)者都可以使用Gemini 2.0 Flash進(jìn)行原生圖像生成了，使用Gemini API 和Google AI Studio中的實(shí)驗(yàn)版本即可。

全模態(tài)圖像生成器，跟其他AI生圖模型最大的區(qū)別在哪里？

因?yàn)樗陨砭邆涞某瑥?qiáng)推理能力，能結(jié)合現(xiàn)實(shí)世界的知識(shí)生成更符合上下文的圖像，理解更多細(xì)節(jié)，更遵循文化背景特征。

其中，全程都是由Gemini模型完成，無需調(diào)用其他模型，只需通過自然語言提示。

此外，傳統(tǒng)的AI生圖器需要分開處理文本和圖片，它則是能同時(shí)輸出文本和插圖，保持驚人的一致性。

· 真正的多模態(tài)能力：同時(shí)理解文字、圖像，以及二者聯(lián)系
· 理解世界知識(shí)：能做智能推理，結(jié)合現(xiàn)實(shí)世界知識(shí)生成準(zhǔn)確內(nèi)容
· 自然語言交互：僅用對(duì)話修改圖片，真正實(shí)現(xiàn)動(dòng)嘴PS

下面這張圖，就是用Gemini 2.0 Flash生成的，包括黑板上的文字。

此前很多圖像生成模型，都死在渲染長(zhǎng)序列文本上，這個(gè)致命弱點(diǎn)，竟被它克服了。

有趣的是，其實(shí)第一個(gè)展示全模態(tài)圖像生成的是OpenAI，比谷歌早了整整8個(gè)月。

而就在昨天，OpenAI要發(fā)布第一個(gè)全模態(tài)模型的消息更是傳得沸沸揚(yáng)揚(yáng)，沒想到今天，竟是谷歌成功發(fā)布了第一個(gè)版本。

谷歌的這個(gè)新功能，可以根據(jù)上下文生成相關(guān)圖像，支持對(duì)話式編輯，還能在圖像中生成長(zhǎng)文本。

比如，你只要?jiǎng)觿?dòng)嘴，告訴模型給牛角面包加點(diǎn)巧克力邊，啪的一下，它在對(duì)話框里立馬給你滿意的圖像。

跟它說：可以在桌子上加一些花嗎？它立刻給你在桌子上加上花瓶。

如果告訴它，自己不太滿意，更喜歡紅色郁金香，它能在幾秒內(nèi)立刻換成你滿意的圖像。

網(wǎng)友驚呼：太炸了

現(xiàn)在，我們終于有了原生圖像輸出功能，這樣圖像就能遵循智能的上下文了。

這個(gè)模型的真正厲害之處，就在于它真正能夠理解多模態(tài)的信息。

比如在這位網(wǎng)友的實(shí)測(cè)中，它就可以直接從URL解析YouTube視頻，給出內(nèi)容摘要，還是基于時(shí)間戳分析的。

手快的網(wǎng)友，已經(jīng)開始瘋狂實(shí)測(cè)了。

生成30歲的中年女性不同角度的兩張照片，一致性非常驚艷。

以后你想要的照片，想怎么p就怎么p。

一輛小汽車、一個(gè)模特，拿著小汽車的廣告大片實(shí)時(shí)生成。

甚至，你還可以用Gemini來迭代圖像，創(chuàng)建任何游戲！

Gemini 2.0 Flash的自畫像，有點(diǎn)意思。

有人表示，這個(gè)功能太酷了，自己手中的不少圖，將煥然一新。

有人說，谷歌的首個(gè)原生圖像生成功能，可能是今年最棒的發(fā)布之一。它的編輯過程和一致性如此簡(jiǎn)潔，忍不住讓人期待何時(shí)能在Gemini上集成。

當(dāng)然，也有人實(shí)測(cè)后發(fā)現(xiàn)，有些情況下很難讓模型輸出不帶文字的圖片，即使嘗試了五六種不同的prompt也不行。

比如，讓它根據(jù)奧特曼昨天分享的OpenAI創(chuàng)意寫作模型寫的元小說，來創(chuàng)作一幅畫。

文字太多的話，它就失去了想象能力，只能輸出純文字。

小編親測(cè)了一下，結(jié)果也是如此。

對(duì)此，谷歌Gemini團(tuán)隊(duì)的研究者現(xiàn)身表示，會(huì)改進(jìn)這項(xiàng)功能，并且建議如果讓模型先以文本形式思考，可能會(huì)更好。

但好笑的是，「一只馬騎宇航員」這樣的圖像，它依然無法生成。

漫畫和動(dòng)漫圈，沸騰了

這次，Gemini 2.0 Flash直接攻陷了漫畫圈。

現(xiàn)在用它來生成漫畫，只需要?jiǎng)觿?dòng)嘴的功夫。

有網(wǎng)友嘗試后，發(fā)現(xiàn)自己根本停不下來。只需一個(gè)簡(jiǎn)單的提示，就能進(jìn)行選擇性修改，而不會(huì)破壞整個(gè)圖像。

他激動(dòng)地表示，「用它來制作漫畫和故事分鏡會(huì)變得非常輕松」。

給漫畫加個(gè)色，也是一句話的事兒。

就連漫畫角色的動(dòng)作——抬起手臂，也能用嘴完成。而且，輸出圖像與原圖保持了高度的一致性。

動(dòng)漫圈的二次元們更是激動(dòng)不已，有人驚呼，這是史上最佳動(dòng)漫模型！

動(dòng)漫創(chuàng)作的全流程，它都能依指示完成，比如把素描轉(zhuǎn)換為線稿；填充基礎(chǔ)色；添加一些柔和的陰影，光源位于左上角；添加一個(gè)室內(nèi)背景，使其與當(dāng)前的光源和陰影環(huán)境相匹配，使用合適的角度；調(diào)整為單色灰度，以符合輕小說插畫風(fēng)格等等。

更多的測(cè)試demo，自己體會(huì)。

故事分鏡

Gemini 2.0 Flash還可以支持文字+配圖輸出的形式，比如繪本、食譜之類的，它都能通通拿下。

有網(wǎng)友讓它去生成，一個(gè)「烏鴉喝水」的經(jīng)典故事。

從內(nèi)容到配圖，Gemini 2.0 Flash對(duì)故事把控度，和現(xiàn)實(shí)邏輯，非常合理。

更驚艷的是，以下這些全部都是一次性輸出的。

還有網(wǎng)友讓Gemini 2.0解釋生命的意義，只用圖像回答。

模型一鏡到底，輸出了一大串圖像。網(wǎng)友表示，「事實(shí)上，大部分的寫作是不連貫的，讓這件事更加怪異」。

惡搞表情包

用Gemini 2.0 Flash制作表情包，也是一個(gè)不錯(cuò)的選擇。

網(wǎng)友上傳一張照片后，要求它把人替換成吉卜力工作室風(fēng)格的狗，并配上一把機(jī)關(guān)槍。

Gemini 2.0 Flash瞬間完成替換，像那么回事兒。

又或者，給Hugging Face抱抱臉加個(gè)胡子。

再比如，給經(jīng)典表情包，配上文字。

一個(gè)提示，完成多個(gè)編輯

更令人驚掉下巴的是，Gemini 2.0 Flash還可以根據(jù)一個(gè)提示，完成圖像多處編輯。

沃頓商學(xué)院教授Ethan Mollick表示，如果你使用過LLM圖像生成器，你會(huì)知道它們很難控制：LLM需要向一個(gè)獨(dú)立的圖像生成工具發(fā)送提示詞，而不是直接生成圖像。

而Gemini 是首個(gè)公開發(fā)布的「完全多模態(tài)」LLM，能夠直接生成圖像。

下面這個(gè)例子中，是Mollick在一家本地手工藝品店拍的照片，提示中核心要求是——把這本小冊(cè)子改成關(guān)于拿破侖的主題，子任務(wù)有多個(gè)：

將文本修改為「Napoleon Crochet」，字體保持不變。調(diào)整圖片，使其與拿破侖相關(guān)，同時(shí)保留白色括號(hào)和圖像中的其他元素。確保頭部朝向與原圖一致，圖片保持縱向格式。將價(jià)格更改為$99.00。

看到Gemini 2.0 Flash生成的圖片后，他完全驚到了，并表示生成的藝術(shù)風(fēng)格竟然完全匹配。

原生圖像生成，四大亮點(diǎn)

去年12月，谷歌首次將Gemini 2.0 Flash，向內(nèi)部測(cè)試者推出了原生圖像生成的功能。

經(jīng)過幾個(gè)月的優(yōu)化打磨，就在巴黎開發(fā)者日期間，正式向支持Google AI Studio所有地區(qū)開放。

開發(fā)者們可以通過這個(gè)平臺(tái)，選擇Gemini 2.0 Flash實(shí)驗(yàn)版本——gemini-2.0-flash-exp，或通過Gemini API即可上手新功能。

如上測(cè)試中，不難看出，Gemini 2.0 Flash是一款集多模態(tài)輸入、增強(qiáng)推理能力、自然語言理解于一身的模型，能夠直接生成圖像。

接下來，一起看看Gemini 2.0 Flash在多模態(tài)輸出上的幾大亮點(diǎn)：

1 文本與圖像結(jié)合

假設(shè)你正在創(chuàng)作一個(gè)奇幻冒險(xiǎn)的故事，只用文字描述情節(jié)，Gemini 2.0 Flash就能自動(dòng)生成與故事配套的插圖。

更厲害的是，它還能在整個(gè)故事中，保持角色和場(chǎng)景的一致性。

如果對(duì)插圖風(fēng)格、敘述方式不滿意，你可以直接給出反饋，Gemini 2.0 Flash會(huì)根據(jù)你的意見重新調(diào)整故事，或優(yōu)化圖像。

2 對(duì)話式圖像編輯

傳統(tǒng)的圖像編輯，往往需要專業(yè)軟件和復(fù)雜的操作，而Gemini 2.0 Flash讓你通過自然語言對(duì)話，就能完成一切。

只要告訴它你的想法，模型就會(huì)實(shí)時(shí)調(diào)整，并在多輪對(duì)話中不斷優(yōu)化。

這種方式不僅適合快速迭代創(chuàng)意，還能幫助你在探索不同風(fēng)格時(shí)，節(jié)省大量的時(shí)間。

3 世界知識(shí)理解

與其他圖像生成模型不同，Gemini 2.0 Flash的獨(dú)特優(yōu)勢(shì)在于，融合了世界知識(shí)和增強(qiáng)推理能力。

這意味著，它不僅能生成美觀的圖像，還更符合現(xiàn)實(shí)邏輯。

比如，當(dāng)你讓它生成一份巧克力曲奇餅干食譜，并繪制插圖，Gemini 2.0 Flash的表現(xiàn)著實(shí)令人驚艷。

當(dāng)然，作為語言模型，Gemini 2.0 Flash并非絕對(duì)完美，偶爾需要稍作調(diào)整。

4 文本渲染

對(duì)于大多數(shù)圖像生成模型來說，準(zhǔn)確呈現(xiàn)長(zhǎng)短文字一直是個(gè)難題——要么格式混亂，要么字符模糊，甚至拼寫錯(cuò)誤層出不窮。

但Gemini 2.0 Flash在這方面表現(xiàn)，非常搶眼。

內(nèi)部基準(zhǔn)測(cè)試表明，它在文本渲染上的性能，優(yōu)于主流競(jìng)品。

不論是制作廣告、社交媒體帖子，甚至是邀請(qǐng)函，Gemini 2.0 Flash都能清晰、準(zhǔn)確呈現(xiàn)文字內(nèi)容。

用Gemini API快速上手

現(xiàn)在，開發(fā)者可以直接通過Gemini API測(cè)試Gemini 2.0 Flash圖像生成模型了。

from google import genai
from google.genai import types


client = genai.Client(api_key="GEMINI_API_KEY")


response = client.models.generate_content(
model="gemini-2.0-flash-exp",
cnotallow=(
"Generate a story about a cute baby turtle in a 3d digital art style. ""For each scene, generate an image."
),
cnotallow=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

Gemini團(tuán)隊(duì)研究人員為此還做了一個(gè)邀請(qǐng)廣大開發(fā)者適用的圖像，快點(diǎn)上手吧。

責(zé)任編輯：張燕妮來源：新智元

谷歌模型生成

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="gghsr"><p id="gghsr"></p></sub><sub id="gghsr"></sub><acronym id="gghsr"><big id="gghsr"><li id="gghsr"></li></big></acronym><sup id="gghsr"><rt id="gghsr"></rt></sup>

<cite id="gghsr"><track id="gghsr"></track></cite>