編輯 | 伊風
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
谷歌Gemini的AI生圖功能在漫長的沉寂后官宣重返!并推出了重大升級后的模型Imagen 3!
此前,Gemini的這項功能因為過分注重“政治正確”而被群嘲。例如生成了黑人形象的華盛頓等等,在引起廣泛爭議之后,這項功能隨之被禁用。
現(xiàn)在,谷歌對其進行了升級,并準備在“未來幾天”向部分用戶進行灰度測試,該早期版本暫時只支持英語。
時隔數(shù)月,想必Imagen 3被谷歌寄于厚望,準備干票大的,“一雪前恥”。
圖片
谷歌本月早些時候通過其AI Test Kitchen推出了Imagen 3,悄悄試水。
圖片
現(xiàn)在它即將支持在Gemini中進行使用。據(jù)說,升級后的工具能夠生成從逼真的風景到紋理豐富的油畫,而且只需“幾個詞的描述”即可。
那么,Imagen 3的效果究竟如何?與搭載了FLUX模型的Gork-2誰更能打?Gemini的生圖功能一落千丈的口碑還能撿起來嗎?
1.Imagen 3:足夠驚艷 但來遲一步
谷歌周二宣布對其Gemini AI平臺進行了重大更新,推出了“Gems”個性化AI助手和改進的圖像生成模型Imagen 3。
谷歌的Imagen 3 AI模型生成的數(shù)字插圖展示了一個充滿活力的幻想場景,其中一只小龍正在從蛋殼中孵化出來。該圖像展示了該模型逼真的細節(jié)渲染和以及根據(jù)文字提示生成想象場景的能力。
圖片
推友@ChatGPT研究所試用后表示:生成圖像的質(zhì)量令人嘆為觀止。
圖片
prompt:夜晚近距離拍攝一位男性沖浪者,他正騎在海浪上,一支紅色照明彈舉過頭頂,表情緊張,臉上有輕微的胡茬。他以動感姿勢站在沖浪板上,紅光照亮了翻騰的海浪,照明彈后面拖著火花和煙霧。背景是星空,畫面風格逼真,色彩鮮艷,動態(tài)感十足。
對比小編用GPT-4o生成的同一圖像,Gemini給的圖更加真實,且動作也符合邏輯。
圖片
Gemini生成的女性肖像同樣表現(xiàn)優(yōu)越,給定的圖片中充滿了細節(jié),皮膚的機理和肌肉都十分清晰,擺脫了之前AI重度磨皮的bug,讓人看起來非常舒適。
圖片
prompt:一位美麗的年輕女子的肖像,她穿著色彩鮮艷的藍色花卉圖案和服,頭上戴著飾有花朵的華麗發(fā)飾,臉上帶著溫柔的微笑。畫面采用暖色調(diào)照明,整體呈現(xiàn)出傳統(tǒng)的氛圍。
不過,谷歌似乎過于謹慎地進行了漫長的整改。
在經(jīng)過了FLUX深度偽造級別的TED照片,以及Grok-2各種生成梗圖的狂轟亂炸以后,谷歌Imagen 3在AI社區(qū)激起的浪花稍顯不足。
2.Deepfake:如何在道德保障下推動AI生成圖像的邊界
在收回Gemini的生圖功能之后,谷歌此番動作變得更為謹慎。
在生成人物圖像方面,谷歌寄于了更多的限制。包括不再生成逼真的公共人物圖像,以及拒絕暴力色情相關(guān)的請求。
為應(yīng)對對深度偽造和錯誤信息的擔憂,谷歌實施了安全措施,包括SynthID水印技術(shù)。然而,這些措施的有效性尚待觀察,可能會引發(fā)關(guān)于負責任的AI開發(fā)和使用的持續(xù)爭論。
然而,谷歌的擔憂并非空穴來風,所做的種種限制也絕非多此一舉。
近期,韓國就爆出了一起利用AI深度偽造(Deepfake)的社會事件,被看作是采用新犯罪手段的“N號房”卷土重來。
不法分子們使用AI技術(shù),將個人的聲音、面部表情及身體動作拼接合成虛假內(nèi)容并進行傳播。韓國網(wǎng)民在通訊軟件“電報”(Telegram)上發(fā)現(xiàn)大量聊天群,其中有成員創(chuàng)建和分享露骨的性“深度偽造”圖像,對象甚至涉及未成年女孩。
據(jù)外媒報道,在付費Deepfake電報頻道中,男性訂閱用戶提供女性照片,交錢后由頻道制作成色情圖片。目前全國涉及深度偽造犯罪的人數(shù)可能達到22萬,眾多女性因此陷入不安和恐懼之中。
為了反擊,韓國警方開始研究Deepfake的檢測技術(shù)。據(jù)警方透露,如果在相關(guān)軟件上傳疑似人工智能深偽的視頻,大約5至10分鐘就能辨別真?zhèn)?。警方表示,與以西方人為主的信息構(gòu)成的現(xiàn)有探測軟件不同,該軟件學(xué)習了5400人的520萬條個人信息,其中包括100萬條韓國人的信息。但是該軟件的探測率約為80%,尚未達到100%。因此,比起證據(jù)資料,警方計劃將其作為設(shè)定調(diào)查方向的信息。
但是,值得深思的是,一旦受害者被制作了換臉的色情圖像,當那些備有用心之人傳播著內(nèi)容并為此洋洋得意時,傷害就已經(jīng)實際的產(chǎn)生了。
如果不能從源頭遏制這種犯罪,再強大的檢測技術(shù)也只能在事后進行彌補。更何況,互聯(lián)網(wǎng)往往都是謠言的聲浪高過澄清,沒有真正有效的武器讓不安中的女性保護自己免受AI換臉的毒害。
3.AI巨頭的較量:谷歌在擁擠市場中的戰(zhàn)略舉動
雖然AI生圖技術(shù)存在著相當?shù)娘L險,但谷歌也無法放棄這方面的開發(fā)。
在過去一年中,包括OpenAI、微軟、Meta、Anthropic和Hugging Face在內(nèi)的公司都推出了可定制的AI chatbot,整個行業(yè)正向個性化AI體驗轉(zhuǎn)變。
從Sora在年初的炸場,到FLUX給AI社區(qū)帶來的億些震撼,都表明擁抱多模態(tài)是一個不可撼動的大趨勢。
Gems和Imagen 3的推出似乎是谷歌試圖趕上甚至超越其競爭對手的努力。
盡管谷歌長期以來一直是AI研究的先驅(qū),transformer的架構(gòu)最早就誕生于谷歌。然而,在ChatGPT爆發(fā)之后,谷歌在面向消費者的AI產(chǎn)品推向市場方面有時有所滯后。
最近,谷歌推出自己的Pixel 9系列時,所搭載的AI功能讓人小小的驚艷了一把。
這表明,隨著AI技術(shù)的不斷成熟,主要參與者正在爭相成為最用戶友好、最強大且道德責任感最強的平臺。這樣的內(nèi)卷,倒是可以多來一些。
參考鏈接:
1.https://venturebeat.com/ai/googles-gemini-ai-gets-major-upgrade-with-gems-assistants-and-imagen-3/