微軟必應再強化!接入OpenAI DALL·E模型,文字生成圖像
昨晚實在是有些熱鬧。
一邊英偉達 GTC 正在進行中,一邊谷歌正式開放了 Bard 的測試,這里微軟必應也不甘寂寞。
今日,微軟正式宣布,必應搜索引擎接入了 OpenAI 的 DALL·E 模型,增加了 AI 生成圖像的功能。
也就是說,在接入 ChatGPT 之后,必應再次強化,Bing Image Creator 能夠讓用戶用 DALL·E 模型生成圖像。
「對于擁有必應預覽版權限的用戶,Bing Image Creator 將完全集成到必應聊天體驗中,首先在創(chuàng)意模式下推出。」微軟消費者營銷主管 Yusuf Mehdi 解釋道。「通過輸入圖像描述,提供位置或活動等額外語境,選擇藝術風格,Image Creator 將根據(jù)用戶的想象生成圖像?!?/span>
必應具有三種響應模式:創(chuàng)意模式、平衡(balanced)模式和精確(precise)模式。創(chuàng)意模式下必應生成的結果通常是「原創(chuàng)和富有想象力的」,而精確模式則傾向于準確性和相關性,以獲得更真實和簡潔的答案。目前 Image Creator 只能在創(chuàng)意模式下使用。
值得一提的是,即使沒有必應預覽版的使用權限,用戶也可以通過直接訪問 bing.com/create 單獨使用 Image Creator 來嘗試其圖像生成功能,目前僅支持英文輸入。微軟表示,隨著時間的推移,它將支持更多的語言輸入。
此外,微軟還在必應中推出了新的 AI 支持的視覺故事(visual Stories)和 Knowledge Cards 2.0。
我們簡單為大家梳理介紹下 OpenAI 文本生成圖像的 DALL·E 系列研究。
2021 年 1 月 6 日,OpenAI 博客發(fā)布了兩個連接文本與圖像的神經網絡:DALL?E 和 CLIP。DALL?E 可以基于文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。這兩項研究的發(fā)布,引起了社區(qū)極大的關注。
據(jù)博客介紹,DALL?E 可以將以自然語言形式表達的大量概念轉換為恰當?shù)膱D像,可以說是 GPT-3 的 120 億參數(shù)版本,可基于文本描述生成圖像。
DALL?E 示例。給出一句話「牛油果形狀的椅子」,就可以獲得綠油油、形態(tài)各異的牛油果椅子圖像。
2 個月后,DALL·E 的論文和代碼公開。
- 項目地址:https://github.com/openai/DALL-E
- 論文地址:https://arxiv.org/abs/2102.12092
2022 年 4 月 7 日左右,DALL?E 迎來了升級版本 ——DALL?E 2。與 DALL?E 相比,DALL?E 2 在生成用戶描述的圖像時具有更高的分辨率和更低的延遲。并且,新版本還增添了一些新的功能,比如對原始圖像進行編輯。
OpenAI 還公布了 DALL?E 2 的研究論文《Hierarchical Text-Conditional Image Generation with CLIP Latents》。
論文地址:https://cdn.openai.com/papers/dall-e-2.pdf
此次必應接入的 DALL?E 應該是經過更新迭代的。這在一定程度上,彌補了當前 ChatGPT 在跨模態(tài)生成方面缺失的體驗。不過等到 GPT-4 多模態(tài)能力開放后,也許能為我們帶來更多新的體驗。
最后提一句,今日還有一項生成式 AI 的發(fā)布引起了業(yè)內人士的關注與討論。
那就是 Adobe 發(fā)布 Firefly。這是一系列用于創(chuàng)意表達的生成式 AI 模型,讓用戶可以通過鍵入命令快速修改圖像。目前,F(xiàn)irefly 開放了測試版本,感興趣的讀者可以申請體驗。
如今看來,生成式 AI 這場游戲有越來越多的玩家涌入,競爭也變得越來越激烈。