微軟必應再強化！接入OpenAI DALL·E模型，文字生成圖像

作者：機器之心 2023-03-22 14:05:00

微軟必應完善文字生成圖像能力，Adobe 今日也發(fā)布 Firefly，殺入生成式 AI 這場游戲。

昨晚實在是有些熱鬧。

一邊英偉達 GTC 正在進行中，一邊谷歌正式開放了 Bard 的測試，這里微軟必應也不甘寂寞。

今日，微軟正式宣布，必應搜索引擎接入了 OpenAI 的 DALL·E 模型，增加了 AI 生成圖像的功能。

也就是說，在接入 ChatGPT 之后，必應再次強化，Bing Image Creator 能夠讓用戶用 DALL·E 模型生成圖像。

「對于擁有必應預覽版權限的用戶，Bing Image Creator 將完全集成到必應聊天體驗中，首先在創(chuàng)意模式下推出。」微軟消費者營銷主管 Yusuf Mehdi 解釋道。「通過輸入圖像描述，提供位置或活動等額外語境，選擇藝術風格，Image Creator 將根據(jù)用戶的想象生成圖像?！?/span>

必應具有三種響應模式：創(chuàng)意模式、平衡（balanced）模式和精確（precise）模式。創(chuàng)意模式下必應生成的結果通常是「原創(chuàng)和富有想象力的」，而精確模式則傾向于準確性和相關性，以獲得更真實和簡潔的答案。目前 Image Creator 只能在創(chuàng)意模式下使用。

值得一提的是，即使沒有必應預覽版的使用權限，用戶也可以通過直接訪問 bing.com/create 單獨使用 Image Creator 來嘗試其圖像生成功能，目前僅支持英文輸入。微軟表示，隨著時間的推移，它將支持更多的語言輸入。

此外，微軟還在必應中推出了新的 AI 支持的視覺故事（visual Stories）和 Knowledge Cards 2.0。

我們簡單為大家梳理介紹下 OpenAI 文本生成圖像的 DALL·E 系列研究。

2021 年 1 月 6 日，OpenAI 博客發(fā)布了兩個連接文本與圖像的神經網絡：DALL?E 和 CLIP。DALL?E 可以基于文本直接生成圖像，CLIP 則能夠完成圖像與文本類別的匹配。這兩項研究的發(fā)布，引起了社區(qū)極大的關注。

據(jù)博客介紹，DALL?E 可以將以自然語言形式表達的大量概念轉換為恰當?shù)膱D像，可以說是 GPT-3 的 120 億參數(shù)版本，可基于文本描述生成圖像。

DALL?E 示例。給出一句話「牛油果形狀的椅子」，就可以獲得綠油油、形態(tài)各異的牛油果椅子圖像。

2 個月后，DALL·E 的論文和代碼公開。

項目地址：https://github.com/openai/DALL-E
論文地址：https://arxiv.org/abs/2102.12092

2022 年 4 月 7 日左右，DALL?E 迎來了升級版本 ——DALL?E 2。與 DALL?E 相比，DALL?E 2 在生成用戶描述的圖像時具有更高的分辨率和更低的延遲。并且，新版本還增添了一些新的功能，比如對原始圖像進行編輯。

OpenAI 還公布了 DALL?E 2 的研究論文《Hierarchical Text-Conditional Image Generation with CLIP Latents》。

論文地址：https://cdn.openai.com/papers/dall-e-2.pdf

此次必應接入的 DALL?E 應該是經過更新迭代的。這在一定程度上，彌補了當前 ChatGPT 在跨模態(tài)生成方面缺失的體驗。不過等到 GPT-4 多模態(tài)能力開放后，也許能為我們帶來更多新的體驗。

最后提一句，今日還有一項生成式 AI 的發(fā)布引起了業(yè)內人士的關注與討論。

那就是 Adobe 發(fā)布 Firefly。這是一系列用于創(chuàng)意表達的生成式 AI 模型，讓用戶可以通過鍵入命令快速修改圖像。目前，F(xiàn)irefly 開放了測試版本，感興趣的讀者可以申請體驗。

如今看來，生成式 AI 這場游戲有越來越多的玩家涌入，競爭也變得越來越激烈。

責任編輯：張燕妮來源：機器之心

微軟 AI

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟必應再強化！接入OpenAI DALL·E模型，文字生成圖像