自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟贏麻了!數(shù)十億文本-圖像對(duì)訓(xùn)練,多模態(tài)Florence開啟免費(fèi)體驗(yàn),登上Azure

人工智能 新聞
前有ChatGPT,后有Florence,微軟簡(jiǎn)直贏麻了!

2021年11月,微軟發(fā)布了一個(gè)多模態(tài)視覺基礎(chǔ)模型Florence(佛羅倫薩),橫掃超過40個(gè)基準(zhǔn)任務(wù),輕松適用于如分類、目標(biāo)檢測(cè)、VQA、看圖說話、視頻檢索和動(dòng)作識(shí)別等多個(gè)任務(wù)。

時(shí)隔一年半,F(xiàn)lorence正式開啟商用階段!

Florence能干什么?

最近,微軟全球人工智能首席技術(shù)官黃學(xué)東官宣了微軟 Florence 基礎(chǔ)模型的公開預(yù)覽版。

Florence模型經(jīng)過數(shù)十億文本-圖像對(duì)的訓(xùn)練,目前已集成進(jìn)Azure 認(rèn)知視覺服務(wù)中,在「價(jià)格」和「性能」上都已到達(dá)「生產(chǎn)環(huán)境」的要求,目前處于免費(fèi)試用階段。

圖片

改進(jìn)后的視覺服務(wù)使開發(fā)商能夠在不同行業(yè)創(chuàng)建前沿的、適應(yīng)市場(chǎng)的、負(fù)責(zé)任的計(jì)算機(jī)視覺應(yīng)用程序??蛻艨梢詫⑺麄兊臄?shù)據(jù)無縫地?cái)?shù)字化、分析并連接到自然語言的交互中,從圖像和視頻內(nèi)容中獲取更精確的信息,保護(hù)用戶遠(yuǎn)離有害內(nèi)容,增強(qiáng)安全性,并提升事件響應(yīng)速度。

Florence的實(shí)際能力也很強(qiáng)大,用戶可以在Vision Studio中進(jìn)行「開箱即用」的體驗(yàn)。

圖片

體驗(yàn)網(wǎng)址:https://portal.vision.cognitive.azure.com/gallery/featured

具體包括:

Dense Captions(詳細(xì)的描述):可以自動(dòng)提供內(nèi)容豐富的描述信息、設(shè)計(jì)建議、可訪問的替代文本、搜索引擎優(yōu)化、智能照片管理等以支持?jǐn)?shù)字化內(nèi)容。

圖像檢索:使用自然語言查詢,無縫地度量圖像和文本之間的相似性,從而改進(jìn)搜索推薦和廣告。

背景去除:可以方便地從原始背景中分割出人物和物體,并替換為其他背景場(chǎng)景,從而改變圖像的外觀和感覺。

模型定制:降低交付定制模型的成本和時(shí)間,能夠以更高精度來匹配獨(dú)特的業(yè)務(wù)需求,即便只有少量的可用圖像。

視頻摘要:搜索和交互視頻內(nèi)容,與人類同樣直觀的方式進(jìn)行思考和寫作。可以幫助找到相關(guān)內(nèi)容,并且不需要額外的元數(shù)據(jù)。

Reddit

Reddit消費(fèi)品產(chǎn)品經(jīng)理Tiffany Ong表示,通過微軟的Vision技術(shù),可以使用戶更容易發(fā)現(xiàn)和理解Reddit上的內(nèi)容。

新創(chuàng)建的圖片描述可以讓用戶更容易地訪問Reddit,使用圖像描述來幫助用戶提高文章的搜索結(jié)果,讓Reddit用戶有更多機(jī)會(huì)來探索網(wǎng)站上的圖片,參與對(duì)話,并最終建立聯(lián)系和社區(qū)感知。

Florence能夠?yàn)槊繌垐D片生成多達(dá)10000個(gè)標(biāo)簽,使得Reddit能夠更好地控制圖片中的物體數(shù)量,并幫助生成更好的圖像描述。

Microsoft 365

除了微軟數(shù)據(jù)中心之外,微軟也正在提升Microsoft 365應(yīng)用程序(包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive)中視覺服務(wù)的能力。

在圖像分割能力的幫助下,Teams正在推動(dòng)數(shù)字空間的創(chuàng)新型,把虛擬會(huì)議的體驗(yàn)提升到新高度。

PowerPoint、 Outlook和Word利用自動(dòng)替換文本的圖像描述來提高可訪問性。

Microsoft Designer和OneDrive正在使用改進(jìn)的圖像描述、圖像搜索和背景生成來簡(jiǎn)化圖像的可發(fā)現(xiàn)性和編輯。

Microsoft數(shù)據(jù)中心正在利用Vision Services來增強(qiáng)安全性和基礎(chǔ)設(shè)施的可靠性。

LinkedIn

LinkedIn的無障礙工程負(fù)責(zé)人Jennison Asuncon表示,LinkedIn上有超過40%的帖子中包含至少一張圖片,對(duì)于盲人或是低視力的用戶來說,視覺服務(wù)能夠讓所有用戶都有平等的閱讀機(jī)會(huì),并使他們能夠參與到在線對(duì)話中。

圖片

通過Azure視覺認(rèn)知服務(wù),LinkedIn可以提供自動(dòng)圖像描述來編輯和支持可選文本,這是一種全新的體驗(yàn)。

不僅我對(duì)此感到興奮,我的同事剛剛分享了一個(gè)他們參加活動(dòng)的照片,LinkedIn的首席執(zhí)行官Ryan Roslansky也在照片里。

負(fù)責(zé)任地創(chuàng)新

回顧負(fù)責(zé)任的人工智能原則,可以了解到微軟是如何致力于開發(fā)人工智能系統(tǒng),以提升世界的可訪問性。

圖片

微軟致力于幫助各個(gè)組織充分利用人工智能,并正在大力投資于提供技術(shù)、資源和專業(yè)知識(shí)的項(xiàng)目,以增強(qiáng)那些致力于創(chuàng)造一個(gè)更可持續(xù)、更安全和更容易進(jìn)入的世界的人的能力。

多模態(tài)是未來

包括微軟、谷歌在內(nèi)的多個(gè)科技巨頭在人工智能發(fā)展方向上出奇地一致,認(rèn)為「多模態(tài)模型」是提高人工智能系統(tǒng)能力的最佳途徑,也就是單個(gè)模型可以同時(shí)理解語言、圖像、視頻和音頻等,并能夠完成單模態(tài)模型無法完成的任務(wù),比如給視頻添加文字描述等。

圖片

為什么不把幾個(gè)「單模態(tài)」模型串在一起,以達(dá)到同樣的目的,比如說用一個(gè)模型來理解圖像,而另一個(gè)模型用來理解語言?

第一個(gè)原因是,由其他模態(tài)提供的背景信息,多模態(tài)模型可以在某些情況下比單模態(tài)模型在同一任務(wù)中表現(xiàn)得更好。

比如說,一個(gè)能夠理解圖像、定價(jià)數(shù)據(jù)和購買歷史的人工智能助手可以比一個(gè)「只理解定價(jià)數(shù)據(jù)」的AI能夠提供更好的個(gè)性化產(chǎn)品建議。

并且從計(jì)算的角度來看,多模態(tài)模型往往更有效率,可以提升數(shù)據(jù)處理的速度,降低后端的成本。

毫無疑問,所有商業(yè)公司都渴望降本增效。

Florence能夠理解圖像、視頻和語言以及這些模態(tài)之間的關(guān)系,從而可以做到一些單模態(tài)無法完成的任務(wù),比如測(cè)量圖像和文本之間的相似度,分割照片中的對(duì)象,然后把它們粘貼到另一個(gè)背景上。

幾乎所有AI模型的訓(xùn)練都面臨數(shù)據(jù)版權(quán)問題,Azure AI的企業(yè)副總裁(CVP)John Montgomery在回答有關(guān)「Florence的訓(xùn)練數(shù)據(jù)」時(shí)沒有透露太多信息,只是說Florence使用的是「負(fù)責(zé)任地獲取」的數(shù)據(jù)源,包括來自合作伙伴的數(shù)據(jù);此外,Montgomery表示,訓(xùn)練數(shù)據(jù)中刪除了可能存在問題的內(nèi)容,也是公開訓(xùn)練數(shù)據(jù)集的常見特點(diǎn)。

圖片

Montgomery認(rèn)為,當(dāng)使用大型基礎(chǔ)模型時(shí),最重要的是要確保訓(xùn)練數(shù)據(jù)集的質(zhì)量,為每個(gè)視覺任務(wù)的適應(yīng)模型創(chuàng)建基礎(chǔ),微軟針對(duì)每個(gè)視覺任務(wù)的調(diào)整模型都經(jīng)過了公平性、對(duì)抗性和挑戰(zhàn)性案例的測(cè)試,并實(shí)現(xiàn)了與 Azure Open AI Service 和 DALL-E 相同的內(nèi)容審核服務(wù)。

在未來,消費(fèi)者可以使用Florence做更多的事情,比如檢測(cè)制造過程中的缺陷,以及在零售店實(shí)現(xiàn)自助結(jié)賬。

不過Montgomery指出這些用例實(shí)際上并不需要多模態(tài)視覺模型,但他斷言,多模態(tài)在這個(gè)過程中可以增加一些有價(jià)值的東西。

Florence是一個(gè)經(jīng)過「完全重新思考」的視覺模型,一旦在圖像和文本之間實(shí)現(xiàn)了簡(jiǎn)單且高質(zhì)量的翻譯過程,就會(huì)打開一個(gè)全新的、充滿未知可能性的世界。

客戶能夠體驗(yàn)到顯著改進(jìn)的圖像搜索,將圖像和視覺模型以及語言和語音等其它模型類型訓(xùn)練成全新類型的應(yīng)用,并輕松提高自定義模型的質(zhì)量。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-05-27 00:50:00

2012-12-04 15:05:09

微軟TechEd 2012Windows Azu

2023-03-14 12:42:58

人工智能ChatGPT微軟

2015-07-02 10:50:42

微軟諾基亞

2023-03-08 10:15:43

AI計(jì)算機(jī)視覺

2009-03-02 16:35:35

SaaSZoho

2014-04-04 11:06:02

微軟Microsoft A云開發(fā)

2025-04-07 00:00:00

多模態(tài)大模型

2020-09-17 11:02:40

BLESA藍(lán)牙攻擊漏洞

2022-12-16 15:25:00

AIScience

2017-12-14 14:06:43

物聯(lián)網(wǎng)云計(jì)算數(shù)據(jù)

2024-06-25 12:47:06

2024-03-22 15:08:47

CLIP機(jī)器學(xué)習(xí)人工智能

2013-01-22 17:33:30

2020-05-20 12:52:03

漏洞攻擊藍(lán)牙

2021-12-17 11:29:03

WiFi漏洞芯片

2023-09-12 13:59:41

OpenAI數(shù)據(jù)集

2025-02-27 09:51:04

2023-02-16 22:34:20

微軟谷歌ChatGPT

2024-04-08 00:12:19

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)