自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟首個(gè)多模態(tài)Phi-4問(wèn)世,56億參數(shù)秒殺GPT-4o!LoRA華人大佬帶隊(duì)

人工智能 新聞
Phi-4系列模型上新了!56億參數(shù)Phi-4-multimodal集語(yǔ)音、視覺(jué)、文本多模態(tài)于一體,讀圖推理性能碾壓GPT-4o;另一款38億參數(shù)Phi-4-mini在推理、數(shù)學(xué)、編程等任務(wù)中超越了參數(shù)更大的LLM,支持128K token上下文。

今天,微軟CEO納德拉官宣,Phi系列家族新增兩員:Phi-4-multimodal和Phi-4-mini。

圖片

這是微軟Phi系列小模型(SLM)中的最新模型,尤其是Phi-4-multimodal是微軟的首款多模態(tài)模型。

這兩款模型雖然參數(shù)不大(56億和38億),但性能強(qiáng)勁,甚至不輸一些大型的開(kāi)源模型,例如Llama-3.3-70B-Instruct、Qwen2.5-72B-Instruct。

圖片

其中,Phi-4-multimodal是一款單體模型,采用混合LoRA技術(shù),集成了語(yǔ)音、視覺(jué)和文本多模態(tài)能力,皆可在同一表示空間內(nèi)同時(shí)處理。

Phi-4-mini支持128k上下文,還可以借用函數(shù)調(diào)用功能,在基于文本的任務(wù)中表現(xiàn)出色,以緊湊的形式提供了高精度和可擴(kuò)展性。

與此同時(shí),Phi-4新款模型39頁(yè)技術(shù)報(bào)告新鮮出爐了。

圖片

論文地址:https://huggingface.co/microsoft/Phi-4-multimodal-instruct/blob/main/phi_4_mm.tech_report.02252025.pdf

值得一提的是,Phi-4-mini在Math-500數(shù)學(xué)測(cè)試集中,拿下了90.4分驚人的成績(jī),與蒸餾千問(wèn)7B后的DeepSeek R1、o1-mini不相上下。

圖片

現(xiàn)在,Phi-4-multimodal可以在Azure AI Foundry、HuggingFace和NVIDIA API Catalog中使用,開(kāi)發(fā)者可以在NVIDIA API Catalog上探索Phi-4-multimodal的全部潛力,從而輕松地進(jìn)行實(shí)驗(yàn)和創(chuàng)新。

圖片

傳送門(mén):https://huggingface.co/microsoft/Phi-4-multimodal-instruct

Phi-4-multimodal,微軟首個(gè)多模態(tài)

Phi-4-multimodal作為微軟首個(gè)全模態(tài)語(yǔ)言模型,標(biāo)志著微軟人工智能開(kāi)發(fā)的一個(gè)新里程碑。

它是一個(gè)56億參數(shù)的模型,將語(yǔ)音、視覺(jué)和文本處理無(wú)縫集成到一個(gè)統(tǒng)一的架構(gòu)中。

通過(guò)利用先進(jìn)的跨模態(tài)學(xué)習(xí)技術(shù),該模型實(shí)現(xiàn)了更自然、更具上下文感知能力的交互,使設(shè)備能夠同時(shí)理解和推理多種輸入模態(tài)。

無(wú)論是解釋口語(yǔ)、分析圖像還是處理文本信息,它都能提供高效、低延遲的推理——同時(shí)還針對(duì)設(shè)備端執(zhí)行和減少計(jì)算開(kāi)銷(xiāo)進(jìn)行了優(yōu)化。

舉個(gè)栗子,上傳一張與不同時(shí)代(Z世代、千禧一代、X世代、嬰兒潮一代等)在工作中使用非組織提供的AI工具的百分比圖像。

Phi-4-multimodal看懂圖之后,就能幫你出一個(gè)Markdown形式的表格,并且與之相關(guān)的問(wèn)題均可以答對(duì)。

圖片

原生支持多模態(tài)

Phi-4-multimodal是一個(gè)單一模型,采用了混合LoRA(Low-Rank Adaptation)技術(shù),集成了語(yǔ)音、視覺(jué)和語(yǔ)言功能,所有這些都在同一個(gè)表示空間內(nèi)同時(shí)處理。

其結(jié)果是一個(gè)統(tǒng)一的單一模型,能夠處理文本、音頻和視覺(jué)輸入,無(wú)需復(fù)雜的處理流程或?yàn)椴煌B(tài)使用單獨(dú)的模型。

Phi-4-multimodal基于一種全新的架構(gòu),顯著提升了效率和可擴(kuò)展性。它擁有更大的詞匯量以改進(jìn)處理能力,支持多語(yǔ)言功能,并將語(yǔ)言推理與多模態(tài)輸入相結(jié)合。所有這些都集成在一個(gè)強(qiáng)大、緊湊且高效的模型中,非常適合在設(shè)備端和邊緣計(jì)算平臺(tái)上部署。

圖片Phi-4-multimodal整體架構(gòu)

解鎖新能力

Phi-4-multimodal能夠同時(shí)處理視覺(jué)和音頻內(nèi)容。

下圖1展示了當(dāng)視覺(jué)內(nèi)容的輸入為合成語(yǔ)音時(shí),模型在圖表/表格理解和文檔推理任務(wù)上的表現(xiàn)。與其他現(xiàn)有的能夠同時(shí)處理音頻和視覺(jué)信號(hào)作為輸入的最先進(jìn)多模態(tài)模型相比,Phi-4-multimodal在多項(xiàng)基準(zhǔn)測(cè)試中取得了顯著更強(qiáng)的性能。

圖片Phi-4-Multimodal-Instruct音頻和視覺(jué)基準(zhǔn)

Phi-4-multimodal在語(yǔ)音相關(guān)任務(wù)中展現(xiàn)了卓越的能力,成為多個(gè)領(lǐng)域的領(lǐng)先開(kāi)源模型。

它在自動(dòng)語(yǔ)音識(shí)別 (ASR) 和語(yǔ)音翻譯 (ST) 方面超越了WhisperV3和SeamlessM4T-v2-Large等專(zhuān)業(yè)模型。該模型以驚人的6.14%詞錯(cuò)誤率登頂Huggingface OpenASR排行榜,超過(guò)了截至2025年2月之前的最佳表現(xiàn)6.5%。

此外,Phi-4-multimodal是少數(shù)成功實(shí)現(xiàn)語(yǔ)音摘要并達(dá)到與GPT-4o模型相當(dāng)性能水平的開(kāi)源模型之一。

在語(yǔ)音問(wèn)答 (QA) 任務(wù)中,該模型與Gemini-2.0-Flash和GPT-4o-realtime-preview等相近模型存在差距,因?yàn)槠漭^小的模型規(guī)模導(dǎo)致事實(shí)性問(wèn)答知識(shí)的能力較弱。

下圖2比較了不同AI模型在語(yǔ)音識(shí)別、語(yǔ)音翻譯、語(yǔ)音問(wèn)答、音頻理解和語(yǔ)音摘要等類(lèi)別中的表現(xiàn)。模型包括Phi-1-Multimodal-Instruct、Qwen-2-Audio、WhisperV3、SeamlessM4T-V2-Large、Gemini-2.0-Flash和GPT-4-turbo-preview-10-01-2024。

Phi-4-Multimodal-Instruct在語(yǔ)音識(shí)別和翻譯中表現(xiàn)優(yōu)異,而Gemini-2.0-Flash和GPT-4o-RT-preview在問(wèn)答和音頻理解任務(wù)中領(lǐng)先。

圖片

圖2:Phi-4-Multimodal-Instruct語(yǔ)音基準(zhǔn)測(cè)試

以下視頻為Phi-4 Multimodal分析口語(yǔ)語(yǔ)言,以幫助規(guī)劃前往西雅圖的旅行,展示了其先進(jìn)的音頻處理和推薦能力。

Phi-4-multimodal僅擁有56億個(gè)參數(shù),卻在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)了卓越的視覺(jué)能力,尤其在數(shù)學(xué)和科學(xué)推理方面表現(xiàn)突出。

盡管其規(guī)模較小,該模型在通用多模態(tài)能力上仍保持競(jìng)爭(zhēng)力,例如文檔和圖表理解、光學(xué)字符識(shí)別 (OCR) 以及視覺(jué)科學(xué)推理,甚至超過(guò)了Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等模型。

如下圖3所示,Phi-4-Multimodal-Instruct在多個(gè)任務(wù)中表現(xiàn)出色,如MMMU (55.1)、ScienceQA (97.5) 和 ChartQA (81.4),而GPT-4o和Gemini-2.0-Flash在綜合性能上得分較高。

圖片

圖3:Phi-4-Multimodal-Instruct視覺(jué)基準(zhǔn)測(cè)試

以下視頻為Phi-4-Multimodal如何通過(guò)視覺(jué)輸入解決復(fù)雜的數(shù)學(xué)問(wèn)題,展示了其處理和解決圖像中呈現(xiàn)的方程的能力。

Phi-4-mini,數(shù)學(xué)媲美o1-mini

Phi-4-mini擁有38億參數(shù),它是一個(gè)稠密、僅包含解碼器的Transformer模型,具有分組查詢(xún)注意力、20萬(wàn)詞匯量和共享輸入輸出嵌入,旨在提高速度和效率。

盡管規(guī)模小巧,但在推理、數(shù)學(xué)、編程、指令跟隨和函數(shù)調(diào)用等任務(wù)中,它的表現(xiàn)優(yōu)于更大的模型。

該模型支持長(zhǎng)達(dá)128K token的序列,提供高精度和可擴(kuò)展性,使其成為先進(jìn)AI應(yīng)用的強(qiáng)大解決方案。

為了了解模型質(zhì)量,微軟將Phi-4-mini與一系列模型在如下圖4所示的多個(gè)基準(zhǔn)上進(jìn)行比較。

圖片

Phi-4-mini語(yǔ)言基準(zhǔn)測(cè)試

在多種基準(zhǔn)測(cè)試中,Phi-4-mini展現(xiàn)出了出色的性能。函數(shù)調(diào)用、指令跟隨、長(zhǎng)上下文處理和推理等強(qiáng)大能力,使它能夠訪(fǎng)問(wèn)外部知識(shí)和功能。

通過(guò)標(biāo)準(zhǔn)化協(xié)議,函數(shù)調(diào)用使模型能夠與結(jié)構(gòu)化編程接口無(wú)縫集成,當(dāng)用戶(hù)發(fā)出請(qǐng)求時(shí),它可以對(duì)查詢(xún)進(jìn)行推理,識(shí)別并調(diào)用帶有適當(dāng)參數(shù)的相關(guān)函數(shù),接收函數(shù)輸出,并將這些結(jié)果融入到響應(yīng)中,創(chuàng)建了一個(gè)基于智能體的可擴(kuò)展的系統(tǒng)。

定制化與跨平臺(tái)

Phi-4-mini和Phi-4-multimodal模型的規(guī)模較小,這一特點(diǎn)讓它們能在計(jì)算資源有限的推理環(huán)境中使用。

在設(shè)備端,通過(guò)ONNX Runtime進(jìn)一步優(yōu)化后,兩款模型可以跨平臺(tái)使用。它們對(duì)計(jì)算資源需求低,延遲表現(xiàn)也更理想。

同時(shí),模型擁有更長(zhǎng)的上下文窗口,推理和邏輯能力強(qiáng)大,非常適合用于分析任務(wù)。較小的模型規(guī)模讓微調(diào)或定制變得更輕松,成本也更低。

下表是Phi-4-multimodal在微調(diào)場(chǎng)景中的示例。

圖片

小模型,跑起來(lái)了

從一開(kāi)始,微軟設(shè)計(jì)Phi系列模型的初衷,便是加速SLM實(shí)際落地應(yīng)用。

而如今,有了多模態(tài)Phi-4-multimodal,以及參數(shù)更少、數(shù)推更強(qiáng)的Phi-4-mini,又能賦能一大片應(yīng)用了。

嵌入智能設(shè)備

手機(jī)制造商可以將Phi-4-multimodal直接集成到手機(jī)中,用戶(hù)可以使用先進(jìn)功能,如實(shí)時(shí)語(yǔ)言翻譯、增強(qiáng)的照片和視頻分析,能理解并回應(yīng)復(fù)雜查詢(xún)的智能個(gè)人助理。

這將在手機(jī)上直接提供強(qiáng)大的AI能力,提升用戶(hù)體驗(yàn),確保低延遲和高效率。

汽車(chē)領(lǐng)域

汽車(chē)公司將模型集成到車(chē)載輔助系統(tǒng)中,車(chē)輛可以理解并回應(yīng)語(yǔ)音指令、識(shí)別駕駛員手勢(shì),以及分析來(lái)自攝像頭的視覺(jué)輸入。

它可以通過(guò)面部識(shí)別檢測(cè)駕駛員的疲勞狀態(tài)并提供實(shí)時(shí)警報(bào),從而提高駕駛安全性。

此外,它還能提供無(wú)縫的導(dǎo)航輔助、解讀路標(biāo)并提供情境信息,在聯(lián)網(wǎng)及離線(xiàn)狀態(tài)下,都能創(chuàng)造更直觀、更安全的駕駛體驗(yàn)。

金融服務(wù)

金融服務(wù)公司集成Phi-4-mini模型,以實(shí)現(xiàn)復(fù)雜金融計(jì)算的自動(dòng)化、生成詳細(xì)報(bào)告,并翻譯成多種語(yǔ)言。

例如,該模型可以通過(guò)執(zhí)行風(fēng)險(xiǎn)評(píng)估、投資組合管理和財(cái)務(wù)預(yù)測(cè)所需的復(fù)雜數(shù)學(xué)計(jì)算,為分析師提供幫助。

此外,它還能將財(cái)務(wù)報(bào)表、監(jiān)管文件和客戶(hù)溝通內(nèi)容翻譯成多種語(yǔ)言,有助于改善全球客戶(hù)關(guān)系。

以下視頻為Phi-4-mini作為智能體的功能,展示了其在復(fù)雜場(chǎng)景中的推理和任務(wù)執(zhí)行能力。

微軟19年老將,LoRA核心締造者帶隊(duì)

作為微軟副總裁和GenAI團(tuán)隊(duì)負(fù)責(zé)人,19年老將Weizhu Chen的研究為AI領(lǐng)域帶來(lái)了多項(xiàng)突破性貢獻(xiàn),包括LoRA、DeBERTa、Phi和Rho-1等技術(shù)。

他開(kāi)創(chuàng)的LoRA技術(shù)革新了大語(yǔ)言模型的應(yīng)用方式,使其更加高效、經(jīng)濟(jì)且易于部署,不僅為眾多微軟產(chǎn)品提供了強(qiáng)大支持,還對(duì)整個(gè)行業(yè)產(chǎn)生了深遠(yuǎn)影響。

圖片

在微軟,他的工作讓公司能夠?yàn)樘囟óa(chǎn)品場(chǎng)景訓(xùn)練專(zhuān)業(yè)模型,尤其專(zhuān)注于OpenAI模型的應(yīng)用。并且,還為Azure AI、GitHub、Office、Biz Apps、MAI、DevDiv和Security等多個(gè)產(chǎn)品部門(mén)創(chuàng)造了顯著的業(yè)務(wù)價(jià)值。

比如在2022年共同推出的GitHub Copilot,就一舉成為了微軟首個(gè)極為成功的Copilot產(chǎn)品。

同時(shí),他還將BerryRL流程整合到微軟產(chǎn)品中的工作,顯著提升了Codex-V2和SWE-Agent等多個(gè)應(yīng)用的模型訓(xùn)練效率和質(zhì)量。

在此之前,他在香港科技大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位。

圖片圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-02-27 09:51:04

2025-02-27 13:45:00

2024-12-23 09:38:00

2024-05-20 08:20:00

OpenAI模型

2024-06-28 18:13:05

2024-05-21 12:23:17

2024-06-21 13:04:43

2024-06-05 08:29:35

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2025-04-08 02:26:00

2024-12-13 13:04:13

模型Phi-4AI

2024-06-12 11:50:23

2024-06-17 18:06:17

2024-05-20 08:50:00

模型神經(jīng)網(wǎng)絡(luò)

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-05-24 14:04:04

2024-11-28 15:51:19

GPT-4o微軟

2025-02-18 12:30:00

2024-08-30 14:35:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)