自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟 Phi-4 多模態(tài)及迷你模型上線,語音視覺文本全能

人工智能
微軟進(jìn)一步擴(kuò)展 Phi-4 家族,推出了兩款全新模型:Phi-4 多模態(tài)(Phi-4-multimodal)和 Phi-4 迷你(Phi-4-mini)。

2 月 27 日消息,微軟于 2024 年 12 月發(fā)布了 Phi-4,這是一款在同類產(chǎn)品中表現(xiàn)卓越的小型語言模型(SLM)。今日,微軟進(jìn)一步擴(kuò)展 Phi-4 家族,推出了兩款全新模型:Phi-4 多模態(tài)(Phi-4-multimodal)和 Phi-4 迷你(Phi-4-mini)。

Phi-4 多模態(tài)模型是微軟首款集成語音、視覺和文本處理的統(tǒng)一架構(gòu)多模態(tài)語言模型,參數(shù)量達(dá) 56 億。在多項(xiàng)基準(zhǔn)測(cè)試中,Phi-4 多模態(tài)的表現(xiàn)優(yōu)于其他現(xiàn)有的先進(jìn)全模態(tài)模型,例如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。

在語音相關(guān)任務(wù)中,Phi-4 多模態(tài)在自動(dòng)語音識(shí)別(ASR)和語音翻譯(ST)方面超越了 WhisperV3 和 SeamlessM4T-v2-Large 等專業(yè)語音模型。微軟表示,該模型在 Hugging Face OpenASR 排行榜上以 6.14% 的詞錯(cuò)誤率位居榜首。

在視覺相關(guān)任務(wù)中,Phi-4 多模態(tài)在數(shù)學(xué)和科學(xué)推理方面表現(xiàn)出色。在文檔理解、圖表理解、光學(xué)字符識(shí)別(OCR)和視覺科學(xué)推理等常見多模態(tài)能力方面,該模型與 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相媲美甚至超越。

IT之家注意到,Phi-4 迷你模型則專注于文本任務(wù),參數(shù)量為 38 億。其在文本推理、數(shù)學(xué)計(jì)算、編程、指令遵循和函數(shù)調(diào)用等任務(wù)中表現(xiàn)優(yōu)異,超越了多款流行的大型語言模型。

為確保新模型的安全性和可靠性,微軟邀請(qǐng)了內(nèi)部和外部安全專家進(jìn)行測(cè)試,并采用了微軟人工智能紅隊(duì)(AIRT)制定的策略。經(jīng)過進(jìn)一步優(yōu)化后,Phi-4 迷你和 Phi-4 多模態(tài)模型均可通過 ONNX Runtime 部署到設(shè)備端,實(shí)現(xiàn)跨平臺(tái)使用,適用于低成本和低延遲場(chǎng)景。

目前,Phi-4 多模態(tài)和 Phi-4 迷你模型已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目錄中上線,供開發(fā)者使用。

Phi-4 系列新模型的推出,標(biāo)志著高效 AI 技術(shù)的重大進(jìn)步,為各類人工智能應(yīng)用帶來了強(qiáng)大的多模態(tài)和文本處理能力。

責(zé)任編輯:龐桂玉 來源: IT之家
相關(guān)推薦

2025-02-28 09:32:00

2025-02-27 13:45:00

2025-03-10 02:00:00

2024-11-13 09:39:13

2024-05-17 16:02:00

2024-08-21 17:09:28

2025-01-08 08:21:16

2024-12-23 09:38:00

2023-12-27 14:09:00

2024-08-08 13:04:28

2024-07-23 10:34:57

2024-05-15 17:34:15

2024-12-12 00:25:09

2023-11-14 11:40:00

OpenAI人工智能

2025-04-07 00:00:00

多模態(tài)大模型

2024-11-22 14:27:00

2023-08-29 13:54:00

AI技術(shù)

2024-12-18 18:57:58

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)