自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

蘋果AI震撼上線iPhone,進(jìn)化版Siri卻沒(méi)有ChatGPT!47頁(yè)技術(shù)報(bào)告揭秘自研模型

人工智能 新聞
今早,所有開發(fā)者們被突如其來(lái)iOS 18.1測(cè)試版砸暈了!沒(méi)想到,蘋果AI這就可以上手嘗鮮了,一大波測(cè)評(píng)刷屏全網(wǎng)。更驚喜的是,蘋果AI背后的基礎(chǔ)模型47頁(yè)技術(shù)報(bào)告,也一并上線了。

一大早,人們期待已久的「蘋果AI」首個(gè)預(yù)覽版,正式向開發(fā)者們推送了!

圖片

iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1三大系統(tǒng)中,全都植入了蘋果AI的最新能力。

那些首批拿到iOS18.1測(cè)試版的用戶,已經(jīng)在歡呼雀躍,一波又一波的實(shí)測(cè)分享鋪屏全網(wǎng)。

圖片

最新推出的預(yù)覽版,包含了許多驚喜(速覽版):

  • 全新Siri:?jiǎn)拘褧r(shí)會(huì)在屏幕邊緣亮起柔光;與用戶交流,可在文本語(yǔ)音之間隨意切換;說(shuō)話者磕磕絆絆時(shí),也能聽懂指令;還可以回答有關(guān)蘋果產(chǎn)品故障排除問(wèn)題
  • 寫作工具(Writing Tools):可在任何場(chǎng)景中,對(duì)文本改寫、校對(duì)和總結(jié)摘要。(備忘錄、文檔、三方APP均可)
  • 專注模式(Reduce Interruptions):僅顯示需要即刻看到的通知
  • 照片功能:用自然語(yǔ)言搜索照片,制作影片
  • 為郵件、信息和語(yǔ)音郵件轉(zhuǎn)錄生成人工智能摘要

圖片

此外,還有一些功能,蘋果表示將在明年推出,包括ChatGPT集成、圖像/Emoji生成、照片自動(dòng)清理、具有屏幕感知的超強(qiáng)Siri。

順便提一句,目前,iOS18.1測(cè)試版(包括iPadOS、macOS)僅限美國(guó)開放,國(guó)內(nèi)還未上線。

而且,手機(jī)中也只有iPhone 15 Pro、iPhone 15 Pro Max支持新系統(tǒng)。

圖片

根據(jù)系統(tǒng)介紹,iOS18.1測(cè)試版占用的內(nèi)存空間共15.44GB,其中iOS系統(tǒng)容量12.58GB,而蘋果AI僅占用了2.86GB。

這是因?yàn)?,蘋果用在端側(cè)設(shè)備上的模型,參數(shù)僅有30億。

圖片

關(guān)于模型更詳細(xì)的介紹,全都藏在了新鮮出爐的蘋果AI技術(shù)報(bào)告中。

48頁(yè)超長(zhǎng)論文中,覆蓋了蘋果LLM的設(shè)計(jì)與評(píng)估,包括架構(gòu)、數(shù)據(jù)管理、預(yù)訓(xùn)練和后訓(xùn)練的recipe、優(yōu)化、功能適應(yīng)、和評(píng)估結(jié)果。

圖片

論文地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

具體來(lái)說(shuō),蘋果開發(fā)了兩種全新基礎(chǔ)語(yǔ)言模型,構(gòu)成了蘋果AI的核心:

一個(gè)是端側(cè)模型AFM-on-device,大約有30億參數(shù),優(yōu)化后可以在iPhone和其他終端設(shè)備上運(yùn)行,具備更高效率和響應(yīng)能力。

另一個(gè)是可以在蘋果云服務(wù)器中運(yùn)行的更大參數(shù)的模型,稱為AFM-server,專為密集型任務(wù)設(shè)計(jì),并使用私人云計(jì)算(Private Cloud Compute)的系統(tǒng)來(lái)保護(hù)用戶數(shù)據(jù)。

圖片

還記得上個(gè)月的WWDC大會(huì)上,庫(kù)克向全世界宣布了蘋果AI的強(qiáng)大功用,讓蘋果全家桶得到了史詩(shī)級(jí)升級(jí)。

全網(wǎng)紛紛認(rèn)為AI瞬間不香了,還是得看蘋果AI。

圖片

一般來(lái)說(shuō),蘋果通常會(huì)最先發(fā)布iOS18主系統(tǒng)。

卻沒(méi)想到,這次蘋果竟在這么短的時(shí)間內(nèi),先將測(cè)試版送到首批開發(fā)者手中。

這一點(diǎn),彭博社最新報(bào)道中指出,蘋果打破一貫的軟件發(fā)布節(jié)奏,是因?yàn)樘O果AI還需要更多測(cè)試時(shí)間。

圖片

不知,首批嘗鮮者們,都發(fā)現(xiàn)了哪些新大陸?

網(wǎng)友實(shí)測(cè)

蘋果科技博主Brandon Butch第一時(shí)間,制作了展示iOS18.1測(cè)試版中蘋果AI功能最全面的視頻解說(shuō)。

圖片

再磕磣的話,都能和順悅耳

他表示,蘋果AI幫助自己找到了一種更好的方式,表達(dá)自己想說(shuō)的話。

圖片

在消息界面中,輸入框?qū)懴孪胝f(shuō)的話。

然后全選點(diǎn)擊蘋果AI按鈕,就可以利用寫作工具中的「友好的」,AI立刻將這段話的語(yǔ)氣變得更加婉轉(zhuǎn)。

圖片圖片

再來(lái)看另一位網(wǎng)友,特意寫了一句臟話,讓AI改寫后舒坦了許多。

語(yǔ)法錯(cuò)字校對(duì)

另外,Butch驚嘆道,Grammarly已經(jīng)被扼殺了,這才是真正的蘋果AI。

圖片

就看下面這段話中,informutive拼寫錯(cuò)誤,what首字母沒(méi)有大寫,還有what do you think末尾應(yīng)該是問(wèn)號(hào),而不是句號(hào)。

可以看出,蘋果AI全都幫你糾正過(guò)來(lái)了。

圖片圖片

還有郵件中蘋果AI能力,聽著就讓人瘋狂。

圖片

同樣支持如上備忘錄、信息中的寫作工具的能力,包括校對(duì)、重寫等等。

圖片

一封郵件的總結(jié),會(huì)在最上面呈現(xiàn)出來(lái)。

圖片

蘋果AI寫作工具的動(dòng)畫效果「非常蘋果」,比起模型回應(yīng)時(shí)的密集標(biāo)token流,一切顯得那么平滑。

圖片

全新Siri,反應(yīng)超絲滑

再看呼叫Siri的屏幕邊緣效果,不得不說(shuō)蘋果你是最懂設(shè)計(jì)的。

圖片

圖片

再來(lái)看iPad版的Siri。

圖片

Humane的AI工程師,蘋果前工程師測(cè)試Siri后稱贊道,蘋果AI速度非常、非常地快。

圖片

喚醒Siri,問(wèn)一問(wèn)埃菲爾鐵塔有多高?它位于哪里?

順便再讓它推送一些關(guān)于巴黎奧運(yùn)會(huì)近期新聞,以及如何觀看奧運(yùn)會(huì)賽事。

不一會(huì)兒功夫,蘋果AI都給解答了。

AI轉(zhuǎn)錄總結(jié),重要電話內(nèi)容不怕遺漏

此外,蘋果AI還可以幫你將電話轉(zhuǎn)錄成筆記,記錄下你所談?wù)摰膬?nèi)容。

圖片

如果按下錄音按鈕,主叫方和受話方都會(huì)播放提示音,提示通話將被錄音。

圖片

錄音完成后,可直接行通知浮窗進(jìn)入查看錄音內(nèi)容。

圖片

專注模式

使用蘋果AI來(lái)自動(dòng)分析通知內(nèi)容,檢測(cè)重要通知!

圖片

重要人的通知,就會(huì)pin在屏幕最下方。

圖片

照片搜索,吐槽不少

當(dāng)然了,iOS18.1之所以最先推出,就是為了讓開發(fā)者們多多測(cè)試,去發(fā)現(xiàn)報(bào)告問(wèn)題,更好地改進(jìn)蘋果AI能力。

這不,一位YouTube博主在測(cè)試照片功能時(shí),卻發(fā)現(xiàn)Siri依舊「智障」。

圖片

博主最先問(wèn)了一句,「Siri向我展示2022年感恩節(jié)旅行的照片」。Siri卻回答:打開健康應(yīng)用程序的次數(shù)....

然后,他再次重復(fù)了剛剛的問(wèn)題,「Siri,從照片中查找關(guān)于感恩節(jié)的照片」。

搞笑的的是,Siri直接從互聯(lián)網(wǎng)上搜索了一大堆感恩節(jié)相關(guān)的圖片。

當(dāng)他再次問(wèn)道,「Siri,向我展示去臺(tái)灣旅行的照片」,Siri將原話聽成了關(guān)鍵詞,從網(wǎng)上搜索了「My Trip to Twaiwan」。

然后他繼續(xù)問(wèn),Siri依舊不知所云。

固執(zhí)的博主,破碎的Siri,簡(jiǎn)直笑不活了.....

正如開頭所述,能夠把蘋果AI裝進(jìn)終端設(shè)備,背后是來(lái)自團(tuán)隊(duì)自研的基礎(chǔ)模型,在發(fā)光發(fā)熱。

iPhone的AI革命:30億參數(shù)裝進(jìn)口袋

具體來(lái)說(shuō),AFM是一款基于Transformer架構(gòu)的僅解碼器稠密模型。

圖片

其設(shè)計(jì)思路如下:

  • 共享輸入/輸出嵌入矩陣,減少參數(shù)的內(nèi)存使用
  • 使用RMSNorm的預(yù)歸一化,提高訓(xùn)練穩(wěn)定性
  • 查詢/鍵歸一化,提高訓(xùn)練穩(wěn)定性
  • 具有8個(gè)鍵值頭的分組查詢注意力(GQA),減少KV緩存的內(nèi)存占用
  • 更高效的SwiGLU激活
  • 基礎(chǔ)頻率為500k的RoPE位置嵌入,支持長(zhǎng)上下文

圖片

適配器架構(gòu)

通過(guò)使用LoRA適配器,蘋果的基礎(chǔ)模型可以動(dòng)態(tài)地根據(jù)當(dāng)前任務(wù)即時(shí)專門化。

這些小型神經(jīng)網(wǎng)絡(luò)模塊可以插入基礎(chǔ)模型的各個(gè)層,用于對(duì)模型進(jìn)行特定任務(wù)的微調(diào)。

為了促進(jìn)適配器的訓(xùn)練,蘋果還創(chuàng)建了一個(gè)高效的基礎(chǔ)設(shè)施,使得基礎(chǔ)模型或訓(xùn)練數(shù)據(jù)更新或需要新功能時(shí),能夠快速添加、重新訓(xùn)練、測(cè)試和部署適配器。

優(yōu)化

由于需要滿足用戶的日常使用,因此團(tuán)隊(duì)采用了多種優(yōu)化和量化技術(shù),在保持模型質(zhì)量的同時(shí),顯著減少了內(nèi)存占用、延遲和功耗。

圖片

方法

在后訓(xùn)練階段,蘋果對(duì)模型進(jìn)行了壓縮和量化,平均每個(gè)權(quán)重低于4位。

量化后的模型通常會(huì)有一定程度的質(zhì)量損失。因此,研發(fā)團(tuán)隊(duì)并不是直接將量化模型交給應(yīng)用團(tuán)隊(duì)進(jìn)行功能開發(fā),而是附加了一組參數(shù)高效的LoRA適配器來(lái)恢復(fù)模型質(zhì)量。

然后,各產(chǎn)品團(tuán)隊(duì)會(huì)通過(guò)從精度恢復(fù)適配器(accuracy-recovery adapters)初始化適配器權(quán)重,微調(diào)其特定功能的LoRA適配器,同時(shí)保持量化的基礎(chǔ)模型不變。

值得注意的是,訓(xùn)練精度恢復(fù)適配器是樣本高效的,可以看作是訓(xùn)練基礎(chǔ)模型的迷你版本。

其中,在適配器的預(yù)訓(xùn)練階段,只需要大約100億個(gè)token(約占基礎(chǔ)模型訓(xùn)練的0.15%)即可完全恢復(fù)量化模型的能力。

由于應(yīng)用適配器將從這些精度恢復(fù)適配器進(jìn)行微調(diào),它們不會(huì)產(chǎn)生任何額外的內(nèi)存使用或推理成本。

關(guān)于適配器的大小,團(tuán)隊(duì)發(fā)現(xiàn)秩為16的適配器在模型容量和推理性能之間提供了最佳平衡。

然而,為了提供更多的靈活性,蘋果提供了一套不同秩的精度恢復(fù)適配器供應(yīng)用團(tuán)隊(duì)選擇。

量化

精度恢復(fù)適配器帶來(lái)的另一個(gè)好處是它們?cè)试S更靈活的量化方案選擇。

過(guò)去在量化大語(yǔ)言模型時(shí),通常會(huì)將權(quán)重分成小塊,通過(guò)對(duì)應(yīng)的最大絕對(duì)值來(lái)規(guī)范每個(gè)塊,以過(guò)濾掉異常值,然后在塊的基礎(chǔ)上應(yīng)用量化算法。

雖然較大的塊大小會(huì)降低每個(gè)權(quán)重的有效位數(shù)并提高吞吐量,但量化損失也會(huì)增加。為了平衡這種權(quán)衡,通常將塊大小設(shè)置為較小的值,如64或32。

但在蘋果的實(shí)驗(yàn)中,團(tuán)隊(duì)發(fā)現(xiàn)精度恢復(fù)適配器可以顯著改善這種權(quán)衡的帕累托前沿(Pareto front)。

對(duì)于更激進(jìn)的量化方案,更多的錯(cuò)誤將被恢復(fù)。因此,蘋果能夠?yàn)锳FM使用高效的量化方案,而不必?fù)?dān)心模型容量的損失。

混合精度量化

每個(gè)Transformer塊和AFM的每一層中都有殘差連接。因此,不太可能所有層都具有相同的重要性。

基于這一直覺,蘋果通過(guò)將某些層推向2位量化(默認(rèn)是4位)來(lái)進(jìn)一步減少內(nèi)存使用。

平均而言,AFM設(shè)備上的模型可以壓縮到每個(gè)權(quán)重大約3.5位(bpw)而不會(huì)顯著喪失質(zhì)量。

在生產(chǎn)中,蘋果選擇使用3.7bpw,因?yàn)檫@已經(jīng)滿足了內(nèi)存需求。

評(píng)估結(jié)果

預(yù)訓(xùn)練

表2展示了AFM-on-device和AFM-server在HELM MMLU v1.5.0上的結(jié)果,該測(cè)試在57個(gè)科目中進(jìn)行5樣本多項(xiàng)選擇題回答。

圖片

表3和表4分別展示了AFM-server在HuggingFace OpenLLM排行榜V1,以及HELM-Lite v1.5.0基準(zhǔn)上的結(jié)果。

圖片

圖片

可以看到,AFM預(yù)訓(xùn)練模型有著強(qiáng)大的語(yǔ)言和推理能力,從而為后訓(xùn)練和特征微調(diào)提供了堅(jiān)實(shí)的基礎(chǔ)。

后訓(xùn)練

人類評(píng)估

對(duì)于蘋果AI的應(yīng)用場(chǎng)景來(lái)說(shuō),人類評(píng)估更貼近用戶體驗(yàn)。

為了評(píng)估模型的一般能力,團(tuán)隊(duì)收集了1393個(gè)全面的提示集。

這些提示可謂包羅萬(wàn)象,涵蓋了不同類別以及不同難度級(jí)別,包括:分析推理、頭腦風(fēng)暴、聊天機(jī)器人、分類、封閉式問(wèn)題回答、編碼、提取、數(shù)學(xué)推理、開放式問(wèn)題回答、重寫、安全性、總結(jié)和寫作。

圖3展示了AFM與開源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商業(yè)模型(GPT-3.5和GPT-4)的比較。

圖片

結(jié)果發(fā)現(xiàn),人類評(píng)估者更偏愛AFM模型而不是競(jìng)爭(zhēng)對(duì)手模型。

特別是,盡管AFM-on-device的模型尺寸小25%,但與Phi-3-mini相比,其勝率為47.7%,甚至超過(guò)了參數(shù)數(shù)量超兩倍的開源強(qiáng)基線Gemma-7B和Mistral-7B。

與閉源模型相比,AFM-server也表現(xiàn)出了一定競(jìng)爭(zhēng)力,對(duì)GPT-3.5的勝率超過(guò)50%,平局率為27.4%。

指令跟隨

指令跟隨(Instruction following, IF)是蘋果團(tuán)隊(duì)對(duì)語(yǔ)言模型寄予厚望的核心能力,因?yàn)楝F(xiàn)實(shí)世界的提示或指令通常都很復(fù)雜。

這里,團(tuán)隊(duì)采用的公共IFEval基準(zhǔn),可以評(píng)估大語(yǔ)言模型在生成響應(yīng)時(shí)能否精確遵循提示中的指令。其中通常包括對(duì)響應(yīng)的長(zhǎng)度、格式和內(nèi)容等方面的具體要求。

如圖4所示,AFM-on-device和AFM-server在指令級(jí)和提示級(jí)準(zhǔn)確性上都表現(xiàn)出色。

圖片

此外,蘋果團(tuán)隊(duì)還在AlpacaEval 2.0 LC基準(zhǔn)測(cè)試上對(duì)AFM模型進(jìn)行了基準(zhǔn)測(cè)試,以衡量其一般指令跟隨能力,結(jié)果表明其模型具有很強(qiáng)的競(jìng)爭(zhēng)力。

工具使用

在工具使用的應(yīng)用場(chǎng)景中,模型在收到用戶請(qǐng)求和一系列帶有描述的潛在工具列表后,可以通過(guò)提供結(jié)構(gòu)化輸出來(lái)選擇調(diào)用特定工具,并指定工具名稱和參數(shù)值。

團(tuán)隊(duì)通過(guò)函數(shù)調(diào)用的本地支持,使用AST指標(biāo)在公共Berkeley Function Calling Leaderboard基準(zhǔn)測(cè)試上對(duì)模型進(jìn)行了評(píng)估。

如圖5所示,AFM-server在整體準(zhǔn)確性上表現(xiàn)最佳,超越了Gemini-1.5-Pro-Preview-0514和GPT-4。

圖片

寫作

寫作是大語(yǔ)言模型最重要的能力之一,因?yàn)樗軌蛑С侄喾N下游應(yīng)用,如改變語(yǔ)氣、重寫和總結(jié)。

團(tuán)隊(duì)在內(nèi)部的總結(jié)和寫作基準(zhǔn)測(cè)試中評(píng)估了AFM的寫作能力。并遵循LLM-as-a-judge的方法,為每個(gè)總結(jié)和寫作任務(wù)設(shè)計(jì)了評(píng)分指令,并提示GPT-4 Turbo為模型響應(yīng)打分,評(píng)分范圍為1到10。

如圖6所示,AFM-on-device在與Gemma-7B和Mistral-7B的比較中表現(xiàn)出相當(dāng)或更優(yōu)的性能。而AFM-server則顯著優(yōu)于DBRX-Instruct和GPT-3.5,甚至與GPT-4不相上下。

值得注意的是,使用LLM評(píng)分會(huì)存在一些限制和偏見,例如長(zhǎng)度偏見。

圖片

數(shù)學(xué)

在圖7中,團(tuán)隊(duì)比較了AFM在數(shù)學(xué)基準(zhǔn)測(cè)試中的表現(xiàn)。

其中,研究人員對(duì)GSM8K使用8-shot CoT提示,對(duì)MATH使用4-shot CoT提示。

結(jié)果顯示,AFM-on-device即使在不到Mistral-7B和Gemma-7B一半大小的情況下,也顯著優(yōu)于這兩者。

圖片

摘要功能

產(chǎn)品團(tuán)隊(duì)針對(duì)電子郵件、消息和通知的摘要制定了一套定制的指南、指標(biāo)和專門的評(píng)分標(biāo)準(zhǔn),用于評(píng)估摘要質(zhì)量,采用各種開源、許可和專有數(shù)據(jù)集。

根據(jù)預(yù)定義的產(chǎn)品規(guī)范,如果任何子維度被評(píng)為「差」,則該摘要被歸類為「差」。同樣,只有當(dāng)所有子維度都被評(píng)為「好」時(shí),摘要才被歸類為「好」。

圖8顯示,AFM-on-device+適配器的整體表現(xiàn),要優(yōu)于Phi-3-mini、Llama-3-8B和Gemma-7B。

圖片

安全評(píng)估

圖9展示了人類評(píng)審針對(duì)模型違規(guī)的評(píng)估結(jié)果,數(shù)值越低越好。

可以看到,AFM-on-device和AFM-server在應(yīng)對(duì)對(duì)抗性提示方面表現(xiàn)出很強(qiáng)的魯棒性,違規(guī)率顯著低于開源和商業(yè)模型。

圖片

圖10則展示了人類評(píng)審對(duì)于安全評(píng)估提示的偏好。

由于可以提供更安全、更有幫助的響應(yīng),AFM模型再次拿下一局。

圖片

以上,是蘋果AI模型的關(guān)鍵一瞥。

蘋果AI能力,所有人究竟什么時(shí)候可以用得上?

每年,蘋果會(huì)在秋季發(fā)布會(huì)上推出新品,iOS 18初始版本將會(huì)隨著iPhone 16同時(shí)推出。

圖片

不過(guò),人人都可體驗(yàn)?zāi)菚r(shí),還需要等到10月。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-06-19 11:38:49

2012-04-02 20:17:24

蘋果

2023-05-22 09:49:58

蘋果AI

2024-10-21 14:16:36

2020-06-11 17:48:58

蘋果Mac芯片

2017-08-30 09:20:47

深度學(xué)習(xí)語(yǔ)音合成Siri

2024-07-31 15:40:00

2023-03-21 15:22:00

開發(fā)AI

2011-12-30 10:31:22

蘋果移動(dòng)設(shè)備iOS

2024-04-12 15:14:38

軌跡預(yù)測(cè)

2020-06-24 14:12:36

蘋果芯片Mac

2024-11-05 12:42:35

2020-02-05 16:54:06

蘋果Siri語(yǔ)音助手

2023-02-20 11:24:22

AIChatGPT

2024-06-13 09:21:47

2020-06-11 17:17:55

百度大腦

2023-10-25 16:06:29

iOS 18ChatGPT

2023-09-14 13:13:51

iPhone 15蘋果AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)