自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI新模型用的嵌入技術(shù)被網(wǎng)友扒出來了

開發(fā)
前幾天,OpenAI 來了一波重磅更新,一口氣宣布了 5 個(gè)新模型,其中就包括兩個(gè)新的文本嵌入模型。

學(xué)起來吧。

前幾天,OpenAI 來了一波重磅更新,一口氣宣布了 5 個(gè)新模型,其中就包括兩個(gè)新的文本嵌入模型。

我們知道,嵌入是表示自然語言或代碼等內(nèi)容中概念的數(shù)字序列。嵌入使得機(jī)器學(xué)習(xí)模型和其他算法更容易理解內(nèi)容之間的關(guān)聯(lián),也更容易執(zhí)行聚類或檢索等任務(wù)。

使用更大的嵌入(比如將它們存儲(chǔ)在向量存儲(chǔ)器中以供檢索)通常要比更小的嵌入消耗更高的成本、以及更多的算力、內(nèi)存和存儲(chǔ)。而 OpenAI 此次推出的兩個(gè)文本嵌入模型分別是更小且高效的 text-embedding-3-small 模型和更大且更強(qiáng)大的 text-embedding-3-large 模型。

這兩個(gè)新嵌入模型都使用一種技術(shù)進(jìn)行訓(xùn)練,允許開發(fā)人員權(quán)衡使用嵌入的性能和成本。具體來說,開發(fā)者通過在 dimensions API 參數(shù)中傳遞嵌入而不丟失其概念表征屬性,從而縮短嵌入(即從序列末尾刪除一些數(shù)字)。例如在 MTEB 基準(zhǔn)上,text-embedding-3-large 可以縮短為 256 的大小, 同時(shí)性能仍然優(yōu)于未縮短的 text-embedding-ada-002 嵌入(大小為 1536)。

這一技術(shù)應(yīng)用非常靈活:比如當(dāng)使用僅支持最高 1024 維嵌入的向量數(shù)據(jù)存儲(chǔ)時(shí),開發(fā)者現(xiàn)在仍然可以使用最好的嵌入模型 text-embedding-3-large 并指定 dimensions API 參數(shù)的值為 1024,使得嵌入維數(shù)從 3072 開始縮短,犧牲一些準(zhǔn)確度以換取更小的向量大小。

OpenAI 所使用的「縮短嵌入」方法,隨后引起了研究者們的廣泛注意。

人們發(fā)現(xiàn),這種方法和 2022 年 5 月的一篇論文所提出的「Matryoshka Representation Learning」方法是相同的。

OpenAI 的新嵌入模型更新背后隱藏的是 @adityakusupati 等人提出的一種很酷的嵌入表征技術(shù)。

而 MRL 的一作 Aditya Kusupati 也現(xiàn)身說法:「OpenAI 在 v3 嵌入 API 中默認(rèn)使用 MRL 用于檢索和 RAG!其他模型和服務(wù)應(yīng)該很快就會(huì)迎頭趕上?!?/p>

那么 MRL 到底是什么?效果如何?都在下面這篇 2022 年的論文里。

MRL 論文介紹

論文標(biāo)題:Matryoshka Representation Learning

論文鏈接:https://arxiv.org/pdf/2205.13147.pdf

研究者提出的問題是:能否設(shè)計(jì)一種靈活的表征方法,以適應(yīng)計(jì)算資源不同的多個(gè)下游任務(wù)?

MRL 通過以嵌套方式對(duì) O (log (d)) 低維向量進(jìn)行顯式優(yōu)化在同一個(gè)高維向量中學(xué)習(xí)不同容量的表征,因此被稱為 Matryoshka「俄羅斯套娃」。MRL 可適用于任何現(xiàn)有的表征 pipeline,并可輕松擴(kuò)展到計(jì)算機(jī)視覺和自然語言處理中的許多標(biāo)準(zhǔn)任務(wù)。

圖 1 展示了 MRL 的核心理念以及所學(xué)習(xí) Matryoshka 表征的自適應(yīng)部署設(shè)置:

Matryoshka 表征的第一個(gè) m-dimensions(m∈[d])是一個(gè)信息豐富的低維向量,不需要額外的訓(xùn)練成本,其精確度不亞于獨(dú)立訓(xùn)練的 m 維表征法。Matryoshka 表征的信息量隨著維度的增加而增加,形成了一種從粗到細(xì)的表征法,而且無需大量的訓(xùn)練或額外的部署開銷。MRL 為表征向量提供了所需的靈活性和多保真度,可確保在準(zhǔn)確性與計(jì)算量之間實(shí)現(xiàn)近乎最佳的權(quán)衡。憑借這些優(yōu)勢(shì),MRL 可根據(jù)精度和計(jì)算約束條件進(jìn)行自適應(yīng)部署。

在這項(xiàng)工作中,研究者將重點(diǎn)放在了現(xiàn)實(shí)世界 ML 系統(tǒng)的兩個(gè)關(guān)鍵構(gòu)件上:大規(guī)模分類和檢索。

在分類方面,研究者使用了自適應(yīng)級(jí)聯(lián),并使用由 MRL 訓(xùn)練的模型產(chǎn)生的可變大小表征,從而大大降低了達(dá)到特定準(zhǔn)確率所需的嵌入式平均維數(shù)。例如,在 ImageNet-1K 上,MRL + 自適應(yīng)分類的結(jié)果是,在精度與基線相同的情況下,表征大小最多可縮小 14 倍。

同樣地,研究者在自適應(yīng)檢索系統(tǒng)中也使用了 MRL。在給定一個(gè)查詢的情況下,使用查詢嵌入的前幾個(gè) dimensions 來篩選檢索候選對(duì)象,然后連續(xù)使用更多的 dimensions 對(duì)檢索集進(jìn)行重新排序。與使用標(biāo)準(zhǔn)嵌入向量的單次檢索系統(tǒng)相比,這種方法的簡(jiǎn)單實(shí)現(xiàn)可實(shí)現(xiàn) 128 倍的理論速度(以 FLOPS 計(jì))和 14 倍的墻上時(shí)鐘時(shí)間速度;需要注意的是,MRL 的檢索精度與單次檢索的精度相當(dāng)(第 4.3.1 節(jié))。

最后,由于 MRL 明確地學(xué)習(xí)了從粗到細(xì)的表征向量,因此直觀地說,它應(yīng)該在不同 dimensions 之間共享更多的語義信息(圖 5)。這反映在長(zhǎng)尾持續(xù)學(xué)習(xí)設(shè)置中,準(zhǔn)確率最多可提高 2%,同時(shí)與原始嵌入一樣穩(wěn)健。此外,由于 MRL 具有粗粒度到細(xì)粒度的特性,它還可以用作分析實(shí)例分類難易程度和信息瓶頸的方法。

責(zé)任編輯:趙寧寧 來源: 機(jī)器之心
相關(guān)推薦

2025-01-21 12:44:50

2025-01-20 15:50:00

AI軟件模型

2023-07-11 15:30:08

GPT-4架構(gòu)

2024-09-14 15:19:11

2023-05-16 20:47:38

2024-02-04 07:20:00

AI模型

2022-03-16 17:25:19

p2p下載器軟件

2025-02-21 15:18:20

2023-05-17 10:05:56

2023-08-01 09:40:56

超導(dǎo)技術(shù)

2023-11-01 13:37:26

2024-05-10 12:58:08

2025-03-13 10:29:17

模型奧特曼AI

2023-10-19 13:41:00

數(shù)據(jù)訓(xùn)練

2024-03-05 09:16:32

AI模型GPT-4

2019-08-12 09:34:10

柬埔寨HR代碼

2023-09-17 00:09:35

微軟新模型參數(shù)

2023-11-18 09:09:44

OpenAI微軟

2024-12-12 00:40:07

2024-02-26 16:36:48

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)