自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

姚班天才創(chuàng)辦的大模型公司,賣了

人工智能 新聞
斯隆獎得主、姚班校友馬騰宇大模型創(chuàng)業(yè)成果,被收購!

最新消息,斯隆獎得主、姚班校友馬騰宇大模型創(chuàng)業(yè)成果,被收購!

收購方是MongoDB,一家開源數(shù)據(jù)庫上市龍頭。

而距離他2023年11月官宣創(chuàng)業(yè)Voyage AI不到一年半的時(shí)間。當(dāng)時(shí)創(chuàng)業(yè)陣容十分之矚目和豪華,李飛飛曼寧等大佬擔(dān)任顧問。

他們主要是做針對RAG(檢索增強(qiáng)生成)專門優(yōu)化的嵌入模型,為智能 AI 應(yīng)用程序提供支持。

在這短短一年多時(shí)間里,模型更新到了第三個(gè)版本,實(shí)現(xiàn)了最先進(jìn)的檢索精度和向量存儲成本的大幅降低;期間完成了兩輪融資,總籌集金額達(dá)到2800萬美元。

此次收購,具體金額還未透露。

但在馬騰宇公司博客中透露了他們選擇被MongoDB收購的原因。

簡單來說就是,兩者強(qiáng)強(qiáng)聯(lián)合,將AI檢索模型直接引入數(shù)據(jù)庫,在更統(tǒng)一的堆棧下帶來更高效的開發(fā)體驗(yàn),還能提高AI應(yīng)用程序的性能和準(zhǔn)確性。

不少業(yè)內(nèi)人士,在馬騰宇推文底下表示了祝賀。

5年時(shí)間做出SOTA嵌入模型

當(dāng)初創(chuàng)業(yè)時(shí),他們曾透露一個(gè)重要的創(chuàng)業(yè)原因是認(rèn)為業(yè)界對嵌入模型的重視程度遠(yuǎn)遠(yuǎn)不夠。

嵌入模型與生成式模型有一定相似之處,但更加側(cè)重于語義理解,通過神經(jīng)網(wǎng)絡(luò)(通常是Transformer)架構(gòu)來對語義上下文進(jìn)行捕獲和壓縮。

難度上,訓(xùn)練嵌入模型和生成式模型一樣困難——訓(xùn)練高質(zhì)量的嵌入模型需要在架構(gòu)、數(shù)據(jù)、損失函數(shù)等許多方面進(jìn)行反復(fù)實(shí)驗(yàn)。

于是,他們用了5年時(shí)間,收集了海量訓(xùn)練數(shù)據(jù)和預(yù)/后處理方法,最終打造出了一款SOTA的嵌入模型。

而在創(chuàng)業(yè)之后,模型的迭代還在繼續(xù)。

Voyage發(fā)布了諸多系列模型,包括通用嵌入模型、代碼檢索嵌入模型、多模態(tài)嵌入模型,他們都在過去三個(gè)月期間都紛紛升級到了第三個(gè)版本。

通用和多語言嵌入模型voyage-3-large:該模型在涵蓋 100 個(gè)數(shù)據(jù)集的八個(gè)評估領(lǐng)域中排名第一,包括法律、金融和代碼,上下文長度為32K。通過俄羅斯套娃表征學(xué)習(xí)(MRL)和量化感知訓(xùn)練,支持更小的尺寸和 int8 和二進(jìn)制量化,可顯著降低 vectorDB 成本,同時(shí)對檢索質(zhì)量的影響最小。

基于代碼檢索的嵌入模型voyage-code-3。在一組32個(gè)代碼檢索數(shù)據(jù)集上,它的性能分別比 OpenAI-v3-large 和 CodeSage-large 平均高出 13.80%和16.81%。通過使用 Matryoshka 學(xué)習(xí)和量化格式(如 int8 和二進(jìn)制格式)支持更小的維度,voyage-code-3 還能顯著降低存儲和搜索成本,同時(shí)將對檢索質(zhì)量的影響降至最低。

多模態(tài)嵌入模型voyage-multimodal-3,可用于包含豐富視覺和文本的文檔。與現(xiàn)有的多模態(tài)嵌入模型不同,voyage-multimodal-3 能夠?qū)诲e文本和圖像進(jìn)行矢量化處理,并從 PDF、幻燈片、表格、數(shù)字等截圖中捕捉關(guān)鍵視覺特征,從而省去了復(fù)雜的文檔解析過程。在對 3 個(gè)多模態(tài)檢索任務(wù)(共 20 個(gè)數(shù)據(jù)集)進(jìn)行評估時(shí),voyage-multimodal-3 比性能僅次于它的多模態(tài)嵌入模型平均提高了 19.63% 的檢索準(zhǔn)確率。

與此同時(shí),還積累了一眾頂尖的合作伙伴,包括AWS、Databricks、Anthropic、Harvry、LangChain、Replit等等知名公司。

此次收購之后,Voyage AI可以MongDB帶來什么?

用一張圖就可以概括之。

以往開發(fā)人員需要依靠各種獨(dú)立組件來構(gòu)建AI應(yīng)用程序,這些組件的次優(yōu)選擇(例如嵌入模型)可能導(dǎo)致數(shù)據(jù)檢索相關(guān)性低和生成輸出質(zhì)量低下。這種分散的方法對開發(fā)人員來說既復(fù)雜又昂貴,效率低下,而且繁瑣。

現(xiàn)在,他們無需實(shí)施變通方法或管理單獨(dú)的系統(tǒng),而是可以從實(shí)時(shí)操作數(shù)據(jù)中生成高質(zhì)量的嵌入、存儲向量、執(zhí)行語義搜索并優(yōu)化結(jié)果 - 所有這些都在 MongoDB 中完成。

對于此次收購,MongDB CEO表示:

AI有潛力改變每個(gè)行業(yè),但其應(yīng)用因“幻覺”可能帶來的風(fēng)險(xiǎn)而受到限制。通過將先進(jìn)的AI驅(qū)動搜索和檢索能力整合至我們高度靈活的數(shù)據(jù)庫系統(tǒng)中,MongoDB和Voyage AI將幫助企業(yè)輕松構(gòu)建能夠創(chuàng)造重大業(yè)務(wù)影響的可靠AI應(yīng)用。通過此次收購,MongoDB重新定義了AI時(shí)代的數(shù)據(jù)庫。

馬騰宇則表示:要使AI應(yīng)用程序發(fā)揮全部潛能,企業(yè)必須信任其輸出結(jié)果,因此需要將檢索與操作數(shù)據(jù)深度集成,以確保其準(zhǔn)確性和相關(guān)性。加入MongoDB使我們能夠?qū)⑶把氐腁I檢索技術(shù)帶給更廣泛的受眾,并將其無縫集成到關(guān)鍵任務(wù)應(yīng)用中。通過將我們在嵌入和重排序方面的專業(yè)知識與MongoDB一流的數(shù)據(jù)庫相結(jié)合,我們可以幫助組織構(gòu)建能夠大規(guī)模提供更準(zhǔn)確、更可靠結(jié)果的AI應(yīng)用,使他們能夠自信地將AI應(yīng)用于高風(fēng)險(xiǎn)用例。

清華姚班校友,和陳丹琦同學(xué)

馬騰宇,現(xiàn)任斯坦福大學(xué)助理教授,研究方向包括機(jī)器學(xué)習(xí)、算法及其理論等多項(xiàng)內(nèi)容。

其學(xué)生都分布在各個(gè)頂尖大廠和機(jī)構(gòu)從事科研探索。

他本科畢業(yè)于清華姚班,和陳丹琦是同班同學(xué)。隨后去到普林斯頓攻讀博士學(xué)位導(dǎo)師是理論計(jì)算機(jī)科學(xué)家、兩屆哥德爾獎得主Sanjeev Arora教授。

讀博期間,馬騰宇獲得了理論計(jì)算機(jī)方向的西蒙斯獎等諸多獎項(xiàng),被導(dǎo)師夸贊“比自己還聰明”。

博士畢業(yè)后,MIT、哈佛、斯坦福等頂尖高校都給了他助理教授的Offer,馬騰宇最終選擇了斯坦福。

2021年,馬騰宇獲得了具有“諾獎風(fēng)向標(biāo)”之稱的斯隆獎,成為繼鬲融之后清華姚班又一名獲此獎項(xiàng)的校友。

時(shí)間來到2023年11月,他官宣創(chuàng)業(yè)Voyage。不過創(chuàng)業(yè)期間,他始終還在斯坦福進(jìn)行一些前沿探索。

比如他與Google Brain推理團(tuán)隊(duì)創(chuàng)建者Denny Zhou聯(lián)手證明,只要思維鏈足夠長,Transformer就可以解決任何問題。通過數(shù)學(xué)方法,他們證明了Transformer有能力模擬任意多項(xiàng)式大小的數(shù)字電路,論文已入選ICLR 2024。

而就在月初,他還提出了STP, 一種可以無限猜測和證明的自玩算法,從而實(shí)現(xiàn)在有限的數(shù)據(jù)情況下不斷地改進(jìn)模型。當(dāng)時(shí)他的單位是斯坦福。

至于公司被收購后的下一步產(chǎn)業(yè)動向,馬騰宇還沒有透露?;蛟S接下來還可以期待更多學(xué)術(shù)成果~

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2018-06-05 16:15:52

碼農(nóng)科技微軟

2024-06-03 12:03:56

2014-07-30 13:42:22

2023-05-30 14:17:00

模型推理

2023-08-07 13:40:39

AI模型

2009-02-06 08:52:20

MySQLSun辭職

2024-08-02 13:33:04

2023-12-05 13:38:11

架構(gòu)模型

2020-02-14 13:18:26

AndroidEssentialEssential P

2024-01-05 13:56:00

2024-03-25 13:06:00

數(shù)據(jù)訓(xùn)練

2025-04-28 11:57:12

2020-09-06 08:22:38

人工智能AI人工智能技術(shù)

2022-06-20 09:10:00

AI計(jì)算機(jī)量子

2025-01-14 17:23:08

2014-11-03 15:02:49

2023-06-02 13:23:27

谷歌研究

2017-10-30 23:03:14

創(chuàng)業(yè)

2020-09-16 09:53:57

TikTok程序禁令
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號