自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

北大字節(jié)VAR獲最佳論文、廈大清華獲亞軍,NeurIPS 2024最佳論文出爐

人工智能 新聞
由廈門大學、清華大學、微軟研究者共同完成的《Not All Tokens Are What You Need for Pretraining》(并非所有 token 都是預訓練所需的), Zhenghao Lin 和 Zhibin Gou(茍志斌)為共同一作。

剛剛,人工智能頂會 NeurIPS 公布了今年的最佳論文(包括 Best Paper 和 Best Paper Runner-up,大會注冊者可以看到)。

一共有兩篇論文獲得最佳論文獎:

一是由北京大學、字節(jié)跳動研究者共同完成的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》(視覺自回歸建模:通過 Next-Scale 預測生成可擴展圖像),論文一作為田柯宇(此前因涉攻擊內(nèi)部大模型,被字節(jié)起訴)。

機器之心獲悉,從 2023 年開始,字節(jié)商業(yè)化技術(shù)團隊就在研究圖像生成的自回歸模型,一直將 VAR 作為高優(yōu)項目推進,不僅安排多名研究人員重點攻關此技術(shù)方向,還投入大量算力資源支持模型訓練和實驗。該團隊近期將發(fā)布新的 VAR T2I 模型研究成果,并將對模型開源。

二是由新加坡國立大學、 Sea AI Lab 研究者共同完成的《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》(隨機泰勒導數(shù)估計器:任意微分算子的有效攤銷),論文一作為 Zekun Shi。

此外,還有兩篇論文獲得了最佳論文亞軍(Best Paper Runner-up):

由廈門大學、清華大學、微軟研究者共同完成的《Not All Tokens Are What You Need for Pretraining》(并非所有 token 都是預訓練所需的), Zhenghao Lin 和 Zhibin Gou(茍志斌)為共同一作。

由英偉達和阿爾托大學共同完成的《Guiding a Diffusion Model with a Bad Version of Itself》(使用擴散模型的一個糟糕版本引導其自身),論文一作為 Tero Karras。

NeurIPS 2024 將于 12 月 10 日星期二至 12 月 15 日星期日在溫哥華舉辦。本屆共收到 15671 篇有效論文投稿,比去年又增長了 27%,但最終接收率低于 2023 年,僅有 25.8%。最佳論文的公布提前引爆了有關此次大會的討論。

以下是獲獎論文的詳細信息:

最佳論文

論文 1:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

圖片

  • 作者:Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
  • 機構(gòu):北京大學、字節(jié)跳動
  • 論文地址:https://arxiv.org/pdf/2404.02905
  • 項目地址:https://github.com/FoundationVision/VAR

論文簡介:在自然語言處理中,以 GPT、LLaMa 系列等大語言模型為例的 Autoregressive(自回歸模型已經(jīng)取得了較大的成功,尤其擴展定律(Scaling Law)和零樣本任務泛化能力(Zero-shot Task Generalizability)十分亮眼,初步展示出通往「通用人工智能 AGI」的潛力。

然而在圖像生成領域中,自回歸模型卻廣泛落后于擴散(Diffusion)模型:DALL-E、Stable Diffusion、Sora 等模型均屬于 Diffusion 家族。

為了「解鎖」自回歸模型的能力和 Scaling Laws,研究團隊從圖像模態(tài)內(nèi)在本質(zhì)出發(fā),模仿人類處理圖像的邏輯順序,提出一套全新的「視覺自回歸」生成范式:VAR, Visual AutoRegressive Modeling,首次使得 GPT 風格的自回歸視覺生成,在效果、速度、Scaling 能力多方面超越 Diffusion,迎來了視覺生成領域的 Scaling Laws。

圖片

圖片

VAR 為如何定義圖像的自回歸順序提供了一個全新的視角,即由粗到細、由全局輪廓到局部精調(diào)的順序。在符合直覺的同時,這樣的自回歸算法帶來了很好的效果:VAR 顯著提升了自回歸模型的速度和生成質(zhì)量,在多方面使得自回歸模型首次超越擴散模型。同時 VAR 展現(xiàn)出類似 LLM 的 Scaling Laws 和零樣本任務泛化能力。

圖片

論文 2:Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators

圖片


  • 作者:Zekun Shi, Zheyuan Hu, Min Lin, Kenji Kawaguchi
  • 機構(gòu):新加坡國立大學、 Sea AI Lab
  • 論文地址:https://arxiv.org/abs/2412.00088
  • 項目地址:https://github.com/sail-sg/stde

論文簡介:使用包含高維和高階微分算子的損失函數(shù)來優(yōu)化神經(jīng)網(wǎng)絡是非常昂貴的,因為反向傳播中導數(shù)張量的大小按圖片縮放,計算圖中的計算按圖片縮放,其中,d 是域的維度,L 是前向計算圖中操作的數(shù)量,k 是導數(shù)的階數(shù)。

在之前的研究中,d 中多項式縮放是通過隨機化在優(yōu)化過程中平攤計算來解決的。另外,單變量函數(shù)(d = 1)中 k 的指數(shù)縮放通過高階自動微分(AD)解決。

本研究展示了如何通過正確構(gòu)造單變量高階 AD 輸入切線(input tangent),有效地對多元函數(shù)的任意階導數(shù)張量進行任意收縮,這可用于有效地隨機化任何微分算子。

當應用于 PINN( Physics-Informed Neural Networks )時,與使用一階 AD 進行隨機化相比,本文方法提供了 1000 倍以上的速度提升和 30 倍以上的內(nèi)存減少,而且現(xiàn)在可以在單個 NVIDIA A100 GPU 上在 8 分鐘內(nèi)解決 100 萬維 PDE。這項工作開啟了在大規(guī)模問題中使用高階微分算子的可能性。

最佳論文亞軍(Best Paper Runner-up)

論文 1:Not All Tokens Are What You Need for Pretraining

圖片

  • 作者:Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, yelong shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
  • 機構(gòu):廈門大學、清華大學、微軟
  • 論文地址:https://openreview.net/pdf?id=0NMzBwqaAJ
  • 項目地址:https://github.com/microsoft/rho

論文簡介:以前的語言模型預訓練方法會統(tǒng)一對所有訓練 token 應用下一個 token 預測損失。

但這一范式并非不可挑戰(zhàn)。這篇論文的作者首先做出了一個假設:「對于語言模型訓練,并非語料庫中的所有 token 都同等重要」。

然后,他們分析了語言模型的 token 級訓練動態(tài),結(jié)果發(fā)現(xiàn)不同 token 有著不同的損失模式。

基于這些見解,他們開發(fā)了一種新模型 RHO-1。不同于傳統(tǒng)語言模型(會學習預測語料庫中的每一下個 token),RHO-1 采用了選擇性語言建模(SLM),它會選擇性地使用與所需分布對齊的有用 token 進行訓練。

圖片

圖片

該方法需要使用一個參考模型來給 token 評分,然后再在分數(shù)更高的 token 上使用一個重點關注損失(focused loss)來訓練模型。

在 15B OpenWebMath 語料庫上進行持續(xù)預訓練時,RHO-1 在 9 個數(shù)學任務上的少樣本準確率實現(xiàn)了 30% 的絕對提升。經(jīng)過微調(diào)后,RHO-1-1B 和 7B 在 MATH 數(shù)據(jù)集上分別取得了 40.6% 和 51.8% 的 SOTA 結(jié)果 —— 僅用 3% 的預訓練 token 就達到了 DeepSeekMath 相當?shù)乃?。此外,在?80B 個通用 token 進行持續(xù)預訓練時,RHO-1 在 15 個不同任務上實現(xiàn)了 6.8% 的平均提升,數(shù)據(jù)效率和語言模型預訓練的性能都得到了提升。

圖片

論文 2:Guiding a Diffusion Model with a Bad Version of Itself

圖片

  • 作者:Tero Karras, Miika Aittala, Tuomas Kynk??nniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
  • 機構(gòu):英偉達、阿爾托大學
  • 論文地址:https://arxiv.org/pdf/2406.02507

論文簡介:圖像生成擴散模型關注的核心是圖像質(zhì)量、結(jié)果的多變程度以及結(jié)果與給定條件(例如類標簽或文本提示)的對齊程度。

常見的無分類器引導方法是使用無條件模型來引導條件模型,這樣既能實現(xiàn)更好的提示詞對齊,也能得到更高質(zhì)量的圖像,但代價是多變程度下降。

這些效果似乎本質(zhì)上是糾纏在一起的,因此很難控制。

基于此,該團隊得出了一個令人驚訝的觀察結(jié)果:通過使用較小、訓練較少的模型版本(而不是無條件模型)來引導生成,就可以在不影響多變程度的情況下獲得對圖像質(zhì)量的控制。由此,圖像質(zhì)量與多變程度就分離了。

實驗表明,這能顯著提升 ImageNet 生成效果。他們使用公開可用的網(wǎng)絡,為 64×64 分辨率下的生成創(chuàng)造了 1.01 的 FID 記錄,為 512×512 創(chuàng)造了 1.25 的 FID 記錄。此外,該方法也適用于無條件擴散模型,可極大提高其質(zhì)量。

圖片

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-05 10:00:31

2023-11-10 12:53:35

論文AI

2024-12-11 15:00:00

2024-08-28 14:30:00

論文AI

2023-08-31 13:51:37

計算系統(tǒng)

2024-12-04 13:30:00

2023-08-09 17:10:01

論文獲獎

2023-12-11 13:41:23

2022-08-18 11:44:19

阿里巴巴達摩院KDD

2017-11-13 13:12:21

互聯(lián)網(wǎng)

2023-03-23 18:46:19

論文

2022-12-13 15:14:45

論文

2025-01-23 12:30:00

2022-12-19 14:39:29

機器人論文

2025-01-03 15:39:02

2022-07-19 14:01:44

阿里達摩院AI

2024-12-17 11:30:00

2021-10-13 17:53:14

AI 數(shù)據(jù)人工智能

2024-09-04 13:40:00

2024-06-20 10:39:49

點贊
收藏

51CTO技術(shù)棧公眾號