自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2022出圈的ML研究:爆火的Stable Diffusion、通才智能體Gato,LeCun轉(zhuǎn)推

人工智能 新聞
這些機(jī)器學(xué)習(xí)領(lǐng)域的研究你都讀過嗎?

2022 年即將步入尾聲。在這一年里,機(jī)器學(xué)習(xí)領(lǐng)域涌現(xiàn)出了大量有價值的論文,對機(jī)器學(xué)習(xí)社區(qū)產(chǎn)生了深遠(yuǎn)的影響。

今日,ML & NLP 研究者、Meta AI 技術(shù)產(chǎn)品營銷經(jīng)理、DAIR.AI 創(chuàng)始人 Elvis S. 對 2022 年熱度很高的 12 篇機(jī)器學(xué)習(xí)論文進(jìn)行了匯總。帖子很火,還得到了圖靈獎得主 Yann LeCun 的轉(zhuǎn)推。

圖片

接下來,我們一一來看。

論文 1:A ConvNet for the 2020s

視覺識別的快速發(fā)展始于 ViT 的引入,其很快取代了傳統(tǒng) ConvNet,成為 SOTA 圖像分類模型。ViT 模型在包括目標(biāo)檢測、語義分割等一系列計算機(jī)視覺任務(wù)中存在很多挑戰(zhàn)。因此有研究者提出分層 Swin Transformer,重新引入 ConvNet 先驗(yàn),使得 Transformer 作為通用視覺主干實(shí)際上可行,并在各種視覺任務(wù)上表現(xiàn)出卓越的性能。

然而,這種混合方法的有效性在很大程度上仍歸功于 Transformer 的內(nèi)在優(yōu)勢,而不是卷積固有的歸納偏置。本文中,F(xiàn)AIR 、UC 伯克利的研究者重新檢查了設(shè)計空間并測試了純 ConvNet 所能達(dá)到的極限。研究者逐漸將標(biāo)準(zhǔn) ResNet「升級」為視覺 Transformer 的設(shè)計,并在此過程中發(fā)現(xiàn)了導(dǎo)致性能差異的幾個關(guān)鍵組件。

圖片

論文地址:https://arxiv.org/abs/2201.03545v2

論文 2:Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

通過大型語言模型(LLM)學(xué)習(xí)的世界知識能能用于交互式環(huán)境中的行動嗎?本文中,UC 伯克利、CMU 和谷歌的研究者探究了將自然語言表達(dá)為一組選定可操作步驟的可能性。以往的工作側(cè)重于從顯式分布示例中學(xué)習(xí)如何行動,但他們驚訝地發(fā)現(xiàn),如果預(yù)訓(xùn)練語言模型足夠大并得到適當(dāng)?shù)奶崾?,則可以有效地將高級任務(wù)分解為中級規(guī)劃,無需進(jìn)一步訓(xùn)練。但是,LLM 制定的規(guī)劃往往無法精確地映射到可接受的行動。

研究者提出的步驟以現(xiàn)有演示為條件,并將規(guī)劃在語義上轉(zhuǎn)換為可接受的行動。在 VirtualHome 環(huán)境中的評估表明,他們提出的方法大大提高了 LLM 基線的可執(zhí)行性。人工評估揭示了可執(zhí)行性和正確性之間的權(quán)衡,但展現(xiàn)出了從語言模型中提取可操作知識的可能性跡象。 

圖片

論文地址:https://arxiv.org/abs/2201.07207v2

論文 3:OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

這是阿里達(dá)摩院推出的統(tǒng)一多模態(tài)多任務(wù)模型框架 OFA,總結(jié)了通用模型現(xiàn)階段最好符合的三個特點(diǎn),即模態(tài)無關(guān)、任務(wù)無關(guān)、任務(wù)多樣性。該論文被 ICML 2022 接收。

在圖文領(lǐng)域,OFA 將 visual grounding、VQA、image caption、image classification、text2image generation、language modeling 等經(jīng)典任務(wù)通過統(tǒng)一的 seq2seq 框架進(jìn)行表示,在任務(wù)間共享不同模態(tài)的輸入輸出,并且讓 Finetune 和預(yù)訓(xùn)練保持一致,不新增額外的參數(shù)結(jié)構(gòu)。

圖片

論文地址:https://arxiv.org/abs/2202.03052v2

論文 4:Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

深度學(xué)習(xí)中的超參數(shù)(HP)調(diào)優(yōu)是一個成本高昂的過程,對于具有數(shù)十億參數(shù)的神經(jīng)網(wǎng)絡(luò)而言更是如此。本文中,微軟和 OpenAI 的研究者表明,在最近發(fā)現(xiàn)的 Maximal Update Parametrization(muP)中,即使模型大小發(fā)生變化,很多最優(yōu) HP 仍保持穩(wěn)定。

這促成了他們稱為 muTransfer 的全新 HP 調(diào)優(yōu)范式,即在 muP 中對目標(biāo)模型進(jìn)行參數(shù)化,在較小的模型上不直接進(jìn)行 HP 調(diào)優(yōu),并將它們零樣本遷移到全尺寸模型中,這也意味著根本不需要直接對后者模型進(jìn)行調(diào)優(yōu)。研究者在 Transformer 和 ResNet 上驗(yàn)證了 muTransfer。例如,通過從 40M 參數(shù)的模型進(jìn)行遷移,性能優(yōu)于已發(fā)布的 6.7B GPT-3 模型,調(diào)優(yōu)成本僅為預(yù)訓(xùn)練總成本的 7%。

圖片

論文地址:https://arxiv.org/abs/2203.03466v2

論文 5:OPT: Open Pre-trained Transformer Language Models

大模型往往經(jīng)過成千上萬個計算日的訓(xùn)練,在零樣本和少樣本學(xué)習(xí)中展現(xiàn)出了非凡的能力。不過考慮到它們的計算成本,如果沒有充足的資金,這些大模型很難復(fù)制。對于少數(shù)可以通過 API 獲得的模型,無法訪問它們完整的模型權(quán)重,也就難以展開研究。

本文中,Meta AI 的研究者提出了 Open Pre-trained Transformers(OPT),這是一套僅用于解碼器的預(yù)訓(xùn)練 transformers 模型,參數(shù)從 125M 到 175B 不等。他們表明,OPT-175B 性能與 GPT-3 相當(dāng),但開發(fā)所需的碳足跡僅為后者的 1/7。

圖片

論文地址:https://arxiv.org/abs/2205.01068v4

論文 6:A Generalist Agent

受大規(guī)模語言建模的啟發(fā),Deepmind 構(gòu)建了一個單一的「通才」智能體 Gato,它具有多模態(tài)、多任務(wù)、多具身(embodiment)特點(diǎn)。

Gato 可以玩雅達(dá)利游戲、給圖片輸出字幕、和別人聊天、用機(jī)械臂堆疊積木等等。此外,Gato 還能根據(jù)上下文決定是否輸出文本、關(guān)節(jié)力矩、按鈕按壓或其他 token。

圖片

與大多數(shù)智能體玩游戲不同,Gato 使用相同的訓(xùn)練模型就能玩許多游戲,而不用為每個游戲單獨(dú)訓(xùn)練。

圖片

論文地址:https://arxiv.org/abs/2205.06175v3

論文 7:Solving Quantitative Reasoning Problems with Language Models

來自谷歌的研究者提出了一種叫作 Minerva 的深度學(xué)習(xí)語言模型,可以通過逐步推理解決數(shù)學(xué)定量問題。其解決方案包括數(shù)值計算、符號操作,而不需要依賴計算器等外部工具。

此外,Minerva 還結(jié)合了多種技術(shù),包括小樣本提示、思維鏈、暫存器提示以及多數(shù)投票原則,從而在 STEM 推理任務(wù)上實(shí)現(xiàn) SOTA 性能。

Minerva 建立在 PaLM(Pathways Language Model ) 的基礎(chǔ)上,在 118GB 數(shù)據(jù)集上進(jìn)一步訓(xùn)練完成,數(shù)據(jù)集來自 arXiv 上關(guān)于科技方面的論文以及包含使用 LaTeX、MathJax 或其他數(shù)學(xué)表達(dá)式的網(wǎng)頁的數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練。

下圖為 Minerva 解決問題示例展示:

圖片

論文地址:https://arxiv.org/abs/2206.14858

論文 8:No Language Left Behind: Scaling Human-Centered Machine Translation

來自 Meta AI 的研究者發(fā)布了翻譯模型 NLLB(No Language Left behind ),直譯為「一個語言都不能少」,其可以支持 200 + 語言之間的任意互譯,除了中英法日等常用語種翻譯外,NLLB 還能對包括盧干達(dá)語、烏爾都語等在內(nèi)的許多小眾語言進(jìn)行翻譯。

Meta 宣稱,這是全球第一個以單一模型對應(yīng)多數(shù)語言翻譯的設(shè)計,他們希望借此能夠幫助更多人在社群平臺上進(jìn)行跨語言互動,同時提高用戶在未來元宇宙中的互動體驗(yàn)。

圖片

論文地址:?https://arxiv.org/abs/2207.04672v3?

論文 9:High-Resolution Image Synthesis with Latent Diffusion Models

最近一段時間 Stable Diffusion 火爆出圈,圍繞這一技術(shù)展開的研究數(shù)不勝數(shù)。

該研究是來自慕尼黑大學(xué)和 Runway 的研究者基于其 CVPR 2022 的論文《High-Resolution Image Synthesis with Latent Diffusion Models》,并與 Eleuther AI、LAION 等團(tuán)隊(duì)合作完成。Stable Diffusion 可以在消費(fèi)級 GPU 上 10 GB VRAM 下運(yùn)行,并在幾秒鐘內(nèi)生成 512x512 像素的圖像,無需預(yù)處理和后處理。

時間僅過去四個月,該開源項(xiàng)目已收獲 38K 星。

圖片

項(xiàng)目地址:https://github.com/CompVis/stable-diffusion

Stable Diffusion 生成圖像示例展示:

圖片

論文 10:Robust Speech Recognition via Large-Scale Weak Supervision

OpenAI 發(fā)布開源模型 Whisper,在英語語音識別方面接近人類水平,并具有較高的準(zhǔn)確性。

Whisper 是一個自動語音識別(ASR,Automatic Speech Recognition)系統(tǒng),OpenAI 通過從網(wǎng)絡(luò)上收集了 68 萬小時的 98 種語言和多任務(wù)監(jiān)督數(shù)據(jù)對 Whisper 進(jìn)行了訓(xùn)練。除了可以用于語音識別,Whisper 還能實(shí)現(xiàn)多種語言轉(zhuǎn)錄,以及將這些語言翻譯成英語。

圖片

論文地址:https://arxiv.org/abs/2212.04356

論文 11:Make-A-Video: Text-to-Video Generation without Text-Video Data

來自 Meta AI 的研究者提出了一種最先進(jìn)的文本到視頻模型:Make-A-Video,可以將給定的文本提示生成視頻。

Make-A-Video 有三個優(yōu)點(diǎn):(1)它加速了 T2V(Text-to-Video)模型的訓(xùn)練,不需要從頭開始學(xué)習(xí)視覺和多模態(tài)表示,(2)它不需要配對的文本 - 視頻數(shù)據(jù),(3)生成的視頻繼承了當(dāng)今圖像生成模型的多項(xiàng)優(yōu)點(diǎn)。

該技術(shù)旨在實(shí)現(xiàn)文本到視頻生成,僅用幾個單詞或幾行文本就能生成獨(dú)一無二的視頻。如下圖為一只狗穿著超級英雄的衣服,披著紅色的斗篷,在天空中飛翔:

圖片

論文地址:https://arxiv.org/abs/2209.14792

論文 12:Galactica: A Large Language Model for Science

近年來,隨著各學(xué)科領(lǐng)域研究的進(jìn)步,科學(xué)文獻(xiàn)和數(shù)據(jù)呈爆炸式增長,使學(xué)術(shù)研究者從大量信息中發(fā)現(xiàn)有用的見解變得越來越困難。通常,人們借助搜索引擎來獲取科學(xué)知識,但搜索引擎不能自主組織科學(xué)知識。

最近,Meta AI 的研究團(tuán)隊(duì)提出了一種新的大型語言模型 Galactica,可以存儲、組合和推理科學(xué)知識。Galactica 可以自己總結(jié)歸納出一篇綜述論文、生成詞條的百科查詢、對所提問題作出知識性的回答。

圖片

論文地址:https://arxiv.org/abs/2211.09085

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-03-08 13:06:03

2023-11-17 15:50:27

AI訓(xùn)練

2023-12-08 13:17:00

數(shù)據(jù)模型

2022-08-03 12:01:10

DeepMindAIVinyals

2023-02-09 12:31:20

2023-03-20 11:29:49

2022-03-14 13:36:00

AI論文

2023-08-07 13:30:08

平臺MetaGPTAI

2023-03-13 16:11:37

模型文本

2024-09-14 14:09:40

2023-04-20 17:47:57

模型開源

2023-01-10 16:08:04

人工智能擴(kuò)散模型

2023-07-07 17:03:23

AI智能

2023-10-16 13:27:00

AI數(shù)據(jù)

2021-02-23 09:40:07

人工智能人工智能應(yīng)用

2023-06-12 10:25:45

模型訓(xùn)練

2024-07-08 09:49:54

2023-03-04 21:51:27

圖像研究

2022-07-03 20:21:42

物聯(lián)網(wǎng)AIoT人工智能

2022-07-04 08:32:00

物聯(lián)網(wǎng)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號