自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無(wú)需注意力的預(yù)訓(xùn)練;被GPT帶飛的In-Context Learning

人工智能 新聞
本周重要論文包括當(dāng)預(yù)訓(xùn)練不需要注意力時(shí),擴(kuò)展到 4096 個(gè) token 也不成問(wèn)題;被 GPT 帶飛的 In-Context Learning 背后是模型在秘密執(zhí)行梯度下降。

論文 1:ClimateNeRF: Physically-based Neural Rendering for Extreme Climate Synthesis

  • 作者:Yuan Li等
  • 論文地址:https://arxiv.org/pdf/2211.13226.pdf

摘要:本文介紹了一種將物理模擬與場(chǎng)景 NeRF 模型相融合的全新方法,生成這些場(chǎng)景中物理現(xiàn)象的逼真影片。就具體效果而言,該方法能夠逼真地模擬出氣候變化可能產(chǎn)生的影響 —— 在一場(chǎng)小范圍的洪水爆發(fā)后,操場(chǎng)會(huì)變成什么樣子?大洪水后呢?暴雪后呢?


圖片

推薦:一秒起霧、入冬、發(fā)洪水,新 NeRF 模型渲染出逼真物理大片。

論文 2:Pretraining Without Attention

  • 作者:Junxiong Wang 等
  • 論文地址:https://arxiv.org/pdf/2212.10544.pdf

摘要:本文提出了雙向門(mén)控 SSM(BiGS)模型,結(jié)合基于狀態(tài)空間模型(SSM)的 Routing 層和基于乘法門(mén)的模型架構(gòu),在不使用注意力的情況下能夠復(fù)制 BERT 預(yù)訓(xùn)練結(jié)果,并可擴(kuò)展到 4096 個(gè) token 的長(zhǎng)程預(yù)訓(xùn)練,不需要近似。

圖片

推薦:預(yù)訓(xùn)練無(wú)需注意力,擴(kuò)展到 4096 個(gè) token 不成問(wèn)題,與 BERT 相當(dāng)。

論文 3:One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations

  • 作者:Yiming Zhu 等
  • 論文地址:https://arxiv.org/pdf/2210.07883.pdf

摘要:最近用文本來(lái)引導(dǎo)圖像編輯取得了非常大的進(jìn)展以及關(guān)注度,特別是基于去噪擴(kuò)散模型如 StableDiffusion 或者 DALLE 等。但基于 GAN 的文本 - 圖像編輯依舊有一些問(wèn)題等待解決,例如經(jīng)典的 StyleCILP 中針對(duì)每一個(gè)文本必須要訓(xùn)練一個(gè)模型,這種單文本對(duì)單模型的方式在實(shí)際應(yīng)用中是不方便的。

本文提出 FFCLIP 并解決了這個(gè)問(wèn)題,針對(duì)靈活的不同文本輸入,F(xiàn)FCLIP 只需要一個(gè)模型就能夠?qū)D片進(jìn)行相應(yīng)的編輯,無(wú)需針對(duì)每個(gè)文本重新訓(xùn)練模型,并且在多個(gè)數(shù)據(jù)集上都取得了非常不錯(cuò)的效果。本文已被 NeurIPS 2022 接收。

推薦:文本圖片編輯新范式,單個(gè)模型實(shí)現(xiàn)多文本引導(dǎo)圖像編輯。

論文 4:SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions

  • 作者:Yizhong Wang 等
  • 論文地址:https://arxiv.org/pdf/2212.10560v1.pdf

摘要:華盛頓大學(xué)等機(jī)構(gòu)近期聯(lián)合發(fā)表了一篇論文,提出的新框架 SELF-INSTRUCT 通過(guò)引導(dǎo)模型自己的生成過(guò)程,提高了預(yù)訓(xùn)練語(yǔ)言模型的指令遵循能力。SELF-INSTRUCT 是一種半自動(dòng)化過(guò)程,使用來(lái)自模型本身的指令信號(hào)對(duì)預(yù)訓(xùn)練的 LM 進(jìn)行指令調(diào)整。

推薦:無(wú)需人工標(biāo)注,自生成指令框架打破 ChatGPT 等 LLM 的成本瓶頸。

論文 5:Ab Initio Calculation of Real Solids via Neural Network Ansatz


  • 作者:Xiang Li 等
  • 論文地址:https://www.nature.com/articles/s41467-022-35627-1

摘要:機(jī)器學(xué)習(xí)能夠處理海量數(shù)據(jù),解決復(fù)雜場(chǎng)景下的科學(xué)難題,帶領(lǐng)科學(xué)探索抵達(dá)過(guò)去無(wú)法觸及的新領(lǐng)域。比如 DeepMind 用人工智能軟件 AlphaFold 對(duì)科學(xué)界已知的幾乎所有蛋白質(zhì)結(jié)構(gòu)進(jìn)行了高度準(zhǔn)確的預(yù)測(cè);Christian Lagemann 提出的基于深度學(xué)習(xí)的粒子圖像測(cè)速 (PIV) 方法一改原本的純手動(dòng)設(shè)置參數(shù),大大提升模型的應(yīng)用范圍,對(duì)汽車(chē)、航空航天和生物醫(yī)學(xué)工程等多個(gè)領(lǐng)域的研究具有至關(guān)重要的意義。

最近,字節(jié)跳動(dòng) AI Lab Research 團(tuán)隊(duì)和北京大學(xué)物理學(xué)院陳基課題組的工作《 Ab initio calculation of real solids via neural network ansatz》 給出了研究凝聚態(tài)物理的新思路,該工作提出了業(yè)內(nèi)首個(gè)適用于固體系統(tǒng)的神經(jīng)網(wǎng)絡(luò)波函數(shù),實(shí)現(xiàn)了固體的第一性原理計(jì)算,并將計(jì)算結(jié)果推向了熱力學(xué)極限。其有力地證明了神經(jīng)網(wǎng)絡(luò)是研究固體物理的高效工具,也預(yù)示著深度學(xué)習(xí)技術(shù)將在凝聚態(tài)物理中發(fā)揮越來(lái)越重要的作用。相關(guān)研究成果于 2022 年 12 月 22 日發(fā)表于國(guó)際頂級(jí)刊物 Nature Communication 雜志上。

推薦:業(yè)界首個(gè)適用于固體系統(tǒng)的神經(jīng)網(wǎng)絡(luò)波函數(shù),登上 Nature 子刊。

論文 6:Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers

  • 作者:Damai Dai 等
  • 論文地址:https://arxiv.org/pdf/2212.10559v2.pdf

摘要:In-Context Learning(ICL)在大型預(yù)訓(xùn)練語(yǔ)言模型上取得了巨大的成功,但其工作機(jī)制仍然是一個(gè)懸而未決的問(wèn)題。本文中,來(lái)自北大、清華、微軟的研究者將 ICL 理解為一種隱式微調(diào),并提供了經(jīng)驗(yàn)性證據(jù)來(lái)證明 ICL 和顯式微調(diào)在多個(gè)層面上表現(xiàn)相似。

推薦:被 GPT 帶飛的 In-Context Learning 為什么起作用?模型在秘密執(zhí)行梯度下降。

論文 7:Experimental Indications of Non-classical Brain Functions

  • 作者:Christian Matthias Kerskens 等
  • 論文地址:https://iopscience.iop.org/article/10.1088/2399-6528/ac94be

摘要:幾十年來(lái),科學(xué)家們一直在探索人腦的計(jì)算和思考機(jī)制。但人腦的構(gòu)成太過(guò)復(fù)雜,包含幾百億個(gè)神經(jīng)元,相當(dāng)于上萬(wàn)億塊芯片,我們很難一探究竟。因?qū)诙吹难芯控暙I(xiàn)而獲得諾貝爾物理學(xué)獎(jiǎng)的羅杰?彭羅斯曾大膽地提出「量子意識(shí)」觀點(diǎn),即人腦本身就是量子結(jié)構(gòu),或者說(shuō)是量子計(jì)算機(jī)。但這一觀點(diǎn)一直備受質(zhì)疑。

近期都柏林圣三一大學(xué)的一項(xiàng)研究表明我們的大腦執(zhí)行的是量子計(jì)算,該研究認(rèn)為人腦中存在與意識(shí)相關(guān)的大腦功能介導(dǎo)的糾纏。如果這些大腦功能必須以非經(jīng)典的方式運(yùn)作,那么這意味著意識(shí)是非經(jīng)典的,即大腦的認(rèn)知過(guò)程涉及量子計(jì)算。

推薦:大腦的思考是量子計(jì)算,這一猜測(cè)有了新證據(jù)。

ArXiv Weekly Radiostation

機(jī)器之心聯(lián)合由楚航、羅若天發(fā)起的ArXiv Weekly Radiostation,在 7 Papers 的基礎(chǔ)上,精選本周更多重要論文,包括NLP、CV、ML領(lǐng)域各 10 篇精選,并提供音頻形式的論文摘要簡(jiǎn)介,詳情如下:

10 NLP Papers音頻:00:0020:18?

本周 10 篇 NLP 精選論文是:

1. Does unsupervised grammar induction need pixels?.  (from Serge Belongie, Kilian Q. Weinberger, Jitendra Malik, Trevor Darrell)

2. Understanding Stereotypes in Language Models: Towards Robust Measurement and Zero-Shot Debiasing.  (from Bernhard Sch?lkopf)

3. Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation.  (from Cordelia Schmid, Ivan Laptev)

4. Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment.  (from Ruslan Salakhutdinov, Louis-Philippe Morency)

5. Original or Translated? On the Use of Parallel Data for Translation Quality Estimation.  (from Dacheng Tao)

6. Toward Human-Like Evaluation for Natural Language Generation with Error Analysis.  (from Dacheng Tao)

7. Can Current Task-oriented Dialogue Models Automate Real-world Scenarios in the Wild?.  (from Kyunghyun Cho)

8. On the Blind Spots of Model-Based Evaluation Metrics for Text Generation.  (from Kyunghyun Cho)

9. Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval.  (from William W. Cohen)

10. The Impact of Symbolic Representations on In-context Learning for Few-shot Reasoning.  (from Li Erran Li, Eric Xing)

10 CV Papers音頻:00:0023:15?

本周 10 篇 CV 精選論文是:

1. Revisiting Residual Networks for Adversarial Robustness: An Architectural Perspective.  (from Kalyanmoy Deb)

2. Benchmarking Spatial Relationships in Text-to-Image Generation.  (from Eric Horvitz)

3. A Brief Survey on Person Recognition at a Distance.  (from Rama Chellappa)

4. MetaCLUE: Towards Comprehensive Visual Metaphors Research.  (from Leonidas Guibas, William T. Freeman)

5. Aliasing is a Driver of Adversarial Attacks.  (from Antonio Torralba)

6. Reversible Column Networks.  (from Xiangyu Zhang)

7. Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from Sparse Image Ensemble.  (from Ming-Hsuan Yang)

8. Learning Object-level Point Augmentor for Semi-supervised 3D Object Detection.  (from Ming-Hsuan Yang)

9. Unleashing the Power of Visual Prompting At the Pixel Level.  (from Alan Yuille)

10. From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models.  (from Dacheng Tao, Steven C.H. Hoi)

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-12-27 14:43:15

模型GPT

2023-01-17 15:34:42

論文模型

2022-12-31 13:55:28

模型訓(xùn)練

2023-12-11 14:21:00

模型訓(xùn)練

2024-12-04 15:55:21

2024-06-06 09:18:48

2024-09-19 10:07:41

2011-07-07 13:12:58

移動(dòng)設(shè)備端設(shè)計(jì)注意力

2025-02-10 00:00:55

MHAValue向量

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2024-02-19 00:12:00

模型數(shù)據(jù)

2024-10-31 10:00:39

注意力機(jī)制核心組件

2022-03-25 11:29:04

視覺(jué)算法美團(tuán)

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2024-06-28 08:04:43

語(yǔ)言模型應(yīng)用

2020-09-17 12:40:54

神經(jīng)網(wǎng)絡(luò)CNN機(jī)器學(xué)習(xí)

2023-02-16 13:31:14

技術(shù)發(fā)展

2021-03-23 15:21:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-05-05 11:40:12

語(yǔ)言模型工作原理神經(jīng)元層

2023-05-05 13:11:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)