自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

推理速度比Stable Diffusion快2倍;視覺Transformer統(tǒng)一圖像文本

人工智能 新聞
本周論文包括 MIT 造出薄如紙的太陽能電池板;推理速度比 Stable Diffusion 快 2 倍的 Muse 模型等研究。

論文 1:One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations

  • 作者:Yiming Zhu 、 Hongyu Liu 等
  • 論文地址:https://arxiv.org/pdf/2210.07883.pdf

摘要:本文首先利用已有的編碼器將需要編輯的圖像轉(zhuǎn)換到 StyleGAN 的 W^+ 語義空間中的潛在編碼 w,再通過提出的語義調(diào)制模塊對該隱編碼進(jìn)行自適應(yīng)的調(diào)制。該語義調(diào)制模塊包括語義對齊和語義注入模塊,首先通過注意力機(jī)制對齊文本編碼和 GAN 的隱編碼之間的語義,再將文本信息注入到對齊后的隱編碼中,從而保證該隱編碼擁有文本信息從而達(dá)到利用文本編輯圖像能力。

不同于經(jīng)典的 StyleCLIP 模型,我們的模型無需對每個文本單獨(dú)訓(xùn)練一個模型,一個模型就可以響應(yīng)多個文本從而對圖像做有效的編輯,所以我們的模型成為 FFCLIP-Free Form Text-Driven Image Manipulation。同時我們的模型在經(jīng)典的教堂,人臉以及汽車數(shù)據(jù)集上都取得了非常不錯的效果。

圖片

圖 1:整體框架圖

推薦:文本圖片編輯新范式,單個模型實現(xiàn)多文本引導(dǎo)圖像編輯。

論文 2:Printed Organic Photovoltaic Modules on Transferable Ultra-thin Substrates as Additive Power Sources

  • 作者:Mayuran Saravanapavanantham、Jeremiah Mwaura 等
  • 論文地址:https://onlinelibrary.wiley.com/doi/10.1002/smtd.202200940

摘要:麻省理工學(xué)院的研究人員已經(jīng)開發(fā)出一種可擴(kuò)展的制造技術(shù),可以生產(chǎn)超薄、輕質(zhì)的太陽能電池,這種電池可以鋪設(shè)在任何表面上。

MIT 的研究人員制造出了比人類頭發(fā)還薄的太陽能電池板,該電池板每公斤提供的能量是目前玻璃和硅基太陽能電池板的 18 倍。這些太陽能電池板的重量只有傳統(tǒng)光電電池的百分之一。

這種超薄太陽能板也可以安裝到船帆、無人機(jī)機(jī)翼和帳篷上。它們在偏遠(yuǎn)地區(qū)和救災(zāi)行動中尤其有用。

圖片

推薦:MIT 造出薄如紙的太陽能電池板。

論文 3:A Survey of Deep Learning for Mathematical Reasoning

  • 作者:Pan Lu、 Liang Qiu 等
  • 論文地址:https://arxiv.org/pdf/2212.10535.pdf

摘要:在近期發(fā)布的一篇報告中,來自 UCLA 等機(jī)構(gòu)的研究者系統(tǒng)回顧了深度學(xué)習(xí)在數(shù)學(xué)推理方面的進(jìn)展。

具體而言,本文討論了各種任務(wù)和數(shù)據(jù)集(第 2 節(jié)),并研究了神經(jīng)網(wǎng)絡(luò)(第 3 節(jié))和預(yù)訓(xùn)練語言模型(第 4 節(jié))在數(shù)學(xué)領(lǐng)域的進(jìn)展。此外還探討了大型語言模型的上下文學(xué)習(xí)在數(shù)學(xué)推理中的快速發(fā)展(第 5 節(jié))。文章進(jìn)一步分析了現(xiàn)有的基準(zhǔn),發(fā)現(xiàn)對多模態(tài)和低資源環(huán)境的關(guān)注較少(第 6.1 節(jié))。基于循證的研究表明,目前的計算能力表征是不充分的,深度學(xué)習(xí)方法在數(shù)學(xué)推理方面也是不一致的(第 6.2 節(jié))。隨后,作者建議在概括性和魯棒性、可信推理、從反饋中學(xué)習(xí)和多模態(tài)數(shù)學(xué)推理方面改進(jìn)目前的工作(第 7 節(jié))。

推薦:深度學(xué)習(xí)如何慢慢推開數(shù)學(xué)推理的門。

論文 4:Muse: Text-To-Image Generation via Masked Generative Transformers

  • 作者:Huiwen Chang 、 Han Zhang 等
  • 論文地址:https://arxiv.org/pdf/2301.00704v1.pdf

摘要:該研究提出了一種使用掩碼圖像建模方法進(jìn)行文本到圖像合成的新模型,其中的圖像解碼器架構(gòu)以來自預(yù)訓(xùn)練和 frozen T5-XXL 大型語言模型 (LLM) 編碼器的嵌入為條件。

與建立在級聯(lián)像素空間(pixel-space)擴(kuò)散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse 由于使用了離散 token,效率顯著提升。與 SOTA 自回歸模型 Parti (Yu et al., 2022) 相比,Muse 因使用并行解碼而效率更高。

基于在 TPU-v4 上的實驗結(jié)果,研究者估計 Muse 在推理速度上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,比 Stable Diffusion v1.4 (Rombach et al., 2022) 快 2 倍。研究者認(rèn)為:Muse 比 Stable Diffusion 推理速度更快是因為 Stable Diffusion v1.4 中使用了擴(kuò)散模型,在推理時明顯需要更多次迭代。

圖片

模型體系架構(gòu)概述。

推薦:推理速度比 Stable Diffusion 快 2 倍,生成、修復(fù)圖像谷歌一個模型搞定。

論文 5:Positive-Incentive Noise

  • 作者:李學(xué)龍
  • 論文地址:https://ieeexplore.ieee.org/document/10003114

摘要:在各式各樣的科學(xué)研究的方方面面中,噪聲大量存在,如儀器精度不足導(dǎo)致的儀器誤差、人為操作中的失誤導(dǎo)致的偏差、極端環(huán)境等外界干擾導(dǎo)致的信息失真等。研究者普遍認(rèn)為噪聲通常會對執(zhí)行的任務(wù)產(chǎn)生不良影響,這已成為一個約定俗成的假設(shè)。因此,圍繞著 “降噪” 這一核心任務(wù)產(chǎn)生了大量的研究工作。然而,西北工業(yè)大學(xué)李學(xué)龍教授團(tuán)隊在執(zhí)行信號探測和處理任務(wù)時通過實驗觀察驗證,對這一假設(shè)產(chǎn)生了質(zhì)疑:科學(xué)研究中的噪聲真的總是有害的嗎?

恰如圖 1 所示,在一個圖像智能分類系統(tǒng)中,對圖像加入適量的噪聲后再訓(xùn)練,識別準(zhǔn)確率反而上升了。這給我們帶來一點(diǎn)啟發(fā):圖像中加入一些噪聲,而不是去除,再執(zhí)行圖像分類任務(wù),可能效果會更好。只要噪聲對目標(biāo)的影響遠(yuǎn)小于噪聲對背景的影響,產(chǎn)生 “傷敵(背景噪聲)一千,自(目標(biāo)信號)損八百” 的效果就有意義,因為任務(wù)追求的是高信噪比。從本質(zhì)上來說,面對傳統(tǒng)分類問題,在特征后隨機(jī)加上適度的噪聲,相當(dāng)于升高了特征維度,某種意義上說,類似是給特征增加了一個核函數(shù),實際上完成了一種低維空間到高維空間的映射,使數(shù)據(jù)更可分,從而提高了分類效果。

圖片

圖 1 圖像識別準(zhǔn)確率隨圖像噪聲強(qiáng)度的增大而 “反直覺” 地呈現(xiàn)出 “先增后減” 的關(guān)系。

推薦:西工大李學(xué)龍教授提出基于任務(wù)熵的數(shù)學(xué)分析框架。

論文 6:ABPN: Adaptive Blend Pyramid Network for Real-Time Local Retouching of Ultra High-Resolution Photo

  • 作者:Biwen Lei 、 Xiefan Guo 等
  • 論文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Lei_ABPN_Adaptive_Blend_Pyramid_Network_for_Real-Time_Local_Retouching_of_CVPR_2022_paper.pdf

摘要:來自達(dá)摩院的研究者以實現(xiàn)專業(yè)級的智能美膚為出發(fā)點(diǎn),研發(fā)了一套高清圖像的超精細(xì)局部修圖算法 ABPN,在超清圖像中的美膚與服飾去皺任務(wù)中都實現(xiàn)了很好的效果與應(yīng)用。

圖片

如上圖所示,網(wǎng)絡(luò)結(jié)構(gòu)主要由兩個部分組成:上下文感知的局部修飾層(LRL)和自適應(yīng)混合金字塔層(BPL)。其中 LRL 的目的是對降采樣后的低分辨率圖像進(jìn)行局部修飾,生成低分辨率的修飾結(jié)果圖,充分考慮全局的上下文信息以及局部的紋理信息。進(jìn)一步,BPL 用于將 LRL 中生成的低分辨率結(jié)果逐步向上拓展到高分辨率結(jié)果。其中,我們設(shè)計了一個自適應(yīng)混合模塊(ABM)及其逆向模塊(R-ABM),利用中間混合圖層 Bi,可實現(xiàn)原圖與結(jié)果圖之間的自適應(yīng)轉(zhuǎn)換以及向上拓展,展現(xiàn)了強(qiáng)大的可拓展性和細(xì)節(jié)保真能力。我們在臉部修飾及服飾修飾兩個數(shù)據(jù)集中進(jìn)行了大量實驗,結(jié)果表明我們的方法在效果和效率上都大幅度地領(lǐng)先了現(xiàn)有方法。值得一提的是,我們的模型在單卡 P100 上實現(xiàn)了 4K 超高分辨率圖像的實時推理。

推薦:一鍵抹去瑕疵、褶皺。

論文 7:Image-and-Language Understanding from Pixels Only

  • 作者:Michael Tschannen、Basil Mustafa 等
  • 論文地址:https://arxiv.org/pdf/2212.08045.pdf

摘要:開發(fā)一個可以處理任何模態(tài)或模態(tài)組合的單一端到端模型,將是多模態(tài)學(xué)習(xí)的重要一步。本文中,來自谷歌研究院(谷歌大腦團(tuán)隊)、蘇黎世的研究者將主要關(guān)注圖像和文本。

本文將對使用純基于像素的模型進(jìn)行文本和圖像的多模態(tài)學(xué)習(xí)進(jìn)行探索。該模型是一個單獨(dú)的視覺 Transformer,它處理視覺輸入或文本,或兩者一起,所有都呈現(xiàn)為 RGB 圖像。所有模態(tài)都使用相同的模型參數(shù),包括低級特征處理;也就是說,不存在特定于模態(tài)的初始卷積、tokenization 算法或輸入嵌入表。該模型僅用一個任務(wù)訓(xùn)練:對比學(xué)習(xí),正如 CLIP 和 ALIGN 所推廣的那樣。因此模型被稱作 CLIP-Pixels Only(CLIPPO)。

圖片

推薦:參數(shù)減半、與 CLIP 一樣好,視覺 Transformer 從像素入手實現(xiàn)圖像文本統(tǒng)一。

ArXiv Weekly Radiostation

機(jī)器之心聯(lián)合由楚航、羅若天發(fā)起的ArXiv Weekly Radiostation,在 7 Papers 的基礎(chǔ)上,精選本周更多重要論文,包括NLP、CV、ML領(lǐng)域各 10 篇精選,并提供音頻形式的論文摘要簡介,詳情如下:

10 NLP Papers音頻:??00:0020:02?

本周 10 篇 NLP 精選論文是:

1. Rethinking with Retrieval: Faithful Large Language Model Inference.  (from Hongming Zhang, Dan Roth)

2. Understanding Political Polarisation using Language Models: A dataset and method.  (from Bhiksha Raj)

3. Towards Table-to-Text Generation with Pretrained Language Model: A Table Structure Understanding and Text Deliberating Approach.  (from Hui Xiong)

4. Examining Political Rhetoric with Epistemic Stance Detection.  (from Brendan O'Connor)

5. Towards Knowledge-Intensive Text-to-SQL Semantic Parsing with Formulaic Knowledge.  (from Min-Yen Kan)

6. Leveraging World Knowledge in Implicit Hate Speech Detection.  (from Jessica Lin)

7. Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers.  (from Furu Wei)

8. EZInterviewer: To Improve Job Interview Performance with Mock Interview Generator.  (from Tao Zhang)

9. Memory Augmented Lookup Dictionary based Language Modeling for Automatic Speech Recognition.  (from Yuxuan Wang)

10. Parameter-Efficient Fine-Tuning Design Spaces.  (from Diyi Yang)

10 CV Papers音頻:??00:0021:06?

本周 10 篇 CV 精選論文是:

1. CA$^2$T-Net: Category-Agnostic 3D Articulation Transfer from Single Image.  (from Jitendra Malik)

2. Mapping smallholder cashew plantations to inform sustainable tree crop expansion in Benin.  (from Vipin Kumar)

3. Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning.  (from Trevor Darrell)

4. STEPs: Self-Supervised Key Step Extraction from Unlabeled Procedural Videos.  (from Rama Chellappa)

5. Muse: Text-To-Image Generation via Masked Generative Transformers.  (from Ming-Hsuan Yang, Kevin Murphy, William T. Freeman)

6. Understanding Imbalanced Semantic Segmentation Through Neural Collapse.  (from Xiangyu Zhang, Jiaya Jia)

7. Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection.  (from Xiangyu Zhang)

8. Learning Road Scene-level Representations via Semantic Region Prediction.  (from Alan Yuille)

9. Learning by Sorting: Self-supervised Learning with Group Ordering Constraints.  (from Bernt Schiele)

10. AttEntropy: Segmenting Unknown Objects in Complex Scenes using the Spatial Attention Entropy of Semantic Segmentation Transformers.  (from Pascal Fua)

10 ML Papers音頻:??00:0023:15?

本周 10 篇 ML 精選論文是:

1. Self-organization Preserved Graph Structure Learning with Principle of Relevant Information.  (from Philip S. Yu)

2. Modified Query Expansion Through Generative Adversarial Networks for Information Extraction in E-Commerce.  (from Altan Cakir)

3. Disentangled Explanations of Neural Network Predictions by Finding Relevant Subspaces.  (from Klaus-Robert Müller)

4. L-HYDRA: Multi-Head Physics-Informed Neural Networks.  (from George Em Karniadakis)

5. On Transforming Reinforcement Learning by Transformer: The Development Trajectory.  (from Dacheng Tao)

6. Boosting Neural Networks to Decompile Optimized Binaries.  (from Kai Chen)

7. NeuroExplainer: Fine-Grained Attention Decoding to Uncover Cortical Development Patterns of Preterm Infants.  (from Dinggang Shen)

8. A Theory of Human-Like Few-Shot Learning.  (from Ming Li)

9. Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning.  (from George J. Pappas)

10. Estimating Latent Population Flows from Aggregated Data via Inversing Multi-Marginal Optimal Transport.  (from Hongyuan Zha)

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-01-05 13:11:20

模型

2023-01-03 13:06:38

模型訓(xùn)練

2009-07-01 09:47:10

FireFox 3.5瀏覽

2023-01-31 11:06:01

模型算力

2021-12-31 09:34:22

PyTorchtransformer模型

2025-03-12 09:35:45

2023-01-16 13:47:59

谷歌模型

2023-10-25 18:53:45

芯片AI芯片

2020-01-18 18:30:16

輸入法WordWindows 10

2023-07-12 14:28:45

谷歌模型

2021-04-13 14:56:13

工具代碼開發(fā)

2022-03-19 10:26:48

Linuxapt 命令

2024-11-21 16:06:02

2022-10-27 08:31:31

架構(gòu)

2021-05-06 16:06:20

Google AI技術(shù)

2024-07-08 13:04:01

2024-03-26 10:13:54

日志引擎SigLens

2015-09-10 11:29:57

5G4G

2021-03-08 09:05:47

數(shù)據(jù)傳輸新線纜數(shù)據(jù)中心

2022-04-26 15:24:03

開源框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號