不可見成為可見!超材料和 AI 融合,洛桑聯(lián)邦理工「破譯」了聲音圖像
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
聲音在空氣中作了一幅我們看不見的畫,人們需要用一些手段將其顯現(xiàn)出來。
聽上去有點玄幻,能做到嗎?
能!
近日,瑞士洛桑聯(lián)邦理工學(xué)院波工程實驗室(Laboratory of Wave Engineering,EPFL)的一個小組利用超材料結(jié)合深度學(xué)習(xí)技術(shù)的創(chuàng)新思路實現(xiàn)了這個過程。
2020 年 8 月 7 日,該研究小組題為 Far-Field Subwavelength Acoustic Imaging by Deep Learning(基于深度學(xué)習(xí)的遠(yuǎn)場聲學(xué)亞波長成像)的成果發(fā)表于國際頂級物理學(xué)期刊 Physical Review X。
衍射極限帶來的挑戰(zhàn)
該小組的這一嘗試要從物理學(xué)中的「衍射極限」(Diffraction limit)說起。
衍射是一個我們?nèi)粘I钪卸加龅竭^的物理現(xiàn)象——波遇到障礙物時會偏離原本的直線傳播。而在此基礎(chǔ)上的衍射極限則是指,受到衍射現(xiàn)象的限制,一個物點經(jīng)光學(xué)系統(tǒng)成像,并不能得到理想像點。
利用一個物體的成像,人們能夠?qū)λ鼈鞑セ蜉椛涞墓獠?、聲波進(jìn)行一個所謂的遠(yuǎn)場(far-field)分析,以此來描繪物體本身。
為實現(xiàn)這一目的,較為關(guān)鍵的一個因素是成像的分辨率。分辨率受限于波長,波越短,分辨率越高。
也就是說,正是因為衍射極限,物體的成像質(zhì)量會受影響。因此,遠(yuǎn)場觀察、識別那些尺寸比光波長小得多的物體,這項任務(wù)具有挑戰(zhàn)性。
雖然科學(xué)家們此前已經(jīng)設(shè)計出了幾種方法來克服這種限制,但這些方法還存在一些問題,比如:
-
侵入性標(biāo)記方法:需要復(fù)雜、昂貴的光學(xué)設(shè)備,圖像后處理過程繁瑣;
-
諧振超材料透鏡方法:雖然無需標(biāo)記、成像分辨率也高,但諧振金屬材料對吸收損耗敏感,這在很大程度上阻礙了其實際應(yīng)用。
超材料與深度學(xué)習(xí)的結(jié)合
對于任何一項科學(xué)研究而言,發(fā)現(xiàn)問題之后,就要提出研究課題,嘗試給出解決方案了。
研究小組在論文中表示:
機(jī)器學(xué)習(xí)在不斷進(jìn)步,不同領(lǐng)域的科學(xué)家們開始嘗試通過深度學(xué)習(xí)進(jìn)行研究,如工程、生物、醫(yī)學(xué)、量子物理等。近年來,深度學(xué)習(xí)成功的例子包括醫(yī)學(xué)圖像分析、語音識別、圖像分類、逆成像問題以及各種復(fù)雜的分析問題。
實際上,由具有非線性模塊的多個處理層組成的深度神經(jīng)網(wǎng)絡(luò),能夠通過自調(diào)整每一層的內(nèi)部參數(shù),發(fā)現(xiàn)、學(xué)習(xí)隱藏在復(fù)雜數(shù)據(jù)中的結(jié)構(gòu),無需人工干預(yù)。
受此啟發(fā),波工程實驗室研究小組的思路是:將超材料與深度學(xué)習(xí)技術(shù)結(jié)合,把衍射極限由劣勢變成優(yōu)勢,為無標(biāo)記成像技術(shù)的新應(yīng)用開辟一條新路。
雷鋒網(wǎng)了解到,超材料即 Metamaterial,是指一類自然界中不存在的、人工制造的非活體復(fù)合材料或結(jié)構(gòu)。在這一研究中,小組采用的是有損耗(小組特地進(jìn)行的設(shè)計)的諧振金屬。
【用于亞波長圖像重建和識別的實驗裝置】
研究小組在亞波長輸入圖像(subwavelength input images)附近放置金屬,并訓(xùn)練神經(jīng)網(wǎng)絡(luò)直接對圖像進(jìn)行重構(gòu)和分類。其中,金屬的吸收損失是有效學(xué)習(xí)的關(guān)鍵。
具體原理見下圖:
類似數(shù)字“5”的形狀是一個亞波長聲源。
如 a 部分所示,放置在遠(yuǎn)場中的麥克風(fēng)陣列捕獲的信號不包含關(guān)于聲源的亞波長細(xì)節(jié)的任何信息,換句話說,不管使用什么信號處理策略,都不可能實現(xiàn)成像。
如 b 部分所示,隨機(jī)插入了一簇亞波長亥姆霍茲諧振器之后,關(guān)于亞波長細(xì)節(jié)的信息輻射到了遠(yuǎn)場中。
如 c 部分所示,小組將麥克風(fēng)陣列采集到的遠(yuǎn)場幅值和相位輸入到神經(jīng)網(wǎng)絡(luò)中。
小組使用了兩種不同類型的神經(jīng)網(wǎng)絡(luò),一是 U -net 型卷積神經(jīng)網(wǎng)絡(luò),用于圖像重建;二是多層并行 CNN,用于圖像分類。
分辨率和分類精度的顯著提升
實驗結(jié)果表明,在沒有金屬元素的情況下, U -net 型卷積神經(jīng)網(wǎng)絡(luò)難以重建圖像;而多層并行 CNN 的分類性能相對較高,近場和遠(yuǎn)場分別為 67.5% 和 57.5%。
而在加入 ñ=29 有損諧振器的情況下,遠(yuǎn)場分類精度從 57.5% 提高到 74%,不過圖像重建仍然質(zhì)量較低(下圖第一行)。
在加入 ñ=302 有損諧振器的情況下,不僅整體分類精度提高到了 84%,而且亞波長圖像的重建也非常準(zhǔn)確,分辨率提高到了 30 倍(下圖第二行)。
在初步證明了神經(jīng)網(wǎng)絡(luò)能夠從遠(yuǎn)場中記錄的幅度相位分布恢復(fù)初始的亞波長圖像之后,該小組又有了一個新目標(biāo):證實該網(wǎng)絡(luò)在新數(shù)據(jù)庫中快速重新學(xué)習(xí)的能力。
據(jù)了解,研究小組創(chuàng)建了一個包含 600 個培訓(xùn)樣本和 200 個測試樣本的新數(shù)據(jù)集,其中包含四個字母 E、 F、L 和 P,然后在這個新的、較小的數(shù)據(jù)集上重新訓(xùn)練 U -net 型卷積神經(jīng)網(wǎng)絡(luò),要求神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)集中的未知字母進(jìn)行分類和重構(gòu)。
如上圖所示,經(jīng)過重新學(xué)習(xí)的網(wǎng)絡(luò)實現(xiàn)了 ≥0.94 的圖像保真度(這里指輸入字母和重構(gòu)字母之間的差異),說明這種方法具有高度適應(yīng)性,在學(xué)習(xí)新數(shù)據(jù)類型時可以更加高效,不受輸入數(shù)據(jù)多樣性的限制。
論文合著者之一 Romain Fleury 強(qiáng)調(diào)了這一方法的獨特性:
通過使用長度大約為一米的聲波,生成分辨率僅為幾厘米的圖像,我們遠(yuǎn)遠(yuǎn)超過了衍射極限。與此同時,超材料吸收信號曾被認(rèn)為是一個很大的缺點,但事實證明,與神經(jīng)網(wǎng)絡(luò)相結(jié)合時,它成了一種優(yōu)勢。
實際上研究小組還認(rèn)為,這一方法能在聲學(xué)圖像分析、特征檢測、對象分類中進(jìn)行應(yīng)用,或是在生物醫(yī)學(xué)應(yīng)用中作為一種新型無標(biāo)記聲學(xué)傳感工具。正如論文合著者之一 Romain Fleury 所說:
在醫(yī)學(xué)成像領(lǐng)域,使用長波來觀察非常小的物體將會是一個重大突破。長波意味著醫(yī)生可以使用更低的頻率,即便面對著致密的骨組織,也能獲取到有效的聲學(xué)成像。