自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

下圍棋so easy ,AlphaZero開始玩量子計(jì)算!

新聞 人工智能
AlphaZero雖然在圍棋項(xiàng)目上戰(zhàn)勝了人類選手,但所需的大量算力使其很難走進(jìn)尋常人的生活。最近,丹麥和德國的研究人員使用Deepmind的AlphaZero 開發(fā)了一種混合算法,將AlphaZero強(qiáng)大的搜索能力與量子計(jì)算有機(jī)結(jié)合起來,參數(shù)搜索速度大幅提升。

  在過去的幾十年里量子物理技術(shù)的探索中,最引人注目的就是量子計(jì)算機(jī)。

[[321979]]

量子計(jì)算機(jī)的能力,是所有現(xiàn)有的計(jì)算機(jī)組合加起來都無法匹敵。但到目前為止還沒有人能夠制造出一臺(tái)功能齊全的量子計(jì)算機(jī)。這就需要我們?cè)诳刂屏孔酉到y(tǒng)的能力上向前跨一步。

為什么 AlphaZero 能快人一步“預(yù)知未來”?

AlphaZero一開始是專門用來下圍棋的。圍棋的落子位置太多了大約有種。相比之下,國際象棋只有種可能的走位。

所以AlphaZero使用了一個(gè)深層的神經(jīng)網(wǎng)絡(luò),它學(xué)會(huì)了從一個(gè)特定的位置開始評(píng)估它獲勝的可能性。為了獲勝,AlphaZero有一個(gè)功能叫做蒙特卡洛樹搜索,這種方法能夠幫助它在游戲中“預(yù)知未來”。

下围棋so easy ,AlphaZero开始玩量子计算!

由于在所有可能策略中抽樣的可能性比較小,而且神經(jīng)網(wǎng)絡(luò)只能近似估計(jì),所以特別是在其訓(xùn)練階段,蒙特卡洛樹搜索能夠極大地提高游戲的準(zhǔn)確性以及訓(xùn)練效率。

這類似于職業(yè)棋手在下棋時(shí)能夠提前想幾步棋。訓(xùn)練結(jié)果是相當(dāng)驚人的,AlphaZero 很快就摧毀了專業(yè)游戲軟件和人類玩家。例如,經(jīng)過僅僅四個(gè)小時(shí)的自我對(duì)弈練習(xí),AlphaZero 就在國際象棋中擊敗了領(lǐng)先的棋類軟件 Stockfish。而且這完全都是從零開始,一開始AlphaZero根本不知道游戲規(guī)則。丹麥國際象棋大師Peter Heine Nielsen將其比作一個(gè)訪問過地球的高級(jí)外星物種。

目前AlphaZero 已經(jīng)有效地在圍棋,國際象棋和星際爭(zhēng)霸中戰(zhàn)勝對(duì)手。AlphaZero成功的關(guān)鍵是將蒙特卡羅樹搜索和具有前瞻性的深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來。結(jié)果表明,從樹下方延展出來的預(yù)測(cè)信息極大地提高了深度神經(jīng)網(wǎng)絡(luò)的精度,使預(yù)測(cè)結(jié)果更加準(zhǔn)確集中,而非試探性的探索。

AlphaZero后發(fā)制人:30小時(shí)性能提高一個(gè)數(shù)量級(jí)

與普通計(jì)算機(jī)類似,量子計(jì)算機(jī)使用門操作(gate operations)來操縱其量子位。我們?cè)噲D通過構(gòu)建分段恒定的脈沖序列來實(shí)現(xiàn)特定的門操作,即AlphaZero必須為每個(gè)時(shí)間步長(zhǎng)(time-step)選擇一個(gè)脈沖幅度。物理系統(tǒng)在每個(gè)時(shí)間步長(zhǎng)tj上都由一個(gè)4x4復(fù)雜的矩陣U(tj)進(jìn)行數(shù)學(xué)描述,我們將其折疊成一個(gè)長(zhǎng)度為32的向量。這是神經(jīng)網(wǎng)絡(luò)的輸入,如圖1所示。脈沖序列完成后,就可以將復(fù)數(shù)矩陣U(T)映射為一個(gè)實(shí)數(shù),稱為仿真逼真度(fidelity)F,該實(shí)數(shù)的取值在0到1之間。從本質(zhì)上講,仿真逼真度是一種概率度量,其中1表示100%成功。

下围棋so easy ,AlphaZero开始玩量子计算!

圖1.AlphaZero使用的MCTS(左)和深度神經(jīng)網(wǎng)絡(luò)(右)的圖示

左圖和右圖分別演示了 AlphaZero 的樹搜索和神經(jīng)網(wǎng)絡(luò)。利用樹搜索中統(tǒng)一的搜索結(jié)果作為神經(jīng)網(wǎng)絡(luò)的輸入項(xiàng)。神經(jīng)網(wǎng)絡(luò)的上限輸出接近給定輸入狀態(tài)的現(xiàn)行策略,即 p a ∼ a pa ∼ a。同時(shí),下限輸出提供了一個(gè)能夠預(yù)估期望最終報(bào)酬的值函數(shù),即 v (s t)∼(t) v (st)∼ f (t)。在我們的工作中,我們發(fā)現(xiàn)以一致的形式向 AlphaZero 提供物理系統(tǒng)的完整信息,有利于提升它的性能,盡管這種方式可能比較難以調(diào)整以適應(yīng)具有較大希爾伯特空間的系統(tǒng)。

神經(jīng)網(wǎng)絡(luò)輸出一個(gè)值,該值是對(duì)最終仿真逼真度v≈F和一些移動(dòng)概率p=(p1, p2, ...)的估計(jì)。兩者都在蒙特卡洛樹搜索中使用。樹由節(jié)點(diǎn)(狀態(tài))和邊(狀態(tài)-動(dòng)作對(duì))組成。樹搜索從根節(jié)點(diǎn)開始,并通過在每個(gè)步驟中選擇動(dòng)作來貫穿樹。選擇哪種行動(dòng),是通過比較每一個(gè)邊緣的內(nèi)在屬性,以平衡勘探和開發(fā)的方式進(jìn)行的。一旦探索到了邊緣,其內(nèi)在屬性將根據(jù)搜索結(jié)果進(jìn)行更新。

樹中的正向搜索將繼續(xù),直到遇到一個(gè)以前未訪問過的節(jié)點(diǎn),然后將該節(jié)點(diǎn)添加到樹中,并使用p初始化其邊緣。搜索中的所有訪問過的邊都將使用v在反向過程中更新。一旦執(zhí)行了多次此類搜索,AlphaZero將確定一個(gè)操作并更新根節(jié)點(diǎn),而丟棄樹的其余部分。最后,基于樹搜索產(chǎn)生的數(shù)據(jù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行更新,使得v接近保真度,并且移動(dòng)概率增加了選擇更有希望動(dòng)作的機(jī)會(huì)。

簡(jiǎn)言之:蒙特卡洛樹搜索允許AlphaZero向前看幾步,從而可以在解決方案空間中進(jìn)行更全面的搜索。這使得AlphaZero在長(zhǎng)期策略至關(guān)重要的復(fù)雜任務(wù)中比大多數(shù)其他強(qiáng)化學(xué)習(xí)方法更具優(yōu)勢(shì)。

成功實(shí)現(xiàn)AlphaZero之后,我們使用相同的算法超參數(shù)將其用于三個(gè)不同的量子控制問題。對(duì)于每個(gè)問題,我們將AlphaZero與更常規(guī)的算法進(jìn)行了比較。例如,在圖2中,我們比較了AlphaZero和遺傳算法在50小時(shí)運(yùn)行期間創(chuàng)建二進(jìn)制脈沖的任務(wù)。在y軸上,我們繪制infidelity 1-F,這實(shí)際上是錯(cuò)誤率(即越低越好)。最初,AlphaZero在學(xué)習(xí)量子力學(xué)關(guān)聯(lián)時(shí)表現(xiàn)不如遺傳算法,但是這個(gè)學(xué)習(xí)階段相當(dāng)短。在30小時(shí)內(nèi),我們發(fā)現(xiàn)AlphaZero的性能比遺傳算法提高了一個(gè)數(shù)量級(jí),并且具有大量獨(dú)特的高保真脈沖序列。

下围棋so easy ,AlphaZero开始玩量子计算!

圖2.遺傳算法和AlphaZero在50小時(shí)運(yùn)行期間的比較。在y軸上繪制了infidelity (1-F),這實(shí)際上是一個(gè)錯(cuò)誤率

混合了AlphaZero的量子計(jì)算,搜索速度提升500倍

AlphaZero會(huì)輸給物理學(xué)家在過去15年不斷完善的高度量子化的優(yōu)化算法并不奇怪。但是,如果AlphaZero死在這里,會(huì)留下很多遺憾。

由于梯度優(yōu)化算法沒有學(xué)習(xí)功能,意味著訓(xùn)練過程中其性能沒有逐步提高,并且所有生成的數(shù)據(jù)都將被丟棄,而不是用于后續(xù)學(xué)習(xí)。

奧胡斯大學(xué)的團(tuán)隊(duì)開始尋求一種混合算法:AlphaZero通過廣泛的探索生成了高可用的種子對(duì)象,隨后通過基于梯度的方法對(duì)它們進(jìn)行優(yōu)化,這種方法使解決方案的數(shù)量和質(zhì)量都得到了極大的提高。

實(shí)際上,AlphaZero和梯度優(yōu)化解決了不同的問題:AlphaZero能學(xué)習(xí)到解決方案的基礎(chǔ)結(jié)構(gòu),梯度優(yōu)化在種子解決方案周圍的局部空間中進(jìn)行優(yōu)化。如果僅使用梯度優(yōu)化,經(jīng)過50小時(shí)的模擬,我們可能有兩個(gè)或三個(gè)有前途的解決方案,但通過我們的混合算法,可以獲得一千個(gè)。

將功能強(qiáng)大的通用領(lǐng)域機(jī)器學(xué)習(xí)方法與人類專業(yè)知識(shí)、特定領(lǐng)域的蠻力計(jì)算相結(jié)合的結(jié)果令人振奮。國際象棋已經(jīng)邁出了第一步,混合型人機(jī)團(tuán)隊(duì)將專家知識(shí)和Stockfish引擎結(jié)合起來,可以同時(shí)勝過人類和算法。

最近Gary Marcus和Ernest David在他們的新書《重新啟動(dòng)AI:構(gòu)建我們可以信賴的人工智能》中提出,將領(lǐng)域特定方法和領(lǐng)域通用方法與分層的受人類啟發(fā)的決策過程相結(jié)合,是未來構(gòu)建強(qiáng)大的AI方法的核心元素之一。這可能會(huì)解決AlphaZero方法最直接的弊端之一:超參數(shù)很多,但僅在有限的范圍內(nèi)有用。

在一些案例中,相同的超參數(shù)集在三種量子情況下均能很好地工作,當(dāng)改變問題的設(shè)定,AlphaZero將無法解決。

量子計(jì)算機(jī)利用量子并行性大幅提高了計(jì)速度,但是問題再次出現(xiàn):搜索空間的控制參數(shù)成指數(shù)級(jí)增長(zhǎng)。AlphaZero實(shí)驗(yàn)證明,神經(jīng)網(wǎng)絡(luò)提供的近似和不完善的解決方案可以充當(dāng)本地蠻力啟發(fā)式算法的強(qiáng)大種子生成器。

除了算法方面的優(yōu)化設(shè)計(jì),量子計(jì)算本身的性能也在飛速提升。

金子表面發(fā)現(xiàn)馬約拉納費(fèi)米子,量子計(jì)算機(jī)時(shí)代要來了?

最近量子計(jì)算捷報(bào)頻傳。

丹麥、德國科學(xué)家奇思妙想用AlphaZero解決量子計(jì)算問題,MIT等科學(xué)家則在金子的表面,觀測(cè)到了馬約拉納費(fèi)米子,從而在將粒子分離為穩(wěn)定的、防錯(cuò)的量子比特進(jìn)行量子計(jì)算領(lǐng)域邁出了重要的一步,該結(jié)果發(fā)表在《美國國家科學(xué)院院刊》上。

在粒子物理學(xué)中,馬約拉納費(fèi)米子是一類基本粒子,包括電子,質(zhì)子,中子和夸克,它的反粒子就是它本身。由意大利理論物理學(xué)家Ettore Majorana在1937年首次提出。

下围棋so easy ,AlphaZero开始玩量子计算!

馬約拉納費(fèi)米子

然而不幸的是,這位物理學(xué)家提出該理論后不到一年時(shí)間,就在一次神秘的意大利海岸渡輪旅行中失蹤了。從此,大家就一直在尋找馬約拉納和他的馬約拉納費(fèi)米子。最終,大家放棄了尋找馬約拉納,但卻從未停止尋找他的費(fèi)米子。

[[321982]]

現(xiàn)在,由MIT領(lǐng)導(dǎo)的團(tuán)隊(duì)制造了在超導(dǎo)材料釩上生長(zhǎng)的金納米線組成的材料表面,發(fā)現(xiàn)了接近零能量的特征信號(hào)尖峰。顯然,根據(jù)目前的理論物理學(xué)來看,除了馬約拉那費(fèi)米子對(duì),沒有其他可能。

馬約拉納費(fèi)米子將是理想的量子比特或量子計(jì)算機(jī)的單個(gè)計(jì)算單位,一個(gè)量子位將由成對(duì)的馬約拉那費(fèi)米子組成,這是科學(xué)家長(zhǎng)期以來,一直夢(mèng)寐以求的材料!

如果該馬約拉納費(fèi)米子被徹底證實(shí),我們將提前步入量子計(jì)算時(shí)代!

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2017-04-07 15:56:44

2012-09-07 09:41:15

Win 8關(guān)機(jī)

2023-04-03 15:04:00

RPCPHP語言

2018-09-05 21:07:06

數(shù)據(jù)管理

2019-03-26 11:36:28

網(wǎng)絡(luò)

2024-03-25 09:18:15

2017-10-31 20:12:35

玩客云迅雷

2022-07-27 08:49:34

接口加密解密

2019-12-23 10:51:40

Python車票搶票

2024-04-16 10:09:42

2022-11-26 00:00:02

2021-04-23 10:38:52

Spring BootSpringMVC源碼

2021-07-29 09:29:12

AI游戲DeepMind

2017-02-13 14:11:09

2023-06-07 14:17:46

2009-07-15 14:00:02

布線施工注意事項(xiàng)

2012-05-18 14:24:57

fedora 17安裝卸載

2022-05-06 10:42:09

JavaFlowable引擎

2014-09-18 10:27:53

U-Mail郵件系統(tǒng)郵件服務(wù)器

2020-08-12 18:11:02

戴爾
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)