自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何教人工智能模仿人類的思想和行為

人工智能
思想克隆并非沒有挑戰(zhàn)。首先,BabyAI環(huán)境簡單且具有確定性,這使得深度學(xué)習(xí)模型更容易了解其細(xì)微差別和復(fù)雜性。現(xiàn)實(shí)世界更混亂,更不可預(yù)測,也更復(fù)雜。

      人工智能系統(tǒng)可以模仿人類智能的某些方面,并取得令人印象深刻的結(jié)果,包括檢測物體、導(dǎo)航環(huán)境、下棋,甚至生成文本。但是克隆人類行為也有其局限性。如果沒有思想作為行動的后盾,人工智能系統(tǒng)在面對新情況時可能會變得脆弱,并犯不可預(yù)測的錯誤。

  英屬哥倫比亞大學(xué)和矢量研究所的科學(xué)家最近的一個項(xiàng)目展示了讓人工智能系統(tǒng)像人類一樣思考的好處。他們提出了一種名為“思想克隆”的技術(shù),可以同時訓(xùn)練人工智能的思想和行動。

  思想克隆可以使深度學(xué)習(xí)模型為其行為生成一種推理過程,并將該推理傳遞給人類操作員。思想克隆有很多好處,包括培訓(xùn)效率、故障排除和錯誤修復(fù),以及防止有害行為。

行為克隆vs思想克隆

  許多深度學(xué)習(xí)系統(tǒng)都是在人類生成的數(shù)據(jù)上進(jìn)行訓(xùn)練的。例如,訓(xùn)練數(shù)據(jù)可以是國際象棋游戲中的走法列表,也可以是策略游戲中的動作序列。它可以是現(xiàn)實(shí)世界的行為,比如完成倉庫中的任務(wù)。通過在一個足夠大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,人工智能代理將能夠在該任務(wù)上創(chuàng)建一個人類行為模型。

克隆行為

  但是,雖然該模型可以學(xué)習(xí)模仿人類行為并在許多任務(wù)中達(dá)到相同的結(jié)果,但它不一定能學(xué)習(xí)這些行為背后的推理。如果沒有思維過程,人工智能代理將無法將學(xué)習(xí)到的動作推廣到新的設(shè)置中。因此,它將需要一個更大的訓(xùn)練數(shù)據(jù)集,包括所有可能的場景。面對看不見的邊緣情況,它仍然是不可預(yù)測的。

  思想克隆背后的假設(shè)是,如果你訓(xùn)練一個模型的行為和相應(yīng)的思想,那么這個模型將學(xué)習(xí)行為和目標(biāo)之間的正確聯(lián)系。它還將能夠生成并傳達(dá)其行為背后的推理。

  為了在ML模型中實(shí)現(xiàn)思想克隆,您需要在訓(xùn)練期間為模型提供多個信息流。一種是行動觀察,例如玩家在游戲中所執(zhí)行的移動。第二種是思想流,比如動作背后的解釋。例如,在即時戰(zhàn)略游戲中,AI觀察到玩家在橋前移動了幾個單位。同時,它會收到一個文本解釋,上面寫著“阻止敵軍過橋”之類的內(nèi)容。

行為克隆

  這種方法有幾個好處。首先,人工智能代理將學(xué)習(xí)得更快,因?yàn)樗麄冃枰俚睦觼砼宄槭裁茨硞€動作很重要。其次,他們會表現(xiàn)得更好,因?yàn)樗麄兡軌驅(qū)⑼瑯拥耐评硗茝V到看不見的情況。第三,他們將通過表達(dá)他們所采取的每一個行動背后的原因來提高安全性。例如,如果AI代理正在追求正確的目標(biāo),但打算采取不安全的行動(例如,為了按時到達(dá)目的地而闖紅燈),那么它可以在造成損害之前被阻止。因此,如果它出于錯誤的原因采取了正確的行動,它可以被引導(dǎo)到正確的方向上。

教人工智能模仿人類思維

  研究人員提出了一個由兩部分組成的深度學(xué)習(xí)架構(gòu),試圖完成一項(xiàng)任務(wù)?!吧蠈咏M件”處理一系列想法和環(huán)境觀察,并試圖預(yù)測下一個有助于模型實(shí)現(xiàn)其目標(biāo)的想法?!跋聦咏M件”接收環(huán)境觀察和上層組件的輸出,并嘗試預(yù)測要采取的正確行動。

  模型重復(fù)這個過程,并使用每個階段的結(jié)果作為下一階段的輸入。在訓(xùn)練期間,模型可以訪問人類產(chǎn)生的思想和行動序列。它將這些信息作為基本事實(shí)來調(diào)整參數(shù),并將思想和行動預(yù)測的損失降至最低。經(jīng)過訓(xùn)練的模型應(yīng)該能夠?yàn)榭床灰姷娜蝿?wù)生成正確的思想和行動序列。

  該模型使用轉(zhuǎn)換器、長短期記憶(LSTM)網(wǎng)絡(luò)和視覺語言模型來處理文本命令和視覺數(shù)據(jù),將它們?nèi)诤显谝黄?,并跨多個步驟跟蹤嵌入。研究人員在GitHub上發(fā)布了他們的結(jié)果,包括模型權(quán)重,訓(xùn)練模型的代碼,以及生成訓(xùn)練和測試數(shù)據(jù)的代碼。(在人工智能實(shí)驗(yàn)室減少分享并對模型細(xì)節(jié)保密的背景下,這是一個有希望的進(jìn)展。)

思想克隆架構(gòu)(來源:arXiv)

  在他們的實(shí)驗(yàn)中,作者使用了BabyAI,這是一個網(wǎng)格世界平臺,人工智能代理必須完成不同的任務(wù)。代理可以執(zhí)行各種操作,如撿起物體、開門和導(dǎo)航房間。BabyAI平臺的優(yōu)勢在于,它可以通過編程方式生成世界、任務(wù)、解決方案和敘述來訓(xùn)練AI系統(tǒng)。研究人員創(chuàng)建了一個包含100萬個場景的數(shù)據(jù)集來訓(xùn)練他們的思維克隆模型。

  為了測試他們的技術(shù),研究人員創(chuàng)建了兩個不同的模型。第一個被訓(xùn)練為純粹的行為克隆,這意味著它只接受環(huán)境觀察。第二個是思想克隆訓(xùn)練,接收行為數(shù)據(jù)和關(guān)于每個動作背后原因的明文解釋流。

  結(jié)果表明,思想克隆明顯優(yōu)于行為克隆,并且收斂速度更快,因?yàn)樗枰俚挠?xùn)練樣本來推廣到未見過的樣本。他們的實(shí)驗(yàn)還表明,思想克隆在非分布(out-distribution,OOD)示例(與模型訓(xùn)練示例非常不同的任務(wù))中的表現(xiàn)也優(yōu)于行為克隆。

  思想克隆還使研究人員能夠更好地理解人工智能代理的行為,因?yàn)槊恳徊剑加米匀徽Z言進(jìn)行規(guī)劃和推理。事實(shí)上,這種可解釋性特征使研究人員能夠在訓(xùn)練期間調(diào)查模型的一些早期錯誤,并迅速調(diào)整他們的訓(xùn)練制度,使其朝著正確的方向發(fā)展。

考慮在BabyAI環(huán)境下克隆(來源:arXiv)

  在安全方面,研究人員開發(fā)了一種叫做預(yù)防犯罪干預(yù)的技術(shù),通過檢查模型的思維流來自動檢測和防止危險行為。他們觀察到,在他們的實(shí)驗(yàn)環(huán)境中,犯罪預(yù)防干預(yù)“幾乎完全消除了所有不安全行為,從而展示了TC代理在提高人工智能安全性方面的巨大潛力?!?/p>

將思想克隆應(yīng)用于現(xiàn)實(shí)世界的人工智能

  認(rèn)為克隆是人工智能研究和發(fā)展的一個有趣和有前途的方向。它適用于其他試圖創(chuàng)建具身和多模態(tài)深度學(xué)習(xí)模型的活動,例如谷歌的PaLM-E和DeepMind的Gato。人類智能比目前的人工智能強(qiáng)大得多的部分原因是我們能夠同時吸收和處理不同形式的信息。實(shí)驗(yàn)表明,多模態(tài)人工智能系統(tǒng)的魯棒性和效率要高得多。

  然而,思想克隆并非沒有挑戰(zhàn)。首先,BabyAI環(huán)境簡單且具有確定性,這使得深度學(xué)習(xí)模型更容易了解其細(xì)微差別和復(fù)雜性?,F(xiàn)實(shí)世界更混亂,更不可預(yù)測,也更復(fù)雜。

  這種方法的另一個挑戰(zhàn)是創(chuàng)建訓(xùn)練數(shù)據(jù)。在執(zhí)行任務(wù)時,人們不一定要敘述他們的每一個動作。我們共有的知識和相似的生理特征,使我們不需要明確地說出我們的每一個意圖。作者提出了一種解決方案,可以使用YouTube視頻,讓人們在執(zhí)行任務(wù)時進(jìn)行解釋。然而,即便如此,人類的行為也充滿了無法用純文本解釋的隱含原因。

  思想克隆在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)和復(fù)雜問題上的表現(xiàn)還有待觀察。但正如該論文的作者所說,它為“人工智能、人工智能安全性和可解釋性的科學(xué)研究”創(chuàng)造了新的途徑。

責(zé)任編輯:武曉燕 來源: 機(jī)房360
相關(guān)推薦

2023-05-17 15:11:23

2021-01-23 23:27:13

人工智能深度學(xué)習(xí)數(shù)據(jù)

2021-03-19 10:22:03

人工智能

2022-06-08 10:29:28

人工智能機(jī)器人

2020-10-29 10:27:29

人工智能技術(shù)數(shù)據(jù)

2023-07-03 09:47:28

2021-02-25 10:23:01

人工智能科技機(jī)器學(xué)習(xí)

2021-07-28 13:29:44

人工智能指令技術(shù)

2017-05-10 11:30:28

人工智能

2021-09-01 00:02:42

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-10-29 14:31:37

人工智能

2022-09-02 14:15:59

人工智能人類智能

2020-02-06 13:06:52

人工智能自行車啤酒

2021-08-20 20:00:41

人工智能AI

2021-07-09 10:20:32

人工智能AI開發(fā)

2021-03-09 10:37:59

人工智能超人工智能

2021-12-07 11:14:03

人工智能行為科學(xué)疫苗

2022-05-31 10:51:21

人工智能AI

2021-12-09 15:03:10

人工智能AI人類思維

2020-11-27 09:00:00

人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號