北大研究人員這次發(fā)現(xiàn)了AI「躺平」原因,都是數(shù)據(jù)集的錯
在訓練人工「智障」的時候,AI最后經常會學到一些莫名其妙的方式來完成人類的的任務。
有一些AI就會去學習如何通過「卡bug」來快速通關。
還有一些AI學會了「只要把游戲暫停了,我就不會輸」這個終極哲學。
AI也想「躺平」
為了讓模型能夠提高準確性,通常會設置相應的獎勵,但有時候模型在前期就發(fā)現(xiàn)了能夠獲得獎勵的「捷徑」。
但凡AI嘗到了甜頭,它就會一直選擇去走這個「捷徑」,不再去學習更困難的知識或者方法。
來自北京大學的研究人員在訓練語言模型的時候就發(fā)現(xiàn):AI雖然能回答正確,但是它搞不明白為什么答案是對的,只知道遇到某類問題用這個回答就可以了。
于是,研究人員決定要把AI「扶起來」,讓它們「努力學習」不能偷懶。
論文地址:
https://arxiv.org/pdf/2106.01024.pdf
這篇論文已經發(fā)表在arxiv上,作者是來自北京大學王選計算機研究所和北京大學計算語言學教育部重點實驗室的Yuxuan Lai, Chen Zhang, Yansong Feng , Quzhe Huang,和Dongyan Zhao(趙東巖)
為什么AI總想去「躺平」?
盡管有些研究已經發(fā)現(xiàn)了AI總愛「躺平」的現(xiàn)象,但是他們并沒有發(fā)現(xiàn)這個現(xiàn)象和數(shù)據(jù)集中的「捷徑」問題有關。
為此,論文提出了一個經過標注的全新數(shù)據(jù)集,其中包括對一個問題的「捷徑版」和「挑戰(zhàn)版」兩種回答。
數(shù)據(jù)集使用「釋義」( paraphrasing )作為更復雜和更深入答案的標準,因為想要表達出學到的知識,語義理解是必要的。相比之下,「捷徑」的答案是有如日期或其他關鍵字生成的,但沒有任何上下文或推理。
研究人員發(fā)現(xiàn),訓練集中「捷徑版」樣本越高,就越會阻礙模型學到「釋義」從而去解決具有挑戰(zhàn)性的問題。而模型在回答「捷徑版」問題時的表現(xiàn)則基本穩(wěn)定。
文章表明,當訓練集中有足夠多的「挑戰(zhàn)版」問題時,模型不僅能更好地理解「挑戰(zhàn)版」問題,而且也能正確回答「捷徑版」問題。
AI是如何學會「躺平」的?
文章表示,在訓練的早期階段,模型往往會找到最簡單的方法達到梯度下降從而擬合訓練數(shù)據(jù)。而且由于「捷徑」需要較少的計算資源來學習,因此擬合這些技巧會變成一個優(yōu)先事項。
之后,由于模型學會的「捷徑」可用于正確回答大部分訓練問題,因此剩余的問題便無法激勵模型繼續(xù)去探索「挑戰(zhàn)版」問題需要的復雜解決方法。
有沒有辦法把AI「扶起來」?
除了NLP架構本身的問題外,也很可能是訓練過程中標準優(yōu)化和資源保護的結果,以及讓模型在短時間內以有限的資源去獲得結果的壓力。
如文章所說的那樣,數(shù)據(jù)預處理領域可能需要考慮將數(shù)據(jù)中的「捷徑」視為一個亟待解決的問題,或者是修改 NLP 架構從而達到優(yōu)先考慮更具挑戰(zhàn)性的數(shù)據(jù)的效果。