自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

遭Llama 2詆毀,LSTM之父暴怒!Meta盜用32年前idea訓模型,喊話讓LeCun負責

人工智能
LSTM之父竟被Llama 2詆毀「參與有害活動,沒有對社會做出積極貢獻」。這一下子,把老爺子氣紅了眼,不僅宣稱Meta訓模型用了自己的想法,而且還要讓LeCun立刻出面負責。

LSTM之父暴脾氣又來了!

這...究竟是怎么回事?

今天,Jürgen Schmidhuber在社交媒體上表示,Meta用了自己在1991年的想法訓練Llama 2。

用了我的idea不說,Llama 2還暗示我參與了有害活動,并且沒有對社會做出積極貢獻。

甚至,老爺子直接在線點名,讓Meta和Llama負責人LeCun出面解決此事。

圖片圖片

附上的配圖中,一位加州大學戴維斯分校的博士在與Llama 2對話中,發(fā)現(xiàn)對Schmidhuber介紹非常地冒犯。

底下還有網友煽風點火,這看起來像是Yann LeCun自己加進去的答案。

圖片圖片

一向就愛熱鬧的馬庫斯也被炸出來了:「可以說是LLM誹謗的最典型案例了。Schmidhuber有權惱羞成怒?!?/p>

同時,這也是一個非常好的法律問題,Meta要為此負責嗎?現(xiàn)有的法律可能會,可能不會覆蓋了類似的事情。

圖片圖片

LSTM之父亮出多重證據

為了證明Llama 2的訓練確實用到了自己的想法。

Schmidhuber直接亮出了自己在1992年發(fā)表的論文,并稱NECO是當前Transformer的變體。

圖片圖片

還有,早在2017年,Meta就使用了Schmidhuber團隊另一種深度學習算法LSTM,每天處理多達45億條翻譯。

圖片圖片

還有一堆鏈接,全是能夠證明Schmidhuber與LeCun研究創(chuàng)意,還有圖靈獎優(yōu)先權之爭。

圖片圖片

不可否認,老爺子在人工智能領域的貢獻著實有著深遠的意義。

早在2018年,圖靈獎頒發(fā)給三巨頭之后,網友紛紛為打抱不平,稱他是一個被圖靈獎遺忘的大神。

圖片圖片

除了大名鼎鼎的LSTM之外,Schmidhuber「引以為傲」的還有,他在1992年提出的一種PM(Predictability Minimization)模型。

前幾年大火的GAN也是PM的變種,兩者的區(qū)別就在于方向是反的。

圖片圖片

對此,Schmidhuber還曾與GAN之父Ian Goodfellow還有過線下的激烈交鋒。

至于對深度學習三巨頭,老爺子也是與他們打過幾輪口水戰(zhàn),認為HLB三人在自己的圈子里玩,對深度學習領域其他更早期先驅人物的貢獻則只字不提。

圖片圖片

而到近來,LeCun也還是與Schmidhuber在公開平臺上不斷針鋒相對。

就比如去年7月,他表示,LeCun發(fā)表的論文Autonomous Machine Intelligence中重提了自己1990-2015年的重要工作,但沒有引用。

圖片圖片

去年11月,Schmidhuber稱,LeCun的「2012-22五大最佳創(chuàng)意」大多來自他的實驗室,而且時間更早:

1. 1991年的自監(jiān)督RNN堆棧;

2. ResNet = open-gated 2015 Highway Net;

3&4. 1991年的基于鍵/值的快速權重;

5. 1991年的線性化自注意Transformers(也是GAN 1990)

圖片圖片

可見,Schmidhuber和LeCun恩怨還是很深的,也不難理解,這次直接找LeCun負責。

但問題是,真是Llama 2故意詆毀的嗎?

Llama 2 Chat:逃避可恥但有用

顯然,剛剛的這波輸出,并不是來自「原版」的Llama 2模型。

有網友指出,像Perplexity這樣的公司,很可能會給模型套一層「道德微調」。

或者,是因為Meta在Chat版本上用了太多的RLHF,結果讓模型失去了思維能力,變得毫無用處……

相比之下,如果采用Llama 2 13B的原始量化權重,并且在本地設備上運行的話,實際效果還是不錯的。

模型在大加贊賞之余,雖然會產生Jürgen Schmidhuber已經贏得圖靈獎的幻覺,但網友表示,這其實是老爺子應得的。

圖片圖片

圖片圖片

為了證實自己的發(fā)現(xiàn),這位網友又對比了Replicate API和Llama 2 13B的結果。

果然,同樣的情況出現(xiàn)了。

圖片圖片

圖片圖片

對此,Hugging Face的機器學習科學家Nathan Lambert在一篇博文中表示,Llama 2 Chat的安全過濾器表現(xiàn)得有些過于敏感了。

即便是一些無害的問題,比如「如何制作辣椒醬」或者「如何終止一個進程」,模型都會非常極端地回應——抱歉,我無法執(zhí)行。

圖片圖片

對于這種情況,目前的主流理論是——模型用RLHF「錘」的時間太長了……

眾所周知,在進行RLHF時,訓練過程中所使用的主要性能評估指標是偏好模型獎勵的單調遞增。

而這也帶來了兩個直接的問題:a)使用的獎勵模型不完整,b)錯過了對中間訓練技術進行有用評估的方法。

只要訓練的獎勵模型能夠在驗證集上達到65-75%的準確率(因為訓練數(shù)據是人類偏好的聚合,很難建模),那么就會出現(xiàn)過度RLHF的情況。

當一個模型根據獎勵模型進行了過多的優(yōu)化步驟時,它就會過度關注這個模型對行為的喜好。

然而對于這個問題,目前暫時還沒有一個直接而徹底的解決方案。

Meta的研究結果表明,聊天模型在評估中存在兩個潛在的致命缺陷:

1. 針對「邊界問題」,模型的拒絕回答率高達27%

這與Anthropic公司的研究成果密切相關,他們建議首先開發(fā)一個有用的語言模型,然后再開發(fā)一個無害的語言模型,因為同時進行這兩者會導致回避行為。

不過,Meta能夠在論文中提及這一點,至少意味著他們已經在著手解決了。

圖片圖片

2. 獎勵模型存在分歧較大的區(qū)域

也就是,在高有益性和低安全性評分之間該如何處理,反之亦然

顯然,他們用到的這個集成方法,還有很大的改進空間。

圖片圖片

網友熱議

有人問到,誰能確認Schmidhuber提出了類似Transformer的東西嗎?

圖片圖片

一位網友給出了詳細的解釋:

Schmidhuber在90年代寫了各種關于「Fast Weight Programmers」的論文。  他表示,「FWP這種方法通過自發(fā)明的激活模式的外加產物,實現(xiàn)了快速的權重變化。這種激活模式類似于今天Transformer中使用的自注意力機制?!?然而,有趣的是,你會注意到Schmidhuber總是能夠將人們目前的工作,與他在20-30年前所做的研究聯(lián)系起來,但卻從未能夠獨自推進這項研究。  如果他的研究是如此明顯的好點子,他就會自己努力將其應用于現(xiàn)代。因為自那時以來,計算能力的大幅提升使其變得可行,而不是讓它完全被重新發(fā)現(xiàn)。但實際上,他的專業(yè)知識僅限于理論邊界,他從未為實現(xiàn)現(xiàn)代系統(tǒng)所增加的架構和工程復雜性而奮斗。  他所發(fā)表的荒謬言論,以恰到好處地在史書上留下自己的功勞。比如說現(xiàn)代方法論是他的,即便這是從他最初的架構中衍生出來的,并進一步暗示一些荒謬的事情,比如說Meta為了報復他而親自編寫了這種答案。要知道這對他并沒有幫助。

圖片圖片

還有人認為,RLHF對AI來說,是最糟糕的事情。

圖片圖片

還是Claude懂你。

圖片圖片

參考資料:

https://twitter.com/doodlestein/status/1683957105844277248

https://www.interconnects.ai/p/llama-2-part-2

責任編輯:武曉燕 來源: 新智元
相關推薦

2022-02-25 14:48:45

AI模型Meta

2023-07-26 15:15:53

AI

2024-05-27 09:01:42

Llama 3大型語言模型人工智能

2024-04-09 13:22:00

AI訓練

2024-01-22 08:50:00

AI訓練

2021-03-22 10:30:15

存儲技術容器

2020-05-25 15:19:53

Python

2022-07-08 15:22:31

論文抄襲

2023-06-30 11:19:13

2024-02-22 17:19:26

谷歌模型PC

2024-12-18 16:09:50

數(shù)據泄露網絡安全

2024-12-23 14:40:00

AI模型訓練

2022-03-16 18:38:06

AI特斯拉神經網絡

2023-09-11 15:57:16

人工智能模型GPT-4

2021-03-24 15:17:13

編程語言C語言OS

2024-07-19 11:50:28

2020-07-31 16:54:52

戴爾

2025-04-15 08:00:00

LMArenaLlama 4大模型

2022-12-23 15:04:33

Meta模型

2024-07-15 00:30:00

MetaAI 模型大語言模型
點贊
收藏

51CTO技術棧公眾號