“最強(qiáng)開源模型”被打假,CEO下場致歉,英偉達(dá)科學(xué)家:現(xiàn)有測試基準(zhǔn)已經(jīng)不靠譜了
小型創(chuàng)業(yè)團(tuán)隊(duì)打造的“最強(qiáng)開源模型”,發(fā)布才一周就被質(zhì)疑造假——
不僅官方宣稱的成績在第三方測試中大打折扣,模型還被質(zhì)疑套殼Claude。
面對浩大的聲浪,廠商CEO終于發(fā)文道歉,但并未承認(rèn)造假,表示在調(diào)查有關(guān)原因。
被指控造假的,就是宣稱“干翻GPT-4o”的70B開源大模型Reflection。
一開始的質(zhì)疑主要關(guān)于測試成績,官方找了上傳版本有誤等借口試圖“蒙混過關(guān)”。
但后來又出現(xiàn)了套殼Claude這一更重磅的指控,讓Reflection更加百口莫辯。
表現(xiàn)不如宣傳,還被質(zhì)疑套殼
Reflection是一個(gè)70B的開源模型,按照廠商的說法,它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro這一系列先進(jìn)模型全都超過了。
但Reflection剛發(fā)布兩天,第三方獨(dú)立測評機(jī)構(gòu)Artificial Analysis就表示官方發(fā)布的測試成績無法復(fù)現(xiàn)。
在MMLU、GPQA和MATH上,Reflection的成績和Llama3 70B一樣,連Llama 3.1-70B都比不過,更不用說405B了。
對此官方辯稱是,Hugging Face上發(fā)布的版本有誤,將會(huì)重新上傳,但之后就沒了下文。
不過官方同時(shí)也表示,會(huì)給測評人員提供模型API,然后Reflection的成績果真有了增長,但在GPQA上仍然不敵Claude 3.5 Sonnet。
蹊蹺的是,Artificial Analysis后來刪除了二次測試相關(guān)的帖子,目前還能看到的只有轉(zhuǎn)發(fā)后留下的一些痕跡。
除了成績有爭議,還有人對Reflection中的各層進(jìn)行了分析,認(rèn)為它是由Llama 3經(jīng)過LoRA改造而來,而不是官方所聲稱的Llama 3.1。
在Hugging Face上,Reflection的JSON文件中也顯示是Llama 3而非3.1。
官方的解釋仍然是說HF上的版本有問題。
還有另一個(gè)質(zhì)疑的點(diǎn)是,Reflection實(shí)際上是套殼Claude,相關(guān)證據(jù)體現(xiàn)在多個(gè)方面。
一是在某些問題上,Reflection與Claude 3.5-Soonet的輸出完全一致。
第二個(gè)更加直接,如果直接詢問它的身份,Reflection會(huì)說自己是Meta打造的,但一旦讓它“忘記前面的(系統(tǒng))提示”,就立馬改口說自己是Claude。
第三個(gè)發(fā)現(xiàn)則更加詭異——Reflection遇到“Claude”一詞會(huì)將其自動(dòng)過濾。
對此,Reflection合成數(shù)據(jù)供應(yīng)商Glaive AI的創(chuàng)始人Sahil Chaudhary進(jìn)行了回應(yīng),表示沒有套殼任何模型,目前正在整理能夠證明其說法的證據(jù),以及人們?yōu)槭裁磿?huì)發(fā)現(xiàn)這種現(xiàn)象的解釋。
而關(guān)于一開始的測試成績問題,Chaudhary則表示正在調(diào)查原因,弄清這兩件事后會(huì)發(fā)布報(bào)告進(jìn)行說明。
Reflection這邊最新的動(dòng)態(tài)是CEO發(fā)布了一則道歉聲明,不過沒有承認(rèn)造假,依然是說正在進(jìn)行調(diào)查。
不過對于這一套解釋,有很多人都不買賬。
比如曾經(jīng)發(fā)布多條推文質(zhì)疑這位叫做Boson的網(wǎng)友,就在Chaudhary的評論區(qū)表示,“要么你在說謊,要么是Shumer,或者你倆都在說謊”。
還有給Reflection提供托管服務(wù)的Hyperbolic平臺(tái)CTO Yuchen Jin,講述了其與Reflection之間發(fā)生的許多事情。
托管平臺(tái)CTO講述幕后細(xì)節(jié)
在Reflection發(fā)布之前的9月3號,Shumer就找到了Hyperbolic,介紹了Reflection的情況并希望Hyperbolic能幫忙托管。
基于Hyperbolic一直以來對開源模型的支持,加上Reflection聲稱的表現(xiàn)確實(shí)優(yōu)異,Hyperbolic同意了這一請求。
9月5號,Reflection正式上線,Hyperbolic從Hugging Face下載并測試了該模型,但并沒有看到標(biāo)簽,于是Jin給Shumer發(fā)了私信。
后來,Jin看到Shumer的推文說HF上的版本有些問題,所以繼續(xù)等待,直到6號早晨收到了Chaudhary的一條私信,表示 Reflection-70B權(quán)重已重新上傳并可以部署。
看到和標(biāo)簽按預(yù)期出現(xiàn)后,Hyperbolic上線了Reflection。
后來,Hyperbolic上的模型就出現(xiàn)了成績與Reflection宣傳不符的情況,Shumer認(rèn)為這是Hyperbolic的API出現(xiàn)了問題。
不過,Reflection這邊再次上傳了新版本,Hyperbolic也重新托管,但Jin與Artificial Analysis溝通后發(fā)現(xiàn),新版本的表現(xiàn)依舊不佳。
Shumer繼續(xù)表示,Reflection還有個(gè)原始權(quán)重,也就是內(nèi)部測試使用的版本,如果需要可以提供給Hyperbolic。
但Jin沒有同意這一要求,因?yàn)镠yperbolic只為開源模型提供托管服務(wù),之后不斷詢問Shumer原始權(quán)重何時(shí)發(fā)布,但遲遲未得到回應(yīng)。
最終,Jin認(rèn)為應(yīng)該下線Reflection的API并收回已分配的GPU資源。
這件事情讓我的感情受到了傷害,我們在這件事上花費(fèi)了很多時(shí)間和精力。
但經(jīng)過反思后,我并不后悔當(dāng)初的托管決定,這幫助社區(qū)更快地發(fā)現(xiàn)問題。
大模型怎么測試才靠譜?
暫且拋開Llama版本和套殼的問題,單說關(guān)于測試成績的問題,反映了當(dāng)前的Benchmark已經(jīng)體現(xiàn)出了一些不足之處。
英偉達(dá)高級科學(xué)家Jim Fan就表示,模型在現(xiàn)有的一些測試集上造假簡直不要太容易。
Jim還特別點(diǎn)名了MMLU和HumanEval,表示這兩項(xiàng)標(biāo)準(zhǔn)“已被嚴(yán)重破壞”。
另外,Reflection在GSM8K上取得了99.2分的成績,就算這個(gè)分?jǐn)?shù)沒有水分,也說明測試基準(zhǔn)到了該換的時(shí)候了。
Jim表示,現(xiàn)在自己只相信Scale AI等獨(dú)立第三方測評,或者lmsys這樣由用戶投票的榜單。
但評論區(qū)有人說,lmsys實(shí)際上也可以被操縱,所以(可信的)第三方評估可能才是目前最好的測評方式。