自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯坦福爆火Llama3-V竟抄襲國內(nèi)開源項(xiàng)目,作者火速刪庫

人工智能 新聞
斯坦福 Llama3-V vs 清華 MiniCPM-Llama3-V-2.5

在 GPT-4o 出世后,Llama3 的風(fēng)頭被狠狠蓋過。GPT-4o 在圖像識別、語音理解上卓越的性能展現(xiàn)了它強(qiáng)大多模態(tài)能力。開源領(lǐng)域的領(lǐng)頭羊 Llama3 曾在幾乎所有基準(zhǔn)測試中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。這次就要悶聲「吃癟」了嗎?

5 月 29 日,一個來自斯坦福的研究團(tuán)隊(duì)發(fā)布了一個能夠「改變現(xiàn)狀」的產(chǎn)品:Llama3-V,號稱只要 500 美元(約為人民幣 3650 元),就能基于 Llama3 訓(xùn)練出一個超強(qiáng)的多模態(tài)模型,效果與 GPT4-V、Gemini Ultra 、 Claude Opus 多模態(tài)性能相當(dāng),但模型小 100 倍。


  • Github 項(xiàng)目鏈接:https://github.com/mustafaaljadery/llama3v(已刪庫)
  • HuggingFace 項(xiàng)目鏈接:https://huggingface.co/mustafaaljadery/llama3v(已刪庫)

用這么少的成本,創(chuàng)造出了如此驚艷的成果,Llama3-V 在推特上迅速爆火,瀏覽量突破 30 萬,轉(zhuǎn)發(fā)超過 300 次,還沖上了「 HuggingFace Trending 」Top 5。

但是沒發(fā)布兩天,Llama3-V 就遭遇了重重質(zhì)疑。有人指出,Llama3-V 項(xiàng)目中有一大部分似乎竊取了清華大學(xué)自然語言處理實(shí)驗(yàn)室與面壁智能合作開發(fā)的多模態(tài)模型 MiniCPM-Llama3-V 2.5。

MiniCPM-V 是面向圖文理解的端側(cè)多模態(tài)大模型系列。MiniCPM-Llama3-V 2.5 是該系列的新版本。其多模態(tài)綜合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用閉源模型。OCR 能力及指令跟隨能力進(jìn)一步提升,并支持超過 30 種語言的多模態(tài)交互。這樣的優(yōu)秀性能,不僅讓 MiniCPM-Llama3-V 2.5 成為受大家推崇的模型,或許也成為了 Llama3-V 的「模仿」對象。

圖片

項(xiàng)目地址:https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md

可疑的作者答復(fù)

HuggingFace 用戶 JosephusCheung 在項(xiàng)目的評論區(qū)中提出問題,Llama3-V 是否在未提及的情況下使用 openbmb/MiniCPM-Llama3-V-2.5 進(jìn)行了訓(xùn)練。而作者回復(fù)表明,Llama3-V 使用了 MiniCPM-Llama3-V-2.5 的預(yù)訓(xùn)練 tokenizer,并且是在它發(fā)布前就開始了這項(xiàng)工作。這樣的解釋明顯出現(xiàn)了時(shí)間錯位,加重了大家的懷疑。

圖片

細(xì)扒其中貓膩

此外,還有一位名為 Magic Yang 的網(wǎng)友也產(chǎn)生了質(zhì)疑,他對于這兩個模型的相似性也有著更深的洞察。

他首先在 Llama3-V 的 GitHub 項(xiàng)目 Issue 中發(fā)布了他的疑問,沒想到 Llama3-V 的作者們很快就刪除了質(zhì)疑帖。

圖片

在這個 Issue 中,他首先提出,Llama3-V 與 MiniCPM- Llama3-V 2.5 具有相同的模型結(jié)構(gòu)和配置文件,只是變量名不同。Llama3-V 的代碼幾乎完全照抄 MiniCPM-Llama3-V 2.5,只是進(jìn)行了一些格式上的修改,包括但不限于分割圖像、tokenizer、重采樣器和數(shù)據(jù)加載部分。

圖片

圖片

Llama3-V 的作者立馬回復(fù),稱 Llama3-V 在架構(gòu)上參考的是 LLaVA-UHD,并列出了在 ViT 和 LLM 選擇上與 Mini CPM-Llama3-V 2.5 的差異。

但 Magic Yang 發(fā)現(xiàn),相比 LLaVA-UHD 所用的方法,Llama3-V 與 MiniCPM-Llama3-V 2.5 可謂是一模一樣。特別是 Llama3-V 使用了與 MiniCPM-Llama3-V 2.5 相同的,連 MiniCPM-Llama3-V 2.5 新定義的特殊符號都「抄」上了。


于是,他向作者提問,為什么 Llama3-V 在 MiniCPM-Llama3-V2.5 項(xiàng)目發(fā)布之前,就未卜先知似的拿到了其 tokenizer?這似乎算是追問了作者對 JosephusCheung 的回答。

Llama3-V 作者回答稱,他參考了 MiniCPM-V-2 的 tokenizer(https://huggingface.co/openbmb/MinicPM-V-2/blob/main/tokenizer.jsonBefore),MiniCPM-Llama3-V2.5 采用了新的 tokenizer 和原來版本中的特殊符號,因此 Llama3-V 的代碼中保留了這個符號,但 Llama3-V 與 MiniCPM-Llama3-V2.5 是完全不同。

但事實(shí)是,MiniCPM-V-2 的 tokenizer 與 MinicPM-Llama3-V2.5 完全不同,在 Hugging Face 里是兩個文件,文件大小也完全不同,也不包含 Llama3-V 所用到的與 Llama 3 有關(guān)的 tokenizer。

圖片

圖片

Magic Yang 還發(fā)現(xiàn)了 Llama3-V 的作者在 Hugging Face 上傳項(xiàng)目時(shí),直接導(dǎo)入了 MiniCPM-Llama3-V 2.5 的代碼,后來才把一些文件里的名稱替換為 Llama3-V。

圖片

于是,Llama3-V 的作者的作者再次回復(fù),稱 Magic Yang 的指控大錯特錯。首先,想要運(yùn)行 HuggingFace Transformer,需要給模型寫配置文件,但是他們恰好發(fā)現(xiàn) MiniCPM 的配置能用,因此,他們使用了與 MiniCPM 相同的配置。其二,Llama3-V 的模型架構(gòu) SigLIP 的靈感來源于 Idéfics ,作者之前也提到,Llama3-V 模型架構(gòu)參考的 LLaVA-UHD 同樣如此,并且在視覺代碼方面,他們借鑒了 Idéfics ,并非照搬 MiniCPM。

圖片

更令人驚訝的是, Magic Yang 發(fā)現(xiàn) Llama3-V 項(xiàng)目的作者似乎并不理解他們自己的代碼,或許也不明白搬來的 MiniCPM-Llama3-V 2.5 架構(gòu)中的細(xì)節(jié)。

感知器重采樣器(Perceiver Resampler)使用的是單層交叉注意力,而非雙層自注意力。然而,下圖中的 Llama3-V 技術(shù)博客中的描述明顯存在誤解。

圖片Llama3-V 的技術(shù)博客 

圖片

Llama3-V 的代碼

此外,SigLIP 的 Sigmoid 激活功能并不用于訓(xùn)練多模態(tài)大語言模型,而是僅在 SigLIP 的預(yù)訓(xùn)練過程中使用。看來,作者對于自己的代碼理解還是有很大偏差的。

圖片

Llama3-V 的技術(shù)博客 

圖片

Llama3-V 的代碼

對于清華 NLP 實(shí)驗(yàn)室和面壁智能團(tuán)隊(duì)特別采集和標(biāo)注,從未對外公開的專有數(shù)據(jù),Llama3-V 的表現(xiàn)也非常出色?!盖迦A簡」是一種非常特殊且罕見的中國戰(zhàn)國時(shí)期的古文字,而美國模型 Llama3-V 不僅認(rèn)識中國古文字,在認(rèn)錯字的時(shí)候,也和 MiniCPM-Llama3-V 2.5 一模一樣。

圖片

有網(wǎng)友用 1000 張竹簡圖像對同類模型進(jìn)行了測試,正常情況下,每兩個模型之間的重疊應(yīng)該為 0,而 Llama3-V 和 MiniCPM-Llama3-V 2.5 之間的重疊高達(dá) 87%。識別錯誤的結(jié)果 Llama3-V 和 MiniCPM-Llama3-V 2.5 也有高達(dá) 182 個重合。

圖片

刪庫?也不管用

在重重質(zhì)疑之后,Llama3-V 的作者行動了。此前宣傳 Llama3-V 的推特內(nèi)容流已不可見。

圖片

他還隱藏了 HuggingFace 的倉庫。Magic Yang 再次發(fā)難,問 Llama3-V 的作者為何在 HuggingFace 上將模型設(shè)為私密?

作者稱,設(shè)為私密是為了修復(fù) Llama3-V 的推理功能,MiniCPM 的配置與 Llama3-V 不兼容,當(dāng)時(shí) HuggingFace Transformers 無法正確地加載模型,為了避免下載模型的用戶運(yùn)行失敗,他將進(jìn)行一些修復(fù)。

圖片

同樣地,Llama3-V 的 GitHub 項(xiàng)目主頁也顯示為「404」。

圖片

GitHub 地址:https://github.com/mustafaaljadery/llama3v

這些舉動顯然是為了應(yīng)對社區(qū)的強(qiáng)烈反應(yīng)和對模型來源合法性的質(zhì)疑。但這樣的逃避似乎并不管用。即使 Magic Yang 與對話已經(jīng)隨著項(xiàng)目頁面 404 而隱藏。但 Magic Yang 已將對話截圖評論在了 MiniCPM-V 的 GitHub 頁面。

圖片

據(jù)網(wǎng)友反饋,當(dāng)運(yùn)行 Llama3-V 時(shí),作者提供的代碼無法與 HuggingFace 上的 checkpoint 兼容。然而,當(dāng)把 Llama3-V 模型權(quán)重中的變量名更改為 MiniCPM-Llama3-V 2.5 后,就能成功運(yùn)行。

圖片

如果在 MiniCPM-Llama3-V 2.5 的 checkpoint 上添加一個簡單的高斯噪聲,就會得到一個在各個測試集上的表現(xiàn)都與 Llama3-V 極為相似的模型。

圖片

有網(wǎng)友上傳了 Llama3-V 刪庫前的檢查點(diǎn),大家可以自行測試驗(yàn)證。

檢查點(diǎn)鏈接:https://twitter.com/zhanga6/status/1797293207338041719

有人認(rèn)為,這是關(guān)乎道德、誠信與聲譽(yù)的問題。如果抄襲得到驗(yàn)證,斯坦福大學(xué)應(yīng)該介入調(diào)查。

圖片

圖片

圖源:X@AvikonHadoop

在國內(nèi)外輿情發(fā)酵了兩天后,作者之一站出來道歉,稱「抄襲」源于對隊(duì)友 Mustafa 的盲信。

你怎么看呢?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-11-29 14:53:00

AI數(shù)據(jù)

2023-03-14 13:45:14

模型AI

2023-07-07 17:03:23

AI智能

2020-03-23 14:24:09

Python 開發(fā)編程語言

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2025-03-06 09:22:00

模型強(qiáng)化學(xué)習(xí)訓(xùn)練

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2012-03-21 21:38:27

蘋果

2021-04-02 15:02:42

開源技術(shù) 工具

2022-01-13 06:49:23

開源項(xiàng)目刪庫

2024-01-04 17:17:56

數(shù)據(jù)訓(xùn)練

2024-09-26 10:23:46

2019-12-16 14:33:01

AI人工智能斯坦福

2022-01-10 21:48:37

刪庫跑路開發(fā)代碼

2023-03-15 10:26:00

模型開源

2018-08-13 21:19:07

Weld開源數(shù)據(jù)

2017-11-28 14:18:29

2025-01-17 10:26:19

模型開發(fā)ChatGPT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號