自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<rt id="gm6vy"></rt>

<cite id="gm6vy"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

基于LLaMA卻改張量名，李開復(fù)公司大模型引爭議，官方回應(yīng)來了

作者：機器之心 2023-11-14 17:51:28

人工智能新聞

有研究者發(fā)現(xiàn)，李開復(fù)「零一萬物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架構(gòu)，只是重命名了兩個張量。對此，「零一萬物」給出了官方回應(yīng)。

前段時間，開源大模型領(lǐng)域迎來了一個新的模型 —— 上下文窗口大小突破 200k，能一次處理 40 萬漢字的「Yi」。

這個大模型由創(chuàng)新工場董事長兼 CE0 李開復(fù)創(chuàng)立的大模型公司「零一萬物」構(gòu)建，包括了 Yi-6B 和 Yi-34B 兩個版本。

根據(jù) Hugging Face 英文開源社區(qū)平臺和 C-Eval 中文評測榜單，Yi-34B 推出時取得了多項 SOTA 國際最佳性能指標(biāo)認(rèn)可，成為全球開源大模型「雙料冠軍」，擊敗了 LLaMA2 和 Falcon 等開源競品。

Yi-34B 也成為當(dāng)時唯一成功登頂 Hugging Face 全球開源模型排行榜的國產(chǎn)模型，稱「全球最強開源模型」。

該模型在發(fā)布后引起了國內(nèi)外很多研究者、開發(fā)者的關(guān)注。

但最近，有研究者發(fā)現(xiàn)，Yi-34B 模型基本上采用了 LLaMA 的架構(gòu)，只是重命名了兩個張量。

原貼鏈接：https://news.ycombinator.com/item?id=38258015

帖子還指出：

Yi-34B 的代碼實際上是對 LLaMA 代碼的一次重構(gòu)，但看似并未作出任何實質(zhì)性改變。這個模型明顯是基于原始 Apache 2.0 版的 LLaMA 文件進(jìn)行的編輯，但卻未提及 LLaMA：

Yi vs LLaMA 代碼對比。代碼鏈接：https://www.diffchecker.com/bJTqkvmQ/

此外，這些代碼更改并沒有通過 Pull Request 的方式提交到 transformers 項目中，而是以外部代碼的形式附加上去，這可能存在安全風(fēng)險或不被框架所支持。HuggingFace 排行榜甚至不會對這個上下文窗口最高可達(dá) 200K 的模型進(jìn)行基準(zhǔn)測試，因為它沒有自定義代碼策略。

他們聲稱這是 32K 模型，但它被配置為 4K 模型，沒有 RoPE 伸縮配置，也沒有解釋如何伸縮（注：零一萬物之前表示模型本身在 4K 的序列上進(jìn)行訓(xùn)練，但是在推理階段可以擴展到 32K）。目前，關(guān)于其微調(diào)數(shù)據(jù)的信息為零。他們也沒有提供復(fù)現(xiàn)他們的基準(zhǔn)測試的說明，包括可疑的 MMLU 高分。

任何一個在 AI 領(lǐng)域工作過一段時間的人都不會對此視而不見。這是虛假宣傳？違反許可證規(guī)定？實際基準(zhǔn)作弊？誰在乎呢？換下一篇論文，或者在這種情況下，拿走所有風(fēng)險投資的錢。Yi 至少高于標(biāo)準(zhǔn)，因為它是基礎(chǔ)模型，而且性能確實不錯。

而在數(shù)天前，在零一萬物 Huggingface 社區(qū)中，有開發(fā)者同樣指出：

據(jù)我們了解，除了兩個張量被重命名之外，Yi 完全使用了 LLaMA 的架構(gòu)。(input_layernorm, post_attention_layernorm)

討論中，有網(wǎng)友表示：如果他們確切使用 Meta LLaMA 架構(gòu)、代碼庫和所有相關(guān)資源，則需要遵守 LLaMA 規(guī)定的許可協(xié)議。

為了符合 LLaMA 的開源協(xié)議，有位開發(fā)者將其名字改回并重新放到了 huggingface 上：

01-ai/Yi-34B，張量已重命名以匹配標(biāo)準(zhǔn) LLaMA 模型代碼。相關(guān)鏈接：https://huggingface.co/chargoddard/Yi-34B-LLaMA

看到這里，我們也就知道前幾天，從阿里離職創(chuàng)業(yè)的賈揚清在朋友圈提到的是哪家企業(yè)了。

針對此事，機器之心也向零一萬物進(jìn)行了求證。零一萬物回應(yīng)稱：

GPT 是一個業(yè)內(nèi)公認(rèn)的成熟架構(gòu)，LLaMA 在 GPT 上做了總結(jié)。零一萬物研發(fā)大模型的結(jié)構(gòu)設(shè)計基于 GPT 成熟結(jié)構(gòu)，借鑒了行業(yè)頂尖水平的公開成果，同時基于零一萬物團(tuán)隊對模型和訓(xùn)練的理解做了大量工作，這是我們首次發(fā)布獲得優(yōu)秀結(jié)果的地基之一。與此同時，零一萬物也在持續(xù)探索模型結(jié)構(gòu)層面本質(zhì)上的突破。

模型結(jié)構(gòu)僅是模型訓(xùn)練其中一部分。Yi 開源模型在其他方面的精力，比如數(shù)據(jù)工程、訓(xùn)練方法、baby sitting（訓(xùn)練過程監(jiān)測）的技巧、hyperparameter 設(shè)置、評估方法以及對評估指標(biāo)的本質(zhì)理解深度、對模型泛化能力的原理的研究深度、行業(yè)頂尖的 AI Infra 能力等，投入了大量研發(fā)和打底工作，這些工作往往比起基本結(jié)構(gòu)能起到更大的作用跟價值，這些也是零一萬物在大模型預(yù)訓(xùn)練階段的核心技術(shù)護(hù)城河。

在大量訓(xùn)練實驗過程中，由于實驗執(zhí)行需求對代碼做了更名，我們尊重開源社區(qū)的反饋，將代碼進(jìn)行更新，也更好的融入 Transformer 生態(tài)。

我們非常感謝社區(qū)的反饋，我們在開源社區(qū)剛剛起步，希望和大家攜手共創(chuàng)社區(qū)繁榮，Yi Open-source 會盡最大努力持續(xù)進(jìn)步。

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="sjwmr"></p>