假開源真噱頭?Meta再陷「開源」爭議,LeCun被炮轟Meta只是開放模型
在熱火朝天的大模型市場,早已形成了「開源派」和「閉源派」兩大門派。
開源被視為技術共享和創(chuàng)新的一種重要方式。實際上,大模型開源相比傳統(tǒng)軟件開源,情況要更加復雜。
在開源的定義、性質、開放內容和開源策略上都有不同的標準和內容。
因此,「開源派」的帽子并不是那么好戴的。
Meta發(fā)布了Llama系列生成AI模型的最新版本Llama 3 8B和Llama 3 70B并宣稱是完全開源的,就引來了許多質疑。
Llama 3模型并不是真正意義的開源,至少不是按照最嚴格定義的開源。
開源意味著研究開發(fā)人員可以自由選擇如何使用這些模型,不受限制。
但在Llama 3的一些案例中,Meta對于一些許可的授權進行了限制。
例如,Llama模型不能用于訓練其他模型;擁有超過7億月活躍用戶的應用程序開發(fā)人員則必須向Meta申請?zhí)厥庠S可證。
許多學者和研究機構也注意到了對于「開源」一詞的濫用情況,許多標榜為「開源」的大模型都存在重大限制,「真假開源」存疑。
diss閉源卻「翻車」?
Meta掌門人Mark Zuckerberg在上周四發(fā)表的一篇訪談中談到了他對人工智能未來的看法,他深信「不會只有一種人工智能」。
Zuckerberg著重強調了開源的價值,即把人工智能工具交到許多人手中。
他還不忘diss那些他認為不夠開放的競爭對手,并補充說他們似乎認為自己在「創(chuàng)造上帝」。
小扎的采訪句句綿里藏針,原話也有許多值得細品的點。
「I find it a pretty big turnoff when people in the tech industry…talk about building this ‘one true AI,’ It’s almost as if they kind of think they’re creating God or something and…it’s just—that’s not what we’re doing, I don’t think that’s how this plays out.」
當科技行業(yè)的人...談論打造「唯一真正的人工智能」時,我覺得這讓人非常反感。這幾乎就像是他們認為自己在創(chuàng)造上帝之類的東西,而這根本不是我們正在做的事情,我也不認為事情會這樣發(fā)展。
小扎認為,打造唯一真正的AI聽上去刺耳又令人反胃,暗含一種壟斷和控制的野心,你是「唯一真正的AI」,那其他AI都是歪門邪道?
其次,創(chuàng)造上帝是用來諷刺追求「唯一真正的AI」的人,狂妄地想要把握AI領域的絕對話語權。
最后,小扎趕緊和這些人劃清界限,不是一路人。
可見,小扎認為AI世界應該是百花齊放、百家爭鳴的,一家獨大絕不可取。
CEO的言論也代表了Meta的態(tài)度,Meta一直以來都宣傳秉持著開放的態(tài)度,Zuckerberg更是開源的堅定支持者。
diss一出也會面臨各種評論「diss back」的挑戰(zhàn),你說你是開源,真的嗎?
Meta的首席人工智能科學家Yann LeCun上個月在LinkedIn上發(fā)布了有關 Meta公司免費發(fā)布大型語言模型戰(zhàn)略的帖子。
一些評論者對其做法大加贊賞,稱其正在「重塑行業(yè)合作」。
也有人不同意LeCun將這一戰(zhàn)略描述為「開源」。
一位評論者寫道,「這絕對只能叫做開放模式而非開源,稱某些東西為開源而實則并非開源,實在是對開源運動的曲解?!?/p>
另一位評論者說,「很遺憾,在這種情況下,開源只是數據洗錢的營銷手段?!?/p>
第三位專家建議Meta將Llama模型稱為「開放權重」,而不是「開源」。因為該公司共享模型權重,但不共享訓練數據等信息。
這似乎是語義學上的爭論。但是,一些模型,包括Meta、法國Mistral和德國Aleph Alpha的模型,是否真正開源,已經成為人工智能工作者,尤其是學術研究人員之間反復爭論的問題。
對于這個問題的答案也會帶來相關政策的導向。
歐盟的《人工智能法》規(guī)定,開源模型不受某些法條的限制。
如果歐盟認為某個模型是開源的,那么它可能會要求模型制作者必須公開關于如何開發(fā)模型的信息。
什么才算「開源」?
這種爭論源于開源人工智能缺乏一個明確的定義。
為開源軟件制定標準的「開源計劃」目前正在制定開源人工智能的定義。
它對開源軟件的定義有幾個標準,包括軟件必須允許自由再分發(fā)并包含源代碼。
除此之外,該非營利組織和其他開源軟件的支持者還強調技術的透明度和同行評審制度。
但一些開源支持者表示,開源軟件的傳統(tǒng)定義并不能很好地詮釋AI大模型開源。
軟件開源是指源代碼的開源,拿到源代碼就能「知其然而知其所以然」,可以在源代碼的基礎上,進行修改優(yōu)化或增加新功能。
然而,許多自稱開源的大模型開發(fā)者并不是真正的開源,雖然這些大模型提供了部分代碼和訓練好的權重,但在訓練數據和具體訓練過程透明度卻有所欠缺,或者很少分享他們的模型是如何訓練和微調的。
例如,Meta的Llama3要求月活躍用戶超過7億的公司申請許可證,而這些公司的申請后享有的權利可能比Llama3的一般協議還要少。
OSI尚未批準Meta的許可證,這表明該組織認為開發(fā)者遵循了其開放源碼軟件標準。
OSI執(zhí)行董事Stefano Maffulli在接受TechCrunch采訪時說,「參與評審的其他人都完全同意,Llama本身不能被視為開源。與我交談過的在Meta工作的人都知道,這有點牽強?!?/p>
在OSI為開源人工智能下定義的同時,一些研究人員和學者也開始自己動手。
荷蘭拉德布德大學語言研究中心的教授們上個月提出了一個新的框架,用于評估一個模型是否開源,該框架基于可用性、文檔和訪問許可相關的14項標準。
該框架并不敲定一個模型的代碼是開放的還是封閉的,而是為14項標準中的每一項劃定一個等級:開放、部分開放或封閉。
圖片
因此,在這一框架下,Meta的Llama2被評為封閉代碼,而不是開放代碼。
因為「該模型的源代碼都沒有公開,而且只共享了運行該模型的腳本」。
相比之下,研究小組BigScience Workshop的BloomZ模型在這一標準上被評為開放,因為它「提供了用于訓練、微調和運行模型的源代碼」。
論文作者、拉德布德大學語言技術助理教授Andreas Liesenfeld表示,「我們發(fā)現,模型制造商存在過度營銷的問題,他們將自己的產品宣傳得比他們所說的更開放?!?/p>
他補充說,「如果不了解模型是如何訓練的以及訓練的內容,就很難解決法律責任和公平性的問題。」
與此類似,斯坦福大學基金會模型研究中心的研究人員去年10月推出了基金會模型透明度指數,根據100項指標來衡量模型開發(fā)商的透明度。
圖片
論文地址:https://hai.stanford.edu/news/introducing-foundation-model-transparency-indexhttps://crfm.stanford.edu/fmti/fmti.pdf
該指數給Meta在模型基礎知識、訪問和能力方面的透明度打了高分,但在數據和勞動力方面的透明度較低。
該指數的共同創(chuàng)建者、斯坦福大學計算機科學副教授Percy Liang說,「擁有開放權重或開放源代碼的模型、訓練數據和代碼,對于學術機構、研究人員或只想了解科學的公司來說,將是一個巨大的好處?!?/p>
大模型作為一個黑匣子,模型中可能存在各種不確定的東西,只有對模型所訓練的數據有實際的保證,才能真正確保模型足夠「開源」。
開源內容的局限性
一般開放的內容
在絕大多數宣稱自己是開源模型的案例中,開源大模型通常只開放以下幾部分內容。
代碼:實現大模型訓練和推理所需的代碼,包括模型架構、訓練算法、模型推理等核心代碼。
這些代碼讓開發(fā)者能夠理解模型的基本結構和推理過程,但無法完全復現或改進模型,增加功能等等。
權重:訓練完成后得到的模型參數,這些參數是模型在推理過程中所需的核心要素。
權重數據使得開發(fā)者能夠在現有模型基礎上進行相關推理,但對模型的核心訓練細節(jié),例如如何進行模型訓練卻一無所知。
例如,Meta的Llama系列模型只開放了模型的權重和部分代碼,而對訓練數據和具體訓練過程的詳細信息卻守口如瓶。
這種有限的開放使得開發(fā)者只能使用現有模型進行推理,依葫蘆畫瓢,而無法深入理解或改進模型。
未開放的關鍵內容
然而,對于大模型來說,真正決定其性能的關鍵在于這些通常保密的訓練數據和訓練過程。
訓練數據:原始訓練用的數據集和數據來源,以及在訓練過程中進行數據處理和預處理的細節(jié)。
這些數據通常包含大量的高質量、有代表性的文本數據,對模型的性能至關重要。
然而,大部分開源模型并未公開這些訓練數據。
例如,Llama系列模型雖然提供了訓練好的權重,但并未公開其訓練所用的數據集及其詳細信息。
缺乏這些數據,開發(fā)者就無法對模型進行重新訓練或在相似任務上進行微調。
訓練過程:具體的訓練步驟、參數設置、優(yōu)化方法等。
這些細節(jié)決定了模型的訓練效果和最終性能,但在所謂的「開源」大模型中,這些信息往往是閉源的。
例如,盡管一些大模型提供了部分代碼和權重,但訓練過程中使用的超參數、數據增強方法、訓練策略等關鍵細節(jié)并未公開。
這種不完全開放的做法使得開發(fā)者在復現模型時面臨諸多困難,無法真正掌握模型的核心技術,限制了他們對模型進行優(yōu)化和改進的能力。
實際上,它們提供的只是使用現有模型的使用便利,而不是完全的技術透明和開發(fā)自由。
參考資料:https://www.theinformation.com/articles/what-counts-as-open-source