開(kāi)源AI并不透明?開(kāi)源倡議組織給出新的定義
長(zhǎng)期以來(lái),研究人員對(duì)開(kāi)源人工智能(Open-source AI)的定義一直存在分歧。近期,自詡為開(kāi)源仲裁者的開(kāi)源倡議組織(OSI)日前發(fā)布開(kāi)源AI的新定義,希望能幫助立法者制定法規(guī),保護(hù)消費(fèi)者免受AI風(fēng)險(xiǎn)的影響。
OSI邀請(qǐng)了70名研究人員、律師、政策制定者、活動(dòng)家以及Meta、谷歌和亞馬遜等大型科技公司的代表,共同為開(kāi)源AI提可行的定義。
OSI聲稱(chēng),“一個(gè)開(kāi)源AI系統(tǒng)可以用于任何目的,而無(wú)需獲得許可,且研究人員應(yīng)該能夠檢查該AI系統(tǒng)的組件并研究其工作原理。同時(shí),研究人員還可以出于任何目的修改系統(tǒng),包括更改其輸出,并與他人共享,用于任何目的?!贝送?,該標(biāo)準(zhǔn)還試圖為給定模型的訓(xùn)練數(shù)據(jù)、源代碼和權(quán)重定義一個(gè)透明度級(jí)別?!?/p>
按此標(biāo)準(zhǔn),OpenAI和Anthropic對(duì)它們的模型、數(shù)據(jù)集和算法保密,使它們成為明顯的AI閉源系統(tǒng)。同時(shí),Meta Llama和谷歌的免費(fèi)訪問(wèn)模型也不是真正的開(kāi)源AI模型,因?yàn)樵S可證限制了用戶(hù)對(duì)模型的使用,而且訓(xùn)練數(shù)據(jù)集也沒(méi)有公開(kāi)。
AI模型構(gòu)建和共享平臺(tái)Hugging Face的應(yīng)用政策研究員Avijit Ghosh說(shuō),“眾所周知,企業(yè)在推廣營(yíng)銷(xiāo)他們的模型時(shí)會(huì)濫用這個(gè)術(shù)語(yǔ)?!彼硎荆瑢⒛P兔枋鰹殚_(kāi)源可能會(huì)使它們被認(rèn)為更值得信賴(lài),即使研究人員無(wú)法獨(dú)立調(diào)查它們是否真的開(kāi)源。
Mozilla高級(jí)顧問(wèn)、OSI進(jìn)程的參與者Ayah Bdeir表示,開(kāi)源定義的某些部分相對(duì)容易達(dá)成一致,包括需要揭示模型權(quán)重(幫助確定AI模型如何產(chǎn)生輸出的參數(shù))。審議的其他部分爭(zhēng)議更大,尤其是訓(xùn)練數(shù)據(jù)應(yīng)該如何公開(kāi)的問(wèn)題。
訓(xùn)練數(shù)據(jù)的來(lái)源缺乏透明度,導(dǎo)致大型AI公司遭到大量訴訟。從OpenAI等大型語(yǔ)言模型提供商到Suno等音樂(lè)生成器,這些公司除了表示它們包含“可公開(kāi)訪問(wèn)的信息”之外,沒(méi)有透露太多關(guān)于訓(xùn)練集的信息。
一些開(kāi)源支持者認(rèn)為開(kāi)源模型應(yīng)該公開(kāi)他們所有的訓(xùn)練集。Bdeir表示,由于版權(quán)和數(shù)據(jù)所有權(quán)等問(wèn)題,這一標(biāo)準(zhǔn)很難執(zhí)行。
最終,OSI主導(dǎo)的新的定義要求開(kāi)源模型提供有關(guān)訓(xùn)練數(shù)據(jù)的信息,以達(dá)到“熟練人員可以使用相同或類(lèi)似的數(shù)據(jù)重新創(chuàng)建實(shí)質(zhì)上等同的系統(tǒng)”的程度。雖然這并不是一個(gè)全面共享所有訓(xùn)練數(shù)據(jù)集的籠統(tǒng)要求,但它也比當(dāng)今許多專(zhuān)有模型甚至表面上的開(kāi)源模型更進(jìn)一步。
Bdeir說(shuō):“堅(jiān)持一種在意識(shí)形態(tài)上原始的金本位制,而實(shí)際上這種制度任何人都無(wú)法有效實(shí)現(xiàn),最終會(huì)適得其反?!彼a(bǔ)充說(shuō),OSI正在計(jì)劃制定某種執(zhí)行機(jī)制,該機(jī)制將標(biāo)記那些被描述為開(kāi)源但不符合其定義的模型。
該組織還計(jì)劃發(fā)布一份符合新定義的AI模型清單。雖然沒(méi)有得到證實(shí),但Bdeir預(yù)計(jì),一些規(guī)模相對(duì)較小的模型將會(huì)出現(xiàn)在名單上,包括Eleuther的Pythia、Ai2的OLMo,以及開(kāi)源團(tuán)體LLM360的模型。