大丑聞?一篇數(shù)十位國(guó)內(nèi)AI大牛參與的論文被指嚴(yán)重抄襲
來自清華、北大、上海交大;騰訊、華為、京東、字節(jié)跳動(dòng),和炙手可熱的 AI 研發(fā)機(jī)構(gòu)北京智源人工智能研究院等十多家知名機(jī)構(gòu)的數(shù)十名國(guó)內(nèi) AI大牛參與 署名的論文,被 Google Brain 的一名研究員指出嚴(yán)重抄襲。
被指控的論文名為《A Roadmap for Big Model》(下稱《大模型》),根據(jù)論文發(fā)布時(shí),智源社區(qū)發(fā)布的文章:論文“由悟道大模型研究項(xiàng)目負(fù)責(zé)人,智源學(xué)術(shù)副院長(zhǎng),清華大學(xué)計(jì)算機(jī)系教授唐杰牽頭,從大模型基礎(chǔ)資源、大模型構(gòu)建、大模型關(guān)鍵技術(shù)與大模型應(yīng)用探索4個(gè)層面出發(fā),對(duì)15個(gè)具體領(lǐng)域的16個(gè)相關(guān)主題進(jìn)行全面介紹和探討?!?/p>
名叫Nicholas Carlini的研究員近日在其 博客 中直接羅列了大量該論文與他更早發(fā)布的“Deduplicating Training Data Makes Language Models Better”論文一摸一樣的段落。
而且,他還表示,被抄襲的可能至少還有其他十余篇論文。
圖源:Nicholas Carlini博客
查閱預(yù)印本服務(wù)器arXiv可以發(fā)現(xiàn),谷歌大腦研究員的論文上傳時(shí)間為去年七月份,而《大模型》的上傳時(shí)間在今年三月。兩篇文章所討論的“大模型”,為目前世界AI研究領(lǐng)域最熱門的話題之一。
這篇篇幅巨大的論文,作者署名甚至多達(dá)百人。該論文長(zhǎng)達(dá)數(shù)十頁(yè),并足足用了第一頁(yè)的篇幅羅列參與的作者。
其中不乏國(guó)內(nèi)AI業(yè)界和學(xué)界的知名大佬,供職機(jī)構(gòu)更是把中國(guó)知名高校和互聯(lián)網(wǎng)巨頭幾乎一網(wǎng)打盡。
在論文作者介紹部分寫到,“唐杰設(shè)計(jì)了這個(gè)大模型路線圖”。根據(jù)清華官方信息,唐杰2006 年在清華大學(xué)計(jì)算機(jī)系獲得博士學(xué)位。研究興趣包括社會(huì)網(wǎng)絡(luò)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和知識(shí)圖譜。2022年1月,唐杰剛因?qū)π畔⒑蜕缃痪W(wǎng)絡(luò)挖掘的貢獻(xiàn)而當(dāng)選 國(guó)際計(jì)算機(jī)學(xué)會(huì)會(huì)士。出現(xiàn)在作者欄的還包括諸多與唐杰一樣在中國(guó)AI業(yè)內(nèi)響當(dāng)當(dāng)?shù)拿帧?/p>
Nicholas Carlini在其博客中表示:“很可能只有少數(shù)作者參與了這種抄襲,一小部分作者的不當(dāng)行為不應(yīng)該被用來指責(zé)大多數(shù)行為良好的作者?!?/p>
在Nicholas Carlini的曝光博客發(fā)酵后,arXiv已在涉及抄襲的“A Roadmap for Big Model”論文頁(yè)面下添加了文字重合的警示。
圖源:預(yù)印本服務(wù)器arXiv
就在今天中午,負(fù)責(zé)“A Roadmap for Big Model”論文牽頭的北京智源人工智能研究院的官方賬號(hào)已對(duì)該情況做出回應(yīng),其表示:“我們已經(jīng)注意到對(duì)《A Roadmap for Big Model》一文的質(zhì)疑,正在對(duì)相關(guān)情況進(jìn)行核實(shí),智源研究院鼓勵(lì)學(xué)術(shù)創(chuàng)新和學(xué)術(shù)交流,對(duì)學(xué)術(shù)不端零容忍,有關(guān)進(jìn)展將盡快通報(bào)?!?/p>
圖源:知乎