狂攬1.3億美金!AlphaGo大神組隊(duì)Gemini大牛,用RL打造超級(jí)智能,英偉達(dá)搶投
正如Ilya所說,AI的下一步,就是「超級(jí)智能」。
近日,由DeepMind近12年老將、做出AlphaGo/AlphaZero/MuZero等項(xiàng)目的超級(jí)天才Ioannis Antonoglou,和Gemini強(qiáng)化學(xué)習(xí)的核心負(fù)責(zé)人Misha Laskin,聯(lián)合成立的初創(chuàng)Reflection AI終于浮出了水面。
Reflection AI的目標(biāo)十分明確——構(gòu)建超級(jí)智能自主系統(tǒng)!
首先,從自主編碼開始。
目前,這家初創(chuàng)已經(jīng)融資了1.3億,投資方有紅杉資本、 Lightspeed和CRV。
如此野心的背后,是堪稱豪華的團(tuán)隊(duì)陣容。
過去的十年間,團(tuán)隊(duì)成員在RL和LLM領(lǐng)域均取得了重大突破,并為DeepMind、OpenAI等前沿AI實(shí)驗(yàn)室主導(dǎo)構(gòu)建了當(dāng)時(shí)最為強(qiáng)大的AI系統(tǒng)——
那么,究竟該如何構(gòu)建超級(jí)智能?
這就涉及到了這樣一個(gè)問題:究竟如何讓LLM在計(jì)算機(jī)上展現(xiàn)出與AlphaGo在圍棋上同等水平到自主能力?
對此,Reflection的策略是,通過RL提高LLM的自主能力。
他們相信,解決自主編碼是一個(gè)根節(jié)點(diǎn)問題——如果能構(gòu)建一個(gè)超級(jí)智能的自主編碼系統(tǒng),所有其他基于計(jì)算機(jī)的工作領(lǐng)域都將自然而然地解決。
DeepMind頂級(jí)研究員出走創(chuàng)業(yè),估值5.55億美金
此前,這家名為Reflection AI的初創(chuàng)公司一直很低調(diào)。
就在剛剛,它宣布了全新融資:由紅杉資本和CRV領(lǐng)投的2500萬美元種子輪融資,以及由Lightspeed Venture Partners和CRV領(lǐng)投的1.05億美元A輪融資。
而其他投資者,包括LinkedIn聯(lián)合創(chuàng)始人Reid Hoffman、Scale AI首席執(zhí)行官Alexandr Wang、SV Angel和英偉達(dá)的風(fēng)投部門。
現(xiàn)在,Reflection AI的最新估值已經(jīng)達(dá)到5.55億美元。
如今,已經(jīng)有越來越多的科技公司押注于所謂的AI智能體,最近爆火的Manus,就反映了人們對這種幫用戶執(zhí)行任務(wù)的AI的渴望。
但Reflection卻有著更為宏大使命:構(gòu)建具有完全自主性的工具,而不僅僅一種協(xié)作工具或助手。
在他們看來,這種方法將更快地實(shí)現(xiàn)「超級(jí)人工智能」——也就是比大多數(shù)人更聰明、范圍更廣的AI。
許多大公司,比如OpenAI、Anthropic和DeepMind,都有著類似的目標(biāo)。
現(xiàn)在,Relection已經(jīng)在擁有大型編碼團(tuán)隊(duì)的領(lǐng)域(如金融服務(wù)和技術(shù)行業(yè))有付費(fèi)客戶了。這家公司專注于自動(dòng)化繁瑣和機(jī)械的工程工作,比如遷移軟件數(shù)據(jù)庫或重構(gòu)代碼。
Lightspeed合伙人Raviraj Jain將在Reflection的董事會(huì)中任職,他表示,公司要做的事并不是取代工程師。而是讓工程師不再做繁重的工作,而是成為像建筑師一樣的角色,來監(jiān)督大量的自主AI智能體。
如今,AI編程領(lǐng)域已經(jīng)涌入了一大批資金充足的初創(chuàng)公司,而Cursor制造商Anysphere、Replit和Poolside,都在此領(lǐng)域頗為出名。
在Laskin看來,一般的AI助手就像定速巡航,而Reflection則致力于成為更像Waymo那樣的存在。
而紅杉資本合伙人Stephanie Zhan,也十分看好Relection。
在他看來,Reflection有潛力與從事類似工作的大型AI實(shí)驗(yàn)室競爭并勝出,因?yàn)槭澜缭诙潭處啄陜?nèi)就會(huì)變得非常不同,AI完全能自動(dòng)化今天我們做的許多任務(wù)。
劍指「超級(jí)智能」
在官方博客中,Relection聯(lián)創(chuàng)Ioannis回顧了十年前,自己作為創(chuàng)始工程師加入了DeepMind的經(jīng)歷。
那時(shí),他創(chuàng)造了AlphaGo,第一個(gè)在圍棋游戲中超越人類世界冠軍的系統(tǒng)。
2016年的那一刻,是AI的轉(zhuǎn)折點(diǎn),也對Reflection團(tuán)隊(duì)的許多成員產(chǎn)生了深遠(yuǎn)影響——他們第一次真正領(lǐng)悟到,超級(jí)智能的真實(shí)形態(tài)是什么樣子。
多年來,他們一直孜孜以求地構(gòu)建超級(jí)智能。
Reflection將其視為一個(gè)能在計(jì)算機(jī)上完成大部分認(rèn)知工作的自主系統(tǒng)。
它不僅能幫助自動(dòng)化現(xiàn)有的工作,還能發(fā)現(xiàn)我們未曾考慮過的更好的解決方案,就像AlphaGo在圍棋中發(fā)現(xiàn)了新策略,擴(kuò)展了人類知識(shí),讓著名的第37手棋成為了傳奇。
Reflection相信,解決自主編碼問題將更廣泛地實(shí)現(xiàn)超級(jí)智能。
構(gòu)建完全自主編碼系統(tǒng)所需的突破——如高級(jí)推理和迭代自我改進(jìn)——會(huì)自然延伸到更廣泛的計(jì)算機(jī)工作類別。
一旦復(fù)雜軟件可以被自動(dòng)規(guī)劃、編寫和完善,類似的能力就會(huì)無縫轉(zhuǎn)移到其他計(jì)算機(jī)驅(qū)動(dòng)的任務(wù)上,加速向AGI的進(jìn)展。
多年來,如何構(gòu)建這樣一個(gè)系統(tǒng)并不明確。
然而,在過去十年中,Reflection團(tuán)隊(duì)在RL和LLM方面開創(chuàng)了重大進(jìn)步,他們相信,這些是超級(jí)智能的基本構(gòu)建模塊。
從2013年到2020年,團(tuán)隊(duì)用RL創(chuàng)建了專用超級(jí)智能系統(tǒng),如Deep Q Networks、AlphaGo、AlphaZero和MuZero。
從2020年到2024年,他們以LLM的形式開發(fā)了通用智能系統(tǒng),如PaLM、CharacterAI、ChatGPT和Gemini,領(lǐng)導(dǎo)了這些AI的預(yù)訓(xùn)練和后訓(xùn)練。
正是突破,指導(dǎo)了他們實(shí)現(xiàn)通用人工智能的策略:通過強(qiáng)化學(xué)習(xí)擴(kuò)展大語言模型的自主能力。
作為一家公司,Reflection共同的核心信念是,最重要的評估是實(shí)際應(yīng)用評估。
開創(chuàng)性的AI不是在真空中發(fā)展的;它需要研發(fā)與產(chǎn)品的協(xié)同設(shè)計(jì)。自主能力必須在真實(shí)場景中展示切實(shí)價(jià)值。
通過與用戶反饋一起迭代,他們確保這些系統(tǒng)不僅可靠地滿足實(shí)際需求,還有助于塑造負(fù)責(zé)任設(shè)計(jì)的AI的未來。
目前,他們的重點(diǎn)是一個(gè)自主編碼系統(tǒng):一個(gè)實(shí)用的產(chǎn)品,同時(shí)也代表著向我們超級(jí)智能目標(biāo)邁出的重要一步。
他們有一個(gè)簡單的兩步計(jì)劃:
- 構(gòu)建一個(gè)超級(jí)智能的自主編碼系統(tǒng)
- 使用這一藍(lán)圖擴(kuò)展到所有其他基于計(jì)算機(jī)的工作類別
如今,Reflection已經(jīng)組建了一個(gè)世界級(jí)的團(tuán)隊(duì)。
創(chuàng)始團(tuán)隊(duì)
Misha Laskin:聯(lián)合創(chuàng)始人兼CEO
Misha Laskin于2022年加入DeepMind擔(dān)任研究科學(xué)家,負(fù)責(zé)谷歌關(guān)鍵LLM項(xiàng)目Gemini的RLHF和獎(jiǎng)勵(lì)模型團(tuán)隊(duì)。
他見證了初代Gemini和Gemini 1.5的誕生。
他的研究興趣是「強(qiáng)化學(xué)習(xí)如何為LLM和多模態(tài)模型解鎖新能力」,并致力于開發(fā)通用AI智能體。
此前,他在耶魯大學(xué)獲得學(xué)士學(xué)位,在芝加哥大學(xué)獲得理論物理學(xué)博士學(xué)位,并在加州大學(xué)伯克利分校BAIR實(shí)驗(yàn)室進(jìn)行AI領(lǐng)域的博士后研究,主攻深度強(qiáng)化學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。
2017年,他曾共同創(chuàng)辦了一家專注于為零售商預(yù)測產(chǎn)品需求的AI公司,并從BCC、Y Combinator和Salesforce Ventures獲得175萬美元風(fēng)險(xiǎn)投資。
而他也藉此被福布斯評為「30 Under 30」零售和電子商務(wù)領(lǐng)域的杰出人物。
Ioannis Antonoglou:聯(lián)合創(chuàng)始人兼CTO
近12年的老將Ioannis Antonoglou,不僅是DeepMind的創(chuàng)始工程師,而且也是Gemini的第四位核心開發(fā)者。
此前,他在亞里士多德大學(xué)獲得電氣和計(jì)算機(jī)工程學(xué)士和碩士學(xué)位,并在愛丁堡大學(xué)AI和機(jī)器學(xué)習(xí)碩士學(xué)位。
值得一提的是,他在DeepMind期間還獲得了倫敦大學(xué)學(xué)院AI博士學(xué)位。
超級(jí)智能是未來
Ilya曾在NeurIPS 2024上表示,超級(jí)智能(superintelligence)是公認(rèn)的發(fā)展方向,也是研究人員們正在構(gòu)建的東西。
從本質(zhì)上來說,超級(jí)智能與現(xiàn)在的AI完全不同。
目前,我們擁有出色的LLM和聊天機(jī)器人,但它們也表現(xiàn)出某些奇怪的不可靠性——時(shí)常會(huì)感到困惑,但卻能在評估中表現(xiàn)出遠(yuǎn)超人類的能力。
雖然我們還不知道如何調(diào)和這一點(diǎn),但最終遲早會(huì)實(shí)現(xiàn)以下目標(biāo):AI將真正具備實(shí)際意義上的智能體特性,并將正學(xué)會(huì)推理。
由于推理會(huì)引入了更多的復(fù)雜性,因此一個(gè)會(huì)推理的系統(tǒng),推理量越多,就會(huì)變得越不可預(yù)測。
相比之下,我們熟知的深度學(xué)習(xí)都是可以預(yù)測的。
舉個(gè)例子,那些優(yōu)秀的國際象棋AI,對于最頂尖的人類棋手來說就是不可預(yù)測的。
所以,我們將來不得不面對的,是一些極其不可預(yù)測的AI系統(tǒng)——它們能夠從有限的數(shù)據(jù)中理解事物,同時(shí)也不會(huì)感到困惑。
同樣,自我意識(shí)也是有用的,它構(gòu)成了我們自身的一部分,同時(shí)也是我們世界模型中的一部分。
當(dāng)所有這些特性與自我意識(shí)結(jié)合在一起時(shí),就會(huì)帶來與現(xiàn)有系統(tǒng)完全不同性質(zhì)和特性的系統(tǒng),它們將擁有令人難以置信的驚人能力。
雖然無法確定如何實(shí)現(xiàn)、何時(shí)實(shí)現(xiàn),但這終將發(fā)生。