23年生成式AI全球投資超360億!開發(fā)者預(yù)測(cè)2024年LLM應(yīng)用進(jìn)入大爆發(fā)
2023年11月30日,ChatGPT慶祝了它的生日,Similarweb發(fā)布了下面這張精美的信息圖來紀(jì)念這一時(shí)刻。
從ChatGPT誕生,到2023年5月,它的訪問量一直在迅速增長(zhǎng),峰值達(dá)到了每月18億次的訪問量。
隨后,客流量在6月有所下降,但自9月以來又開始反彈——可能是因?yàn)楦咧猩痛髮W(xué)生暑假結(jié)束,回到學(xué)校了。
去年的這個(gè)時(shí)候,很多人都在猜測(cè)ChatGPT是否會(huì)取代谷歌,很顯然,這件事還沒有發(fā)生。
而在兩周前,谷歌發(fā)布了ChatGPT的競(jìng)爭(zhēng)對(duì)手——Gemini。
2022年末ChatGPT發(fā)布的時(shí)候,人們對(duì)人工智能,尤其是2023年的生成式人工智能充滿了期待。
你可以讓ChatGPT用Johnny Cash的風(fēng)格寫一首關(guān)于自動(dòng)駕駛汽車的歌:
Ridin’ solo, but I’m never alone,
Got my AI ridin’ shotgun, steady as a stone.
On the endless road, under the sky so vast,
A ghost driver at the wheel, footprints of the past.
獨(dú)自騎行,但我從不孤單,
我的人工智能像石頭?樣穩(wěn)如泰山。
在無盡的道路上,在遼闊的天空下、
一個(gè)幽靈司機(jī)駕駛著方向盤,留下了過去的腳印。
如果讓他換成Giuseppe Verdi的風(fēng)格,ChatGPT會(huì)展示出男高音歌唱的場(chǎng)景:
Ecco la carrozza senza cavallo!(看,沒有馬的馬車!)
Scivola nella notte, silenziosa come il fato.(它在黑夜中滑行,像命運(yùn)?樣無聲無息)
L'ingegno dell'uomo, l'orgoglio del progresso.(人類的智慧,進(jìn)步的驕傲)
In questa danza d'acciaio, tessiamo il nostro destino.(在這支鋼舞中,我們編織自己的命運(yùn))
上面這張圖展示了自ChatGPT發(fā)布以來,谷歌趨勢(shì)對(duì)AI和ChatGPT的關(guān)注情況。
我們可能聽說過「人工智能寒冬」的那個(gè)年代,但今年,風(fēng)險(xiǎn)投資公司向生成式人工智能投資了超過360億美元。
毫無疑問,2023年是人工智能的盛夏。
一月份,人們開始探索ChatGPT的功能。很快,大家意識(shí)到不同的提問方式(「提示」)會(huì)導(dǎo)致不同的答案。
于是,「提示工程」悄然興起。
連大佬也感慨道,最熱門的新編程語言是英語。
然而,當(dāng)普通大眾還在為ChatGPT的能力驚嘆不已、探索不同的提示技術(shù)之時(shí),研究人員并沒有休息。
2023年第一季度,許多?都感覺跟不上人工智能的發(fā)展速度:
2月底,Meta發(fā)布了LLaMA,
緊接著,AI21 Labs發(fā)布了Jurassic-2,
OpenAI發(fā)布了GPT-4,
Anthropic發(fā)布了Claude,
技術(shù)創(chuàng)新研究所(Technology Innovation Institute)發(fā)布了Falcon-40B,
谷歌發(fā)布了Bard,
連彭博也發(fā)布了自己的BloombergGPT。
隨著開發(fā)?員熟悉了ChatGPT的玩法,他們開始構(gòu)想可以利用LLM做些什么,——于是,求職信生成器、YouTube摘要、定制的聊天機(jī)器?等應(yīng)用紛紛出現(xiàn)。
與傳統(tǒng)的機(jī)器學(xué)習(xí)模型相比,大語言模型使開發(fā)?員能夠通過簡(jiǎn)單的 API 調(diào)用來訪問其功能。這改變了開發(fā)人員構(gòu)建人工智能應(yīng)用程序的方式。
伴隨著這種快速構(gòu)建人工智能應(yīng)用程序的新方法,新的開發(fā)工具也陸續(xù)出現(xiàn):
LangChain和LlamaIndex等框架引起了人們的極?興趣,這些框架使開發(fā)?員能夠快速、模塊化地使用LLM構(gòu)建應(yīng)用程序。
另外,可以實(shí)現(xiàn)語義搜索的矢量數(shù)據(jù)庫,又重新受到關(guān)注,因?yàn)殚_發(fā)人員發(fā)現(xiàn),它也可以用來為L(zhǎng)LM應(yīng)用程序提供外部數(shù)據(jù)。
早在今年4月,實(shí)踐者們就開始將LLM應(yīng)用程序投入生產(chǎn)過程中,并討論成本、延遲、幻覺以及前后兼容性等挑戰(zhàn)。
「用LLM做出很酷的東西很容易,但做出可投入生產(chǎn)的東西卻很難」。
在2023年,構(gòu)建LLM系統(tǒng)的關(guān)鍵詞或許應(yīng)該是:微調(diào)(fine-tuning)、檢索增強(qiáng)生成(retrieval-augmented generation,RAG)和評(píng)估(evaluation)。
從數(shù)據(jù)科學(xué)家的角度來看,微調(diào)是向神經(jīng)網(wǎng)絡(luò)傳授新知識(shí)的首選技術(shù),因此,微調(diào)是讓通用LLM訪問特定領(lǐng)域數(shù)據(jù)的第一種流行方法。
特別是隨著開源LLMs(如LLaMa-2)和高效LLMs微調(diào)技術(shù)(如QLora)的發(fā)布,LLMs的微調(diào)變得更容易為實(shí)踐者所接受。
上圖是谷歌趨勢(shì)對(duì)「RAG LLM」的興趣變化曲線,可以看出RAG在2023年7月左右成為熱門話題。
RAG將知識(shí)從LLM的推理能力中分離出來,存儲(chǔ)在外部數(shù)據(jù)庫中,這比使用微調(diào)功能時(shí)更容易更新。
然而,回顧2023年,我們可能會(huì)驚訝地發(fā)現(xiàn),由LLM驅(qū)動(dòng)的應(yīng)用軟件少之又少。
畢竟,在生成式AI展現(xiàn)出自身性能的同時(shí),也面臨著很多問題。
例如,谷歌的Bard「發(fā)明」了有關(guān)James Webb望遠(yuǎn)鏡的信息。微軟的Bing堅(jiān)稱歌手Billie Eilish參加了2023年超級(jí)碗中場(chǎng)秀。
而一位律師表示,他的聯(lián)邦法院辯護(hù)狀充滿了ChatGPT提供的虛假引文和捏造的司法意見。
雖然知道聊天機(jī)器人會(huì)犯錯(cuò),但高中生和大學(xué)生仍是聊天機(jī)器人最狂熱的使用者,他們使用聊天機(jī)器人來撰寫論文、完成問題集和編寫代碼。
對(duì)此,學(xué)校管理者也同樣矛盾,他們無法判斷聊天機(jī)器人到底是欺騙工具還是學(xué)習(xí)工具。
今年1月,紐約市學(xué)校校長(zhǎng)David Banks禁止了ChatGPT,因?yàn)榱奶鞕C(jī)器? 「不能培養(yǎng)批判性思維和解決問題的能力」,
而在四個(gè)月后,David Banks又推翻了這一禁令,并表示自己「忽視了生成式人工智能在支持學(xué)生和教師方面的潛力」。
3月,OpenAI的聯(lián)合創(chuàng)始人Greg Brockman曾預(yù)測(cè),未來的聊天機(jī)器?將幫助編寫電影劇本,并改寫觀眾不喜歡的場(chǎng)景。
而兩個(gè)月后,美國(guó)作家協(xié)會(huì)舉行了罷工,要求簽訂合同,保護(hù)人們免受人工智能生成的爛片之害。
9月,編劇們結(jié)束了罷工,電影公司放棄人工智能劇本,
同時(shí),作家協(xié)會(huì)聯(lián)合一些著名小說家對(duì)OpenAI提起了集體訴訟。他們表示,OpenAI在未經(jīng)同意的情況下,在訓(xùn)練數(shù)據(jù)中使用了他們的版權(quán)作品。
雖然已經(jīng)有?些生成式人工智能應(yīng)用,如亞馬遜的產(chǎn)品摘要功能,但許多公司仍在試驗(yàn)和評(píng)估其解決方案。
從這個(gè)意義上講,2023年也可以說是嘗試和了解生成式人工智能的一年。
對(duì)2024的期待
11月的時(shí)候,OpenAI宣布了一套新的產(chǎn)品,其中包括一個(gè)自建聊天機(jī)器?套件。
在新工具的幫助下,我們可以利用ChatGPT輕松創(chuàng)建一個(gè)聊天機(jī)器?。
它能確定哪些藥物不能一起服用,還能列出特定地點(diǎn)所有滿足特定條件的餐廳。
制作這些聊天機(jī)器人的方法既直觀又簡(jiǎn)單,——但我們對(duì)驅(qū)動(dòng)它們的算法、訓(xùn)練數(shù)據(jù)的來源、以及聊天機(jī)器人生成的信息是否準(zhǔn)確都一無所知。
我們也不知道自己使用了多少計(jì)算能力,對(duì)環(huán)境造成了多大影響。
未來,生成式人工智能的商業(yè)發(fā)展可能會(huì)有增無減。人工智能將影響越來越多的復(fù)雜活動(dòng),如放射學(xué)、藥物研發(fā)、心理治療、招聘和大學(xué)錄取等??萍脊疽矊⒃谙乱淮布兄踩肴斯ぶ悄?。
也許在2024年,生成式人工智能解決方案將真正投入生產(chǎn)。
——我們會(huì)在生活中遇到越來越多的由LLM驅(qū)動(dòng)的功能。
許多框架、度量標(biāo)準(zhǔn)和范式將不斷發(fā)展,如何評(píng)估和監(jiān)控由LLM驅(qū)動(dòng)的應(yīng)用,會(huì)成為一個(gè)更熱門的討論話題。
人們將學(xué)會(huì)如何正確衡量RAG、問答系統(tǒng)和聊天機(jī)器人的性能,并有可能會(huì)找到改善性能的新技術(shù)。
隨著這些生成式人工智能系統(tǒng)性能的成熟,將有越來越多的生成式人工智能應(yīng)用,來幫助我們提高生產(chǎn)效率和改善用戶體驗(yàn)。
另外,減少數(shù)據(jù)泄漏和保護(hù)敏感數(shù)據(jù)這一話題也將變得比以往更加重要。
可以肯定的是,2024年將會(huì)發(fā)生很多變化。而現(xiàn)在,正是積累經(jīng)驗(yàn)的好時(shí)機(jī)。