自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人工智能進入 “下半場”,未來將走向何方? 精華

發(fā)布于 2025-4-24 06:20
瀏覽
0收藏

在科技飛速發(fā)展的今天,人工智能(AI)已經(jīng)成為大家耳熟能詳?shù)脑~匯。從手機里能陪你聊天的智能語音助手,到能自動識別照片內(nèi)容的圖像軟件,AI的身影無處不在。不過,你知道嗎?AI的發(fā)展正迎來一個關(guān)鍵轉(zhuǎn)折點,就像一場比賽進入了下半場。今天,就讓我們一起深入了解AI的這場“下半場”變革。

一、AI上半場:模型與方法的狂歡

(一)輝煌成就:打敗人類冠軍,通過各類考試

過去幾十年,AI取得了不少令人驚嘆的成績。在棋盤上,AI化身“棋藝高手”,戰(zhàn)勝了世界象棋和圍棋冠軍;面對學(xué)術(shù)考試,它也毫不遜色,在SAT考試和律師資格考試中超越了大部分人類;甚至在國際數(shù)學(xué)奧林匹克競賽(IMO)和國際信息學(xué)奧林匹克競賽(IOI)這樣的高難度競賽中,AI也能勇奪金牌。這些成果背后,是一個個閃耀的名字:深藍(DeepBlue)、阿爾法狗(AlphaGo)、GPT - 4等,它們代表著AI發(fā)展歷程中的重要里程碑。

(二)關(guān)鍵創(chuàng)新:訓(xùn)練方法和模型的突破

這些成就的取得,離不開AI在訓(xùn)練方法和模型上的創(chuàng)新。就好比建造高樓大廈,訓(xùn)練方法和模型就是大廈的基石和設(shè)計藍圖。像Transformer這樣的創(chuàng)新,為AI帶來了全新的架構(gòu)思路,它就像一個神奇的“智能引擎”,在自然語言處理、計算機視覺等多個領(lǐng)域發(fā)揮著巨大作用,讓AI處理信息的能力大幅提升。還有卷積神經(jīng)網(wǎng)絡(luò)(如AlexNet),它讓AI在圖像識別領(lǐng)域?qū)崿F(xiàn)了質(zhì)的飛躍,能夠像人類一樣“看懂”圖片里的內(nèi)容。這些創(chuàng)新就像給AI注入了強大的“能量藥水”,讓它不斷進化變強。

(三)比賽規(guī)則:重訓(xùn)練輕評估

在AI發(fā)展的上半場,大家關(guān)注的焦點主要是訓(xùn)練方法和模型。就像一場比賽,參賽選手都在努力打造更厲害的“武器”(模型和方法),而對比賽場地(評估和基準(zhǔn)測試)的重視程度相對較低。研究員通過查看那些影響力較大的AI論文發(fā)現(xiàn),像Transformer、AlexNet、GPT - 3這些論文,提出的都是訓(xùn)練模型的新方法和新思路,并且通過在一些基準(zhǔn)測試中取得的顯著進步來證明自己的成果。相比之下,即使是影響力較大的基準(zhǔn)測試,如ImageNet,它的引用次數(shù)也遠(yuǎn)遠(yuǎn)低于像AlexNet這樣的模型論文。這就好比在一場發(fā)明比賽中,大家都在比拼誰發(fā)明的工具更厲害,而對用來測試工具的場地是否合適、是否能全面評估工具的性能,卻沒有那么在意。

為什么會這樣呢?一方面,創(chuàng)造新的算法或模型架構(gòu)難度很大,需要研究人員具備深厚的專業(yè)知識和敏銳的洞察力,就像建造一座前所未有的超級建筑,需要頂尖的設(shè)計師和工程師一樣。另一方面,給AI定義任務(wù)相對來說比較簡單,很多時候就是把人類日常做的事情,比如翻譯、識別圖片、下棋等,轉(zhuǎn)化為AI的測試任務(wù),不需要太多創(chuàng)新和復(fù)雜的工程設(shè)計。而且,新的訓(xùn)練方法和模型往往具有通用性,能在多個領(lǐng)域發(fā)揮作用,就像一把萬能鑰匙,可以打開不同領(lǐng)域的“大門”,所以大家更熱衷于研究它們。

二、通向“下半場”的關(guān)鍵鑰匙:強化學(xué)習(xí)的突破

(一)強化學(xué)習(xí)的困境與突破

在AI領(lǐng)域,強化學(xué)習(xí)(RL)一直被視為“終局游戲”,理論上它能讓AI在各種任務(wù)中獲勝。想象一下,強化學(xué)習(xí)就像是訓(xùn)練一個聰明的小機器人,通過不斷地嘗試和反饋,讓它學(xué)會如何在復(fù)雜的環(huán)境中做出最優(yōu)決策。比如,讓小機器人在迷宮里找出口,它每次嘗試不同的路徑,根據(jù)是否接近出口得到獎勵或懲罰,從而逐漸找到最佳路線。

但在很長一段時間里,強化學(xué)習(xí)遇到了不少難題。研究人員大多把精力放在研究算法上,就像只關(guān)注小機器人的“大腦程序”怎么編寫,卻忽略了小機器人所處的環(huán)境和它一開始具備的“知識儲備”(先驗知識)。結(jié)果就是,研究出的算法在一些簡單的模擬環(huán)境中表現(xiàn)得很好,可一旦放到真實復(fù)雜的環(huán)境里,就“水土不服”了。比如,訓(xùn)練一個玩游戲的智能體,它在特定的游戲環(huán)境里是“游戲高手”,但換個游戲就完全不行了。

后來,隨著GPT - 2、GPT - 3等語言模型的出現(xiàn),這個難題有了轉(zhuǎn)機。大家發(fā)現(xiàn),缺失的關(guān)鍵部分是先驗知識。通過大規(guī)模的語言預(yù)訓(xùn)練,可以把通用的常識和語言知識“灌輸”到模型里,就像給小機器人提前“預(yù)習(xí)”了很多知識,讓它變得更聰明。這些預(yù)訓(xùn)練的模型經(jīng)過微調(diào),就能變成各種不同用途的智能體,比如聊天機器人ChatGPT,它可以和人們順暢地交流;還有WebGPT,能幫助人們在網(wǎng)絡(luò)上更好地獲取信息。

(二)推理:強化學(xué)習(xí)的“神奇魔法”

有了先驗知識還不夠,研究人員又發(fā)現(xiàn)了一個讓強化學(xué)習(xí)更強大的“秘密武器”——推理。想象你在做菜,發(fā)現(xiàn)鹽用完了,這時你會想:“菜需要有咸味,鹽沒了,那就找醬油代替,醬油在右邊的櫥柜里?!边@個思考的過程就是推理。對于智能體來說,推理就像是一種特殊的“隱形行動”,雖然它不會直接改變外部世界,但能幫助智能體在復(fù)雜的情況下做出更好的決策。

在傳統(tǒng)的強化學(xué)習(xí)理論里,決策的選擇空間是有限的,如果選擇空間突然變得無限大,就像在一堆盒子里找一個有獎勵的盒子,突然增加了無數(shù)個空盒子,決策就會變得非常困難。但把推理加入到強化學(xué)習(xí)的行動空間里,就不一樣了。借助語言預(yù)訓(xùn)練的先驗知識,智能體可以利用推理更好地理解環(huán)境、做出決策,而且在面對不同的情況時能靈活地進行思考和計算。這就好比你在玩一個找寶藏的游戲,雖然增加了很多干擾的“空盒子”,但因為你之前玩過很多類似的游戲,積累了經(jīng)驗(先驗知識),所以還是能更準(zhǔn)確地找到寶藏。這就是推理在強化學(xué)習(xí)中的神奇作用,它讓智能體能夠更好地適應(yīng)復(fù)雜多變的環(huán)境,實現(xiàn)更廣泛的應(yīng)用。

三、AI下半場:重新定義問題與評估標(biāo)準(zhǔn)

(一)上半場游戲的“落幕”

AI上半場的游戲規(guī)則是:不斷開發(fā)新的訓(xùn)練方法和模型,在基準(zhǔn)測試中取得更好的成績,然后再創(chuàng)造更難的基準(zhǔn)測試,繼續(xù)這個循環(huán)。但現(xiàn)在,這個游戲遇到了問題。隨著前面提到的訓(xùn)練方法和模型越來越成熟,形成了一套標(biāo)準(zhǔn)化的“配方”,它能在基準(zhǔn)測試中輕松取得好成績,而且不需要太多新的創(chuàng)意。比如,研究人員辛辛苦苦研發(fā)出一種新方法,可能只能讓某個任務(wù)的成績提高5%,但像o - series這樣的新模型,即使沒有專門針對這個任務(wù)進行優(yōu)化,也能提高30%的成績。

人工智能進入 “下半場”,未來將走向何方?-AI.x社區(qū)

而且,新創(chuàng)造的更難的基準(zhǔn)測試,也很快會被現(xiàn)有的“配方”攻克。研究員的同事Jason Wei制作了一張圖表,清楚地展示了過去五年AI在各種基準(zhǔn)測試中的進展。像TriviaQA這樣的問答測試、MMLU這樣的綜合考試測試,以及數(shù)學(xué)相關(guān)的GSM8K、MATH等測試,AI的準(zhǔn)確率都在不斷提高,解決這些測試任務(wù)的速度也越來越快。這就好比一場考試,學(xué)生們掌握了一套萬能的解題方法,不管試卷怎么變難,他們都能輕松應(yīng)對,這樣考試就失去了原本篩選和評估的意義。

(二)下半場的新挑戰(zhàn):重新思考評估

既然傳統(tǒng)的游戲規(guī)則行不通了,那AI下半場該怎么玩呢?研究員認(rèn)為,我們需要從根本上重新思考評估方式。這不僅僅是創(chuàng)造新的、更難的基準(zhǔn)測試,而是要對現(xiàn)有的評估體系提出質(zhì)疑,建立全新的評估標(biāo)準(zhǔn)。為什么要這樣做呢?因為現(xiàn)有的評估方式和現(xiàn)實世界的情況存在很大差異,這導(dǎo)致了一個嚴(yán)重的問題——效用問題。

雖然AI在很多比賽和考試中表現(xiàn)出色,打敗了人類冠軍,通過了各種高難度考試,但從經(jīng)濟和GDP等方面來看,它對現(xiàn)實世界的影響并沒有預(yù)期的那么大。就好像一個學(xué)生在學(xué)校里考試成績非常好,各種競賽都拿獎,但進入社會后,卻發(fā)現(xiàn)自己所學(xué)的知識并不能很好地解決實際工作和生活中的問題。

比如說,現(xiàn)有的評估通常要求智能體自動運行任務(wù),接收輸入、自主完成任務(wù),然后獲得獎勵。但在現(xiàn)實生活中,很多任務(wù)都需要智能體和人類進行持續(xù)的互動。你在和客服溝通時,不會發(fā)一條很長的消息,然后等10分鐘就期望得到一個完美的解決方案,而是會和客服來回交流。針對這個問題,新的基準(zhǔn)測試,如Chatbot Arena,開始引入真實人類參與互動;tau - bench則通過模擬用戶來改進評估方式。

人工智能進入 “下半場”,未來將走向何方?-AI.x社區(qū)

再比如,現(xiàn)有的評估往往假設(shè)任務(wù)是獨立同分布的,就像有500道測試題,每道題都獨立進行測試,然后計算平均分。但在現(xiàn)實中,人們解決問題是有順序的,會隨著經(jīng)驗的積累越做越好。一個谷歌的軟件工程師在處理谷歌內(nèi)部的問題時,會因為對代碼庫越來越熟悉而解決問題的能力越來越強,可一個軟件工程師智能體在處理相同代碼庫的問題時,卻無法獲得這種經(jīng)驗積累帶來的優(yōu)勢。這說明現(xiàn)有的評估方式?jīng)]有考慮到現(xiàn)實中的這種情況,我們需要新的評估方式來適應(yīng)現(xiàn)實需求。

(三)下半場的新玩法:注重實際效用

AI下半場的游戲規(guī)則變成了:開發(fā)針對現(xiàn)實世界實際效用的新評估方式和任務(wù),然后用現(xiàn)有的方法或者結(jié)合新的組件來解決這些問題,接著再不斷循環(huán)這個過程。雖然這個新游戲?qū)Υ蠹襾碚f比較陌生,玩起來有難度,但卻充滿了機遇。在上半場,AI主要是在虛擬的游戲和考試場景中“大顯身手”,而在下半場,它將走向現(xiàn)實世界,創(chuàng)造出具有實際價值的產(chǎn)品,打造出價值數(shù)十億美元甚至萬億美元的公司。

在這個過程中,那些小打小鬧的改進方法可能不再管用,因為現(xiàn)有的成熟“配方”就能輕松超越它們。只有當(dāng)你提出全新的假設(shè),打破現(xiàn)有的“配方”,才能進行真正具有變革性的研究。這就像是在一場全新的比賽中,過去的戰(zhàn)術(shù)可能不再適用,你需要想出全新的策略,才能脫穎而出。

四、總結(jié)與展望

AI的發(fā)展就像一場漫長的馬拉松比賽,現(xiàn)在已經(jīng)進入了下半場。上半場,我們見證了AI在訓(xùn)練方法和模型上的巨大突破,取得了許多令人矚目的成績;下半場,面對新的挑戰(zhàn)和機遇,AI需要更加貼近現(xiàn)實世界,解決實際問題,創(chuàng)造真正的價值。通過重新思考評估方式,我們有望找到更適合AI發(fā)展的道路,讓它在未來發(fā)揮更大的作用。

也許在不久的將來,AI會像電力、互聯(lián)網(wǎng)一樣,深入到我們生活的每一個角落,改變我們的工作、學(xué)習(xí)和生活方式。讓我們一起期待AI在這場“下半場”比賽中創(chuàng)造更多的奇跡,為人類的發(fā)展帶來更多的驚喜。

作者:張長旺,圖源:旺知識

參考資料

  • 標(biāo)題:The Second Half
  • 作者:Shunyu Yao
  • 單位:OpenAI
  • 鏈接:https://ysymyth.github.io/The-Second-Half/

本文轉(zhuǎn)載自???旺知識??,作者:旺知識

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦