自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ChatGPT可以開車嗎?分享大型語(yǔ)言模型在自動(dòng)駕駛方面的應(yīng)用案例 原創(chuàng)

發(fā)布于 2024-4-26 08:51
瀏覽
0收藏

人工智能技術(shù)如今正在快速發(fā)展和應(yīng)用,人工智能模型也是如此。擁有100億個(gè)參數(shù)的通用模型的性能正在碾壓擁有5000萬(wàn)個(gè)參數(shù)的任務(wù)特定模型,在從單一模型解決許多任務(wù)方面表現(xiàn)出了卓越的性能。

人工智能模型也正在變得多模態(tài)。微軟公司的Florence 2和OpenAI公司的GPT-4V等新的視覺(jué)模型正在擴(kuò)展這些模型的應(yīng)用,以整合圖像、視頻和聲音,將大型語(yǔ)言模型(LLM)強(qiáng)大的能力應(yīng)用在數(shù)百萬(wàn)個(gè)新的用例中。

事實(shí)證明,在模型工程領(lǐng)域,規(guī)模越大越好,每個(gè)應(yīng)用程序都經(jīng)歷了類似的發(fā)展:

  • 一個(gè)任務(wù),一個(gè)領(lǐng)域:針對(duì)特定用例的簡(jiǎn)單模型——用于檢測(cè)道路的對(duì)象檢測(cè)器,用于室內(nèi)場(chǎng)景的深度分割模型、圖像字幕模型、用于Web應(yīng)用程序的聊天機(jī)器人等。
  • 一個(gè)任務(wù),每個(gè)領(lǐng)域:將一個(gè)簡(jiǎn)單模型的應(yīng)用擴(kuò)展到許多用例中——無(wú)處不在的對(duì)象檢測(cè)器(YOLO、DINO等)、各種事物的深度分割(MobileNet)、多種產(chǎn)品的聊天插件。
  • 每個(gè)任務(wù),每個(gè)領(lǐng)域:可以應(yīng)用在任何事情的大型模型,新的大型語(yǔ)言模型(LLM)使范式轉(zhuǎn)變成為可能。例如Florence、GPT-4V、ChatGPT。
  • 每個(gè)任務(wù),一個(gè)領(lǐng)域:為某一個(gè)領(lǐng)域優(yōu)化大型模型,支持實(shí)時(shí)應(yīng)用程序和更高的可靠性——例如,用于交互式搜索的GPT-3.5-Turbo,用于研究和起草法律文檔的Harvey.ai,用于自動(dòng)駕駛的DriveGPT。

運(yùn)行在小型模型上的自動(dòng)駕駛技術(shù)

自動(dòng)駕駛技術(shù)仍然在小型模型上運(yùn)行。雖然許多單一任務(wù)模型、專用傳感器和精確的地圖組合已經(jīng)提供了令人印象深刻的原型,但目前的技術(shù)還沒(méi)有提供支持司機(jī)日常所需的安全性或規(guī)模。

以下是阻礙自動(dòng)駕駛技術(shù)發(fā)展的因素:

  • 零樣本泛化。現(xiàn)有的模型經(jīng)常在從未見(jiàn)過(guò)的情況下失敗,通常被稱為自動(dòng)駕駛的“長(zhǎng)尾”。如果沒(méi)有得到充分的訓(xùn)練,這些模型就沒(méi)有能力根據(jù)基本原則來(lái)推斷下一步該做什么。迄今為止的解決方案是建立另一個(gè)專用模型。難以繪制動(dòng)態(tài)場(chǎng)景是大多數(shù)自動(dòng)駕駛系統(tǒng)的一個(gè)關(guān)鍵弱點(diǎn)。
  • 理解司機(jī)和行人的意圖。現(xiàn)有的模型無(wú)法理解人類互動(dòng)和意圖的微妙之處,無(wú)論是車內(nèi)的司機(jī)還是車外的行人或車輛。
  • 準(zhǔn)確繪制區(qū)域地圖。雖然自動(dòng)駕駛車輛在地圖繪制良好的區(qū)域大多可以行駛,但事實(shí)證明,精確的高清地圖很難進(jìn)行縮放。如果沒(méi)有精確的地圖,基于地圖的自動(dòng)駕駛車輛就不能很好地行駛。
  • 擴(kuò)展到其他類型車輛。如今的自動(dòng)駕駛出租車依賴于專門的傳感器,昂貴的計(jì)算以及許多專用模型的組合——這是一個(gè)復(fù)雜而昂貴的技術(shù),尚未擴(kuò)展應(yīng)用到其他類型的汽車。

大型語(yǔ)言模型和長(zhǎng)尾問(wèn)題

在所有應(yīng)用程序中,模型工程師使用大型語(yǔ)言模型作為超級(jí)強(qiáng)大的開發(fā)工具來(lái)改進(jìn)模型工程過(guò)程的每個(gè)方面。大型語(yǔ)言模型已經(jīng)被證明在開發(fā)和改進(jìn)模擬環(huán)境,對(duì)大量數(shù)據(jù)集進(jìn)行分類、理解和標(biāo)記,以及解釋和調(diào)試神經(jīng)網(wǎng)絡(luò)的“黑匣子”方面非常有用。

也許大型語(yǔ)言模型在開發(fā)過(guò)程中的最大優(yōu)勢(shì)之一是能夠用自然語(yǔ)言表達(dá)復(fù)雜的、多步驟的邏輯,通過(guò)繞過(guò)對(duì)專家代碼的需求來(lái)加快開發(fā)速度。這已經(jīng)被證明在復(fù)雜的問(wèn)題領(lǐng)域非常有用,例如文本摘要或代碼完成與代碼庫(kù)之間的復(fù)雜依賴關(guān)系。

所有這些工程工具都可以廣泛地改進(jìn)開發(fā)工作,包括自動(dòng)駕駛,但大型語(yǔ)言模型最有趣和最有影響力的應(yīng)用是直接針對(duì)駕駛?cè)蝿?wù)本身:對(duì)復(fù)雜的場(chǎng)景進(jìn)行推理,并規(guī)劃最安全的前進(jìn)路線。

自動(dòng)駕駛是一個(gè)特別具有挑戰(zhàn)性的問(wèn)題,因?yàn)槟承┻吘壡闆r需要復(fù)雜的、類似人類的推理,遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的算法和模型。大型語(yǔ)言模型在超越純粹的相關(guān)性,展示真正的“對(duì)世界的理解”方面表現(xiàn)出了希望。這種新的理解水平延伸到了駕駛?cè)蝿?wù),使司機(jī)能夠在不需要明確訓(xùn)練的情況下,以安全和自然的方式在復(fù)雜的場(chǎng)景中導(dǎo)航。

現(xiàn)有的模型可能會(huì)被十字路口出現(xiàn)的建筑工人或事故現(xiàn)場(chǎng)周圍的路線所迷惑,大型語(yǔ)言模型已經(jīng)顯示出了非常熟練地推理正確路線和速度的能力。大型語(yǔ)言模型提供了一條解決“長(zhǎng)尾”的新途徑,即處理前所未有的情況的能力。在過(guò)去的二十年,長(zhǎng)尾一直是自動(dòng)駕駛面臨的根本挑戰(zhàn)。

大型語(yǔ)言模型對(duì)自主任務(wù)的限制

如今,大型語(yǔ)言模型對(duì)于自主應(yīng)用方面仍然存在一些限制。簡(jiǎn)單地說(shuō),大型語(yǔ)言模型需要變得更加可靠和更快。因此需要開發(fā)解決方案,而這正是開發(fā)人員努力工作的地方。

1.延遲和實(shí)時(shí)限制

司機(jī)的關(guān)鍵決策必須在不到一秒鐘的時(shí)間內(nèi)做出,而在數(shù)據(jù)中心運(yùn)行的最新大型語(yǔ)言模型可能需要10秒或更長(zhǎng)時(shí)間。

解決這個(gè)問(wèn)題的一個(gè)方案是采用混合云架構(gòu),它用數(shù)據(jù)中心處理為車載計(jì)算系統(tǒng)提供補(bǔ)充。另一個(gè)方案是專門構(gòu)建的大型語(yǔ)言模型,它可以將大型模型壓縮成足夠小、足夠快,以適應(yīng)汽車的應(yīng)用。人們已經(jīng)看到在優(yōu)化大型模型方面有了顯著的改進(jìn)。Mistral 7B和Llama 2 7B已證明其性能可與GPT-3.5相媲美,參數(shù)數(shù)量級(jí)更少(70億個(gè)參數(shù)對(duì)1750億個(gè)參數(shù))。摩爾定律和持續(xù)的優(yōu)化應(yīng)該會(huì)迅速將更多的這些模型轉(zhuǎn)移到邊緣。

2.幻覺(jué)

大型語(yǔ)言模型基于相關(guān)性進(jìn)行推理,但并非所有相關(guān)性在特定場(chǎng)景中都有效。例如,自動(dòng)駕駛車輛觀察到一個(gè)人站在十字路口可能意味著停止(行人)、駛離(交警)或減速(施工工人)。正相關(guān)性并不總是給出正確的答案。當(dāng)模型產(chǎn)生不能反映現(xiàn)實(shí)的輸出時(shí),將其結(jié)果稱為“幻覺(jué)”。

基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)通過(guò)將模型與人類反饋相結(jié)合來(lái)理解這些復(fù)雜的駕駛場(chǎng)景,為這些問(wèn)題提供了一個(gè)潛在的解決方案。隨著數(shù)據(jù)質(zhì)量的提高,像Llama 2 70B這樣的小型模型的性能與GPT-4不相上下,參數(shù)卻減少了20倍(700億個(gè)參數(shù)對(duì)1.7萬(wàn)億個(gè)參數(shù))。

研究項(xiàng)目也使更好的數(shù)據(jù)質(zhì)量更容易擴(kuò)展。例如,OpenChat框架利用了強(qiáng)化學(xué)習(xí)微調(diào)(RLFT)等新技術(shù),在提高性能的同時(shí)避免了成本高昂的人類偏好標(biāo)簽。

3.新的長(zhǎng)尾

大型語(yǔ)言模型已經(jīng)編碼了“一切”,但仍然可能沒(méi)有涵蓋所有特定于駕駛的概念,例如在繁忙的十字路口進(jìn)行導(dǎo)航的能力。這里的一個(gè)潛在解決方案是采用長(zhǎng)序列的專有駕駛數(shù)據(jù)訓(xùn)練模型,這些數(shù)據(jù)可以將這些更詳細(xì)的概念嵌入模型中。例如,Replit使用來(lái)自其用戶群的專有編碼數(shù)據(jù),通過(guò)微調(diào)不斷改進(jìn)其代碼生成工具,性能優(yōu)于Code Llama 7B等大型模型。

自動(dòng)駕駛的未來(lái)發(fā)展

如今,自動(dòng)駕駛尚未成為主流技術(shù),目前只有少數(shù)自動(dòng)駕駛車輛能夠在最復(fù)雜的城市環(huán)境安全行駛。大型模型正在改變自動(dòng)駕駛模型的開發(fā)方式,最終將改變自動(dòng)駕駛技術(shù)——提供必要的安全性和規(guī)模,最終將這項(xiàng)技術(shù)交付給司機(jī)。

原文標(biāo)題:Can ChatGPT drive my car? The case for LLMs in autonomy,作者:Prannay Khosla

鏈接:?https://www.infoworld.com/article/3712644/can-chatgpt-drive-my-car-the-case-for-llms-in-autonomy.html?。

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
1條回復(fù)
按時(shí)間正序
/
按時(shí)間倒序
bobo87
bobo87

期待發(fā)展成熟的一天

回復(fù)
2024-4-26 13:50:52
回復(fù)
相關(guān)推薦