自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="gfz1b"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

李志飛：關于GPT-4的八點觀察，多模態(tài)大模型競賽開始

作者：新智元 2023-03-21 15:23:52

人工智能新聞

在標準化測試和其他基準測試中，GPT-4比之前的模型表現(xiàn)得更優(yōu)異，可以跨數(shù)十種語言工作，還可以將圖像作為輸入對象，這意味著它能夠在聊天上下文中理解照片或圖表的意圖和邏輯。

自微軟3月初發(fā)布多模態(tài)模型 Kosmos-1 以來，一直在測試和調整 OpenAI 的多模態(tài)模型，并將其更好地兼容微軟自有產(chǎn)品。

果不其然，趁著GPT-4發(fā)布之際，微軟也正式攤牌，New Bing早就已經(jīng)用上GPT-4了。

ChatGPT用的語言模型是 GPT-3.5，在談到GPT-4比前一個版本強大在哪里時，OpenAI稱，雖然這兩個版本在隨意的談話中看起來很相似，但「當任務的復雜性達到足夠的閾值時，差異就會出現(xiàn)」，GPT-4更可靠、更有創(chuàng)意，并且能夠處理更細微的指令。

王者加冕？關于GPT-4的八點觀察

1. 再度驚艷，強過人類

如果說GPT-3系列模型向大家證明了AI能夠在一個模型里做多個任務，指明實現(xiàn)AGI的路徑，GPT-4在很多任務上已經(jīng)達到人類水平（human-level），甚至比人類表現(xiàn)更好。GPT-4在很多專業(yè)的學術考試上已經(jīng)超越90%的人類，比如在模擬律師考試中，分數(shù)在應試者的前10%左右。對此，各類中小學、大學和專業(yè)教育該如何應對？

2. 「科學」煉丹

雖然OpenAI此次并未公布具體參數(shù)，但可以猜到GPT-4模型一定不小，模型太多就意味著高額訓練成本。與此同時，訓練模型也很像「煉丹」，需要做很多實驗，如果這些實驗都是在真實環(huán)境下去訓練，高昂成本壓力不是誰都能承受的。

為此，OpenAI別出心裁搞了一個所謂的「predictable scaling」，簡言之就是用萬分之一的成本來預測各個實驗的結果（loss和human eval)。如此一來，就把原本大模型「碰運氣」的煉丹訓練升級為「半科學」的煉丹。

3. 眾包評測，一舉雙得

這次非?！溉∏伞沟靥峁┝艘粋€open source的OpenAI Evals，用眾包方式開放給各位開發(fā)者或愛好者，邀請大家使用Evals來測試模型，同時籠絡開發(fā)者生態(tài)。這一方式，既讓大家有參與感，又能讓大家免費幫忙評估提高系統(tǒng)，OpenAI直接獲得問題和反饋，一石二鳥。

4. 工程補漏

這次還發(fā)布了一個System Card，是一個開放的「打補丁」工具，可以發(fā)現(xiàn)漏洞減少語言模型的「胡說八道」問題。系統(tǒng)打了各種各樣的補丁做預處理和后處理，后面還會開放代碼把打補丁能力眾包給大家，OpenAI未來也許可以讓大家?guī)退黄鹱觥＿@標志著LLM終于從一個優(yōu)雅簡單的next token prediction任務進入了各種messy的工程hack了。

5. 多模態(tài)

自上周德國微軟透露GPT-4是多模態(tài)后，大眾可謂萬眾期待。

GPT-4千呼萬喚始出來，被譽為「堪比人腦」的多模態(tài)其實跟目前很多論文闡述的多模態(tài)能力并無太多差別，主要區(qū)別就是把文本模型的few-shot和邏輯鏈（COT）結合進來，這里有個前提是需要一個基礎能力很好的文本LLM再加多模態(tài)，會產(chǎn)生不錯的效果。

6. 有計劃地放出「王炸」

按照OpenAI演示GPT-4的demo視頻里的說法，GPT-4 早在去年8月就已完成訓練，但今天才發(fā)布，剩下的時間都在進行大量測試和各種查漏補缺，以及最重要的去除危險內容生成的工作。

當大家還沉浸在ChatGPT驚人的生成能力之時，OpenAI已經(jīng)搞定GPT-4，這波谷歌工程師估計又要熬夜追趕了？

7. OpenAI不再Open

OpenAI在公開的論文里完全沒有提及任何模型參數(shù)和數(shù)據(jù)規(guī)模（網(wǎng)傳GPT-4參數(shù)已達100萬億），也沒有任何技術原理，對此解釋說是為了普惠大眾，怕大家學會了怎么做GPT-4之后會用來做惡，觸發(fā)一些不可控的事情發(fā)生，個人完全不認同這種此地無銀的做法。

8. 集中力量辦大事

論文除了各種「炫技」，還特別用了三頁把所有為GPT-4不同系統(tǒng)有貢獻人員都列出來，粗略估計應該已經(jīng)超過百人，再次體現(xiàn)OpenAI內部團隊成員眾志成城、高度協(xié)作的狀態(tài)。以此對比其他幾家的團隊作戰(zhàn)能力，在眾志成城這方面是不是差得有點遠？

目前多模態(tài)大模型已經(jīng)成為整個AI大模型發(fā)展的趨勢和重要方向，而在這場大模型AI「軍備競賽」中，谷歌、微軟、DeepMind等科技巨頭都積極推出多模態(tài)大模型（MLLM）或大模型（LLM）。

開啟新一輪軍備競賽：多模態(tài)大模型

微軟：Kosmos-1

微軟在3月初發(fā)布擁有16億參數(shù)的多模態(tài)模型 Kosmos-1，網(wǎng)絡結構基于 Transformer 的因果語言模型。其中，Transformer 解碼器用作多模態(tài)輸入的通用接口。

除了各種自然語言任務，Kosmos-1 模型能夠原生處理廣泛的感知密集型任務，如視覺對話、視覺解釋、視覺問答、圖像字幕、簡單的數(shù)學方程式、OCR 和帶描述的零樣本圖像分類。

谷歌：PaLM-E

3月初，谷歌和柏林工業(yè)大學的研究團隊推出目前最大的視覺語言模型——PaLM-E，參數(shù)量高達5620億（PaLM-540B+ViT-22B）。

PaLM-E是一個僅有解碼器的大模型，在給定前綴（prefix）或提示（prompt）下，能夠以自回歸方式生成文本補全。模型通過加一個編碼器，模型可以將圖像或感知數(shù)據(jù)編碼為一系列與語言標記大小相同的向量，將此作為輸入用于下一個token預測，進行端到端訓練。

DeepMind：Flamingo

DeepMind在去年4月推出Flamingo視覺語言模型，模型將圖像、視頻和文本作為提示（prompt），輸出相關語言，只需要少量的特定例子既能解決很多問題，無需額外訓練。

通過交叉輸入圖片（視頻）和文本的方式訓練模型，使模型具有 few-shot 的多模態(tài)序列推理能力，完成「文本描述補全、VQA / Text-VQA」等多種任務。

目前，多模態(tài)大模型已顯示更多應用可能性，除了相對成熟的文生圖外，人機互動、機器人控制、圖片搜索、語音生成等大量應用逐一出現(xiàn)。

綜合來看，GPT-4不會是AGI，但多模態(tài)大模型已經(jīng)是一個清晰且確定的發(fā)展方向。建立統(tǒng)一的、跨場景、多任務的多模態(tài)基礎模型會成為人工智能發(fā)展的主流趨勢之一。

雨果說「科學到了最后階段，便遇上了想象」，多模態(tài)大模型的未來或許正超越人類的想象。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="saxzt"><rp id="saxzt"></rp></style>

<legend id="saxzt"><track id="saxzt"></track></legend>