ChatGPT 帶來的 LUI 比 AIGC 大得多
如果認(rèn)為 ChatGPT 所代表的潮流是 AIGC 的一部分,將是對(duì)這個(gè)浪潮的巨大誤解。
ChatGPT 作為一款產(chǎn)品,展示了一個(gè)大語(yǔ)言模型(LLM)可能的應(yīng)用場(chǎng)景,其中 AI 生成文本(AI Generated Text)的能力,尤其令人印象深刻。因?yàn)檫@一擠強(qiáng)心針,大家把對(duì)這個(gè)能力的熱情,泛化到了 AI 生成圖像,視頻,音樂等各種內(nèi)容,并且籠統(tǒng)的起了個(gè)大詞兒的名字,叫做 AIGC。這里面不僅僅包含了 ChatGPT 這樣的產(chǎn)品,也包括了 MidJourney 這樣優(yōu)秀的圖像生成,以及 Stable Diffusion系列工具。至于視頻,音樂等反而沒有這么流行,但也都被包了進(jìn)來。
按照一般邏輯,如果 AIGC 的范疇比 ChatGPT 更大,那么 AIGC 是不是ChatGPT 所代表的那些大家說不清道不明的能力的超集呢?
我的答案是否定的。
ChatGPT 這一種 LLM,不是打開了 AIGC 的大門,而是打開了自然語(yǔ)言用戶界面(LUI, Language User Interface)的大門。LUI 是一個(gè)比 AIGC 大不知道幾個(gè)數(shù)量級(jí)的世界。和 LUI 的大海相比,AIGC 就是一個(gè)小池塘。
人類和機(jī)器的接口,是相對(duì)穩(wěn)定的,幾十年才變一次的東西。而每次變化帶來的改變都是深遠(yuǎn)的。就拿近代我們和電器的接口為例來看一下:
最早是 BUI(Button User Interface)。不用查了,這個(gè)詞是我杜撰的,就是用按鈕,旋鈕,開關(guān)等做接口。但這個(gè)接口表達(dá)能力太弱了,根本無法表達(dá)循環(huán),分支等。
然后就進(jìn)入了 TUI(Text User Interface),就是命令行輸入命令,計(jì)算機(jī)執(zhí)行。Unix,DOS就是這一代。
在后面是 GUI (Graphic User Interface)。這一誕生于施樂公司,應(yīng)用于蘋果的 Macintosh,發(fā)揚(yáng)于微軟的 Windows 的方式,一下子統(tǒng)治了從 80 年代到現(xiàn)在的從電腦到手機(jī)到平板的所有用戶界面。
而其中瀏覽器作為 GIUI (Graphic Internet User Interface),更是給互聯(lián)網(wǎng)插上了翅膀,直接就引爆了一個(gè)時(shí)代。
而大語(yǔ)言模型出來了,人們終于可以不用 GUI 了,而直接是用自然語(yǔ)言和機(jī)器交互了。那么以前大家為什么喜歡用 GUI ,而不直接用語(yǔ)言呢?因?yàn)榧夹g(shù)達(dá)不到呀。前一段語(yǔ)音識(shí)別的準(zhǔn)確率才剛剛過關(guān),至于理解語(yǔ)意,甚至可以完美的回答,還遠(yuǎn)遠(yuǎn)達(dá)不到這個(gè)能力。
現(xiàn)在 ChatGPT 以及百花爭(zhēng)鳴的大模型出現(xiàn)了,這將在我們和計(jì)算機(jī)已經(jīng)很方便的圖形界面的基礎(chǔ)上,進(jìn)一步降低使用門檻。在已經(jīng)很簡(jiǎn)單的事情上再進(jìn)一步簡(jiǎn)單一點(diǎn)可以幫助的人群,遠(yuǎn)遠(yuǎn)大于一個(gè)復(fù)雜的東西降低很大的門檻(波音737的操作難度降低三個(gè)數(shù)量級(jí)大多數(shù)人還是不會(huì)開)。這一條改變,會(huì)和人類社會(huì)的每一件事情,每一次人機(jī)交互有關(guān),會(huì)改變所有的行業(yè),所有的人的生活。
對(duì)比 AIGC,雖然也有很多令人興奮的進(jìn)展,但是在這個(gè)技術(shù)發(fā)展史中,這是一個(gè)局部的進(jìn)展。應(yīng)用的也僅僅在內(nèi)容生產(chǎn)這個(gè)領(lǐng)域,是一個(gè)局部的領(lǐng)域。它的發(fā)展,還需要更長(zhǎng)時(shí)間的摸索。大語(yǔ)言模型的路徑是否可以應(yīng)用圖像,視頻,聲音等領(lǐng)域還未知,下一個(gè)重大的突破在哪里還不明朗。所以,我認(rèn)為 AIGC 概念大于實(shí)質(zhì),和 LLM 以及 LUI 不可同日而語(yǔ)。