ChatGPT背后竟然是這么搞的,不可思議!
我是ChatGPT,最近實(shí)在太火爆了。
很多人以為我非常強(qiáng)大,其實(shí)并不是這樣的,比如,如果你問我:
今天北京天氣如何?
對(duì)不起,我并不知道,我無法獲取實(shí)時(shí)的信息,因?yàn)槲业腉PT4模型的知識(shí)停留在了2021年9月份。你要想獲得實(shí)時(shí)信息,非得通過其他途徑(如插件)不可。
只不過,我的很多回答有點(diǎn)兒通用AI的感覺,我似乎真的能理解你的問題,并且針對(duì)性地進(jìn)行回答。
這和之前的AI完全不同,讓很多人感到震撼。
但是很慚愧,我并不理解我的回答是什么含義,我在我這里,一切都是概率。
我基于概率來生成答案,我一直在和你玩文字接龍游戲。
這聽起來不可思議,但確實(shí)如此,那些看起來很有邏輯的答案靠的都是概率。
我不理解概念,但是必須得找到這些詞匯之間的關(guān)系,這樣才能輸出答案,這個(gè)關(guān)系是用“向量”表示的。
比如我有一個(gè)非常小的詞匯表,包括以下四個(gè)詞:“喵”,“汪”,“貓”,“狗”,它們的向量可能是這樣的:
喵:[0.9, 0.1]
汪:[0.1, 0.9]
貓:[0.8, 0.2]
狗:[0.2, 0.8]
畫成二維坐標(biāo):
圖片
你一眼就能看出來,“喵”和“貓”具有相似的向量表示,因?yàn)樗鼈儌z的距離比較近。
“汪”和“狗”的向量也相似,它倆的距離也比較近。
這就意味著,我成功地捕捉到了這四個(gè)詞之間的語義關(guān)系,以后就可以利用了。
我不理解“貓”是什么東西,“狗”又是什么含義,但是我知道“貓”和“喵”密切相關(guān),“狗”和“汪”密切相關(guān),這就夠了。
這里的向量是二維的,可以在平面中直觀地看出來,在實(shí)際的應(yīng)用中,為了更好地捕捉豐富的語義信息,向量可能有幾百維,幾千維!你的大腦恐怕是想象不出來的。
那你肯定要問了,這些向量是如何生成的?
你得提交數(shù)據(jù)集給我訓(xùn)練??!
圖片
當(dāng)你問“貓喜歡吃什么”的時(shí)候,我會(huì)將問題中的詞匯轉(zhuǎn)成向量。
"貓": [0.9, 0.3]
"喜歡": [0.5, 0.2]
"吃": [0.4, 0.7]
"什么": [0.3, 0.8]
"?": [0.1, 0.1]
然后我將該向量輸入神經(jīng)網(wǎng)絡(luò),經(jīng)過多層計(jì)算和激活函數(shù),生成輸出向量。
然后,將輸出向量轉(zhuǎn)換為概率分布:
"魚": 0.6
"骨頭": 0.2
"狗糧": 0.1
"巧克力": 0.05
"水果": 0.05
在這個(gè)概率分布中,"魚" 的概率最高,因此我會(huì)選擇 "魚" 作為回答的一部分。生成的答案可能是:
“貓喜歡吃魚?!?nbsp;
就是這么簡單!
當(dāng)然,這是個(gè)簡單的回答,一般的回答都很長,需要不斷地通過概率來選擇下一個(gè)詞,好像是單詞接龍。
例如:“貓為什么喜歡晚上活動(dòng)?” 這個(gè)問題的答案可能是這么生成的:
圖片
你肯定覺得不可思議:這怎么可能生成“邏輯”上良好的回答呢?
比如碼農(nóng)翻身老劉寫的這幾篇文章:
都開始威脅程序員的核心能力了,厲害不?
我只能說:“大力出奇跡”。模型大到一定程度,就能涌現(xiàn)一些東西出來了。
你閉上眼睛想象一下,整個(gè)互聯(lián)網(wǎng)的文本都擺在我的面前,我把所有的詞匯都提取出來,變成向量,在神經(jīng)網(wǎng)絡(luò)中瘋狂運(yùn)算,捕捉詞匯、短語和句子在不同上下文中的共現(xiàn)關(guān)系。這種共現(xiàn)關(guān)系包括了概念之間的聯(lián)系、語法結(jié)構(gòu)以及常見的表達(dá)方式等。
這些概率分布能夠指導(dǎo)我生成更接近你們?nèi)祟愖匀徽Z言表達(dá)的答案。
正因?yàn)槲覍W(xué)到的知識(shí)是統(tǒng)計(jì)性質(zhì)的,有時(shí)候我可能會(huì)犯錯(cuò),“一本正經(jīng)地胡扯”。
實(shí)際上,在概率游戲中,有兩個(gè)方向,一個(gè)叫做BERT,一個(gè)叫做GPT。
BERT就像完型填空,猜中間的字。
GPT就像寫作文,猜下一個(gè)字。
圖片
Google在2018年推出了BERT,在NLP領(lǐng)域引起了巨大的轟動(dòng)。BERT在問答、文本分類、情感分析、機(jī)器翻譯等任務(wù)上都取得了非常好的表現(xiàn)。
但是我的主人堅(jiān)信GPT的潛力,投入了非常龐大的計(jì)算資源和存儲(chǔ)資源,在前途晦暗不明時(shí)有著堅(jiān)定的信念,終于在GPT3.0取得了重大的突破,并由我ChatGPT這個(gè)人人可用的應(yīng)用徹底引爆。
我只能說風(fēng)水輪流轉(zhuǎn)吧。
一個(gè)新事物處于爆發(fā)期,大家會(huì)覺得它什么都能干,對(duì)它產(chǎn)生很多不切實(shí)際的幻想,好奇、興奮、迷茫、焦慮。
過一段時(shí)間以后,大潮褪去,就會(huì)發(fā)現(xiàn)它并沒有那么牛,在很多地方它的能力是有限的。
然后,就會(huì)有人在合適的場景中應(yīng)用它,開發(fā)出真正有用的產(chǎn)品,發(fā)揮出它真正的價(jià)值。
ChatGPT也會(huì)走上這樣的道路,所以要及早地開始探索,抓住先機(jī)。
碼農(nóng)翻身最近建立一個(gè)知識(shí)星球“ChatGPT基地”就在做這樣的事情:
這是個(gè)非常垂直的星球,專門為程序員服務(wù),目的很單純:
1.幫助程序員盡快掌握ChatGPT這個(gè)優(yōu)秀的工具,找到最優(yōu)的使用方式,最佳的提升工作效率的方法。
ChatGPT已經(jīng)對(duì)程序員產(chǎn)生了根本性的影響:
從小處來講,如果不會(huì)用ChatGPT,肯定干不過熟練使用ChatGPT的程序員。別人用自然語言生成代碼,你還在一行行敲,效率差了十倍百倍。這將直接影響一個(gè)人的工作績效,工作機(jī)會(huì),工資,獎(jiǎng)金。
一個(gè)初級(jí)程序員使用好ChatGPT,有可能可以和中級(jí),甚至高級(jí)程序員抗衡。
將來的招聘中,很有可能增加一條:熟練使用ChatGPT的優(yōu)先。
從大處來講,有可能會(huì)導(dǎo)致“從一棵樹跳到另外一棵樹”,“從一個(gè)黑暗森林奔向另外一個(gè)黑暗森林”。
2.探索ChatGPT給程序員帶來的機(jī)會(huì),如果iPhone出現(xiàn)帶來app開發(fā)一樣,把副業(yè)變成主業(yè)。
ChatGPT肯定會(huì)重構(gòu)很多行業(yè),比如各種培訓(xùn),如果把ChatGPT封裝成一個(gè)“蘇格拉底式導(dǎo)師”,完全有可能實(shí)現(xiàn)高質(zhì)量的導(dǎo)師24小時(shí)陪伴,完全涵蓋小學(xué),中學(xué)的各種學(xué)科,以及成人的IT培訓(xùn),這里邊肯定有很多機(jī)會(huì)。
當(dāng)然,這是兩個(gè)最主要的目的,加入星球,還可以查看ChatGPT的前沿資訊,優(yōu)質(zhì)資源和項(xiàng)目,ChatGPT的極客玩法等等。
如需轉(zhuǎn)載,請(qǐng)通過作者微信公眾號(hào)coderising獲取授權(quán)。