?作者 | 徐杰承
審校 | 云昭
GPT4的提前發(fā)布,把壓力著實(shí)給到百度了!在ChatGPT引爆聊天機(jī)器人領(lǐng)域后的數(shù)月,我們終于迎來了國(guó)內(nèi)的第一款生成式對(duì)話產(chǎn)品。
3月16日14:00,百度文心一言新聞發(fā)布會(huì)于百度北京總部正式召開。百度創(chuàng)始人、董事長(zhǎng)兼CEO李彥宏也實(shí)現(xiàn)了自己此前的諾言,將酷技術(shù)真正變成了一款人人都需要的產(chǎn)品。
據(jù)悉,文心一言(英文名:ERNIE Bot)是百度基于文心大模型技術(shù)推出的一款生成式對(duì)話產(chǎn)品,可實(shí)現(xiàn)自然流暢的人機(jī)交互。作為百度的核心技術(shù)之一,文心大模型ERNIE具備著跨模態(tài)、跨語言的深度語義理解與生成能力。而基于ERNIE技術(shù)的文心一言,成功將人工智能技術(shù)與人類語言交流能力進(jìn)行了融合,能夠?yàn)橛脩籼峁﹥?yōu)質(zhì)、智能化的交互體驗(yàn)。
1、Robin展示文心一言續(xù)寫三體、做洛陽紙貴詩(shī)、算雞兔同籠
目前,大型語言模型和生成式AI代表了一個(gè)新的技術(shù)范式,是全球每家企業(yè)都不可錯(cuò)過的機(jī)會(huì)。百度文心一言定位于人工智能基座模型的賦能平臺(tái),將助力金融、能源、媒體、政務(wù)等千行百業(yè)的智能化變革。
新聞發(fā)布會(huì)現(xiàn)場(chǎng),李彥宏展示了文心一言的五大核心能力以及其在五個(gè)使用場(chǎng)景的表現(xiàn),其中包括文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算、中文理解和多模態(tài)生成。
在文學(xué)創(chuàng)作場(chǎng)景中,文心一言根據(jù)對(duì)話問答將知名科幻小說《三體》的核心內(nèi)容進(jìn)行了總結(jié),并提出了多個(gè)續(xù)寫《三體》的建議和思路。此外,文心一言還根據(jù)問題內(nèi)容準(zhǔn)確回答了《三體》作者、《三體》電視劇角色扮演者等事實(shí)性信息。
目前生成式AI的主要弊端就是對(duì)問題回答的準(zhǔn)確性難以保障,而文心一言延續(xù)了百度知識(shí)增強(qiáng)的大模型理念,大幅提高了事實(shí)性問題的準(zhǔn)確率。面對(duì)“于和偉和張魯一有哪些共同點(diǎn)”、“于和偉和張魯一誰更高”這類問題,文心一言也依靠信息檢索能力及推理能力得出了正確答案。
在商業(yè)文案創(chuàng)作場(chǎng)景中,文心一言則順利完成了為公司命名、撰寫公司Slogan、撰寫公司成立新聞稿等創(chuàng)作任務(wù)。在連續(xù)三次內(nèi)容創(chuàng)作中,文心一言不僅準(zhǔn)確理解了用戶意圖,還完成了對(duì)用戶反饋的清晰表達(dá)。
這是基于龐大數(shù)據(jù)規(guī)模而發(fā)生的“智能涌現(xiàn)”。據(jù)介紹,文心一言大模型的訓(xùn)練數(shù)據(jù)包括萬億級(jí)網(wǎng)頁數(shù)據(jù)、數(shù)十億搜索數(shù)據(jù)及圖片數(shù)據(jù)、百億級(jí)語音日均調(diào)用數(shù)據(jù),以及5500億事實(shí)的知識(shí)圖譜等,這使得其在中文語言的理解和處理上,能夠優(yōu)于目前世界范圍內(nèi)幾乎所有的其他大模型。
數(shù)理推算方面,文心一言則依靠其思維能力、數(shù)學(xué)推演能力及邏輯推理能力成功完成了對(duì)“雞兔同籠”這類鍛煉人類邏輯思維的經(jīng)典例題的解答。
在這一環(huán)節(jié)中,文心一言不僅識(shí)別出了題目中所存在的問題,還成功像人類一樣找到了解題思路,并按照正確步驟一步步推演出了題目的準(zhǔn)確答案。
如果說文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算是大語言模型常見的優(yōu)勢(shì)和能力。那么文心一言的獨(dú)特之處,則是更優(yōu)秀的中文理解及多模態(tài)生成能力。
作為扎根于中國(guó)市場(chǎng)的大語言模型,文心一言具備中文領(lǐng)域最先進(jìn)的自然語言處理能力,在中文語言和中國(guó)文化上有更好的表現(xiàn)。在第四輪演示中,文心一言正確解釋了成語“洛陽紙貴”的含義,并結(jié)合成語內(nèi)涵分析出了“洛陽紙貴”對(duì)應(yīng)的經(jīng)濟(jì)學(xué)理論,甚至還成功用“洛陽紙貴”四個(gè)字創(chuàng)作了一首藏頭詩(shī)。
而在多模態(tài)生成方面,李彥宏現(xiàn)場(chǎng)展示了文心一言生成文本、圖片、音頻和視頻的能力。有趣的是,文心一言甚至能夠生成四川話等方言語音;文心一言的視頻生成能力則因成本較高,現(xiàn)階段還未對(duì)所有用戶開放,未來會(huì)逐步接入。
2、文心一言技術(shù)解讀
文心一言作為新一代知識(shí)增強(qiáng)大語言模型,是在ERNIE及PLATO系列模型的基礎(chǔ)上研發(fā)的。它的關(guān)鍵技術(shù)包括有監(jiān)督精調(diào)、人類反饋的強(qiáng)化學(xué)習(xí)、提示、知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)。
前三項(xiàng)是此類大語言模型都會(huì)采用的技術(shù),ERNIE和PLATO中也已經(jīng)有應(yīng)用和積累,在文心一言中又有了進(jìn)一步強(qiáng)化和打磨;后三項(xiàng)則是百度已有技術(shù)優(yōu)勢(shì)的再創(chuàng)新,也是文心一言未來越來越強(qiáng)大的基礎(chǔ)。
文心一言的知識(shí)增強(qiáng)主要通過知識(shí)內(nèi)化和知識(shí)外用兩種方式。知識(shí)內(nèi)化,是從大規(guī)模知識(shí)和無標(biāo)注數(shù)據(jù)中,基于語義單元學(xué)習(xí),利用知識(shí)構(gòu)造訓(xùn)練數(shù)據(jù),將知識(shí)學(xué)習(xí)到模型參數(shù)中。知識(shí)外用則是引入外部多源異構(gòu)知識(shí),進(jìn)行知識(shí)推理、提示構(gòu)建等等。
文心一言的檢索增強(qiáng),來自以語義理解與語義匹配為核心技術(shù)的新一代搜索架構(gòu)。通過引入搜索結(jié)果,能夠?yàn)榇竽P吞峁r(shí)效性強(qiáng)、準(zhǔn)確率高的參考信息,更好地滿足用戶需求。
而文心一言的對(duì)話增強(qiáng),則是基于對(duì)話技術(shù)和應(yīng)用積累,文心一言具備記憶機(jī)制、上下文理解和對(duì)話規(guī)劃能力,實(shí)現(xiàn)更好的對(duì)話連貫性、合理性和邏輯性。
3、生成式AI催生的三大產(chǎn)業(yè)機(jī)會(huì)
李彥宏提到,如今的AI技術(shù)已經(jīng)發(fā)展到一個(gè)臨界點(diǎn),各行各業(yè)都不可避免地被改變。中國(guó)AI市場(chǎng)即將迎來爆發(fā)性的需求增長(zhǎng),其商業(yè)價(jià)值的釋放將是前所未有的、指數(shù)級(jí)的。
自2月份百度官宣“文心一言”以來,已有超過650家企業(yè)宣布接入文心一言生態(tài)。這意味著很多企業(yè)已經(jīng)理解到,文心一言和生成式AI代表了一個(gè)新的技術(shù)范式,它會(huì)影響到每一家公司。據(jù)李彥宏預(yù)測(cè),大語言模型將會(huì)帶來三大產(chǎn)業(yè)機(jī)會(huì)。
第一類便是新型云計(jì)算公司,其主流商業(yè)模式將從IaaS轉(zhuǎn)變?yōu)镸aaS。文心一言將根本性改變?cè)朴?jì)算行業(yè)的游戲規(guī)則。之前企業(yè)選擇云廠商更多看算力、存儲(chǔ)等基礎(chǔ)云服務(wù)。未來,則會(huì)更注重框架好不好、模型好不好,以及模型、框架、芯片、應(yīng)用這四層之間的協(xié)同。
第二類是進(jìn)行行業(yè)模型精調(diào)的公司,這是通用大模型和企業(yè)之間的中間層,他們可以基于對(duì)行業(yè)的洞察,調(diào)用通用大模型能力,為行業(yè)客戶提供解決方案。這方面,百度文心大模型已經(jīng)在電力、金融、媒體等領(lǐng)域,發(fā)布了10多個(gè)行業(yè)大模型。
第三類則是基于大模型底座進(jìn)行應(yīng)用開發(fā)的公司,即應(yīng)用服務(wù)提供商。李彥宏斷言,對(duì)于大部分創(chuàng)業(yè)者和企業(yè)來說,真正的機(jī)會(huì)并不是從頭開始做ChatGPT和文心一言這樣的基礎(chǔ)大模型,這很不現(xiàn)實(shí),也不經(jīng)濟(jì)?;谕ㄓ么笳Z言模型搶先開發(fā)重要的應(yīng)用服務(wù),這可能才是真正的機(jī)會(huì)。目前,基于文本生成、圖像生成、音頻生成、視頻生成、數(shù)字人、3D等場(chǎng)景,已經(jīng)涌現(xiàn)出很多創(chuàng)業(yè)明星公司,可能就是未來的新巨頭。
文心一言將通過百度智能云對(duì)外提供服務(wù),幫助企業(yè)構(gòu)建自己的模型和應(yīng)用,農(nóng)業(yè)、工業(yè)、金融、教育、醫(yī)療、交通、能源等重點(diǎn)領(lǐng)域,都會(huì)因此效率大幅提升,并在每一個(gè)行業(yè)快速形成新的產(chǎn)業(yè)空間,助力數(shù)字中國(guó)的實(shí)現(xiàn)。李彥宏預(yù)告稱,百度智能云將于近期舉辦新聞發(fā)布會(huì),主題圍繞文心一言的云服務(wù)和應(yīng)用產(chǎn)品,既有公有云服務(wù)和也可以做私有化部署。
在發(fā)布會(huì)末尾,王海峰表示文心一言目前已開放內(nèi)測(cè)。即日起首批用戶可以通過邀請(qǐng)測(cè)試碼在官網(wǎng)體驗(yàn)文心一言產(chǎn)品,百度智能云即將面向企業(yè)客戶開放文心一言 API 接口調(diào)用服務(wù),在官網(wǎng)可申請(qǐng)加入文心一言云服務(wù)測(cè)試。
4、文心一言,并不完美
Robin 也坦言此次的發(fā)布時(shí),文心一言,并沒有完全的Ready。
最近一段時(shí)間,很多朋友問我,“為什么是今天,你們真的ready了嗎”。其實(shí)從某種意義上說我們已經(jīng)為此準(zhǔn)備了多年,我們十幾年前就開始投入AI研究2019年就推出了文心大語言模型,今天的文心一言是過去多年努力的延續(xù)。但也不能說我們完全ready了,文心一言對(duì)標(biāo)ChatGPT、甚至是對(duì)標(biāo)GPT-4,門檻是很高的,全球大廠還沒有一個(gè)做出來的,百度是第一個(gè)。我自己測(cè)試感覺還是有很多不完美的地方。個(gè)體選擇。
5、寫在最后
看完這場(chǎng)發(fā)布會(huì),相信每個(gè)人都有自己不同的感觸。歸根結(jié)底,對(duì)用戶而言,尤其是在文化內(nèi)容領(lǐng)域,我們還是更需要國(guó)內(nèi)科技企業(yè)實(shí)打?qū)嵉厥褂煤A恐形恼Z料訓(xùn)練出一些更加匹配中文環(huán)境的本土化高品質(zhì)大模型。
如今,作為國(guó)內(nèi)AIGC的先行者,百度已在這一領(lǐng)域邁出了第一步。未來百度能否在這條道路上越走越遠(yuǎn);是否會(huì)有更多優(yōu)秀的國(guó)內(nèi)科技企業(yè)踏足這片土壤;中國(guó)的AIGC生態(tài)又會(huì)在這些先行者的厚積薄發(fā)之下,產(chǎn)生哪些變化?讓我們拭目以待。?