大神卡帕西安利爆火AI應(yīng)用,稱(chēng)「或是下一個(gè)ChatGPT」
大神卡帕西墻裂推薦!
甚至預(yù)言這個(gè)AI應(yīng)用,有可能開(kāi)啟「和ChatGPT一樣大的機(jī)會(huì)」。
它就是來(lái)自谷歌的實(shí)驗(yàn)性AI產(chǎn)品,Notebook LM,背后由谷歌現(xiàn)在最強(qiáng)大的模型Gemini 1.5 Pro提供支持。
最近這應(yīng)用要多火就有多火,全因上線(xiàn)了一項(xiàng)新功能——
上傳文件(文字、音頻、視頻),AI不僅能幫忙用文字提煉要點(diǎn),還可以通過(guò)音頻概述(Audio Overview)功能,把文件轉(zhuǎn)換成AI生成的對(duì)話(huà)播客,根據(jù)文檔內(nèi)容進(jìn)行討論。
2個(gè)AI,用真人般的語(yǔ)音和口吻,圍繞文件內(nèi)容激情討論,最后總結(jié)陳詞。
這真的很酷!
而且不是卡帕西一個(gè)人在夸。逛了下互聯(lián)網(wǎng)幾大平臺(tái),網(wǎng)友們對(duì)Notebook LM普遍還是挺買(mǎi)賬的。
AI界的KOL@elvis也在卡帕西評(píng)論區(qū)留言:
卡神稱(chēng)這“讓人想起ChatGPT時(shí)刻”,絕對(duì)不是夸大其詞!
真正讓多種模型聯(lián)合工作,會(huì)解鎖Notebook LM這樣獨(dú)特的內(nèi)容格式和用戶(hù)體驗(yàn)。
Notebook LM怎么玩?
玩法很簡(jiǎn)單,打開(kāi)試玩頁(yè)面,拖拽上傳需要處理的文件。
可以是谷歌文檔,可以是網(wǎng)站和視頻鏈接,甚至干脆粘貼一大段文本都可以。
每個(gè)筆記本支持上傳50個(gè)文件,每個(gè)文件內(nèi)容上限500000個(gè)單詞。
這里我們上傳了OpenAI o1的System Card文檔,接下來(lái)就可以選擇需要?jiǎng)?chuàng)建的內(nèi)容。
內(nèi)置支持問(wèn)答、小測(cè)驗(yàn)、目錄、時(shí)間線(xiàn)、摘要等文字版功能,以及兩個(gè)主持人的深度對(duì)話(huà)音頻內(nèi)容。
如果有更個(gè)性化的需求也可以自己敲prompt。
我們嘗試用中文提問(wèn),結(jié)果AI是可以理解的。
很可惜的是Notebook LM不支持用中文回答,即使刻意要求也不行。
選擇創(chuàng)建音頻的話(huà),視文檔長(zhǎng)度需要等待幾分鐘到十幾分鐘。
趁這個(gè)時(shí)間來(lái)了解一下這背后的Gemini模型叭~
NotebookLM由Gemini 1.5 Pro來(lái)支持,也就是谷歌家目前旗艦級(jí)大模型。
Gemini 1.5 Pro支持超長(zhǎng)128k上下文,這是能解讀長(zhǎng)文檔的基礎(chǔ)。
在最近的一次升級(jí)中,Gemini 1.5 Pro數(shù)學(xué)和推理能力還反超OpenAI o1預(yù)覽版。
好了,剛才生成的音頻也處理完畢,英語(yǔ)好的朋友可以來(lái)聽(tīng)聽(tīng)看。
英語(yǔ)沒(méi)那么好的朋友,也可以看看套娃AI轉(zhuǎn)寫(xiě)、翻譯出來(lái)的AI播客文字版,感受一下。
單純的上傳文檔,生成內(nèi)容,還只是Notebook的實(shí)用玩法之一。
還有人介紹了學(xué)生上課錄音,回家用AI整理重點(diǎn)的玩法,也廣受好評(píng)。
(不是自己不聽(tīng)課了的意思)
具體來(lái)說(shuō),可以遵循以下步驟:、
- 上課時(shí)用手機(jī)錄音;
- 上課期間不需要用電腦,只需(紙筆)記下簡(jiǎn)短的重點(diǎn);
- (下課后)把錄音和筆記掃描上傳到NotebookLM,讓它根據(jù)錄音細(xì)節(jié)擴(kuò)寫(xiě)筆記。
另外,還可以每周創(chuàng)建一份對(duì)所學(xué)內(nèi)容重點(diǎn)的復(fù)習(xí)音頻。
一種與單純Chat不同的交互范式
其實(shí),NotebookLM并不是出道即爆火。
早在去年5月的Google I/O大會(huì)上它就已經(jīng)出現(xiàn)了,不過(guò)那個(gè)時(shí)候,作為AI筆記本項(xiàng)目的它還叫Project Tailwind。
到了去年7月,NotebookLM它才改成現(xiàn)在的名字。
起初,只支持美國(guó)局部地區(qū)的用戶(hù)食用;功能也還是圍繞著基礎(chǔ)的Chat模式展開(kāi)。
△NotebookLM自動(dòng)生成文檔指南(來(lái)自谷歌官網(wǎng))
到了這個(gè)月11號(hào),NotebookLM突然宣布面向全球玩家開(kāi)放,并且新增了重磅功能,音頻概述。
谷歌給的官方介紹是這樣的:
“新的音頻概述功能,可以一鍵將文檔、幻燈片、圖表等轉(zhuǎn)化為引人入勝的討論。”
因?yàn)榻换バ问胶苄?、AI語(yǔ)音逼真、討論起來(lái)真的很像真人播客,大家一下就玩嗨了。
到這兩天,Notebook LM不僅已經(jīng)能夠把Youtube視頻作為輸入,還已經(jīng)支持超100種語(yǔ)言。
現(xiàn)在,卡帕西的下場(chǎng)“示愛(ài)”,更為Notebook LM的熱度添了一把火。
如卡帕西所說(shuō),Notebook LM爆火最主要的原因,是它提供了一種與單純Chat不同的交互范式。
卡帕西表示,Notebook LM消除了大模型的兩大享受障礙:
第一點(diǎn),聊天其實(shí)挺難的。
有些人在日常生活中跟人交流都費(fèi)盡心力,更別提要和Chatbot聊天,還得不停提問(wèn)、追問(wèn)。
NotebookLM好就好在,生成的二AI播客,其中有一方就會(huì)處于提問(wèn)、引導(dǎo)角色。
咱把文檔、音視頻放進(jìn)去,等待生成,美美聽(tīng)AI根據(jù)文件嘮就是了。
第二點(diǎn),閱讀不是件容易的事。
信息爆炸的碎片化時(shí)代,挑個(gè)舒服的姿勢(shì),或者開(kāi)車(chē)時(shí)候聽(tīng)別人討論我需要的東西,比自己費(fèi)勁吧啦擱那兒看容易得多。
——哪怕看的是AI已經(jīng)幫我們總結(jié)出來(lái)的凝練版本(哎,沒(méi)錯(cuò),咱就是這么懶!doge)。
本著精益求精的精神,也有網(wǎng)友表示了對(duì)Notebook LM更上一層樓的期待。
Hyperbolic Labs的聯(lián)創(chuàng)兼CTO Yuchen Jin試玩過(guò)后,總結(jié)了兩個(gè)局限性:
一個(gè)是它“看不到”,也就是沒(méi)法處理文檔里的圖片信息。
不過(guò)背后的Gemini是多模態(tài)的嘛,相比Notebook LM長(zhǎng)眼睛不會(huì)太晚。
另一個(gè)是用戶(hù)無(wú)法引導(dǎo)AI播客的內(nèi)容。
Yuchen Jin喂給它兩條推文,它就生成了近13分鐘的音頻內(nèi)容,但它默認(rèn)聽(tīng)眾是普通受眾,所以講了很多很基本的概念。
如果能指定生成播客的目標(biāo)群體,或者談?wù)撝黝}、方向、角度,那真的是棒上加棒。
One More Thing
說(shuō)時(shí)遲那時(shí)快,開(kāi)發(fā)者搞出開(kāi)源版的NotebookLM了!
不過(guò)暫時(shí)只能喂給它PDF嗷。
咱就是說(shuō),人類(lèi)真有意思哈!
以前在音頻轉(zhuǎn)文字方面費(fèi)勁,追求把廣播、會(huì)議錄音啥的轉(zhuǎn)成文字。
現(xiàn)在又開(kāi)始用大模型把文字轉(zhuǎn)成播客了……
有意思哇有意思哇(狗頭)。