自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="oyqxi"></sub><legend id="oyqxi"><ruby id="oyqxi"></ruby></legend>

<sub id="oyqxi"><p id="oyqxi"></p></sub>

<rp id="oyqxi"><fieldset id="oyqxi"></fieldset></rp>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

谷歌AI播客剛火，Meta就開源了平替，效果一言難盡

作者：機器之心 2024-10-28 12:54:36

人工智能新聞

隨著谷歌和 Meta 相繼推出基于大語言模型的 AI 播客功能，將極大地豐富人類用戶與 AI 智能體互動的體驗。

上個月，谷歌宣布對旗下 AI 筆記應(yīng)用 NotebookLM 進行一系列更新，允許用戶生成 YouTube 視頻和音頻文件的摘要，甚至可以創(chuàng)建可共享的 AI 生成音頻討論。加上此前支持的谷歌文檔、PDF、文本文件、谷歌幻燈片和網(wǎng)頁，NotebookLM 的用例和覆蓋范圍進一步擴大。

本月初，AI 大牛 Karpathy 發(fā)推表示自己只用了兩個小時就創(chuàng)建了一個 10 集的系列博客 —— 歷史謎團（Histories of Mysteries），其中就使用 NotebookLM 將每個主題的維基百科條目鏈接在一起，并生成播客視頻；同時也使用 NotebookLM 編寫博客 / 劇集描述。

就這兩天，Meta 推出了 NotebookLM 的開源平替版 ——NotebookLlama，它使用 Llama 模型進行大部分任務(wù)處理，包括 Llama-3.2-1B-Instruct、Llama-3.1-70B-Instruct 和 Llama-3.1-8B-Instruct。

下圖為 NotebookLlama 運行流程，首先從文件（比如新聞文章或博客文章）創(chuàng)建轉(zhuǎn)錄文本，然后添加「更多戲劇化」和中斷，最后將轉(zhuǎn)錄文本饋入到開放的文本到語音模型。

據(jù)外媒 Techcrunch 報道，NotebookLlama 的效果聽起來不如谷歌 NotebookLM 好，帶有明顯的機器人口音，并且往往會在奇怪的時刻「互相交談」。不過，項目背后的 Meta 研究人員表示，使用更強大的模型還可以提高質(zhì)量。

Meta 研究人員在 NotebookLlama 的 GitHub 頁面寫到，「文本到語音模型限制了聲音的自然程度?！勾送?，編寫播客的另一種方法是讓兩個智能體就感興趣的主題進行討論并編寫播客大綱。現(xiàn)在，Meta 只使用了一個模型來編寫播客大綱。

就像下面所展示的，雖然播客內(nèi)容還有一些粗糙，但它聽起來已經(jīng)很不錯了。

對于 Meta 的 NotebookLlama，有人直言聽起來糟糕透了，要想真正地對標(biāo)谷歌的 NotebookLM，就要在語音轉(zhuǎn)換效果上接近人類水平。不過也有人認(rèn)為，雖然目前效果不佳，但隨著所有代碼的開源，用戶可以自定義嘗試不同的提示方法等，相信未來會變得更好。

雖然效果還是差點意思，但也有網(wǎng)友表示：「現(xiàn)在是時候讓 Google 加快步伐了，Meta 已經(jīng)緊隨其后趕上來了，開源 NotebookLM。」

項目介紹

根據(jù) Meta 發(fā)布的教程配方，你可以基于 PDF 文件構(gòu)建播客。

項目地址：https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

第一步：對 PDF 進行預(yù)處理。即使用 Llama-3.2-1B-Instruct 對 PDF 進行預(yù)處理，并將其保存為.txt 文件；
第二步：轉(zhuǎn)錄文本編寫器。使用 Llama-3.1-70B-Instruct 模型從文本中編寫播客轉(zhuǎn)錄文本；
第三步：對內(nèi)容重新優(yōu)化，添加戲劇性。使用 Llama-3.1-8B-Instruct 模型使轉(zhuǎn)錄文本更具有創(chuàng)意；
第四步：文本到語音。使用 parer -tts/parer -tts-mini-v1（文本到語音模型）和 bark/suno 生成會話播客。

不過，還有幾個值得大家注意的點：

首先，在步驟 1 中，需要提示 1B 模型不要修改文本或?qū)ξ谋具M行總結(jié)，并嚴(yán)格清理掉可能在 PDF 轉(zhuǎn)錄過程中出現(xiàn)的多余字符或垃圾字符。

其次，對于步驟 2，你也可以使用 Llama-3.1-8B-Instruct 模型，然后對比不同模型的效果。項目中采用的是 70B 模型，原因在于它為測試示例提供了更具創(chuàng)意的播客記錄。

對于步驟 4，你也可以使用其他模型進行擴展，較新的模型可能聽起來更好。

想要順暢的運行該項目，你需要有 GPU 服務(wù)器或者使用 70B、8B 和 1B Llama 模型的 API 提供商。如果你采用的是 70B 模型，那么需要一個總內(nèi)存約為 140GB 的 GPU 來以 bfloat-16 精度進行推理。

退一步講，如果你的 GPU 并不是很好，也可以使用 8B 模型跑通整個 pipeline。

接下來是安裝。在開始之前，請確保使用 huggingface cli 登錄，然后啟動 jupyter notebook ，以確保能夠下載 Llama 模型。

接著運行代碼：

git clone https://github.com/meta-llama/llama-recipes
cd llama-recipes/recipes/quickstart/NotebookLlama/
pip install -r requirements.txt

Notebook 1：Notebook 1 用于處理 PDF，并使用新的 Feather light 模型將其處理為.txt 文件。

Notebook 2：Notebook 2 將接收 Notebook 1 處理后的輸出，并使用 Llama-3.1-70B-Instruct 模型創(chuàng)造性地將其轉(zhuǎn)換為播客腳本。如果你擁有豐富的 GPU 資源，也可以使用 405B 模型進行測試！

Notebook 3：Notebook 3 采用了之前的文本，并提示 Llama-3.1-8B-Instruct 在對話中添加更多的戲劇化和中斷。

Notebook 4：最后，Notebook 4 從上一個 notebook 中獲取結(jié)果并將其轉(zhuǎn)換為播客。項目中使用了 parer -tts/parer - ttts -mini-v1 和 bark/suno 模型進行對話。

這里有一個問題：Parler 需要 4.43.3 或更早版本的 transformer，但對于 pipeline 中的步驟 1 到 3，需要最新的版本，所以需要在最后一個 notebook 中切換版本。

最后，項目列出了未來需要改進的地方：

語音模型：TTS 模型使語音聽起來不是很自然，未來可以納入更好的模型；
更好的提示；
支持提取網(wǎng)站、音頻文件、YouTube 鏈接等。

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<thead id="4yqym"></thead>

<pre id="4yqym"><option id="4yqym"><tbody id="4yqym"></tbody></option></pre>

<center id="4yqym"></center>