開源AI視頻工具,你只需要當(dāng)導(dǎo)演,HuggingFace工程師打造
Sora 一出,視頻領(lǐng)域似乎已經(jīng)進入了生成式 AI 時代。不過直到今天,我們?nèi)匀粵]有用上 OpenAI 的官方視頻生成工具,等不及的人們已經(jīng)開始尋找其他的方法。
最近幾周,一款開源的視頻編輯工具 Clapper 引發(fā)了人們的關(guān)注。
與很多科技公司提供的視頻生成器不同,Clapper 是一款開源 AI 故事可視化工具,于一年前推出原型。它的設(shè)計目的并非取代傳統(tǒng)視頻編輯器,或使用 3D 場景作為輸入的現(xiàn)代 AI 編輯器。
Clapper 的理念是集合各類生成式 AI 技術(shù),讓任何人都能通過交互式、迭代和直觀的過程使用 AI 創(chuàng)建視頻。無需外部工具、電影制作或 AI 工程技能。在 Clapper 中,你無需直接編輯視頻和音頻文件序列,而是通過調(diào)整高級、抽象的概念,如角色、位置、天氣、時間段、風(fēng)格等,基于 AI Agent 來迭代你的故事。
Clapper 的作者 Julian Bilcke 是 HuggingFace 的一名 AI 前端工程師。他表示,為了向這個方向繼續(xù)努力,他還在開發(fā)導(dǎo)演模式:目標(biāo)是讓使用者可以全屏播放視頻,舒適地坐在導(dǎo)演椅(或沙發(fā))上,向 Agent 大喊命令,讓 AI 制作電影。
最近幾天,Julian Bilcke 已經(jīng)上線了使用大模型將任意文本轉(zhuǎn)換為時間線等新功能。而 Clapper 的熱度也水漲船高,在 GitHub 上已經(jīng)擁有超過 1100 的 Star 量。
- GitHub 鏈接:https://github.com/jbilcke-hf/clapper
- HuggingFace 鏈接:https://huggingface.co/spaces/jbilcke-hf/clapper/tree/main
- 試用網(wǎng)址:https://clapper.app/
如何使用
既然是開源工具,我們主要看的當(dāng)然是具體好不好用。
還記得 AI 大牛 Karpathy 創(chuàng)作 AI 短視頻的體驗嗎?為了將《傲慢與偏見》開頭的三句話變成動畫版,足足花了這位頂尖高手一個小時。雖然只有三句話,三個場景,但這個工作流遠比三句話要復(fù)雜。他先用 Claude 根據(jù)原文生成了一系列圖像提示詞,再將這些提示詞輸入文生圖模型生成對應(yīng)的圖像,再交給視頻模型制作動畫,配音的任務(wù)分配給了 Elevenlabs,最后在 Veed Studio 里把所有片段整合起來。
于是,Karpathy 做完后發(fā)推吐槽,稱:「創(chuàng)業(yè)者們,機會來了!市面上急需一個能夠整合、簡化這些流程的 AI 工具?!?/p>
Clapper 正是一個集成了所有這些功能的一站式平臺。
通常想做一條短視頻,需要經(jīng)歷以下幾個步驟。首先需要一個故事和腳本,然后根據(jù)腳本畫出分鏡,再根據(jù)分鏡拍攝或?qū)ふ宜夭?,將它們在剪輯軟件拼合起來,添加動畫效果和特效,再有選擇性地配上口播、背景音樂或音效。因此,影視制作行業(yè)中編導(dǎo)、導(dǎo)演、攝像、剪輯、后期、配音等分工應(yīng)運而生。
而在 Clapper,視頻制作遵循另一條邏輯。它的每條軌道不像 Premier、剪映等剪輯軟件一樣對應(yīng)著視頻或圖片素材,而是對應(yīng)著一個具體的工種。
剪映的素材軌道
Clapper 的軌道
在用 AI 做視頻這件事上,我們就是 AI 的甲方。Clapper 就像一個由業(yè)內(nèi)最強的 AI 組成的劇組。Clapper 內(nèi)置像 GPT-4o,Claude 3.5(Sonnet)等一系列「頂流」大模型。它就像乙方的執(zhí)行導(dǎo)演一樣,負(fù)責(zé)將你的需求對接給對應(yīng)的「AI 編導(dǎo)」。
從上面的圖中可以看出,第一條軌道代表著故事版,和 Clapper 內(nèi)置的大模型對話,它將通過 API 調(diào)取文生圖模型,讓 AI 分鏡老師來生成對應(yīng)的圖片,作為視頻畫面的基礎(chǔ)。
通過 Clapper 可以訪問以上文生圖模型
以 Clapper 給出的樣片為例,接下來的軌道依次對應(yīng)場景、旁白、攝像機的視角、背景音樂以及音效。你可以要求 ElevenLabs 或 Fal.ai 為這個西部廢土世界的故事生成一些廢墟的風(fēng)聲或者槍戰(zhàn)的爆炸聲。
而 Clapper 還有一項功能,可能真的向「會說話就能拍電影」的愿望邁進了一大步。我們可以直接向 Clapper 導(dǎo)入劇本,并且在「故事」一欄細致地為你的主人公創(chuàng)造人設(shè)。
以《綠野仙蹤》為例,我們不僅可以為人物添加更加個性化的人物描述,還可以上傳圖片,為女主人公多蘿西設(shè)置視覺形象。這意味著我們可以請世界上的任何演員來扮演這個角色,哪怕你想看 18 歲的小李子演多蘿西,都可以實現(xiàn)。Clapper 的功能細致到你可以調(diào)整人物的年齡和音色,每個場景的陳設(shè),多蘿西的房間有什么家具,他們冒險的目的地「翡翠城」的房子長什么樣子,都可以在 Clapper 中隨心調(diào)整。
當(dāng)然,你也可以先用 AI 畫一些氣氛圖出來,說不定能更進一步地激發(fā)你的靈感和創(chuàng)意。
不過,雖然 Clapper 的功能已經(jīng)充分地考慮了做視頻的需求,但是它的效果卻有些差強人意。不僅畫面中人物的動作有些「鬼畜」,不符合物理運動規(guī)律。視頻的整體效果更像是會動的 PPT,缺乏鏡頭之間的轉(zhuǎn)場和連續(xù)感,并且配樂也 AI 味十足,聽起來沒有旋律,還有些雜音。
可能生成式 AI 想要改變視頻制作的流程,還需要很長時間,但 Clapper 的出現(xiàn)或許能給還在給傳統(tǒng)視頻剪輯軟件拓展 AI 功能的大廠們,提供了一條新的落地思路。
本文轉(zhuǎn)自 機器之心 ,作者:機器之心
