大模型上層應(yīng)用本質(zhì)上是一個能力整合的過程 原創(chuàng)
“ 技術(shù)的應(yīng)用并不是一個孤島,而是一個能力整合和串聯(lián)的過程”
很多人喜歡把大模型當(dāng)做一個獨立的技術(shù)和應(yīng)用,事實上各種應(yīng)用場景是一個能力整合的過程,而不是獨立的技術(shù)孤島。
思考一個問題,你知道網(wǎng)絡(luò)上一些由AI合成的視頻是怎么生成的嗎? 它的背后隱藏著那些能力?
大模型構(gòu)建上層應(yīng)用
以網(wǎng)上爆火的AI視頻類為例,一個AI視頻使用到了哪些技術(shù)?
首先,視頻生成和處理的能力;其次,語音合成能力;再者,音畫同步的能力;最后,文字與語音轉(zhuǎn)換的能力等等。
比如說,要想做一個林黛玉大戰(zhàn)孫悟空,卻導(dǎo)致鎮(zhèn)關(guān)西失街亭,最后導(dǎo)致劉備官渡之戰(zhàn)大敗而歸的視頻;并配上文字和語音解說。
這樣的視頻應(yīng)該怎么做?
首先,需要利用AI 視頻工具生成以上四個部分;孫悟空大戰(zhàn)林黛玉,鎮(zhèn)關(guān)西失街亭,官渡大戰(zhàn);然后自己或使用自然語言處理工具做出解說文字;最后再用TTS或剪輯工具配上某個人的語音;這樣才算完成了一個基礎(chǔ)的視頻剪輯功能。
而這也是自媒體界常說的腳本,第一步該干啥,第二步該干啥等等。
而從大模型的應(yīng)用角度來說,這個功能就屬于AIGC的功能;那如果從技術(shù)的角度來說,是否能夠利用編程技術(shù)整合多個大模型的能力,使得以上功能只需要輸入一些prompt就可以完成?
從理論上來說,這種想法是可行的;而需要的是什么?
其實需要的就是一個類似于導(dǎo)演和編劇的角色,而這個角色可以通過什么來實現(xiàn)?
以上功能可以通過Agent來實現(xiàn),使用一個具備邏輯推理能力的大模型作為大腦,來指揮其它模型和調(diào)用多種工具完成以上功能。
可能每一個模型和工具的能力都不是很強,但通過一個中央大腦的整合,就可以讓這些簡單的工具變得強大無比;而這就是能力整合的能力。
AI技術(shù)發(fā)展了幾十年,雖然很多人認(rèn)為它好像沒什么用;但不得不承認(rèn)的是,AI可以讓一個什么都不懂的人也可以做一名剪輯師。
比如說,第一步利用文生圖生成多張圖片,然后再利用圖生視頻的能力,生成一段視頻;然后再用自然語言處理模型生成一段文字,最后通過剪輯工具或其它AI工具把視頻,文字整合到一起并配上語音旁白;這樣一個漂亮的視頻剪輯成果就出來了。
而在此之前,一個人要想學(xué)視頻剪輯,既要需要攝影攝像,拍照剪輯,還要學(xué)會各種構(gòu)圖的方式以及各種拍攝和剪輯工具的使用;為了增加視頻的質(zhì)量還需要絞盡腦汁地寫文案,找專業(yè)聲優(yōu)配音等。
而這些現(xiàn)在都可以通過AI來解決,大大降低了人的學(xué)習(xí)和使用成本,提升生產(chǎn)效率。
還有一些人使用類似于豆包等AI工具,調(diào)配多種AI和其它工具,整合成一個私人助手,更有甚者,有人利用AI助手開起了一個人的公司。
這都是AI技術(shù)的應(yīng)用,也是一種能力整合的能力。
大模型技術(shù)雖然發(fā)展的如火如荼,但大模型的應(yīng)用嚴(yán)格來說還處于一個不斷摸索的過程;只要你敢想敢嘗試,那么就有無限的可能。
原文鏈接:??https://mp.weixin.qq.com/s/k7JyWGgod0CsrzbyO5ouKQ??
