生成式AI走進(jìn)小學(xué)生「編程第一課」:畫條線生成音樂、草圖一秒變大作
在經(jīng)典作品《小王子》中,有這樣一幕情節(jié):一個(gè)小孩子畫下了蛇吞象的樣子,他向大人們展示自己的作品,并問他們害不害怕。然而,所有的成年人都說(shuō):「一頂帽子有什么可怕的?」
但對(duì)于充滿想象力的孩子來(lái)說(shuō),這并不是一頂帽子,而是一條正在消化大象的蟒蛇:
相信每一位讀者都曾被這段情節(jié)所打動(dòng),這就是藝術(shù)創(chuàng)作的精髓所在。對(duì)于小朋友來(lái)說(shuō),即使是幾筆簡(jiǎn)單的線條,也代表著最純真可愛的想象。
比如,簡(jiǎn)單的幾筆涂鴉,為何不能代表光怪陸離的科幻世界?借助 AI 的「畫筆」,從靈感到完整作品也不過幾秒的時(shí)間:
再比如,一條隨手畫出的波浪線,也能變成一段美妙的旋律:
這些神奇的「AI 魔法」,都來(lái)自于一個(gè)名為「騰訊 AI 編程第一課」的小程序。
騰訊AI編程第一課,,,
騰訊AI編程第一課
小程序
孩子們的「AI 第一課」
自 2022 年以來(lái),生成式 AI 熱度不減,以 Stable Diffusion、GPT-4、PaLM 2 為代表的大模型成為了熱門關(guān)鍵詞,并衍生出文本生成、圖像生成、動(dòng)畫制作、視頻生成等領(lǐng)域的落地產(chǎn)品,深刻改變了人們的生活方式。
不難想象,未來(lái)將是 AI 創(chuàng)造更多價(jià)值的時(shí)代。這個(gè)時(shí)代對(duì)青少年的 AI 認(rèn)知與計(jì)算思維提出了新的要求,但這些「高大上」的技術(shù),對(duì)孩子們來(lái)說(shuō)仍然是有距離感的。
如何將最前沿的技術(shù)以易感知的方式傳遞給他們,增強(qiáng)青少年對(duì)科學(xué)技術(shù)的興趣、深化青少年對(duì) AI 領(lǐng)域發(fā)展的認(rèn)知呢?
通過劇本式、「玩中學(xué)」的方式,騰訊與中國(guó)宋慶齡基金會(huì)共同發(fā)布「AI 編程第一課」公益項(xiàng)目,為全國(guó)零基礎(chǔ)青少年提供 AI 和編程啟蒙小程序平臺(tái),首批上線內(nèi)容結(jié)合中國(guó)航天、未來(lái)交通兩項(xiàng)國(guó)家重大科技議題,原創(chuàng)趣味探索故事,讓青少年在1小時(shí)中初識(shí)計(jì)算思維、AI基本原理、人機(jī)協(xié)同理念等。
開學(xué)之際,「騰訊 AI 編程第一課」正式上線。在騰訊音樂天琴實(shí)驗(yàn)室的技術(shù)支持下,小程序上線了「AI 創(chuàng)作」版塊,分為「AI 作曲」和「AI 作畫」兩個(gè)功能,希望能讓孩子們體驗(yàn)到最新 AI 技術(shù)的魅力。
今年 10 歲的靜宜(化名)是「騰訊AI 編程第一課」的首批「用戶」之一。幾天試用下來(lái),最讓她好奇的就是「AI 創(chuàng)作」功能的實(shí)現(xiàn)原理:
「為什么不同的線可以生成不同的曲調(diào)?」
「曲線如何變成音樂?」
「AI 是怎么猜到我心中想畫的是什么呢?」
這些問題的確令人好奇,所以這款寶藏應(yīng)用背后有哪些 AI 技術(shù)?接下來(lái),讓我們一探究竟。
從一條線到「宮商角徵羽」的神奇之旅
提到 AI 音樂生成,大部分人并不陌生。今年 1 月,谷歌發(fā)布了「MusicLM」,實(shí)現(xiàn)了從文本或圖像中生成高保真音樂。之后,Meta 開源了可生成各種音頻的 PyTorch 庫(kù)「AudioCraft」,能夠基于用戶輸入的文本生成高質(zhì)量、高保真的音頻,不僅能生成有旋律的音樂,甚至還可以選擇樂器。這一系列方法都有一個(gè)特點(diǎn):直接從文本 / 圖像生成音頻。
在「AI 作曲」功能研發(fā)過程中,天琴實(shí)驗(yàn)室首先對(duì)上述方法進(jìn)行了嘗試與評(píng)估。他們發(fā)現(xiàn),現(xiàn)有的從文本到音頻的音樂生成大模型確實(shí)取得了不錯(cuò)的進(jìn)展,但距離大規(guī)模商用還有一個(gè)挑戰(zhàn)必須解決:采樣率低的問題。
「音樂的標(biāo)準(zhǔn)采樣率為 44.1 kHz 或 48 kHz,語(yǔ)音的采樣率是 16 kHz,目前大部分方法生成的音樂只有 24 kHz 或者 32 kHz,音質(zhì)有待提升?!固烨賹?shí)驗(yàn)室 AI 作曲團(tuán)隊(duì)技術(shù)人員澤文表示。
來(lái)自 QQ 音樂負(fù)責(zé)此次「AI 作曲」功能研發(fā)的團(tuán)隊(duì)成員都有過音樂創(chuàng)作經(jīng)歷,有人曾擔(dān)任樂隊(duì)吉他手,也有人曾是音樂制作人。這些經(jīng)歷讓他們對(duì)于生成音樂的質(zhì)量要求更加極致,同時(shí)也帶來(lái)了重要的啟發(fā):他們忽然想到,或許可以采用與人類創(chuàng)作過程非常相似的生成方式,以保證音樂的連貫性和高質(zhì)量。
最終,他們決定采用「符號(hào)音樂生成」這一技術(shù)路線?!笍淖匀徽Z(yǔ)言處理的角度來(lái)看,樂符本來(lái)就可視為一種語(yǔ)言,不同的是樂譜包含的信息密度比文本更高,還包括旋律、節(jié)拍、樂器、流派等。」天琴實(shí)驗(yàn)室 AI 作曲技術(shù)人員哲旭表示。
經(jīng)過與一線產(chǎn)品團(tuán)隊(duì)的交流,技術(shù)團(tuán)隊(duì)還獲得了一個(gè)重要洞察:相比于常見的「哼唱識(shí)曲」,「畫線譜曲」對(duì)于青少年來(lái)說(shuō)是更具新鮮感的生成方式,更能引發(fā)他們對(duì) AI 的興趣。
在這個(gè)設(shè)想的推動(dòng)下,技術(shù)團(tuán)隊(duì)以「曲線」作為輸入,以樂譜轉(zhuǎn)化為音頻作為輸出,打造出了頗具創(chuàng)意的「AI 作曲」功能。具體來(lái)說(shuō):
- 第一步是從劃線圖像到音符的識(shí)別。孩子們畫線的起伏高低就象征著旋律的變化,界面中的橫軸為時(shí)間,縱軸對(duì)應(yīng)不同的音符「do re mi sol la」,同時(shí),也對(duì)應(yīng)著中國(guó)傳統(tǒng)的五音「宮商角徵羽」。
- 第二步是旋律的續(xù)寫。有了五個(gè)音符的組合,AI 就有了靈感,并將其擴(kuò)展為一段 16 秒的旋律。模型基于自回歸的方式逐個(gè)音符進(jìn)行預(yù)測(cè),每個(gè)時(shí)刻的輸入都依賴于上一個(gè)時(shí)刻的輸出,直到生成一段連貫的音樂。
- 第三步就是編曲。編曲模型會(huì)分析旋律的節(jié)奏、調(diào)子、和弦,給旋律加上不同的樂器和節(jié)奏,并提供了流行、古典和電子三種編曲風(fēng)格。
- 第四步是算法渲染,樂譜將被轉(zhuǎn)化為音頻。
至此,一首完整的音樂就完成了。
天琴實(shí)驗(yàn)室 AI 作曲負(fù)責(zé)人 Ethan 表示,符號(hào)音樂生成技術(shù)的價(jià)值遠(yuǎn)不止于娛樂向、教育向的 C 端產(chǎn)品,更值得期待的是成為高效的音樂人創(chuàng)作工具。從文本直接到音頻的過程像一個(gè)「黑箱」,而「符號(hào)音樂生成」有完整的樂理系統(tǒng)支撐,生成結(jié)果也是可編輯的,音樂人可以在生成的樂譜中進(jìn)行二次創(chuàng)作。
這種對(duì)于技術(shù)落地價(jià)值的考量,在天琴實(shí)驗(yàn)室的技術(shù)探索中是一以貫之的。作為騰訊音樂旗下首個(gè)音視頻實(shí)驗(yàn)室,他們希望真正將 AI 創(chuàng)新技術(shù)融入到產(chǎn)品之中,為用戶提供高度個(gè)性化及差異化的音樂娛樂體驗(yàn)。
目前,天琴實(shí)驗(yàn)室在 AI 音樂生成的技術(shù)積累已經(jīng)覆蓋了作曲、混音、編曲、作詞、演唱等全部音樂創(chuàng)作環(huán)節(jié)。除了提供「作曲、混音、編曲」能力的一站式音樂生成技術(shù)「琴樂」,以及 AI 輔助作詞平臺(tái)「覓詞」。此外,騰訊音樂 AI 伴侶「小琴」和「小天」兩款虛擬人產(chǎn)品均已應(yīng)用于歌曲的智能演唱之中。
比如,本次「AI 編程第一課」的主題曲《魔法字符》,就是由騰訊、QQ 音樂、騰訊音樂天琴實(shí)驗(yàn)室共同打造的,從作曲到演唱全鏈路均由 AI 完成。其中,「琴樂」一站式音樂生成技術(shù)完成作曲、混音及編曲,「覓詞」輔助創(chuàng)作了趣味十足的魔法歌詞,虛擬人「小琴」負(fù)責(zé)最終演繹。
AI 時(shí)代,每個(gè)人都是「神筆馬良」
與音樂的意義類似,繪畫也是一種表達(dá)情感的方式。
當(dāng)前,AI 在繪畫生成方面的應(yīng)用已經(jīng)比較成熟,比如通過文字 Prompt 生成圖像的 Stable Diffusion、Midjourney。但用過的人都知道,如何設(shè)計(jì) Prompt 也是一大難點(diǎn),生成結(jié)果未必總能「如人所愿」。
問題來(lái)了:AI 能不能接住小朋友的奇思妙想呢?
天琴實(shí)驗(yàn)室 AI 作畫團(tuán)隊(duì)的成員們意識(shí)到,對(duì)于「AI 作畫」功能的用戶群體 6-12 歲的孩子來(lái)說(shuō),以文字形式去生成圖像仍然存在一定的門檻,特別是僅使用文本難以控制生成細(xì)節(jié),無(wú)法對(duì)圖片進(jìn)行細(xì)化編輯。
因此,他們將目光鎖定在一種更能發(fā)揮想象力和創(chuàng)造力的方法:線稿成畫。
在「AI 編程第一課」的「AI 作畫」中,不同于傳統(tǒng)的「文生圖」需要輸入非常復(fù)雜的 Prompt,用戶只需要簡(jiǎn)單描繪幾筆,就能讓「草圖」變成「精品」。
這種方法不僅需要擴(kuò)散模型強(qiáng)大的生成能力,還需要精確的條件控制方案。「AI 作畫」這一功能能夠在短時(shí)間內(nèi)順利上線,很大程度上得益于天琴實(shí)驗(yàn)室在圖像生成領(lǐng)域的技術(shù)積累。
從 2022 年,天琴實(shí)驗(yàn)室開始布局生成式 AI 技術(shù),并在 QQ 音樂和全民 K 歌中應(yīng)用落地,比如直播禮物、歌詞海報(bào)、歌曲背景圖、AIGC 播放器、歌曲封面圖等多項(xiàng)功能。對(duì)生成圖像風(fēng)格 / 內(nèi)容的精確控制,一直是天琴實(shí)驗(yàn)室在重點(diǎn)研究的方向。
比如,「AI 歌曲封面」就是 AI 技術(shù)與音樂理解結(jié)合的一大成果,為 QQ 音樂曲庫(kù)中大量封面留空的作品自動(dòng)生成封面,不僅能夠讓音樂人和作品的關(guān)注度得到提升,更重要的為新上作品提供了降低制作成本的選擇。
此外,天琴實(shí)驗(yàn)室還推出了 AI 音樂視覺生成技術(shù) MUSE(Music Envision),「以歌生圖」能力就是其一大亮點(diǎn):用戶選擇一首歌或一段歌詞,就可以將歌曲的意境用 AI 技術(shù)具象化呈現(xiàn)出來(lái),包括歌詞海報(bào)、歌詞動(dòng)效視頻等視覺內(nèi)容。
這種「意境」與「具象」的轉(zhuǎn)化,在本次「AI 作畫」中也有所體現(xiàn)。「小朋友的繪畫作品可能會(huì)更加寫意,對(duì)于這種情況,我們專門使用兒童涂鴉和最終成品圖進(jìn)行了搭配訓(xùn)練,為模型定制相關(guān)能力以提升最終生成效果?!固烨賹?shí)驗(yàn)室 AI 作畫負(fù)責(zé)人 Ben 表示。「我們?cè)诰_描繪和物體識(shí)別之間進(jìn)行了一種平衡,一方面讓草圖的線條起到引導(dǎo)作用,另一方面通過簡(jiǎn)單的線條進(jìn)行內(nèi)容本身的識(shí)別,同時(shí)給到模型一定的自由發(fā)揮空間?!?/span>
而這些成果和經(jīng)驗(yàn)不只用于騰訊音樂的內(nèi)部業(yè)務(wù),也正在賦能全行業(yè)。
很多 AI 應(yīng)用面向的用戶數(shù)量都比較龐大,這將帶來(lái)極高的大模型推理成本。對(duì)于這個(gè)問題,天琴實(shí)驗(yàn)室推出了 MUSE Light 大模型推理加速引擎,并在 HuggingFace 公開發(fā)布了 lyraSD、lyraChatGLM、lyraBELLE 三項(xiàng)開源大模型的加速版本,實(shí)踐效果均為行業(yè)領(lǐng)先,在 B 端助力技術(shù)從業(yè)者和科研工作者節(jié)約時(shí)間和成本。
在「AI 編程第一課」的研發(fā)實(shí)踐中,MUSE Light 幫助節(jié)省了 90% 以上的推理成本,使圖像的生成加速了 10 倍,且有效提升了用戶體驗(yàn)。
此外,團(tuán)隊(duì)還觀察到:「從草圖生成圖像的技術(shù)已經(jīng)取得不錯(cuò)的效果,但如果他人想去嘗試一件同樣的事情,前期會(huì)花很多的時(shí)間,才能找到比較合用的模型。」
為了解決這個(gè)痛點(diǎn),天琴實(shí)驗(yàn)室將過往的技術(shù)實(shí)踐經(jīng)驗(yàn)匯集在 AI 繪圖創(chuàng)作平臺(tái)「MUSE UI」之中。該平臺(tái)融合了 MUSE Light 大模型推理加速等多項(xiàng)行業(yè)領(lǐng)先的創(chuàng)新技術(shù),提供了「一鍵出圖」、「模型廣場(chǎng)」、「圖搜模型」、「動(dòng)圖生成」、「一鍵定制繪圖加速服務(wù)」、「多場(chǎng)景繪圖應(yīng)用」等多項(xiàng)功能。借助 MUSE UI,設(shè)計(jì)師、插畫師和其他專業(yè)人士將節(jié)約更多時(shí)間成本并最大程度地提高效率。
據(jù)了解,經(jīng)過內(nèi)部業(yè)務(wù)實(shí)踐的檢驗(yàn)之后,MUSE UI 平臺(tái)也將在不久后面向全行業(yè)開放。
當(dāng)萬(wàn)物皆可 AI 生成的時(shí)代來(lái)臨
這兩年來(lái),與生成式 AI 相關(guān)的技術(shù)創(chuàng)新與應(yīng)用總能成為熱門話題。
雖然從內(nèi)容生產(chǎn)的維度去評(píng)價(jià),AI 生成音樂、圖像作品的藝術(shù)價(jià)值還存在諸多爭(zhēng)議。但可以期待的是,隨著技術(shù)的不斷發(fā)展,現(xiàn)階段的很多問題將被克服,AI 生成內(nèi)容的水準(zhǔn)必然會(huì)有所突破。
從生產(chǎn)力發(fā)展的角度看,生成式 AI 使得內(nèi)容生產(chǎn)的門檻不斷降低,效率不斷提高,這對(duì)于各行各業(yè)來(lái)說(shuō)都是巨大的變革。例如,使用 AI 生成營(yíng)銷文案,成本僅為人工撰寫的幾十分之一,且內(nèi)容更加多樣化。
可以確定的是,未來(lái)的社會(huì)生產(chǎn)分工,將會(huì)更注重人機(jī)協(xié)作模式,對(duì)人的計(jì)算思維能力的培養(yǎng)也更加重要。我們必須適應(yīng)這種變化,找到自身在新時(shí)代的定位,更充分地去感受科技帶來(lái)的美好。
在這種背景下,科學(xué)教育理念也需要隨之進(jìn)化。對(duì)于今天的青少年來(lái)說(shuō),他們未必需要過多關(guān)注 AI 的底層技術(shù),未必需要一行一行地編寫代碼,更重要的是先學(xué)會(huì)如何「Prompt」。
對(duì)于「AI 編程第一課」的青少年用戶來(lái)說(shuō),這可能是他們的「AI 第一課」,也是他們成為智能時(shí)代新型人才的起航點(diǎn)。