自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

拋開元宇宙,我們來聊聊音視頻技術的未來

開發(fā)
VR/AR的出現(xiàn),第一次讓人類感受到什么叫做沉浸式體驗。我們與數(shù)字世界的交互,從單向異步,變成了雙向同步。

1872年的某一天,在美國加利福尼亞州的一個酒店里,兩個年輕人發(fā)生了激烈的爭論。

其中一人認為,奔跑的馬在躍起的瞬間,四蹄是騰空的。而另一人則認為,馬奔跑時,始終有一個蹄子是著地的。

來自英國的攝影師麥布里奇得知此事后,決定通過實驗來驗證誰對誰錯。于是,他借助24臺相機,連續(xù)拍攝了24張照片,并由此創(chuàng)造了人類歷史上第一個“視頻”。

不久后,1877年,著名發(fā)明家愛迪生在他的“圓筒留聲機”上,錄下了他親自朗讀的《瑪麗有只小羊羔》的歌詞。

這短短數(shù)秒的聲音,成為了人類歷史上第一條音頻。由此,人類正式進入了音視頻時代。

音視頻技術的發(fā)展和演進

眾所周知,人有五感,分別是視覺、聽覺、嗅覺、味覺和觸覺。通過五感,我們才能感知外部物理世界的存在,享受真實生活的美好。

在人類漫長的歷史長河中,文字、圖畫是記錄和傳遞信息的主要方式。直到前面提及的音視頻出現(xiàn),才將人類記錄信息的方式,升級到了一個更高的維度,更加具象化。

音頻和視頻誕生早期,只能存儲在膠片和磁帶上,容量有限,也不方便保存和運輸。

電影膠片

直到20世紀70-80年代,隨著數(shù)字錄音和攝像技術的不斷成熟,唱片公司和電影公司開始采用數(shù)字方式錄制原始素材,并進行后期制作,掀起了音視頻技術的革新浪潮。

在數(shù)字技術的支撐下,音視頻剪輯變得更加方便快捷。CD、MD、DVD等數(shù)字載體的出現(xiàn),不僅讓音質畫質大幅改善,還極大地擴充了存儲容量,減少了空間占用。

世界上第一款CD播放器,索尼CDP-101(1982年)

到了90年代,個人PC的規(guī)模普及,以及互聯(lián)網的爆炸式發(fā)展,再次刺激了音視頻技術的飛躍,并將人類全面推向了多媒體時代。

那一時期,互聯(lián)網先民們瘋狂地上傳和下載mp3、wav格式的音樂,bmp、jpg格式的圖片,還有rm、mov、avi格式的電影。他們不再局限于純文字的交互方式,而是全面轉向了QQ、MSN這樣的多媒體通信工具。

與此同時,基于音視頻技術發(fā)展起來的游戲產業(yè),更是將人們對數(shù)字世界的感官體驗,推向了更高的層級。人們開始有了對數(shù)字虛擬空間生活的早期憧憬和迷戀。

“模擬人生”游戲截圖

進入21世紀后,隨著3G/4G、光纖寬帶的高速發(fā)展,以及摩爾定律下CPU、內存、硬盤能力的進一步躍升,音視頻技術再獲突破,幾乎可以說是日新月異。

以視頻的清晰度為例,一路從早期的標清(320p/480p),發(fā)展到高清(720P/1080P),再到超高清(4K/8K),并最終催生了前所未有的人機交互模式——VR/AR(虛擬現(xiàn)實/增強現(xiàn)實)。

VR/AR的出現(xiàn),第一次讓人類感受到什么叫做沉浸式體驗。我們與數(shù)字世界的交互,從單向異步,變成了雙向同步。我們向真正的數(shù)字空間生活,邁出了一大步。

2020年,騰訊提出“全真互聯(lián)網”。2021年,元宇宙火遍出圈。這些都是音視頻技術飛速發(fā)展的產物。

視頻編解碼技術的不斷演進,信息通信技術的快速迭代,極大地改善了人們的視頻觀看體驗,徹底激發(fā)了人們對平行數(shù)字空間的渴望和向往,認為這是一種可以實現(xiàn)的夢想。

人們不再滿足于使用音視頻技術傳遞真實世界的影像,而是更希望將真實世界的一切元素都“捕捉”下來,轉換成無數(shù)的比特,存放在硬盤里。這些比特,將成為人們構建數(shù)字虛擬世界的素材。

音視頻技術的需求變化

元宇宙到底能不能成真,我并不知道答案。但是,音視頻技術的需求趨勢,卻是顯而易見的。歸納而言,就是兩點:平民化、產業(yè)化。

近年來,智能手機的普及,專業(yè)攝錄設備的降價,讓越來越多的普通用戶有機會進行音視頻內容創(chuàng)造和生產。

短視頻業(yè)務的爆發(fā),以及全民直播的興起,更是將視頻平民化推向了新的高潮。

網紅直播帶貨

幾乎在一夜之間,我們就進入了“人人看視頻,人人拍視頻”的時代。很多優(yōu)秀的up主或主播,能夠通過優(yōu)質的內容,賺取巨額收益,刺激了人們將視頻作為謀生手段的熱情。

在這樣的情況下,音視頻技術需要進一步降低門檻,讓更多的人能夠更容易地生產內容。

2020年,突如其來的新冠疫情,也間接推動了音視頻產業(yè)的發(fā)展。我們需要借助虛擬空間的延伸,彌補疫情導致的物理空間上的限制。

學生居家學習,企業(yè)居家辦公,產生了大量的網課、會議視頻流量。根據運營商的統(tǒng)計數(shù)據,截至2020年底,視頻在全網數(shù)據流量的占比已接近70%。

遠程會議

除了學習和辦公之外,產業(yè)將視頻的應用進行了延伸,發(fā)掘了更多的創(chuàng)新場景。

例如,借助視頻識別技術,可以對產品進行質量檢驗,可以對園區(qū)進行車輛管理,可以對工地進行安全隱患識別。

再例如,借助VR/AR技術,可以進行人員崗前培訓,可以進行遠程手術,可以進行遠程參觀,也可以進行遠程設備巡檢和故障處理。

也就是說,視頻不再僅僅是娛樂工具,而是變身為生產力工具。

各個領域和垂直行業(yè),都希望借助音視頻技術,升級和改造現(xiàn)有生產場景,提升效率,降低成本。

企業(yè)希望充分利用音視頻技術,但是,也面臨著對技術門檻和資源投入的擔憂,望而卻步。

我們現(xiàn)在每天都在討論數(shù)字化轉型,其實,“音視頻+垂直行業(yè)”,就是企業(yè)數(shù)字化轉型的一個極佳入口。行業(yè)音視頻,即將進入爆發(fā)期。

音視頻技術的未來方向

剛才說的是外部需求的變化。接下來,我們看看音視頻技術是如何應對變化的。

簡而言之,就是三點:算法極致化、功能智能化、服務平臺化。

音視頻的性能指標提升,一直沒有停止前進的腳步。

尤其是視頻方面,因為高清顯示技術的驅動,使得視頻的分辨率不斷增長。除了分辨率之外,視頻的幀率要求,也在增加。

還有VR視頻,因為含有三維的時間和空間信息,所以冗余更高,數(shù)據體積更大。

想要實現(xiàn)超高清高幀、VR/AR視頻應用的普及,僅僅依靠增加硬盤容量和通信帶寬是不夠的,必須盡可能壓縮視頻的體積。這就離不開視頻壓縮算法的持續(xù)改進。

目前,全球視頻編碼標準分為多個派系。除了大家熟悉的H.26X系列(ITU-T主導)之外,還有MPEG系列(ISO/IEC主導),AVS系列(國內AVS組織主導),以及免費開源的AV1等。

來自知乎用戶:甜草莓

這些標準,形成了開放的競爭關系,不斷探索著視頻算法的極限。它們是視頻技術向前發(fā)展的基礎。

除了硬指標提升之外,音視頻的另一個發(fā)展趨勢,就是全面智能化時代的到來。

換言之,就是AI人工智能技術不斷被引入到音視頻領域,幫助提升音視頻內容的生產效率,同時創(chuàng)新出更多的玩法。

首先看看音頻。

AI+音頻,可以實現(xiàn)對音頻信號的智能識別、編創(chuàng)。具體識別對象,可以是歌曲中的鼓點、節(jié)奏點。

AI可以針對音樂的強度、情緒、風格、情感等維度,對音樂進行理解和打標簽。在編創(chuàng)時,AI可以將音樂中人聲、伴奏、吉他、鋼琴等音軌進行智能分離。

AI還可以自動對歌詞進行續(xù)寫,將一首流行歌曲,改編成一首Rap(說唱音樂)。

再看看視頻。

做過視頻的人都知道,視頻內容創(chuàng)作的大部分工作量,都集中在視頻內容剪輯和渲染上,既費時又費力。

相比于傳統(tǒng)的人工剪輯,基于算法和學習,AI可以對視頻素材進行“智能增強”、“智能剪輯/拆條”。

“智能增強”,則是通過AI技術,進行視頻圖像降噪、色彩增強,改善畫面細節(jié),提升人眼的主觀效果。

“智能剪輯/拆條”,則是智能識別和分析視頻原始素材中人物的動作、事件和表情,自動定位精彩片段,將其提取出來,完成剪輯、配樂等工作,變成精彩視頻集錦。

“AI+音頻+視頻”的融合,用途更為廣闊。Up主可以借此實現(xiàn)視頻智能配樂、音樂MV和vlog的自動創(chuàng)作,大幅降低作品的生產難度。

除了內容創(chuàng)作以外,AI還可以用于視頻修復(舊電影修復)、視頻增強和行業(yè)視頻應用。

例如,騰訊的多媒體實驗室,通過深度學習敦煌壁畫病害數(shù)據,形成自動識別并添加圖示的一整套算法,打造出了高效的AI壁畫病害識別工具。

騰訊與敦煌研究院合作的文物VR遠程會診

音視頻技術的第三個發(fā)展趨勢,是服務形式的平臺化。

正如前面所介紹的,音視頻技術的應用難度很高,一般個人和企業(yè)很難獨立玩轉。于是,現(xiàn)在很多音視頻技術服務商,開始通過視頻云(騰訊)、視頻中臺(中國移動)等方式,對個人和政企用戶進行音視頻能力服務。

這些平臺集成了開放的API接口,方便上層應用開發(fā)商調用,開發(fā)軟件。平臺本身,又結合了云的能力,擁有無限的算力,可以支撐用戶的需求。

專業(yè)服務商們提供的技術和平臺,涵蓋了智能采集、數(shù)據處理和渲染展示等多個環(huán)節(jié),有利于降低垂直行業(yè)對音視頻業(yè)務的開發(fā)門檻,讓更多的企業(yè)能夠從容地使用音視頻業(yè)務,享受音視頻紅利,加快數(shù)字化轉型。

結語

現(xiàn)在,沒有音視頻,人們的快樂會減少一半。

未來,沒有音視頻,企業(yè)的效率會下降一半。

正如前面所說,未來,音視頻技術將進入爆發(fā)期。尤其是工業(yè)制造、金融證券、文旅教育等垂直領域,音視頻將進入高速增長的階段。音視頻的商業(yè)模式,將發(fā)生很大的變化。音視頻業(yè)務的應用場景,也將大量出現(xiàn)。

希望音視頻能夠帶來更多的創(chuàng)新,帶給我們更多的驚喜。

責任編輯:wangxuze
相關推薦

2022-01-20 21:37:26

VR/AR數(shù)字世界音視頻技術

2024-10-15 13:30:03

2022-06-20 05:59:35

5G技術音視頻技術安卓系統(tǒng)

2017-12-22 22:33:04

游戲語音音視頻社交

2017-09-19 11:00:09

音視頻技術

2023-04-10 07:49:43

云渲染平臺RTC

2022-03-28 14:59:00

元宇宙數(shù)字孿生人工智能

2023-05-06 21:52:14

數(shù)字

2023-03-03 15:40:43

抖音視頻編碼器

2022-08-29 10:39:32

FFmpeg多媒體框架開源

2017-10-23 18:13:42

CDN

2018-05-22 13:09:57

網易云信音視頻

2021-11-04 16:05:08

鴻蒙HarmonyOS應用

2019-02-18 16:39:21

春節(jié)檔社交音視頻

2018-04-23 10:24:05

2018-05-23 13:54:30

窄邊屏幕筆記本

2021-08-31 16:17:50

數(shù)字化
點贊
收藏

51CTO技術棧公眾號