在這個數(shù)據(jù)爆炸的時代,收集數(shù)據(jù)本身是不夠的。它需要被加工,切片和切割,以獲得經(jīng)營和發(fā)展業(yè)務(wù)的洞察力。不幸的是,當今世界上大多數(shù)可用的數(shù)據(jù)是非結(jié)構(gòu)化的和隱藏的,使得在沒有顯著的人類參與的情況下難以處理。媒體行業(yè)的大部分數(shù)據(jù)都屬于這一類,但已經(jīng)開始改變。
任何視頻文件,并將大量的非結(jié)構(gòu)化數(shù)據(jù)交織在其結(jié)構(gòu)中這需要密切的人類參與才能理解和解碼。它需要人力來完成內(nèi)容管理,處理,解釋,質(zhì)量檢查等最基本的工作,然后才能標記為可供分發(fā)。有趣的是,人工智能和ML算法,特別是深度學習,現(xiàn)在達到了與人類精確度相當?shù)乃?,以大?guī)模地執(zhí)行大部分這些任務(wù)。人工智能處于有利位置,既可以自動執(zhí)行工作流程活動,也可以從隱藏資產(chǎn)“數(shù)據(jù)”中獲得巨大的洞察力。因此,媒體行業(yè)目睹了自然語言處理(NLP),面部識別,異常檢測等領(lǐng)域的幾位獲獎?wù)撸渲腥斯ぶ悄芤云錈o與倫比的效率實現(xiàn)大規(guī)模自動化。2107標志著人工智能在廣播中開始收獲豐厚紅利的重要一年,內(nèi)容管理,后期制作,廣告和更多垂直行業(yè)。他們說,這只是AI之旅的開始!
預(yù)測分析和深度學習
預(yù)測分析使用了一個重要的假設(shè),即未來的行為可能受過去趨勢的影響,并且在大多數(shù)情況下,它在一段時間內(nèi)保持良好。在這些預(yù)測模型的基礎(chǔ)上,一組假設(shè)將多個獨立變量結(jié)合在一起(例如,對于內(nèi)容個性化的變量——如年齡、性別、財務(wù)狀況、教育、內(nèi)容興趣),以建立統(tǒng)計相關(guān)性。正是這些相關(guān)性的集體強度和程度,可以預(yù)測未來的行為。在這里閱讀更多關(guān)于預(yù)測分析的知識。最近,利用神經(jīng)網(wǎng)絡(luò)來產(chǎn)生人類大腦般的分析能力的深度學習正在使機器學習到更高的認知水平。通過模擬人腦對情境的反應(yīng),深度學習帶來了從舊學校暴力決策樹到更真實的事物的顯著轉(zhuǎn)變。
媒體和娛樂行業(yè)的機器學習重點領(lǐng)域
過去幾十年來,AI和ML一直在學術(shù)和研發(fā)領(lǐng)域,直到最近幾年,真正的產(chǎn)業(yè)整合才開始取而代之。人工智能帶來的技術(shù)可以自動執(zhí)行大部分人力密集的任務(wù),并且具有可擴展性,計算速度和可重復(fù)性等優(yōu)點。通過自動化內(nèi)容管理,媒體操作中的現(xiàn)有任務(wù)以及改善客戶參與度和體驗,它有很大的潛力來實現(xiàn)嚴重的成本節(jié)約。例如,AI可以自動執(zhí)行復(fù)雜的音頻/視頻同步工作,從而節(jié)省大量的人工人力,并減少人為錯誤。以下是媒體和娛樂行業(yè)進入前十大AI轉(zhuǎn)型領(lǐng)域。
-
1、深入的視頻分析,翻譯,轉(zhuǎn)錄和標記 - AI花了幾年的時間來完善手寫識別并迅速轉(zhuǎn)向自然語言理解(NLU)。現(xiàn)在它已經(jīng)加速超越自然語言和元數(shù)據(jù)處理,深入深入分析內(nèi)容。機器主導的自動化將口述音頻轉(zhuǎn)換成可讀文本,轉(zhuǎn)錄變得近乎實時。我們都看到了Alexa,Cortana和Google語音的早期到來。神經(jīng)網(wǎng)絡(luò)訓練系統(tǒng)正在取代傳統(tǒng)的單詞轉(zhuǎn)換,通過增加新的情境和意圖相關(guān)維度。預(yù)計未來3年,AI將完全接管轉(zhuǎn)錄和翻譯活動,并將駐留在日常使用的音頻設(shè)備上。
深度視頻分析是另一個有趣的領(lǐng)域,通過學習場景變化,位置參考,語音,面部和物體識別,導致視頻見解的多方面擴展。這種智能在豐富內(nèi)容分類和適當標記內(nèi)容方面有很長的路要走,這提高了內(nèi)容鏈接,搜索和關(guān)聯(lián)的準確性。在這里,人工智能通過機器驅(qū)動索引,元數(shù)據(jù)標記,編目等方式顯著改變整個內(nèi)容管理環(huán)境,將手動流程轉(zhuǎn)變?yōu)楦叨茸詣踊墓ぷ髁鞒獭R曨l翻譯為多種語言和方言以及多語言字幕,有助于將內(nèi)容的可尋址市場擴大到比以往更多的受眾。
-
2、基于語音的虛擬助理 - 在過去的兩年中,像Alexa,Google家庭和語音遙控器(如Siri和Roku)的語音助理已經(jīng)開始通過完善基本的菜單導航功能來消除笨重的電視遙控器。接下來是在用戶跟進命令的幫助下進行內(nèi)容搜索和發(fā)現(xiàn)的情報。使用監(jiān)督式學習算法的人工智能現(xiàn)在可以為虛擬助手提供動力,將消費者的知識圖,地理坐標,語音輸入和豐富的內(nèi)容元數(shù)據(jù)(演員表,摘要,報價,位置等)結(jié)合起來提供個性化推薦。虛擬助手了解語言特征,情感和用戶意圖的能力使他們更智能,直觀和成熟的對話系統(tǒng)增加了更好的客戶體驗。隨著個人數(shù)字關(guān)系變得更加深刻,
-
3、優(yōu)化的視頻編碼和傳輸 -引入自適應(yīng)比特率(ABR)流后,視頻流有一個主要的優(yōu)點。ABR編碼將原始文件的小塊創(chuàng)建為不同的比特率,以基于可用帶寬為客戶端提供服務(wù)(請閱讀此處以了解更多關(guān)于流媒體)。通過引入技術(shù)來提高固定比特率分塊到基于場景的編碼,人工智能正在付出更多的努力。人工智能通過學習多個質(zhì)量度量的場景復(fù)雜度,可以確定所需的壓縮級別并給出編碼視頻,系統(tǒng)可以確定幀級復(fù)雜度和最佳壓縮參數(shù),同時保持質(zhì)量跟蹤。Netflix掌握了這項技術(shù),即使在比特率較低的情況下,也可以生成精確的編碼流。這種新的編碼方式正在徹底改變?yōu)椴粩嘣鲩L的新興經(jīng)濟體觀眾提供不間斷視頻的方式,在這些新興經(jīng)濟體中,手機上的低帶寬網(wǎng)絡(luò)是觀看視頻的最主要平臺。人工智能還通過根據(jù)觀眾位置,網(wǎng)絡(luò)擁塞等優(yōu)化所需比特率來提高在線媒體播放器的性能。
-
4、視覺識別 -面部識別 和物體識別是一個重視視覺處理的AI區(qū)域。它涉及視頻和靜止圖像中個人和物體的識別以及隨時間的相對變化。雖然這種視覺處理對人類來說是自然而然的,但是機器能夠壓縮大量數(shù)據(jù)變化以達到期望的精度水平,這是一項艱巨的任務(wù)。最近,人工智能和機器學習越來越能夠掌握視覺感知 - 面部和模式識別,為內(nèi)容編輯和自動化內(nèi)容創(chuàng)作開辟了豐富的途徑。想知道Facebook和眾多照片應(yīng)用程序如何用你的朋友的照片標簽做出驚人的工作; 這是所有AI和ML在制作中
-
5、異常檢測 - 在過去的幾年中,在線視頻不成比例地增長。YouTube,F(xiàn)acebook和在線網(wǎng)絡(luò)為業(yè)余愛好者和專業(yè)人士成為內(nèi)容創(chuàng)作者并接觸大眾觀眾創(chuàng)造了無限的機會。今天,對于每秒鐘產(chǎn)生的視頻和圖像數(shù)量來說,監(jiān)控和標記不適當?shù)膬?nèi)容(盜版,暴力,成人等)變得人力不可能。這再次是機器學習服務(wù),在這個領(lǐng)域證明了這一點,大多數(shù)網(wǎng)絡(luò)在上傳時創(chuàng)建了基于AI的自動檢測工具。Google的云視覺API就是這樣一種服務(wù),它可以為標記內(nèi)容做出適當?shù)母倪M。雖然假冒內(nèi)容的創(chuàng)作已經(jīng)成為人工智能越來越大的威脅,但是這種人工智能技術(shù)在限制惡意行為方面來拯救
-
6、內(nèi)容指紋識別 - 根據(jù)捕獲樣本內(nèi)容片段的原則,為識別創(chuàng)建獨特的指紋,內(nèi)容指紋識別在媒體行業(yè)已經(jīng)走過了很長的路要走。隨著內(nèi)容繼續(xù)隨著多渠道分布而不斷增長,基于AI的指紋識別技術(shù)在應(yīng)用中發(fā)揮了重要作用。一些用例是
-
通過有效的搜索找到精確和類似的配置文件媒體,Shazam是一個現(xiàn)場模型
-
使用區(qū)塊鏈對內(nèi)容進行微許可進行付款和跟蹤使用情況
-
識別和跟蹤消費者觀看行為,衡量廣告
-
廣播監(jiān)視來驗證事件發(fā)生
-
內(nèi)容保護音頻,視頻和圖像,追蹤未經(jīng)授權(quán)的分發(fā)
-
7.視頻質(zhì)量評估 - 視頻壓縮對視頻實現(xiàn)合理的傳輸速率至關(guān)重要。但是,壓縮是有損的,會引入損傷和偽像等工件。視頻質(zhì)量評估一直是內(nèi)容分發(fā)之前的關(guān)鍵過程,并且隨著多通道分布而逐漸擴大。傳統(tǒng)上采用兩種標準方法,無論是單獨使用還是聯(lián)合使用都用于質(zhì)量評估。通過播放內(nèi)容和檢查錯誤以及使用VQM,PSNR,MSE,SSIM等指標進行更加自動化的基于參考的評估,實現(xiàn)基于人工的可視化分析。雖然前者需要大量的人力,但后來在準確性,非實時性以及對參考模型的依賴方面面臨挑戰(zhàn)。人工智能和機器學習正在通過掌握基于非參考的視頻質(zhì)量評估來改變這一切。人工智能使用廣泛的功能集和從錯誤模式中學習能夠提供接近實時的質(zhì)量評估。在視頻工作流程中實現(xiàn)質(zhì)量控制自動化的巨大潛力,并在縮短內(nèi)容發(fā)布時間表方面帶來無與倫比的效率
-
8.虛擬現(xiàn)實和增強現(xiàn)實 --AR / VR市場潛力巨大,但由于成本,內(nèi)容成熟度和易用性方面的挑戰(zhàn),該技術(shù)在很大程度上表現(xiàn)不佳。雖然虛擬現(xiàn)實(VR)專注于創(chuàng)造360度身臨其境的體驗,但增強現(xiàn)實技術(shù)(AR)處理計算機圖形元素與真實世界元素的疊加。對于很大一部分VR / AR應(yīng)用程序和服務(wù)仍然非常粗糙,AI通過提高數(shù)據(jù)質(zhì)量和決策制定來帶來新的能源。人工智能幫助圖像準確無誤,更好地理解用戶輸入和意圖,內(nèi)容關(guān)聯(lián),情景化以及內(nèi)容創(chuàng)作,為用戶打造更加身臨其境的體驗
-
9.后期制作 - 大量的創(chuàng)作過程基于定義的規(guī)則和技巧,因此可以通過機器學習算法掌握。人工智能系統(tǒng)可以自動進行劇情識別,場景選擇,腳本等各種創(chuàng)作過程所需的地面工作。聽說 摩根?去年9月發(fā)行的一部基于人工智能的科幻電影與電影主題本身有共同之處。電影預(yù)告片雖然由人工編輯完成,但由AI使用IBM Watson提出。在這里,沃森被訓練從相似主題的預(yù)告片中學習,并選擇電影中的關(guān)鍵場景,后來將它們縫合在一起制作最終預(yù)告片。一個很好的例子,AI可以選擇場景,插入視覺效果,并建立一個令人信服的人類編輯像拖車。以下是AI進入的更多領(lǐng)域
對視頻內(nèi)容進行結(jié)構(gòu)和語義分析,以幫助創(chuàng)建短片視頻片段,用于新聞,視頻分割以及用于粉絲參與的特殊興趣內(nèi)容。
-
腳本打樣,內(nèi)容清理,場景排序和電影編輯的第一通。給定一個腳本上下文,創(chuàng)建多個具有評分的場景表演供選擇
-
在緩慢移動內(nèi)容捕捉中進行視頻瀏覽以創(chuàng)建僅供參考的內(nèi)容
-
最近IBM與美國公開賽合作,通過認識重要比賽時刻來提供體育亮點。人工智能能夠在體育和新聞中快速識別內(nèi)容并聚合相關(guān)內(nèi)容,這可以徹底改變體育和新聞報道的業(yè)務(wù),因為它現(xiàn)在已經(jīng)存在
-
10.內(nèi)容制作
內(nèi)容結(jié)構(gòu)和基于對象的分析已經(jīng)開啟了人工智能協(xié)助實際內(nèi)容開發(fā)的新途徑。從屏幕上角色的行為,走動,談話和所有可能的面部表情的細節(jié)中學習,AI系統(tǒng)可以創(chuàng)建虛擬表演??吹饺绾蝿?chuàng)造像真正的表演這樣的生活真是令人驚訝 - 檢查美國總統(tǒng)奧巴馬的一個他從未給出的演講剪輯,留下的想象力很少。人工智能在內(nèi)容創(chuàng)作領(lǐng)域仍然在不斷努力,并且在許多領(lǐng)域它可以使生產(chǎn)過程受益
-
通過學習流行名人的流行特征,表情,角色和風格,創(chuàng)建虛擬人物角色(僅限數(shù)字化身)
-
使動畫電影中的計算機圖形工作自動化,取代人為密集的角色動畫,但效率更高