AI重塑媒體行業(yè),鳳凰衛(wèi)視重磅入場AI數(shù)據(jù)賽道
媒體人在2023年或多或少都有點“失業(yè)”焦慮——媒體人被認為是最可能被ChatGPT取代的高危職業(yè)之一。
面對人工智能的沖擊,部分媒體選擇以防御之態(tài)應對,保護自己的內(nèi)容不受大語言模型的“侵略”。根據(jù)《衛(wèi)報》的報道,CNN、紐約時報和路透社等多個媒體巨頭在他們的網(wǎng)站上加入了新的代碼,阻止OpenAI的網(wǎng)絡爬蟲工具GPTBot對平臺內(nèi)容的掃描。
然而,近日鳳凰衛(wèi)視在“數(shù)聚未來——鳳凰大模型數(shù)據(jù)研討沙龍”上正式推出“鳳凰智媒AI數(shù)據(jù)業(yè)務”,發(fā)布首批“中文訪談對話數(shù)據(jù)集”和“正向價值對齊數(shù)據(jù)集”,還將推出以數(shù)據(jù)為中心的一站式AI訓練平臺,計劃于近期開放內(nèi)測。鳳凰衛(wèi)視執(zhí)行副總裁兼運營總裁李奇在致辭中表示,鳳凰衛(wèi)視作為一個立足香港、背靠內(nèi)地、面向全球發(fā)展的國際媒體,也將是人工智能時代的積極參與者,期望發(fā)揮鳳凰的媒體平臺優(yōu)勢,為產(chǎn)業(yè)界建立一個共建共享的數(shù)據(jù)平臺,共同推進人工智能的快速發(fā)展。
在媒體行業(yè)感受到人工智能帶來的高度生存威脅之際,鳳凰衛(wèi)視嘗試在“桌上”找到自己的位置。
數(shù)據(jù)對于大模型訓練有多重要?
AI的三大基石:數(shù)據(jù)、算力和算法。
數(shù)據(jù)是人工智能的學習資源,沒有學習資源,任何智慧體都很難學習和提升。
數(shù)據(jù)的開發(fā)與應用并非易事。在香港科技大學(廣州)協(xié)理副校長熊輝看來,中國大模型面臨的真正挑戰(zhàn)是數(shù)據(jù)。雖然國內(nèi)大模型在中文數(shù)據(jù)上占有優(yōu)勢,但整體的中文數(shù)據(jù)在整個人類知識的數(shù)據(jù)體系中僅占很小一部分,中國大模型如何能夠真正做到跨語言體系、跨文化體系,構(gòu)建起高價值、高質(zhì)量、全方位的數(shù)據(jù)集,仍然面臨較大挑戰(zhàn)。
李奇將數(shù)據(jù)比作AI時代的石油資源,數(shù)據(jù)的資源越好,模型的準確度就越高。而數(shù)據(jù)的開發(fā)與應用都將是一個系統(tǒng)工程,需要產(chǎn)業(yè)界無數(shù)企業(yè)共同參與。
鳳凰衛(wèi)視早已敏銳地認識到數(shù)據(jù)對于人工智能的重要性。鳳凰衛(wèi)視融媒體研發(fā)副總監(jiān)經(jīng)理馮偉就表示,在ChatGPT引領(lǐng)的AIGC浪潮之前,鳳凰衛(wèi)視在與眾多互聯(lián)網(wǎng)大廠和科研院校的合作交流中,他們收到許多對高質(zhì)量數(shù)據(jù)需求的反饋——沒有高質(zhì)量的數(shù)據(jù),很難在特定垂直行業(yè)的應用場景中實現(xiàn)算法和模型性能的突破。
高質(zhì)量的數(shù)據(jù)對于人工智能的益處是多方面的。首先,它能夠顯著提高人工智能的準確性和可靠性,使模型在實際應用中更加安全。其次,高質(zhì)量的數(shù)據(jù)可以提高模型的魯棒性,使其在各種場景下都能表現(xiàn)出色,甚至是在訓練過程中未曾遇到過的場景。此外,高質(zhì)量的數(shù)據(jù)還可以幫助人工智能模型克服算法的局限性,通過數(shù)據(jù)中的隱含規(guī)律來指導模型的學習過程。
因此,在AIGC浪潮的驅(qū)動下,鳳凰衛(wèi)視著手入場AI數(shù)據(jù)賽道。
傳統(tǒng)媒體如何連接AI?
近百年來,媒體經(jīng)歷了數(shù)次變革。
廣播和電視的普及、互聯(lián)網(wǎng)的出現(xiàn)、社交媒體的興起……每一次新技術(shù)的出現(xiàn),都給媒體行業(yè)帶來深刻的變革,這些變革不僅改變了媒體行業(yè)的運作方式,也深刻影響了人們的生活方式和信息傳播的方式。
人工智能技術(shù)來勢洶洶,媒體已然嗅到了變革,甚至是危機的氣息。擁抱還是防御,對各媒體都是一個問題。
而鳳凰衛(wèi)視的選擇已然明了。
此次發(fā)布的“中文訪談對話數(shù)據(jù)集”基于鳳凰衛(wèi)視訪談類節(jié)目生成,規(guī)模達百萬輪次,連續(xù)對話的平均輪次超30輪次?!罢騼r值對齊數(shù)據(jù)集”的構(gòu)建則以權(quán)威學術(shù)團隊的研究成果為指導,由鳳凰衛(wèi)視專業(yè)內(nèi)容團隊人工撰寫而成,規(guī)模達十萬個問答對。
除上述兩個數(shù)據(jù)集外,鳳凰數(shù)據(jù)還有多個數(shù)據(jù)集正在加工生成中,包括面向財經(jīng)領(lǐng)域的評論數(shù)據(jù)集、面向視頻內(nèi)容理解領(lǐng)域的視頻問答數(shù)據(jù)集、面向數(shù)字人領(lǐng)域的談話動作數(shù)據(jù)集和語音合成數(shù)據(jù)集等。同時,鳳凰數(shù)據(jù)也在同相關(guān)數(shù)據(jù)伙伴共同構(gòu)建具有高價值和稀缺性的高質(zhì)量數(shù)據(jù)集,包括華語圖文對數(shù)據(jù)集、華語書籍數(shù)據(jù)集和網(wǎng)絡流行語數(shù)據(jù)集。
除了高質(zhì)量數(shù)據(jù)集產(chǎn)品外,鳳凰數(shù)據(jù)還將推出以數(shù)據(jù)為中心的一站式AI訓練平臺,計劃于近期開放內(nèi)測。平臺將與高質(zhì)量數(shù)據(jù)集市實現(xiàn)互聯(lián)互通,確保數(shù)據(jù)在平臺內(nèi)的安全使用。平臺也將提供一系列以數(shù)據(jù)為中心的服務,包括豐富的數(shù)據(jù)處理工具、可視化模型訓練和微調(diào)套件、全面的數(shù)據(jù)和模型評估框架和多云異構(gòu)的算力資源。
鳳凰衛(wèi)視一直以來以其客觀中立的節(jié)目內(nèi)容受到廣泛認可,這些數(shù)據(jù)為大模型企業(yè)提供客觀、公正、可靠的數(shù)據(jù)支持。其一站式解決方案除高質(zhì)量數(shù)據(jù)外,配套提供AI模型訓練與優(yōu)化平臺,降低了鳳凰衛(wèi)視AI數(shù)據(jù)使用門檻。
華為云EI產(chǎn)品部部長尤鵬表示,華為希望和鳳凰衛(wèi)視一起共建數(shù)據(jù)黑土地,共同探索產(chǎn)業(yè)界自下而上的數(shù)據(jù)合作路徑和商業(yè)模式,共同構(gòu)建大模型的“數(shù)據(jù)-算力-商業(yè)”飛輪,推動數(shù)據(jù)產(chǎn)業(yè)發(fā)展。
媒體數(shù)據(jù)對大模型訓練的價值不言而喻,但對鳳凰衛(wèi)視而言,這一系列舉措的價值在哪兒?
入局AI數(shù)據(jù)賽道,價值幾何?
鳳凰衛(wèi)視大刀闊斧地進軍AI數(shù)據(jù)賽道,比起今年七月美聯(lián)社與OpenAI的合作,是媒體行業(yè)探索生成式AI領(lǐng)域的更進一步。
此前,大模型同新聞組織、書籍作者、社媒平臺之間在內(nèi)容版權(quán)方面矛盾頗多。今年6月,超過4000名作家聯(lián)名向OpenAI、谷歌、微軟、Meta和其他AI開發(fā)者的首席執(zhí)行官們致信稱,科技巨頭們在構(gòu)建聊天機器人時存在侵權(quán)行為,那些AI機器人“模仿并復述”他們的語言、風格和思想。
在技術(shù)偏早期野蠻生長的階段,一定會面臨許多諸如內(nèi)容版權(quán)之類的問題。馮偉在接受采訪時表示,就像當年新聞平臺方的出現(xiàn)同媒體機構(gòu)和其他內(nèi)容創(chuàng)作者之間也存在版權(quán)或知識產(chǎn)權(quán)的爭議和矛盾,但逐漸也形成了新的共識與規(guī)范。鳳凰衛(wèi)視相信,隨著技術(shù)的發(fā)展、各方的協(xié)調(diào)以及法律法規(guī)的不斷完善,AIGC行業(yè)最終也會往合規(guī)的方向健康發(fā)展,逐漸形成一個有序、共贏共生的大生態(tài)。
除了在探索有序、共贏共生的大生態(tài)中為媒體爭取更多話語權(quán),鳳凰衛(wèi)視更希望以積極主動擁抱世界發(fā)展趨勢的態(tài)度,為中華文化的傳播提供AI時代的解決方案。
入場AI也是鳳凰大刀闊斧創(chuàng)新國際傳播的重要舉措。鳳凰衛(wèi)視作為海外最大的華語媒體集團,一直都在為中國與世界對話、中國與世界交流搭建平臺。正像鳳凰衛(wèi)視執(zhí)行副總裁兼運營總裁李奇致辭中所說,在AI時代,鳳凰衛(wèi)視也同樣不會缺席。馮偉表示,高質(zhì)量的數(shù)據(jù)語料庫是AI時代承載中華文化的新載體,鳳凰數(shù)據(jù)的核心目標是是推動AI數(shù)據(jù)領(lǐng)域華語數(shù)據(jù)的豐富與共享,同時為中華文化的傳承與傳播提供AI時代的探索思路和解決方案,讓AI與中華文化認知對齊更簡單。
寫在最后
據(jù)悉,2024年,鳳凰數(shù)據(jù)計劃分三批發(fā)布更多高質(zhì)量數(shù)據(jù)集,并正式上線AI訓練平臺。同時,鳳凰數(shù)據(jù)還將舉行“Link+科技峰會”和“AI數(shù)據(jù)挑戰(zhàn)賽”等系列活動,連接各界,解決行業(yè)痛點,共同推進AI與華語文化的認知進程。面向高校及科研院所,鳳凰衛(wèi)視發(fā)布了“鳳凰智媒AI筑巢計劃”,提供部分數(shù)據(jù)集的免費授權(quán),以助力學術(shù)研究和創(chuàng)新。鳳凰AI數(shù)據(jù)官網(wǎng)于發(fā)布會當天正式上線,為行業(yè)客戶提供數(shù)據(jù)集試用下載服務。
在科技的滾滾車輪之下,有人坐以待斃,有人主動出擊。鳳凰衛(wèi)視在AI賽道的一系列舉措是面臨危機的媒體行業(yè)一次非常有借鑒意義的主動探索。同為媒體,我們期待看到鳳凰衛(wèi)視與全球合作伙伴共同推動AI數(shù)據(jù)領(lǐng)域的創(chuàng)新與發(fā)展。