黃學(xué)東分享:Zoom AI如何正確地「碾壓GPT-4」
去年底,從微軟離職加入Zoom的華人AI大佬黃學(xué)東以Zoom CTO的身份發(fā)表了一篇技術(shù)博客,介紹了Zoom推出的聯(lián)邦A(yù)I技術(shù)——
差異化地利用不同成本的AI工具,讓能力強成本高的AI完成難度大的任務(wù);成本低能力弱的AI完成簡單的任務(wù),從而在完成質(zhì)量和GPT-4幾乎一致的前提下,將AI完成任務(wù)的推理成本降到了GPT-4的6%。
在去年底,對標GPT-4,Zoom AI就做到了「質(zhì)量一樣,成本打1折」!
文章地址:https://www.zoom.com/en/blog/federated-ai-approach-best-quality-for-most-popular-features/
3月26號,黃院士又發(fā)表了一篇新的技術(shù)博客,宣布聯(lián)邦A(yù)I技術(shù)取得的最新進展:
通過整合Claude 3等新推出的強力LLM,「聯(lián)邦 AI」在特定的任務(wù)場景中,完成質(zhì)量已經(jīng)超過了GPT-4——
在Zoom提供的會議摘要功能「Meeting recap」上,Zoom AI的結(jié)果相比GPT-4將錯誤率減少了20%,在自動預(yù)測下一步操作的「Next Steps」上,Zoom AI的正確率提高了60%。
具體來說,Zoom AI將市面上的所有可用的LLM都整合了起來。
集眾家之所長,從而在產(chǎn)品層面做到了質(zhì)量「碾壓GPT-4」!
這樣的技術(shù)路徑不但大大降低了使用大模型的成本,而且隨著市面上不同公司的大模型性能的變化,可以靈活選擇最適合任務(wù)的模型進行搭配。
從避免了與某一個模型深度綁定后,反而限制了產(chǎn)品服務(wù)質(zhì)量的情況。
在Zoom最新的內(nèi)部基準測試中,通過讓人類評委盲選最準確的會議摘要的方式進行了測試。Zoom LLM和Claude-3配合下在會議總結(jié)和提取下一步操作兩個任務(wù)上的表現(xiàn)都優(yōu)于英文版的GPT-4。
將Zoom LLM與GPT-4總結(jié)日語會議的結(jié)果相比較。Zoom LLM也能夠提供更好的結(jié)果,降低了接近15%的錯誤率。
根據(jù)Zoom委托GigaOm進行的一項研究顯示,Zoom AI Companion的會議轉(zhuǎn)錄的準確率高達95%以上。
在會議提問場景中,Zoom AI Companion提供的結(jié)果比ChatGPT-4 web快四倍。
而在安全性上,Zoom AI組建一個由Claude-3、Gemini和GPT-4等多個LLM組成的「委員會」,降低了大多數(shù)LLM輸出的固有偏差,從而減少了幻覺,進一步提高了輸出的質(zhì)量。
最主要的原因是不同的LLM不太可能犯同樣的幻覺錯誤,所以Zoom LLM可以生成更一致的回應(yīng),進一步減少幻覺的影響。
而且根據(jù)黃院士透露,在性能表現(xiàn)超越GPT-4的任務(wù)中,推理成本有所上升,但依然只有GPT-4一半左右。
雖然要取得超越GPT-4的性能,Zoom AI成本要比去年底的「成本打一折」時高上不少,但是依然比僅僅使用GPT-4要便宜很多。