人工智能代理工作流如何推動比下一代基礎模型更大的進步
Zero-Shot提示的局限性
在日前舉辦的Snowflake數(shù)據(jù)云峰會上,LandingAI公司創(chuàng)始人兼首席執(zhí)行官Andrew Ng博士進行精彩的演講。他分享了他對人工智能代理工作流程的潛力的見解,以徹底改變人工智能領域。Andrew Ng博士認為,這些迭代的、多步驟的方法可能會比開發(fā)更強大的基礎語言模型帶來更大的進步。
傳統(tǒng)的語言模型,例如GPT-3.5和GPT-4,已經在零提示方面展示了非凡的能力,其中模型根據(jù)單個提示生成輸出,而無需任何修改。然而,這種方法類似于要求一個人從頭到尾寫一篇文章,不允許他們退格或做任何編輯。盡管結果令人印象深刻,但這種方法也有局限性。
代理工作流的承諾
相比之下,代理工作流使人工智能模型能夠以更迭代和類似人類的方式解決問題。這些工作流允許模型將任務分解為更小的步驟,收集信息,生成草稿,然后修改和改進其工作。這種方法在編碼和計算機視覺應用中都顯示出重大的前景。
Andrew Ng博士展示了比較GPT-3.5和GPT-4在Human Eval編碼基準上的性能的數(shù)據(jù)。雖然GPT-4在零射擊提示方面優(yōu)于GPT-3.5,但真正的突破是將GPT-3.5包裹在代理工作流中。這種組合獲得了與GPT-4相當?shù)慕Y果,表明迭代過程可能與底層模型的能力一樣重要。
Landing AI的視覺代理
Landing AI最近開源了它的視覺代理(Vision Agent),展示了代理工作流程在計算機視覺任務中的潛力。通過提供提示,例如“計算這段沖浪視頻中與鯊魚的距離”,視覺代理可以生成一系列指令,檢索必要的工具(函數(shù)),并生成代碼來分析視頻并輸出所需的結果。
視覺代理由兩個組件組成:代碼代理和測試代理。代碼代理首先運行計劃器來分解任務,檢索所需工具的詳細描述,然后生成代碼。然后,測試代理為生成的代碼編寫測試,執(zhí)行測試,并向代碼代理提供反饋以進一步細化。
例子和限制
Andrew Ng通過幾個例子展示了Vision Agent的能力,包括分析一段車禍視頻,突出顯示閉路電視鏡頭中有趣的部分,以及在圖像中檢測蒙面和未蒙面的人員。雖然視覺代理并不完美,有時會遺漏對象或需要及時改進,但它展示了代理工作流程的潛力,可以簡化復雜的計算機視覺任務。
代理工作流的含義超出了編碼和計算機視覺。通過使人工智能模型能夠計劃、研究、生成和修改其輸出,這些工作流程可以在自然語言處理、數(shù)據(jù)分析和創(chuàng)造性應用等各個領域取得重大進展。
人工智能發(fā)展的未來
隨著人工智能的不斷發(fā)展,探索能夠釋放這些技術全部潛力的新方法至關重要。雖然像GPT-4這樣的基礎模型已經突破了可能的界限,但代理工作流可能是推動該領域取得更大進展的關鍵。
Andrew Ng的演講呼吁開發(fā)人員和研究人員采取行動,擁抱代理工作流并為其發(fā)展做出貢獻。通過協(xié)作和構建開源項目,例如LandingAI的Vision Agent,AI社區(qū)可以加速采用和改進這些強大的技術。
總之,Andrew Ng博士在DevDay上的演講強調了人工智能代理工作流程在推動人工智能進步方面的巨大潛力,甚至可能超過下一代基礎模型的影響。通過使人工智能模型能夠以更迭代和類似人類的方式解決問題,這些工作流程可能會在編碼、計算機視覺等方面取得突破。隨著人工智能社區(qū)繼續(xù)探索和完善這些方法,可能正處于人工智能新時代的風口上,這個時代有望改變行業(yè),重塑我們對人工智能可能性的理解。