自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

強化學習和世界模型中的因果推斷

人工智能
在強化學習,尤其是世界模型理論中,因果推斷的作用是不可替代的,同時在世界模型中,因果推斷也能得到很好的應用。

一、世界模型

圖片

“世界模型”源于認知科學,在認知科學里面有一個等價的詞匯 mental models,也就是心智模型。那么什么是心智模型?在認知科學里有一個假設,認為人在大腦內部會有一個對于真實外在世界的表征,它對于認知這個世界,特別是推理和決策有很關鍵的作用。

在心理學中認為 mental model 的核心有兩個部分,第一個叫 mental representation,即大腦中對于真實世界是怎么表征的;第二個叫做 mental simulation,即在大腦中對真實世界的運轉生成一個模擬。Kenneth Craik 是動力學系統(tǒng)的開創(chuàng)人之一,他認為 mental model 是對這個世界的一個鏡像(image),即世界是如何表征和運轉的。關于 mental model 的研究在上世紀就已經開始。

圖片

近些年認知科學領域用動物進行了一些實驗,發(fā)現(xiàn)在動物的大腦中確實會對真實世界有一些表征和模擬。比如有研究發(fā)現(xiàn),老鼠的大腦能夠對世界進行比較準確的觀測,具體的,海馬體是大腦的一部分,它可以形成對世界的一個編碼,如果老鼠在世界里面運動,那么對應的海馬體就會編碼出所在位置。海馬體編碼除了能捕獲老鼠的運動,還能夠通過激活編碼,識別這個老鼠的狀態(tài)。

其中有一個實驗,首先使老鼠在環(huán)境中運動,同時收集到一些數(shù)據(jù),通過數(shù)據(jù)解碼老鼠的運動狀態(tài),基本上能夠通過解碼還原出老鼠所在的位置。有趣的是當老鼠在睡覺的時候,它的大腦并沒有完全地休息,可能會有一些活動例如做夢,這能夠通過 mental model 解釋。通過解碼看到老鼠在做夢時,同樣也在環(huán)境里面跑,而且很有可能是倒著跑,這在一定程度上說明生物是有 mental model 的,這是生物智能的一方面。

而 mental model 和今天講的世界模型具有相同的含義,生物智能通常都是基于內在世界模型的還原。

二、關于強化學習

圖片

強化學習是機器學習的一個經典子領域,是關于決策方向的。很多其他機器學習技術,是監(jiān)督學習,是關于預測、模式識別方向的。關于在決策方向上如何完成決策的任務,并學習最大化累積獎勵的策略,這是強化學習要去解決的目標。另一方面,監(jiān)督學習的訓練需要一批有標記的數(shù)據(jù)。而強化學習需要我們在具體的環(huán)境中考慮智能體的決策,以模擬生物和環(huán)境之間的關系,智能體可以在環(huán)境里面產生一系列的行動或者決策,智能體在環(huán)境中產生行動以后,會觀測到環(huán)境狀態(tài)的變化和環(huán)境反饋的獎勵。

圖片

強化學習的學習思路是從試錯樣本中學習。如圖所示,強化學習隨機采樣并產生一些從起點到終點的軌跡策略,當它發(fā)現(xiàn)一些軌跡策略比另外一些軌跡策略更好,那么強化學習就會根據(jù)數(shù)據(jù)更新自己的策略,更新以后這個策略的效率就會更高,不斷這樣更新下去,最終能夠收斂到一個比較好的策略。

強化學習的一個核心問題在于它的采樣效率,完全隨機采樣的效率是很低的,對數(shù)據(jù)的利用程度不高,能夠學的東西也沒有那么多,就會導致強化學習需要大量的采樣,這里面有大量的試錯。所謂的試錯是在已經能夠推斷出哪些地方不可以走之后,由于模型的學習能力不足,導致還要在錯誤的軌跡再試一下,當觀察到有錯誤的結果,模型才知道這個地方是不能走的。這個問題就會導致強化學習在應用上受到很大的阻礙,因為實際上大部分的應用場景都不允許過多的試錯,甚至有些情況下是完全不允許試錯的,只有在允許試錯的條件下面,強化學習才能發(fā)揮得比較好。

今天的強化學習在游戲環(huán)境能做得很好,是因為游戲環(huán)境是允許試錯的,而一旦我們的環(huán)境不允許試錯,那么強化學習應用起來就會很困難,所以這里的核心就是如何提高強化學習的樣本效率。如果從生物的啟發(fā)來看,像老鼠那樣,跑了一下真實的環(huán)境以后,就可以在自己的 mental world 里面進行訓練和學習,不需要真正地和環(huán)境進行交互就能學到很好,那么樣本效率就能夠得到大幅的提高,應用起來也會變得非常方便。

圖片

Mental world 在強化學習的發(fā)展歷史中一直在被研究,這一分支叫做 Model-based reinforcement learning,即有模型的強化學習,這里的模型是專指對于我們的應用問題的建模。

比較經典的框架是 Dyna 架構,是 1990 年沙特提出來的。在這個框架里除了在環(huán)境里面進行試錯,去收集數(shù)據(jù)以外,還專門有一步是要去學習 domain knowledge,它并不是直接從知識里面去學習,它是一個 action model,是一個黑盒,主要做的是將當前環(huán)境面臨的條件作為輸入,預測接下來的環(huán)境的條件。

類似于上圖右邊所示的強化學習框架,Agent 在我們的世界里面要執(zhí)行一系列的動作,然后環(huán)境能夠反饋出下一個狀態(tài)是什么,那么在 Agent 的大腦里面能不能有一個 model 來建模這個世界是怎么運轉的。在具體的算法框架里面就有怎么用數(shù)據(jù)去 update model,并且在學習策略的時候,要用 model 去產生更多的數(shù)據(jù)出來。更多的數(shù)據(jù)就相當于在 mental world 里面想象出來的數(shù)據(jù),我們希望用這些想象出來的數(shù)據(jù)去幫助學習,從而大幅減少和真實環(huán)境的交互,提高強化學習的樣本效率。

圖片

關于 world model,強化學習從幾十年前就一直有 model-based 的方向。在 2018 年時,有一個工作,就是希望對觀測狀態(tài)進行壓縮和表征,其中包括兩塊,一塊是使用 VAE 模型對高維的觀測進行一個低維的表征,然后使用一個 RNN 模型建模狀態(tài)和動作。狀態(tài)輸入以后先壓縮到一個低維表征,再通過 RNN預測下一個狀態(tài),然后進行決策推斷。在這個工作里面,作者為了更明確 model 指什么,所以這個工作里面就把 model 叫做 world model 世界模型。其實在強化學習里面,它就是對于世界怎么表征和怎么運轉的建模。

圖片

上圖是來自 J.Pearl 的因果階梯,以解釋因果學習和其他理論有什么不同。因果階梯從下往上三層分別是 association(相關性)、interventions(干預)、counterfactuals(反事實)。

可以從強化學習的角度理解因果階梯,在強化學習算法中是真的在實施干預,為了了解不同決策產生的后果,就可以真正的在模擬環(huán)境里面做一下相關決策。在強化學習中可以收集到智能體在不同的干預下的數(shù)據(jù)。最上層是反事實,也就是數(shù)據(jù)上面沒有體現(xiàn)出,還不知道一個決策會產生什么樣的結果,但是我們希望能夠在看到真實數(shù)據(jù)之前,將它推理出來。這在強化學習中,正好對應的就是 model-based reinforcement learning,因為只有 model 出來以后,才能夠產生出沒有見過的數(shù)據(jù)。

從圖中可以看出,因果學習和 world model 中都有對真實世界的建模,世界模型的建模也是對應到因果模型里面的 counterfactual 層。

圖片

從因果推斷和 world model 兩種理論的定義可以看出,世界模型一定是需要用因果關系進行建模的,它一定要關注到決策對于環(huán)境變化的因果性的影響。在 world model 構建出以后,如果需要去做決策,就需要明確地知道動作和結果之間的關系。比如可以通過公雞打鳴來預測接下來一兩個小時天會亮,這樣一個關聯(lián)關系用來做預測是沒有問題的,但它不是一個因果關系,所以對于決策來說是沒有用處的,不可能把公雞殺掉以后天就不亮了,所以無法對環(huán)境進行改造,進行干預。因此如果我們想要做決策,就一定需要 world model 符合因果關系。

圖片

上述問題導致對因果關系的學習有著很大的難度,因為今天大部分機器學習技術都是發(fā)現(xiàn)相關性,換而言之就是在監(jiān)督學習里面,經常會假定數(shù)據(jù)是獨立同分布的。我們會假定訓練數(shù)據(jù)和預測數(shù)據(jù)的分布要有一定的規(guī)律。但是 world model 不是用來做預測的,它最核心的事情是要去回答 what if 這樣的問題。比如股市中,如果我今天買,之后會怎么樣?如果沒買,又會怎樣?只有回答大量的 what if question,才能幫助我們去做決策。這種 what if question,就使得我們總是對那些數(shù)據(jù)之外的事情很感興趣,特別是在倒推的時候,我們總會假設如果做出另外一種決策,會不會更好。

而 world model 能夠支撐我們去問 what if question,就意味著 world model 不管是從什么數(shù)據(jù)上面學出來的,總會關心那些數(shù)據(jù)以外的問題,所以我們一定要用 world model 去回答 out of data distribution 的數(shù)據(jù)上面的推理,所以它和我們今天所熟悉的大部分技術都不太一樣。

world model 需要回答當決策者做另外一個決策時的結果,這樣的預測實際上是非常難做的,它和經典的監(jiān)督學習的假設是不一樣的。

三、基于環(huán)境模型的強化學習框架

圖片

下面講一下 world model 的框架。首先從真實事件里面采到了一些數(shù)據(jù),通過環(huán)境學習的方式構建一個 world model,然后在 world model 里進行強化學習,以得到更好的策略,這個策略將會部署到真實環(huán)境里面去用,我們特別期待的是這個策略不需要做更多的探索,就直接可以部署到環(huán)境里面,做更好的決策。

當我們構建出 world model 之后,怎樣在 world model 里去做更好的強化學習,哪怕這個 world model 并不是那么完美,或者遠離數(shù)據(jù)以后就表現(xiàn)得不那么好。我們更關注的是怎樣將 world model 構建得更好,從而使整個強化學習做得更好。在做很多復雜的決策時,特別是真實世界的復雜決策時,我們就可以用這樣的技術去解決問題。

圖片

我們希望 world model 能夠和因果結合起來。如果將因果學習的技術放到 world model 中去,是否能讓 world model 學得更好。

圖片

起初的想法是,通過因果結構學習,能夠把 world model 的結構發(fā)現(xiàn)得更好。World model 中哪些實體有因果關系,我們就將相應的邊連上,沒有因果關系的就把邊去掉。這件事情其實看起來很簡單,但是在強化學習里面去學 model 時,很久以來一直都是全連接的 model 的學習,就是上一個時刻的所有的變量,去預測下一個時刻的所有的變量,不太關注中間的關系,如果有一些假的因果關系在里面,就會導致 world model 學得不夠好。

圖片

因此我們探索能否通過更好的因果結構的學習,獲得一個更好的 world model。我們將變量劃分為因果變量和偽變量。真實環(huán)境模型與學到的環(huán)境模型去評估同一策略時,性能差異與引入的偽變量數(shù)量相關。能夠排除的偽變量越多,該策略的性能會越好。

圖片

從實驗中也會發(fā)現(xiàn),在比較好地還原因果關系以后,得到的模型性能確實是能夠有提升的。這是關于如何使用因果發(fā)現(xiàn)來幫助我們把這個 world model 里面的結構呈現(xiàn)出來。

圖片

在 2022 年前后,有更多的工作集中在 word model 的學習上,實質上是在關注強化學習下的表征學習。盡管文章標題可能未明確提及"world model"這一術語,但其實際上是在進行 world model 的學習。在基本的強化學習表征中,將世界視為一個具有狀態(tài)的實體,這個狀態(tài)會隨著時間步驟的推移而變化。然而,我們可能無法直接觀察到這個狀態(tài),而只能觀察到其一些表征。因此,在執(zhí)行決策后,決策和前一個時刻的狀態(tài)將影響下一個時刻的狀態(tài)。這個決策是由某個策略學得的,該策略可能基于觀測來決定采取什么動作。在經典的強化學習中,決策通常被視為自由變量,即由個體自行選擇。

同時,與決策相關的是獎勵(reward)。獎勵可能與狀態(tài)的出現(xiàn)有關,也可能與動作和下一個狀態(tài)的共同作用有關,決定獎勵的是一個 reward 函數(shù)。然而,在面對復雜環(huán)境時,觀測中可能包含與任務關系不大的信息。因此,某些研究考慮將 MDP 中的任務信息對狀態(tài)進行拆分,使其中一部分與獎勵無關,從而使建模更加穩(wěn)定。近期的研究如 ICML 22 中的兩篇相關工作,也在致力于進一步優(yōu)化這個模型。

綜合而言,觀測變量可以分為四類:受決策影響的、不受決策影響的、與獎勵相關的和與獎勵無關的。在強化學習的后續(xù)階段,我們主要關注的是通過決策可以影響的獎勵最大化的部分。然而,我們發(fā)現(xiàn)在先前的分解中,其因果關系的可識別性可能是不足的。

圖片

因此,在我們新的工作中發(fā)現(xiàn),在建模過程中,上述四個方面都是不可或缺的。在這種情況下,能夠實現(xiàn)以塊狀方式可辨識(block-wise identifiable),也就是說,在這種結構下,它才能夠正確地識別這四個變量。識別出來后,就可以在此基礎上進行魯棒的強化學習訓練。

圖片

從實驗中也可以看到,如果能正確地對這四個方面進行分解,在進行接下來的強化學習步驟時,所有方法在沒有噪音的情況下表現(xiàn)都差不多。然而,當引入更多噪音時,它能夠將與獎勵無關且與我們的控制無關的部分分離出來,從而使后續(xù)決策更加精準。

因此,對于 world model,對這些變量進行分解,呈現(xiàn)出變量之間的因果關系是非常必要的。

圖片

前述工作主要是關于因果結構,而后續(xù)可能會朝著 Rubin 的因果性方向發(fā)展。

我們在一些真實環(huán)境中觀察到了因果建模錯誤的現(xiàn)象。例如上圖所示,在與美團的合作中,當為騎手提供更高的價格時,我們預期騎手的效率應該更高。然而,監(jiān)督學習的結果卻截然相反,即價格越高騎手的效率反而降低。這顯然與直覺相悖。

為什么會出現(xiàn)這種情況呢?我們在強化學習中默認假定動作是自由變量,然而實際收集到的數(shù)據(jù)并非如此,動作是根據(jù)策略從狀態(tài)中生成的。因此,如果假設它是自由變量,當我們試圖學習這種關系時,就會將隱含的關系納入學習,導致問題的產生。這與我們經典的辛普森悖論有直接的聯(lián)系。狀態(tài)到動作之間存在多個不同的狀態(tài)到動作映射,分開看時,每個映射都是正確的,但如果將所有數(shù)據(jù)合并來看,就會發(fā)現(xiàn)這是一個錯誤的關系。

圖片

為了解決這一問題,一種經典的方法是分布修正,即通過調整采集到的數(shù)據(jù)分布與目標分布之間的偏移,從一定程度上緩解這一問題。

然而,對于強化學習而言,目標分布實際上是不清楚的,因為我們不知道目標是什么,目標取決于策略,而策略尚未生成。因此,需要考慮對目標策略的最壞情況,希望在任何目標策略的情況下都能夠實現(xiàn)較好的分布修正。

圖片

在進行修正后,我們在六個實際城市中觀察到,綠色線所代表的是監(jiān)督學習提取的關系。在其中五個城市中,關系都是錯的,即騎手薪酬越高其效率越低。而經過修正后,可以觀察到這些線都呈遞增趨勢。因此,修正后的結果能夠更好地輔助我們進行 world model 的建模。

圖片

完成建模后,我們注意到在六個城市中,能夠在決策層面取得更好的效果。在圖中,豎線表示我們引入了新的決策,在兩個不同的城市和區(qū)域之間進行了對比,之前的藍色區(qū)域位于紅綠色區(qū)域下方,但在應用新決策后,藍色區(qū)域移動到了綠色社區(qū)域上方,進一步提高了我們的效率。因此,我們可以觀察到監(jiān)督學習所建立的模型實際上導致了效率的降低。這是基于真實隨機數(shù)據(jù)的實驗結果。收集隨機數(shù)據(jù)是需要成本的,因此在實際業(yè)務中,我們不希望在真實環(huán)境中進行試錯??梢钥吹剑绻褂帽O(jiān)督學習模型,其效果實際上比隨機方法更差。而通過更好的建模,我們能夠獲得比隨機方法更好的效果。因此,因果關系的修正在這個過程中至關重要。

圖片

接下來介紹一個最新的研究工作。雖然在這個工作中我們并沒有直接使用因果學習的技術,但我們考慮的是,如果我們能夠更好地學習 world model,其中是否蘊含了一些迄今尚未被充分發(fā)現(xiàn)的強化學習相關的信息。

圖片

最初我們與淘寶合作,開始應用強化學習時,我們認識到必須能夠成功學習 world model,否則這個任務就無法完成。在這個學習過程中,我們產生了一個思考:為什么我們能夠實現(xiàn)泛化?因為我們總是期望 what model 能夠回答那些不在我們數(shù)據(jù)集中的 what if 問題。那么,有什么原理能夠使我們能夠泛化到這些數(shù)據(jù)之外呢?

以購物場景為例,我們將平臺視為策略,即 agent,而購物的客戶則是我們的環(huán)境。由于 world model 需要包含大量虛擬客戶來進行購物,我們關注的是在我們已經采集數(shù)據(jù)的推薦情況之外,當我們試圖回答那些未見過的數(shù)據(jù)時,系統(tǒng)將如何運作。我們考慮的一個想法是,由于這里涉及到人類,我們可以將其看作是一個 agent。既然它是一個 agent,那么它應該是在最大化某種 reward 的基礎上做出其行為決策的。

換句話說,我們可以將我們的環(huán)境也看作是一個需要通過強化學習來學習的 agent。在購物環(huán)境下,這種觀點可能更加直觀。由于我們的環(huán)境中存在人,我們可以假設這個人背后有 reward,有動機。如果我們直接從數(shù)據(jù)中觀察,我們很難將數(shù)據(jù)泛化到其他場景中。

但是,如果我們能夠學到這個 agent 背后的 reward,那么在面對其他未曾見過的場景時,我們就能夠直接通過最大化這個 reward 來生成消費者行為數(shù)據(jù)。如果這個數(shù)據(jù)符合對該 agent 的假設,那么我們就能夠在未曾見過的場景中生成數(shù)據(jù),從而實現(xiàn)數(shù)據(jù)的泛化。我們將這樣的 reward 稱為 Dynamics reward。

后來我們發(fā)現(xiàn),這個假設不僅對人類有效,對于其他環(huán)境,比如機械環(huán)境,也同樣有效。因此,我們開發(fā)了一項技術,從有限的數(shù)據(jù)中還原 world model 背后的 reward 函數(shù),并使用這個 reward 函數(shù)生成更多數(shù)據(jù)。

圖片

這是一個簡單的場景,通過控制冰箱溫度來調整壓縮機的控制。如果壓縮機增加壓力,溫度就會上升。圖中橫軸表示溫度,縱軸表示壓縮機的控制,顏色表示下一個時刻的溫度。從圖中可以看出,溫度正在下降。圖中的斜對角線代表我們的策略,該策略在采集到的數(shù)據(jù)點上運行,這些數(shù)據(jù)點用小圓圈表示。由于數(shù)據(jù)量有限,當我們嘗試使用監(jiān)督學習從這些數(shù)據(jù)中學習時,它的泛化能力非常有限,只能泛化到深色區(qū)域的一小部分,只有這一小部分是正確的,其他部分則不正確。因此,直接使用數(shù)據(jù)進行學習的泛化能力較差。

當我們從這些數(shù)據(jù)中學習一個 reward model 后,該 reward model 可以為模型評分,即確定哪些地方的 reward 較高,也就是模型在真實環(huán)境中表現(xiàn)良好的地方。通過對比可以看出,監(jiān)督學習的泛化能力只覆蓋了一小部分,而 reward model 學到的 Dynamics reward model 的泛化能力則涵蓋了更大的區(qū)域。因此,泛化能力得到了顯著增強。

對于一個未見過的測試策略,在監(jiān)督學習模型中可能會偏離真實環(huán)境。但是如果使用了 reward model,模型就能夠更緊密地貼合真實環(huán)境。值得一提的是,reward model 與我們在 ChatGPT 的最后一步中看到的用 reward model 修正價值對齊的方法基本相同。因此,在強化學習中,除了學習轉移和計算轉移外,我們還通過逆強化學習學習了一個 Dynamics reward model,并使用該 Dynamic reward model 進行轉移修正,這極大地提高了離線強化學習的性能。

圖片

在默認的 RL 基準測試上,可以看到性能得到了顯著提升。之前的情況下,分數(shù)大致在 60 到 70 之間,而在線強化學習則能夠達到 100 分。我們之前的研究在六個任務中取得了 80 分的成績,而引入 Dynamics reward model 后,性能提升至 83 分,已經達到了性能的天花板,無法繼續(xù)提高。我們已經成功解決了六個任務,這意味著我們的離線強化學習已經達到了與在線強化學習相媲美的水平,已經完成了一半的任務。

在更為困難的新 RL 基準測試中,采樣策略的平均得分為 50 分,之前基本上都無法及格,我們的上一項工作僅達到 60 分,而加入 Dynamics reward model 的修正后,分數(shù)提高到 76 分,并且有三個任務的得分能夠與在線強化學習相匹敵。因此,更好地建模 world model,能夠使整個強化學習的性能顯著提升。

圖片

我們注意到在 CVPR 2023 上已經有一些研討會強調了對 world model 的研究,尤其是特斯拉公司,他們認為構建出的 world model 對于自動駕駛至關重要。當然,這些僅僅是一個起點,我們期望更多的研究人員和學者,特別是從事因果建模的人士,能夠將研究工作與 world model 相結合。感謝大家的關注。

四、問答環(huán)節(jié)

Q1:請問世界模型是否類似于真實世界的數(shù)字孿生?或者在某種程度上兩者之間是不是有一些技術可以共享?

A1:目前數(shù)字孿生僅是一個概念或者期望,我們希望在數(shù)字環(huán)境中創(chuàng)建與真實世界相似的實體。因此,數(shù)字孿生的定義在愿景上是相似的。然而,數(shù)字孿生并未形成獨特的技術體系。特別是,當我們看今天市場上的數(shù)字孿生時,它們幾乎全部轉變?yōu)榭梢暬ぞ?,這與數(shù)字孿生最初的愿景背離甚遠。雖然數(shù)字孿生方向有其潛力,但目前實際上并未產生出全新的技術。因此,我們仍然認為從數(shù)據(jù)學習,特別是學習 world model,并運用因果關系進行這些工作,才是真正值得追求的方向。這僅代表個人觀點。

Q2:分享中提到因果推斷與 world model 之間的相互賦能,可否分享一些這方面的啟示。

A2:在建模時,World Model 表現(xiàn)為高度非線性,幾乎沒有線性情況。我們特別期望非線性因果建模和因果推斷的技術能夠得到良好的發(fā)展,并成功應用于 World Model。此外,在強化學習領域,我們渴望將因果推斷技術應用于探索建模以及整個學習過程。目前,強化學習中的探索大多是隨機的,效率較低。但如果引入因果推斷,系統(tǒng)將能夠理解應該在哪些方面進行探索,從而提高效率。因此,我們希望在強化學習中充分結合因果推斷,盡管目前結合兩者的研究相對較少。強化學習研究涉及領域廣泛,而因果推斷的應用相對有限,這可能是由于這一結合難度較大。因此,在這個方向上的堅持可能需要大家的共同努力。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2022-09-04 14:38:00

世界模型建模IRIS

2023-11-23 07:41:54

因果推斷大模型

2022-06-25 21:38:36

AI模型

2022-05-31 10:45:01

深度學習防御

2022-12-21 17:27:30

強化學習AI

2024-09-29 09:22:00

2023-01-04 10:02:53

強化學習自動駕駛

2023-08-28 06:52:29

2022-10-14 16:48:40

因果推斷數(shù)據(jù)預處理特征設計

2024-02-05 08:41:08

因果推斷快手短視頻應用

2024-04-12 07:40:37

因果推斷推薦模型推薦系統(tǒng)

2024-04-12 08:59:02

強化學習系統(tǒng)人工智能擴散模型

2017-08-17 09:15:23

強化學習KerasOpenAI

2023-04-06 16:29:18

模型AI

2023-05-04 08:28:30

因果推斷方法算法

2023-12-03 22:08:41

深度學習人工智能

2023-09-21 10:29:01

AI模型

2023-06-02 07:19:56

因果推斷度小滿

2024-11-18 14:35:00

智能體AI

2024-01-30 09:00:28

框架BMRL模型
點贊
收藏

51CTO技術棧公眾號