幾何視角下的大語言模型推理
一、結(jié)論寫在前面
論文標(biāo)題:Reasoning in Large Language Models: A Geometric Perspective
論文鏈接:??https://arxiv.org/pdf/2407.02678??
大語言模型在實(shí)際應(yīng)用中的進(jìn)步關(guān)鍵取決于其推理能力的提升。論文在此介紹了DNN和LLMs幾何學(xué)的一些方面,特別是展示了由MLP利用其分段線性公式引起的輸入空間劃分的重要性。DNN的適應(yīng)性劃分在其逼近能力中起著巨大的作用。事實(shí)上,與傳統(tǒng)的樣條相比,MLP在其輸入空間中引起的區(qū)域是數(shù)據(jù)依賴的,因此是在訓(xùn)練過程中確定的。論文展示了這種逼近與區(qū)域數(shù)量之間的相互作用如何影響LLMs逼近函數(shù)的能力。
論文的分析表明,這些圖的密度定義了輸入到MLP塊的內(nèi)在維度。論文通過理論分析和玩具示例證明,更高的內(nèi)在維度意味著LLM具有更大的表達(dá)能力。論文進(jìn)一步提供了經(jīng)驗(yàn)證據(jù),將這一幾何框架與旨在增強(qiáng)LLMs推理能力的方法的最新進(jìn)展聯(lián)系起來。
?二、論文的簡單介紹
2.1 論文的背景?
大型語言模型(LLMs),如GPT-4 、Llama 3 ,在廣泛的任務(wù)上取得了令人印象深刻的性能。尋找更好的LLMs關(guān)鍵取決于這些模型的推理性能。然而,目前尚不清楚語言模型的哪些方面對于實(shí)現(xiàn)這一目標(biāo)至關(guān)重要。目前,社區(qū)普遍認(rèn)為推進(jìn)推理的方法包括(i)增加模型規(guī)模(更大的模型導(dǎo)致更好的推理能力)和(ii)增加上下文長度,通過思維鏈、檢索增強(qiáng)生成或示例提示等方式,為LLM提供更多的輸入文本或標(biāo)記。
盡管這些方法已經(jīng)足夠,但它們僅代表了改進(jìn)潛力的一部分途徑。此外,更長的輸入和更大的模型對應(yīng)著實(shí)際應(yīng)用場景中計(jì)算成本和推理延遲的增加。在這項(xiàng)工作中,論文采取了一種原則性的方法來理解并闡明大型語言模型(LLMs)的特性,這些特性有助于提升和改善推理能力。論文的研究利用了transformer層的幾何結(jié)構(gòu),這是LLMs的關(guān)鍵組成部分,并通過模擬以及Llama 3系列模型的實(shí)證證據(jù)來支持論文的觀點(diǎn)。
特別地,論文描述了與transformer層容量或表達(dá)能力相關(guān)的關(guān)鍵特性。論文表明,(i)自注意力或多頭注意力(MHA)模塊中token間交互的密度體現(xiàn)了后續(xù)多層感知機(jī)(MLP)層所能實(shí)現(xiàn)的函數(shù)表示復(fù)雜度,以及(ii)模型尺寸和上下文長度的增加促進(jìn)了更高的注意力密度,從而改善了推理能力。論文的分析為提升推理能力、推進(jìn)LLMs發(fā)展開辟了道路,同時(shí)加深了論文對模型及其行為的理解。論文注意到,論文伴隨的工作[11]在此工作中展示了通過LLM幾何視角分析RLHF獲得的毒性防護(hù)機(jī)制的脆弱性。
在這項(xiàng)工作中,論文特別感興趣的是理解LLM的幾何結(jié)構(gòu)與其推理能力之間的關(guān)聯(lián)。此外,論文還在探究增加輸入序列長度以及注意力頭數(shù)量如何影響LLM的幾何結(jié)構(gòu)。事實(shí)上,已有實(shí)證研究表明這些是提升LLMs推理能力的關(guān)鍵因素。
2.2 輸入空間劃分與表達(dá)能力
論文深入探討了支撐深度神經(jīng)網(wǎng)絡(luò)(DNNs)基本方面的一個(gè)幾何直覺:DNN輸入空間的自適應(yīng)劃分。這一過程導(dǎo)致了輸入空間內(nèi)區(qū)域的形成,每個(gè)區(qū)域都與一個(gè)仿射映射相關(guān)聯(lián),該映射描述了網(wǎng)絡(luò)如何處理該區(qū)域的輸入。然后,論文利用這一觀點(diǎn)與轉(zhuǎn)換器模塊中的多頭注意力(MHA)層相結(jié)合,為LLMs開發(fā)了一種新穎的幾何視角。這一視角使論文能夠假設(shè)模型大小和上下文長度在現(xiàn)代LLMs中的作用,并提出了一條通向改進(jìn)推理能力的替代思想的路徑。
2.2.1 深度神經(jīng)網(wǎng)絡(luò)
論文描述深度神經(jīng)網(wǎng)絡(luò)的連續(xù)分段仿射形式化,以闡明其誘導(dǎo)的局部線性映射概念。特別地,論文聚焦于從樣條幾何視角出發(fā),通常用于變換器中的單隱藏層多層感知器(MLP)的簡單情況。隨后,論文通過模擬實(shí)驗(yàn)直觀展示其逼近能力,強(qiáng)調(diào)自適應(yīng)分區(qū)特性的重要性以及輸入空間維度的作用。
深度神經(jīng)網(wǎng)絡(luò)的連續(xù)分段仿射形式化:采用非線性激活函數(shù)(如((leaky-)ReLU、絕對值和最大池化)的MLP的幾何特性已從連續(xù)分段線性算子的角度得到廣泛研究,導(dǎo)致輸入空間的分區(qū)。因此,定義為帶有參數(shù)Θ的f的DNN可以重寫為
分區(qū)、區(qū)域數(shù)量與函數(shù)逼近:對于輸入空間中的給定區(qū)間,DNN的逼近能力與該區(qū)間內(nèi)的區(qū)域數(shù)量及其相關(guān)映射直接成正比。根據(jù)公式1中定義的DNN連續(xù)分段仿射特性,考慮兩種可能的逼近場景:(1)目標(biāo)函數(shù)在給定區(qū)間內(nèi)是線性的,此時(shí)單一區(qū)域已足夠;
圖1:MLP的連續(xù)分段仿射視圖。使用標(biāo)準(zhǔn)偏置(左)和零偏置(右)隨機(jī)初始化的一隱藏層MLP所誘導(dǎo)的輸入空間劃分的二維可視化
為了近似目標(biāo)函數(shù),DNN可能需要:(i)在區(qū)間內(nèi)函數(shù)是線性的,此時(shí)DNN僅需要調(diào)整其斜率和偏置;或者(ii)在區(qū)間內(nèi)函數(shù)是非線性的,此時(shí)DNN需要多個(gè)區(qū)域來近似目標(biāo)函數(shù)的曲率;區(qū)間內(nèi)區(qū)域越多,函數(shù)近似效果越好。
在圖2中,論文驗(yàn)證了上述說法,并在DNN中展示了這種現(xiàn)象的可視化。待近似的目標(biāo)函數(shù)是一個(gè)簡單的正弦函數(shù),輸入空間為[-2π, 2π]。首先,神經(jīng)元數(shù)量越多,近似能力越強(qiáng)。特別是,只要有足夠的區(qū)域,DNN可以在輸入空間內(nèi)近似任意復(fù)雜的函數(shù)。理論上,論文知道具有無限數(shù)量神經(jīng)元的DNN是通用近似器,而幾何視圖提供了同一理論的不同視角。其次,每個(gè)區(qū)間內(nèi)的近似誤差與該區(qū)間內(nèi)DNN可用的區(qū)域數(shù)量直接成正比。最后,這些區(qū)域的定位是數(shù)據(jù)驅(qū)動(dòng)的,盡管架構(gòu)變化會(huì)引入偏置,DNN可以根據(jù)訓(xùn)練數(shù)據(jù)的均勻性和大小在其輸入空間中增加或減少分區(qū),以適應(yīng)更多的曲率。
圖2:DNN近似與誘導(dǎo)的輸入空間區(qū)域數(shù)量。一個(gè)MLP對正弦函數(shù)的真實(shí)值與近似(頂部),該MLP在其輸入空間中誘導(dǎo)的關(guān)聯(lián)區(qū)域數(shù)量(中部),以及近似誤差(底部)。論文展示了具有50個(gè)神經(jīng)元的1隱藏層MLP(左側(cè))和具有500個(gè)神經(jīng)元的MLP(右側(cè))的結(jié)果。論文注意到,模型在DNN引入新區(qū)域時(shí)脫離其線性行為,每當(dāng)MLP映射中發(fā)生方向變化時(shí)都會(huì)引入新區(qū)域。隨后,根據(jù)公式1,論文為模型創(chuàng)建的每個(gè)新區(qū)域獲得一個(gè)新的仿射映射,在區(qū)域數(shù)量較多的空間中進(jìn)行更精細(xì)的近似,如具有500個(gè)神經(jīng)元的更寬MLP所示。DNN的關(guān)鍵優(yōu)勢在于它們能夠適應(yīng)這些區(qū)域的定位并學(xué)習(xí)數(shù)據(jù)驅(qū)動(dòng)的分區(qū)
增加神經(jīng)元數(shù)量會(huì)增加區(qū)域數(shù)量,因此DNN的近似能力確實(shí)會(huì)提高。論文現(xiàn)在的問題是,是否存在另一種方法可以在不影響架構(gòu)的情況下增加DNN的容量。特別是,論文研究了區(qū)域數(shù)量與輸入空間的內(nèi)在維度之間的相互作用。在圖3中,論文展示了不同大小的1隱藏層MLP,區(qū)域數(shù)量隨內(nèi)在維度呈指數(shù)級增長。
接下來論文將利用MLP的幾何特性,即近似、表達(dá)能力和維度,結(jié)合多頭注意力層來理解LLMs中transformer模塊的幾何結(jié)構(gòu)。特別是,論文提出了一個(gè)通過這些幾何概念理解LLMs的框架,從理論和實(shí)證兩個(gè)角度出發(fā)。
結(jié)合多頭部注意力層,以理解大型語言模型(LLMs)的幾何結(jié)構(gòu)。特別是,論文提出一個(gè)框架,通過這些幾何特征來理解LLMs。圖3展示了區(qū)域數(shù)量隨輸入維度變化的上限,涉及1個(gè)隱藏層的多層感知機(jī)(MLP)在輸入空間內(nèi)在維度上的影響(50、100和500個(gè)神經(jīng)元)。論文觀察到,增加輸入空間的內(nèi)在維度會(huì)增加區(qū)域數(shù)量。因此,對于給定數(shù)量的神經(jīng)元,可以通過增加輸入空間的內(nèi)在維度來人為增加區(qū)域數(shù)量。這對于理解為何通過多示例或思維鏈(CoT)增加提示規(guī)模能提升LLMs的推理能力是一個(gè)關(guān)鍵組成部分。這將成為第2.2小節(jié)以及第3節(jié)的核心要點(diǎn)。
2.2.2 大語言模型
這里論文將解釋LLM的架構(gòu)組件及其變體,這些變體有助于提升LLMs的表達(dá)能力。具體而言,論文將研究LLM誘導(dǎo)的分區(qū)對增加注意力頭數(shù)量以及上下文長度(作為輸入傳遞的token序列)的影響。為此,論文將利用[11]中的結(jié)果,表明隨著自注意力層內(nèi)在維度的增加,LLM的表達(dá)能力也隨之增強(qiáng)。
內(nèi)在維度與多頭注意力圖密度:論文從定義因果語言模型中的transformer層開始,引入以下符號
從公式6可以看出,注意力層的輸出是一個(gè)右隨機(jī)矩陣,它定義了一個(gè)圖,其中圖的節(jié)點(diǎn)是序列中的標(biāo)記,邊(權(quán)重)由注意力值定義。在表示圖的連通性水平時(shí),論文通常會(huì)提到自注意力圖的密度,即有邊的標(biāo)記數(shù)量。
在定理2.1中,論文明確地捕捉了如公式5所定義的多頭注意力層的輸出與每個(gè)單獨(dú)注意力層所誘導(dǎo)的維度之和驅(qū)動(dòng)的內(nèi)在維度之間的關(guān)系。
從公式 7 可以看出,內(nèi)在維度可以通過以下兩種方式增加:(i)強(qiáng)化高度連接的注意力圖,或(ii)增加更多的注意力頭。接下來,論文將利用這一特性,并將其與大型語言模型(LLMs)的表達(dá)能力聯(lián)系起來。
內(nèi)蘊(yùn)維度 (Intrinsic Dimension,ID): 嵌入空間的內(nèi)蘊(yùn)維度指的是在保持其結(jié)構(gòu)不變的情況下,描述該空間所需的最少參數(shù)數(shù)量 。內(nèi)蘊(yùn)維度估計(jì)方法通常依賴于構(gòu)建基于相似性的圖。然而,在大型語言模型 (LLMs) 中,相似性圖以注意力值的形式直接可用。論文定義了一個(gè)軟性的內(nèi)蘊(yùn)維度概念,等同于定理 2.1 中的定義,即:
直觀上,ID是指在定義第i^th 嵌入時(shí),超過閾值的影響力token的數(shù)量。在實(shí)踐中,論文根據(jù)多個(gè)示例中注意力值的統(tǒng)計(jì)和分布來設(shè)置閾值(所有實(shí)驗(yàn)中均采用 O.1)。
LLM 表達(dá)能力與內(nèi)蘊(yùn)維度:定理 2.1 具有重要意義,特別是圖 3 時(shí)。論文證明了:(i) 區(qū)域數(shù)量越多,DNN 的近似能力越強(qiáng);(ii) 區(qū)域數(shù)量可以通過增加 MLP 輸入的內(nèi)蘊(yùn)維度,而不僅僅是增加神經(jīng)元數(shù)量來增加。
從公式 2 到公式 5 以及定理 2.1 描述的 transformer 架構(gòu)中,論文還知道 MLP 輸入的內(nèi)蘊(yùn)維度受注意力圖驅(qū)動(dòng)。因此,注意力圖的密度越高,MLP 誘導(dǎo)的區(qū)域數(shù)量越多,從而其表達(dá)能力越強(qiáng)。
現(xiàn)在可以明確的是,通過以下兩種方式可以增強(qiáng)大型語言模型(LLM)的表達(dá)能力:(i)根據(jù)方程7的加性特性增加頭數(shù),(ii)進(jìn)行提示修改以增加注意力圖的密度。需要注意的是,這兩種方法在過去幾年中在多個(gè)方面已被廣泛采用。
在圖4中,論文提出重新使用論文的正弦函數(shù)玩具示例。具體來說,論文展示了由不同上下文長度和頭數(shù)的MLP引起的區(qū)域數(shù)量。論文考慮一個(gè)單層LLM,即嵌入、自注意,然后是1個(gè)隱藏層MLP。為了將一維時(shí)間維度編碼到更高維空間,論文將嵌入層視為“位置編碼”。具體地,每個(gè)時(shí)間箱t被映射到一個(gè)正弦波,其頻率取決于上下文長度和位置。論文觀察到,輸入空間中由MLP引起的區(qū)域數(shù)量隨著上下文長度和頭數(shù)的增加而增加。與子節(jié)2.1中的MLP示例類似,LLM的能力與區(qū)域數(shù)量相關(guān),即,輸入空間中區(qū)域越密集,近似效果越好。
在圖5中,論文提供了關(guān)于上下文長度和注意力頭數(shù)對MLP引起的區(qū)域數(shù)量的更定量實(shí)驗(yàn)。再次觀察到,為了增加區(qū)域數(shù)量從而提高LLM的近似能力,可以增加自注意力塊中的頭數(shù)或增加上下文長度。
現(xiàn)在可以清楚地看到,這些相關(guān)性是定理2.1以及圖3中展示的超平面排列結(jié)果的共同結(jié)果。也就是說,隨著內(nèi)在維度空間的增加,超平面排列所誘導(dǎo)的區(qū)域數(shù)量呈指數(shù)級增長。在大型語言模型(LLMs)中,論文發(fā)現(xiàn)了這一點(diǎn)。
圖4:LLM近似與誘導(dǎo)的輸入空間區(qū)域數(shù)量 - sin(t)(1000個(gè)時(shí)間區(qū)間)通過一個(gè)1塊LLM的近似,即嵌入 -> 注意力塊(如公式3所示) -> 1隱藏層MLP。論文展示了sin函數(shù)的近似結(jié)果以及MLP在輸入空間中誘導(dǎo)的區(qū)域數(shù)量,針對不同的頭數(shù)和上下文長度:(左上)上下文長度:10,頭數(shù):1,(右上)上下文長度:10,頭數(shù):10,(左下)上下文長度:100,頭數(shù):1,(右下)上下文長度:100,頭數(shù):10。論文觀察到,上下文長度和頭數(shù)均能增加MLP在輸入空間中覆蓋的區(qū)域數(shù)量,從而提升LLM的近似能力。這一結(jié)果與論文的幾何描述相吻合
論文現(xiàn)在提出,利用這種幾何關(guān)系作為工具來增強(qiáng)LLM的表達(dá)能力,可以提高其推理能力。
2.3 實(shí)驗(yàn):增強(qiáng)LLM的表達(dá)能力確實(shí)提高了其推理能力
論文通過前述的幾何分析視角,探討LMs回答推理問題的能力。具體來說,論文探討MLP誘導(dǎo)的區(qū)域數(shù)量增加如何導(dǎo)致更好的推理能力。事實(shí)上,近似能力和泛化能力并非等同的概念。然而,尚未確定LLM的推理能力與其泛化能力是否相關(guān)。盡管
圖5:LLM輸入空間區(qū)域 - (左) 描述了LLM輸入空間中由MLP塊引起的區(qū)域數(shù)量,關(guān)于注意力頭數(shù)量和上下文長度的關(guān)系。(右) 放大左圖中的兩行,特別是針對幾個(gè)注意力頭:5、10。論文觀察到,增加注意力頭和上下文長度確實(shí)會(huì)增加區(qū)域數(shù)量,正如前文所述,這會(huì)導(dǎo)致更好的近似性質(zhì)。需要注意的是,盡管改變注意力頭數(shù)量可能繁瑣且需要預(yù)訓(xùn)練或微調(diào),但可以無縫改變上下文長度。因此,有一種方法可以在不與模型權(quán)重交互的情況下提高LLM的近似能力
盡管這些概念仍然難以精確界定,論文將在本實(shí)驗(yàn)部分重點(diǎn)探討內(nèi)在維度,即表達(dá)能力,與推理能力之間的關(guān)系。
論文提出了兩個(gè)實(shí)驗(yàn)來證明它們之間存在有趣的關(guān)聯(lián)。在論文的實(shí)驗(yàn)中,論文使用了GSM8K-Zero數(shù)據(jù)集來評估模型在不同少樣本場景下生成正確答案的性能,從0到10個(gè)樣本不等。具體來說,對于每個(gè)樣本和每個(gè)1到10樣本條件,論文考察了模型在不同層與O樣本基線相比的內(nèi)在維度變化。此外,論文還評估了這些變化如何影響模型響應(yīng)的質(zhì)量。在圖6中報(bào)告的第一個(gè)實(shí)驗(yàn)中,少樣本示例是從GSM8K-Zero訓(xùn)練集中隨機(jī)抽取的問題-答案對。在圖7中報(bào)告的第二個(gè)實(shí)驗(yàn)中,這些少樣本示例是隨機(jī)token。
從這些實(shí)驗(yàn)中,論文得出以下觀察結(jié)果:(i)在當(dāng)前問題前加上任何類型的標(biāo)記確實(shí)會(huì)增加第一層的內(nèi)在維度。事實(shí)上,第一層的注意力圖表現(xiàn)為對標(biāo)記的均勻分布,然而,這種增加并不一定與模型的推理能力相關(guān),正如隨機(jī)標(biāo)記實(shí)驗(yàn)所示(圖7)。(ii)論文觀察到,當(dāng)前置標(biāo)記導(dǎo)致模型最后一層的內(nèi)在維度增加時(shí),大型語言模型(LLM)的推理能力顯著提升。這種提升體現(xiàn)在更高比例的問題被正確回答上。
在圖8中,論文展示了每一層相對于0的1到10次采樣內(nèi)在維度的變化。論文清楚地看到,無論模型的大小如何,最后一層的內(nèi)在維度對于響應(yīng)的正確性具有高度信息量。盡管第一層的內(nèi)在維度在輸出是否正確時(shí)似乎有很大變化,但這種方差過大,以至于不顯著且不可靠。
這些實(shí)驗(yàn)突顯了模型表達(dá)能力與其推理能力之間的關(guān)聯(lián)。如第2節(jié)所述,增強(qiáng)這種表達(dá)能力可以通過增加輸入到MLP塊的維度來實(shí)現(xiàn)。這種關(guān)系表明,更復(fù)雜的輸入有助于提升模型的推理性能。
在LLMs中,向提示中添加上下文可以增加信息密度(ID)(取決于上下文與問題的相關(guān)性),從而增加由多層感知器(MLP)產(chǎn)生的分段仿射映射的數(shù)量。需要注意的是,對于LLM,自我注意力頭輸出的每個(gè)token都由MLP獨(dú)立轉(zhuǎn)換。因此,具有更精細(xì)分區(qū)的MLP將為每個(gè)token提供更自適應(yīng)的仿射映射。從近似的角度考慮,由于token被線性組合以產(chǎn)生它們的預(yù)測,MLP獨(dú)立應(yīng)用于每個(gè)token的近似誤差很容易累積,因此,LLamu3 8B Lama3 70B周圍的劃分越精確,
圖6:推理與內(nèi)在維度增加。關(guān)于相對內(nèi)在維度變化的正確響應(yīng)百分比,即推理或提取,針對Llama3 8B(左)和70B(右)Instruct模型。每個(gè)直方圖上方標(biāo)注了實(shí)際正確響應(yīng)的數(shù)量和每個(gè)區(qū)間關(guān)聯(lián)的示例數(shù)量以供參考。論文將GSM8K-Zero數(shù)據(jù)集中響應(yīng)錯(cuò)誤的輸入基礎(chǔ)提示示例(約300個(gè)樣本)及其前綴變體(使用1到10個(gè)固定的少量示例)作為輸入。對于每個(gè)輸入,論文收集(i)輸入相對于基礎(chǔ)提示的內(nèi)在維度變化,其中內(nèi)在維度在最后一層計(jì)算,以及(ii)LLM生成輸出的正確性。論文通過提示Mixtral 8 x 22B Instruct模型來評估生成的響應(yīng)。論文觀察到,內(nèi)在維度變化越大,從LLM獲得正確響應(yīng)的概率越高
圖7:隨機(jī)標(biāo)記的消融研究。關(guān)于相對ID變化的正確響應(yīng)百分比,即推理或提取,針對Llama3 8B Instruct模型與隨機(jī)(左)和打亂的少量示例文本(右)。與圖6類似,論文將GSM8K-Zero數(shù)據(jù)集中帶有錯(cuò)誤響應(yīng)的輸入基礎(chǔ)提示示例(約300個(gè)樣本)及其通過隨機(jī)采樣標(biāo)記或少量示例中排列文本獲得的預(yù)置變體作為考慮對象。論文觀察到,示例中的ID增加有限(< 60),甚至在隨機(jī)標(biāo)記情況下為負(fù)。因此,獲得正確響應(yīng)的百分比達(dá)到飽和,平均約為40%,這與8B模型和少量示例的情況相似
這些標(biāo)記,預(yù)測中的近似誤差越小。一個(gè)未在此處及大多數(shù)工作中探討的方面是,這些概念如何與LLM的泛化能力(如果有的話)相關(guān)聯(lián)。
在LLM中,將額外上下文納入提示可以增加模型的內(nèi)在維度,特別是當(dāng)上下文與問題緊密相關(guān)時(shí)。這種ID的增加導(dǎo)致由MLP產(chǎn)生的分段仿射映射數(shù)量增加。值得注意的是,在LLM中,由自注意力機(jī)制輸出的每個(gè)標(biāo)記都獨(dú)立地由ML進(jìn)行變換。因此,具有更精細(xì)分區(qū)方案的MLP將對每個(gè)標(biāo)記應(yīng)用更適應(yīng)性的仿射映射。
從近似的角度來看,由于模型的預(yù)測是通過線性組合這些嵌入的token形成的,近似誤差可以在token之間累積。因此,在token周圍進(jìn)行更精細(xì)的分區(qū)可以減少最終預(yù)測中的近似誤差。
這項(xiàng)工作以及大多數(shù)相關(guān)研究中一個(gè)尚未深入探討的有趣方面是,這些對內(nèi)在維度和仿射映射分區(qū)的幾何洞察如何與 LLM 的泛化能力相關(guān)聯(lián)。這種聯(lián)系可以為這些模型在各種環(huán)境中的魯棒性和適應(yīng)性提供有價(jià)值的見解。
本文轉(zhuǎn)載自 ??AI帝國??,作者: 無影寺
