數(shù)據(jù)中心的未來(lái):利用人工智能的優(yōu)勢(shì)促進(jìn)經(jīng)濟(jì)增長(zhǎng)和創(chuàng)新
當(dāng)流行科幻小說(shuō)描述“機(jī)器智能的崛起”時(shí),它通常伴隨著激光、爆炸,或者在一些溫和的例子中,伴隨著輕微的哲學(xué)恐懼。 但毫無(wú)疑問(wèn),人們對(duì)人工智能 (AI) 和機(jī)器學(xué)習(xí) (ML) 在現(xiàn)實(shí)生活中應(yīng)用的可能性的興趣正在與日俱增,而且新的應(yīng)用程序每天都在涌現(xiàn)。
全球數(shù)百萬(wàn)用戶已經(jīng)使用 ChatGPT、Bard 和其他 AI 界面與 AI 互動(dòng)。 在印度,75% 的辦公桌員工正在使用人工智能工具來(lái)提高生產(chǎn)力。 但這些用戶中的大多數(shù)并沒(méi)有意識(shí)到,他們與好奇的人工智能助手進(jìn)行的舒適桌面交流實(shí)際上是由世界各地的大型數(shù)據(jù)中心驅(qū)動(dòng)的。
企業(yè)正在其數(shù)據(jù)中心內(nèi)投資人工智能集群,構(gòu)建、訓(xùn)練和完善其人工智能模型,以適應(yīng)其業(yè)務(wù)戰(zhàn)略。 這些 AI 核心由機(jī)架上的 GPU(圖形處理單元)組成,這些 GPU 提供了 AI 模型對(duì)其算法進(jìn)行詳盡訓(xùn)練所需的令人難以置信的并行處理能力。
導(dǎo)入數(shù)據(jù)集后,推理人工智能會(huì)分析該數(shù)據(jù)并理解它。 這是根據(jù)對(duì)貓而非狗共有的特征的訓(xùn)練來(lái)確定圖像中是否包含貓或小狗的過(guò)程。 然后,生成人工智能可以處理該數(shù)據(jù)以創(chuàng)建全新的圖像或文本。
正是這種“智能”處理吸引了世界各地的人們、政府和企業(yè)的想象力,但創(chuàng)建有用的人工智能算法需要大量數(shù)據(jù)用于訓(xùn)練目的,這是一個(gè)昂貴且耗電的過(guò)程。
高效培訓(xùn)從這里開(kāi)始
數(shù)據(jù)中心通常維護(hù)離散的人工智能和計(jì)算集群,它們一起處理訓(xùn)練人工智能算法的數(shù)據(jù)。 這些耗電的 GPU 產(chǎn)生的熱量限制了給定機(jī)架空間中可以容納的 GPU 數(shù)量,因此必須優(yōu)化物理布局,以減少熱量并最大限度地減少鏈路延遲。
AI集群需要新的數(shù)據(jù)中心架構(gòu)。 GPU 服務(wù)器需要服務(wù)器之間有更多的連接,但由于功率和熱量限制,每個(gè)機(jī)架的服務(wù)器數(shù)量較少。 這導(dǎo)致我們的機(jī)架間布線比傳統(tǒng)數(shù)據(jù)中心更多,而銅線無(wú)法支持距離上需要 100G 到 400G 的鏈路。
人們普遍認(rèn)為,在訓(xùn)練大規(guī)模人工智能時(shí),大約 30% 的所需時(shí)間消耗在網(wǎng)絡(luò)延遲上,其余 70% 花費(fèi)在計(jì)算時(shí)間上。 由于訓(xùn)練一個(gè)大型模型的成本高達(dá) 1000 萬(wàn)美元,因此這段網(wǎng)絡(luò)時(shí)間是一筆巨大的成本。 即使節(jié)省 50 納秒或 10 米光纖的延遲也很顯著,而且 AI 集群中幾乎所有鏈路都限制在 100 米范圍內(nèi)。
微調(diào)米、納秒和瓦特
運(yùn)營(yíng)商應(yīng)仔細(xì)考慮他們將在人工智能集群中使用哪些光收發(fā)器和光纜,以最大限度地降低成本和功耗。
需要考慮的一些重要要點(diǎn):
? 利用具有并行光纖的收發(fā)器來(lái)避免用于波分復(fù)用的光復(fù)用器和解復(fù)用器的需求
? 收發(fā)器成本節(jié)省遠(yuǎn)遠(yuǎn)抵消了多光纖電纜而非雙工光纖電纜成本的小幅增加
? 單模和多模光纖可支持長(zhǎng)達(dá) 100 米的鏈路。 雖然多模光纖的成本略高于單模光纖,但由于電纜成本主要由 MPO 連接器控制,因此兩種多光纖電纜之間的差異較小
? 此外,高速多模收發(fā)器的功耗比單模收發(fā)器低一到兩瓦。 這看起來(lái)似乎很小,但對(duì)于人工智能集群來(lái)說(shuō),任何節(jié)省電力的機(jī)會(huì)都可以在訓(xùn)練和操作期間帶來(lái)顯著的節(jié)省
收發(fā)器與有源光纜
許多 AI/ML 集群使用有源光纜 (AOC),這是一種兩端帶有集成光發(fā)射器和接收器的光纜,用于互連 GPU 和交換機(jī)。 然而,AOC 中的發(fā)射器和接收器可能與類似收發(fā)器中的相同,但通常是廢棄品。
AOC 發(fā)射器和接收器大多只需要與連接到電纜另一端的特定單元一起操作。 由于安裝人員無(wú)法接觸到光纖連接器,因此不需要清潔和檢查光纖連接器所需的技能。 此外,安裝 AOC 可能是一項(xiàng)耗時(shí)且精細(xì)的操作,因?yàn)樗枰褂眠B接的收發(fā)器來(lái)布線,并且正確安裝帶分線的 AOC 尤其具有挑戰(zhàn)性。
總體而言,AOC 的故障率是同等收發(fā)器的兩倍。 當(dāng) AOC 發(fā)生故障,或者需要升級(jí)網(wǎng)絡(luò)鏈路時(shí),必須通過(guò)網(wǎng)絡(luò)路由新的 AOC,這會(huì)占用計(jì)算時(shí)間。 對(duì)于收發(fā)器,光纖布線是基礎(chǔ)設(shè)施的一部分,并且可以保持幾代數(shù)據(jù)速率。
數(shù)據(jù)中心的人工智能和機(jī)器學(xué)習(xí)時(shí)代
人工智能/機(jī)器學(xué)習(xí)已經(jīng)到來(lái),它只會(huì)成為人們、企業(yè)和設(shè)備相互交互方式中更加重要和集成的一部分。 根據(jù) Salesforce 的一份報(bào)告,大約 95% 的印度 IT 領(lǐng)導(dǎo)者認(rèn)為生成式 AI 模型很快將在他們的組織中發(fā)揮重要作用,這表明需求不斷增長(zhǎng)。
雖然與人工智能服務(wù)的接口實(shí)際上可以在你的手掌中發(fā)生,但它仍然依賴于大規(guī)模的數(shù)據(jù)中心基礎(chǔ)設(shè)施和驅(qū)動(dòng)它的所有動(dòng)力,而快速有效地訓(xùn)練人工智能的企業(yè)將在我們快速變化的超級(jí)互聯(lián)世界中占據(jù)重要地位。仔細(xì)考慮AI集群的布線將有助于節(jié)省成本、電力和安裝時(shí)間。正確的光纖布線將使組織充分受益于人工智能。今天投資于推動(dòng)人工智能培訓(xùn)和運(yùn)營(yíng)的先進(jìn)光纖基礎(chǔ)設(shè)施,明天將帶來(lái)令人難以置信的結(jié)果。