OpenAI 將 k8s 擴(kuò)展至 7500 個(gè)節(jié)點(diǎn)以支持機(jī)器學(xué)習(xí)
為了滿足 GPT-3、CLIP 和 DALL+ 等大型模型的需要,以及類似于神經(jīng)語言模型的縮放定律的快速小規(guī)模迭代研究,OpenAI 將基礎(chǔ)設(shè)施 k8s 集群擴(kuò)展到 7500 各節(jié)點(diǎn)。
據(jù)其描述,對(duì)于大型機(jī)器學(xué)習(xí)作業(yè)來說,一個(gè)節(jié)點(diǎn)通常由單個(gè) pod 占據(jù),并且 OpenAI 部署的集群具有二等分帶寬,因此盡管其有許多節(jié)點(diǎn),但是調(diào)度程序的壓力相對(duì)較低,僅在一項(xiàng)新任務(wù)一次性創(chuàng)建數(shù)百個(gè) pod 時(shí)會(huì)有調(diào)度壓力。
除此之外,OpenAI 還詳細(xì)說明了其在擴(kuò)展 k8s 集群時(shí)的重要工作內(nèi)容,比如通過改用基于別名的 IP 尋址來解決大量節(jié)點(diǎn)的聯(lián)網(wǎng)問題,在專用節(jié)點(diǎn)上部署 etcd 和 API 服務(wù)器以分散負(fù)載,定位使用 Prometheus 和 Grafana 收集指標(biāo)時(shí)的 OOM 問題,設(shè)計(jì)對(duì)集群的健康檢查,以及在團(tuán)隊(duì)中合理分配集群資源等。
不過,OpenAI 也指出,在擴(kuò)展 k8s 集群時(shí),目前仍有一些問題要解決,比如大規(guī)模時(shí) Prometheus 的內(nèi)置 TSDB 存儲(chǔ)引擎壓縮速度過慢,并且需要很長的時(shí)間才能重新啟動(dòng) WAL(寫入預(yù)錄),以及擴(kuò)展集群時(shí),由于每個(gè) pod 都會(huì)被計(jì)算為需要一定帶寬而帶來的網(wǎng)絡(luò)帶寬壓力。然而,盡管還有很多地方需要改進(jìn),但 k8s 憑借其出色的擴(kuò)展能力,仍然能滿足其研究需求。
本文轉(zhuǎn)自O(shè)SCHINA
本文標(biāo)題:OpenAI 將 k8s 擴(kuò)展至 7500 個(gè)節(jié)點(diǎn)以支持機(jī)器學(xué)習(xí)
本文地址:https://www.oschina.net/news/127949/openai-scale-k8s-7500