自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI 將 k8s 擴(kuò)展至 7500 個(gè)節(jié)點(diǎn)以支持機(jī)器學(xué)習(xí)

人工智能 機(jī)器學(xué)習(xí)
為了滿足 GPT-3、CLIP 和 DALL+ 等大型模型的需要,以及類似于神經(jīng)語言模型的縮放定律的快速小規(guī)模迭代研究,OpenAI 將基礎(chǔ)設(shè)施 k8s 集群擴(kuò)展到 7500 各節(jié)點(diǎn)。

為了滿足 GPT-3、CLIP 和 DALL+ 等大型模型的需要,以及類似于神經(jīng)語言模型的縮放定律的快速小規(guī)模迭代研究,OpenAI 將基礎(chǔ)設(shè)施 k8s 集群擴(kuò)展到 7500 各節(jié)點(diǎn)。

據(jù)其描述,對(duì)于大型機(jī)器學(xué)習(xí)作業(yè)來說,一個(gè)節(jié)點(diǎn)通常由單個(gè) pod 占據(jù),并且 OpenAI 部署的集群具有二等分帶寬,因此盡管其有許多節(jié)點(diǎn),但是調(diào)度程序的壓力相對(duì)較低,僅在一項(xiàng)新任務(wù)一次性創(chuàng)建數(shù)百個(gè) pod 時(shí)會(huì)有調(diào)度壓力。

除此之外,OpenAI 還詳細(xì)說明了其在擴(kuò)展 k8s 集群時(shí)的重要工作內(nèi)容,比如通過改用基于別名的 IP 尋址來解決大量節(jié)點(diǎn)的聯(lián)網(wǎng)問題,在專用節(jié)點(diǎn)上部署 etcd 和 API 服務(wù)器以分散負(fù)載,定位使用 Prometheus 和 Grafana 收集指標(biāo)時(shí)的 OOM 問題,設(shè)計(jì)對(duì)集群的健康檢查,以及在團(tuán)隊(duì)中合理分配集群資源等。

不過,OpenAI 也指出,在擴(kuò)展 k8s 集群時(shí),目前仍有一些問題要解決,比如大規(guī)模時(shí) Prometheus 的內(nèi)置 TSDB 存儲(chǔ)引擎壓縮速度過慢,并且需要很長的時(shí)間才能重新啟動(dòng) WAL(寫入預(yù)錄),以及擴(kuò)展集群時(shí),由于每個(gè) pod 都會(huì)被計(jì)算為需要一定帶寬而帶來的網(wǎng)絡(luò)帶寬壓力。然而,盡管還有很多地方需要改進(jìn),但 k8s 憑借其出色的擴(kuò)展能力,仍然能滿足其研究需求。

本文轉(zhuǎn)自O(shè)SCHINA

本文標(biāo)題:OpenAI 將 k8s 擴(kuò)展至 7500 個(gè)節(jié)點(diǎn)以支持機(jī)器學(xué)習(xí)

本文地址:https://www.oschina.net/news/127949/openai-scale-k8s-7500

責(zé)任編輯:未麗燕 來源: 開源中國
相關(guān)推薦

2020-12-15 18:56:26

MirantisDockersKubernetes

2020-04-16 09:00:00

機(jī)器學(xué)習(xí)Kubeflow人工智能

2022-04-22 13:32:01

K8s容器引擎架構(gòu)

2023-11-06 07:16:22

WasmK8s模塊

2023-01-04 17:42:22

KubernetesK8s

2020-02-29 15:20:18

K8SKubernetes集群

2023-11-02 08:01:22

2023-09-06 08:12:04

k8s云原生

2020-07-17 17:17:16

Kubernetes宕機(jī)Spring Clou

2022-12-27 14:18:45

K8S命令

2022-02-08 15:59:29

k3sk8sDevOps

2020-05-12 10:20:39

K8s kubernetes中間件

2022-09-05 08:26:29

Kubernetes標(biāo)簽

2024-03-12 15:47:12

Kubernetes容器K8S

2020-06-03 15:56:46

紅帽云原生Quarkus

2012-11-12 10:13:09

2021-05-14 09:00:00

機(jī)器學(xué)習(xí)數(shù)據(jù)集工具

2024-01-07 19:43:50

K8S節(jié)點(diǎn)

2023-08-03 08:36:30

Service服務(wù)架構(gòu)

2023-08-04 08:19:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)