Porque é que a memória do sistema continua a ser importante nas construções de servidores GPU

Índice

A GPU recebe os aplausos. A RAM leva a culpa.

Comece pela memória RAM.

Eu sei que isso parece retrógrado num mercado em que os compradores se gabam dos H100s, H200s, B200s, NVLink, rendimento FP8 e 400GbE fabric, mas a verdade operacional feia é que o planeamento da memória do servidor GPU ainda começa com o subsistema de memória do lado da CPU, porque os dados têm de ser preparados, descodificados, colocados em cache, fixados, transferidos, programados e recuperados antes de esses aceleradores dispendiosos fazerem um trabalho útil. Por que alguém gastaria seis dígitos em GPUs e depois trataria a memória do sistema como uma reflexão tardia?

A própria NVIDIA Documentação do DGX H100/H200 faz a afirmação sem dramas: a configuração H100 lista 640 GB de memória GPU, a configuração H200 lista 1.128 GB de memória GPU e o mesmo sistema ainda transporta 2 TB de memória de sistema utilizando 32 DIMMs. Isto não é decoração. É arquitetura.

Eis a minha leitura direta: CPU RAM vs GPU VRAM não é uma rivalidade. É um pipeline. A VRAM contém os tensores quentes, os fragmentos de modelos, a cache KV, os embeddings, as activações e os dados de trabalho de alta velocidade. A RAM do sistema lida com o mundo confuso em torno desse trabalho: dataloaders, filas de pré-processamento, buffers de host, serviços do sistema operacional, contêineres, agentes de registro, metadados de armazenamento, recuperação de trabalho com falha e as partes do treinamento distribuído que se recusam a caber em um slide de benchmark limpo.

Por isso, quando alguém pergunta “de quanta RAM precisa um servidor GPU?” Eu não começo com um número genérico. Pergunto o que a máquina está a fazer às 2h17 da manhã, quando o modelo está a fazer checkpointing, a camada de armazenamento está a tossir, o Kubernetes sobrecarregou o nó e oito GPUs estão à espera num estrangulamento do lado do anfitrião.

O mito caro: “As GPUs têm memória, por isso não há problema”

A mentira vende hardware.

A memória do sistema para servidores GPU é importante porque o HBM é rápido, mas local, limitado e caro, enquanto a RAM DDR4 ou DDR5 conectada à CPU é a área de preparação mais ampla que evita que a movimentação de dados, o isolamento de processos e a orquestração de cargas de trabalho se desfaçam durante o uso real na produção.

O mercado está a tornar isto mais difícil, não mais fácil. Stanford HAI's Relatório do Índice de IA 2025 diz que a computação de treino para modelos de IA notáveis está a duplicar a cada cinco meses, enquanto o tamanho dos conjuntos de dados está a duplicar a cada oito meses. Isso deve assustar qualquer pessoa que esteja a dimensionar os requisitos de RAM do servidor de IA a partir de uma folha de cálculo reciclada.

E este não é apenas um problema do laboratório de IA. O Departamento de Energia dos EUA informou que o crescimento da carga dos centros de dados triplicou na última década e prevê-se que duplique ou triplique até 2028, com base no trabalho do Laboratório Nacional Lawrence Berkeley. O Berkeley Lab também informou que os centros de dados dos EUA consumiram cerca de 4,4% do total de eletricidade dos EUA em 2023 e poderiam atingir 6,7% a 12% até 2028, dependendo do crescimento mais amplo da procura. Libertação de energia do centro de dados do DOE e Resumo do Berkeley Lab ambos apontam na mesma direção: as infra-estruturas aceleradas estão a transformar-se em infra-estruturas industriais.

E as infra-estruturas industriais punem a matemática da memória desleixada.

Se estiver a construir em torno de plataformas mais recentes, é aqui que Memória de servidor DDR5 começa a fazer sentido: plataformas de geração superior, maior densidade de DIMM, canais de memória de CPU modernos e melhor alinhamento com os actuais ciclos de construção de servidores de IA. Para frotas legadas estáveis, Memória de servidor DDR4 ainda tem um papel muito importante, especialmente quando a plataforma já está validada e a carga de trabalho não justifica uma atualização completa do nó.

Onde a memória do servidor GPU realmente quebra

A maioria das más construções de servidores GPU não falham de forma espetacular. Elas falham.

Eles aparecem como utilização de GPU 52% em hardware que se espera que funcione a 85%. Aparecem como paragens do carregador de dados, atividade de troca, desequilíbrio NUMA, comportamento ruidoso do contentor vizinho, atrasos nos pontos de verificação e trabalhos de formação “aleatórios” que funcionam bem à terça-feira e se arrastam à sexta-feira.

O quadro que se segue é a versão que eu apresentaria a um comprador de infra-estruturas cético.

Padrão de carga de trabalho	O que quebra primeiro	Porque é que a RAM do sistema é importante	Nota de aquisição
Afinação LLM em 4-8 GPUs	Carregador de dados e pressão do ponto de controlo	A RAM do anfitrião armazena dados tokenizados, memória fixada, registos e estados de recuperação	Não dimensionar apenas em relação à VRAM da GPU; deixar espaço para a orquestração
RAG / canal de incorporação	Pré-processamento da CPU e preparação de lotes de vectores	A análise de texto, a fragmentação, os metadados e as filas de lotes atingem a RAM antes da execução da GPU	A capacidade da memória pode ser mais importante do que a velocidade máxima do DIMM
Inferência de vários inquilinos	Expansão de contentores e sobrecarga do anfitrião	Cada pilha de serviços consome RAM fora da VRAM, especialmente com agentes de monitorização	O excesso de compromisso parece rentável até a latência aumentar
Formação em visão computacional	Pipeline de descodificação e aumento de imagem	A RAM da CPU absorve os fotogramas descodificados e as transformações antes da transferência	GPUs rápidas expõem rapidamente o fraco planeamento da memória do anfitrião
Simulação HPC com aceleração GPU	NUMA e desequilíbrio de sockets	A localidade da memória da CPU afecta a alimentação de dados e o comportamento MPI	Compre a disposição da população, não apenas a etiqueta do DIMM
Nós de IA herdados	Teto da capacidade DDR4	As plataformas mais antigas podem ainda ser úteis se a memória for correspondida e validada	A RAM mista barata pode custar mais do que os módulos de substituição aprovados

Há um hábito desagradável de aquisição que vejo com demasiada frequência: os compradores ficam obcecados com a contagem de GPU e depois pedem “qualquer stick de 64 GB que esteja disponível”. Mas a memória de servidor não é RAM de retalho com um autocolante diferente. ECC, RDIMM, LRDIMM, estrutura de classificação, grau de velocidade, tensão, suporte de BIOS e ordem de população são importantes.

É por isso que eu mandaria qualquer comprador sério a um teste de qualidade da memória do servidor e processo de garantia antes de os deixar discutir sobre pequenas diferenças de preço unitário. A própria página de qualidade da ServerDIMM dá ênfase à análise da compatibilidade, às verificações da geração DDR4/DDR5, à validação ECC RDIMM ou LRDIMM, à análise do número de peça e ao rastreio antes da expedição. Este é o trabalho aborrecido que evita falhas dispendiosas.

Capacidade não é o mesmo que largura de banda

Mais memória RAM ajuda.

Mas se os DIMMs estiverem nas ranhuras erradas, ou espalhados de forma desigual pelas tomadas da CPU, ou misturados em estruturas de classificação não suportadas, então a capacidade torna-se um cobertor de conforto. Parece bom numa ordem de compra, mas tem um mau desempenho sob carga.

Gosto da frase do ServerDIMM sobre memória ordem da população: comprar o esquema, não o módulo. É exatamente assim que o trabalho do guia de construção de servidores GPU deve ser feito. Um objetivo de memória de 2 TB não é um item de linha. É simetria de soquete, preenchimento de canal, tipo de DIMM, comportamento de classificação, velocidade suportada e validação de plataforma.

O relatório da Agência Internacional da Energia Análise da energia e da IA prevê que o consumo global de eletricidade dos centros de dados atinja cerca de 945 TWh até 2030 no seu cenário de base, com o consumo acelerado de eletricidade dos servidores a crescer cerca de 30% anualmente. Este número deve mudar a forma como falamos sobre a construção de servidores: a utilização desperdiçada de GPU não é apenas um problema de desempenho; é um problema de energia, arrefecimento, densidade de bastidor e eficiência de capital.

Aqui está a parte que os vendedores não gostam de dizer em voz alta: um servidor GPU com aceleradores sub-alimentados não está “quase optimizado”. É um vazamento financeiro com ventiladores.

A minha regra prática para os requisitos de RAM do servidor de IA

Não confio em fórmulas universais.

Ainda assim, quando tenho de verificar rapidamente os requisitos de RAM do servidor GPU, utilizo os rácios como argumento de partida, não como design final. Para muitos nós de treinamento e inferência de IA, quero memória de sistema suficiente para cobrir a sobrecarga do sistema operacional, a sobrecarga do contêiner, o carregamento de dados, o pré-processamento, a memória fixada, a preparação de lotes, a telemetria, o ponto de verificação e a sobreposição de trabalho no pior dos casos. Em muitas construções reais, isso significa que a RAM da CPU pode facilmente exceder a VRAM total da GPU, às vezes por uma grande margem.

Para um servidor da classe H100 de 8 GPUs com 640 GB de memória total da GPU, um plano de RAM do sistema de 1 TB pode ser defensável para inferência controlada ou cargas de trabalho restritas. Mas para uma infraestrutura de IA de uso misto, com muitos treinamentos, vários locatários e preparação de dados, 2 TB não é extravagante. Muitas vezes, é o número adulto.

E sim, é aqui que a aquisição se torna política.

As Finanças perguntam por que razão o orçamento da RAM está a subir. A equipa de infra-estruturas diz “estabilidade”. A equipa de IA diz “taxa de transferência”. O revendedor diz “podemos poupar dinheiro com lotes mistos”. Depois, alguém abre o guia do fornecedor e percebe que RDIMM e LRDIMM não são pulseiras da amizade.

Antes de misturar qualquer coisa, leia um guia de compatibilidade sóbrio como É possível misturar a RAM do servidor?. A versão curta: por vezes, mas apenas dentro das regras da plataforma. Mesma geração DDR. O mesmo tipo de DIMM suportado. Comportamento ECC correto. Ordem correta de população. Simetria correta do soquete da CPU. Comportamento correto de classificação e velocidade. Caso contrário, não está a poupar dinheiro; está a comprar incerteza.

DDR4, DDR5, ECC RDIMM e as peças chatas que salvam a construção

As decisões sobre a melhor RAM para a construção de um servidor GPU resumem-se normalmente a quatro questões:

A plataforma é DDR4 ou DDR5?

É necessário ECC RDIMM, LRDIMM ou outro tipo de módulo aprovado?

Que capacidade total é necessária por nó, por socket e por GPU?

O fornecedor pode fornecer números de peças consistentes, inventário testado e documentação antes da implementação?

Esta última questão é mais importante do que muitos compradores admitem. A fornecedor de RAM para servidor a granel O foco no fornecimento de DDR3, DDR4, DDR5, ECC, RDIMM e LRDIMM não é apenas vender capacidade. O valor está no fornecimento repetível: marcas conhecidas, inventário testado, análise de compatibilidade e um processo de cotação que solicita o modelo do servidor, a capacidade pretendida, o tipo de módulo, a quantidade e o destino antes de fingir que tudo é simples.

Para os nós de IA actuais, normalmente, eu olharia primeiro para as opções DDR5 RDIMM, como os módulos de 64 GB, 96 GB e 128 GB, e depois validaria o suporte da plataforma. DIMMs de servidor RAM de servidor Micron 96GB DDR5 5600 2Rx4 A listagem é um exemplo útil do nível de pormenor com que os compradores sérios se devem preocupar: capacidade, geração, configuração da classificação, grau de velocidade, MPN e aplicação.

O rótulo é importante.

Um RDIMM DDR5-5600 2Rx4 de 96 GB não é permutável com um módulo aleatório de 96 GB retirado de outra plataforma só porque a capacidade é igual. Nos servidores GPU, pequenos erros de compatibilidade criam um grande ruído operacional.

A dura verdade: a utilização da GPU é uma história de memória

Os executivos querem gráficos de utilização de GPU porque são fáceis de entender. Linha verde para cima, bom. Linha verde para baixo, mau.

Mas a linha verde está frequentemente a jusante da disciplina de memória do host. Se a camada de memória do lado da CPU não puder alimentar lotes, manter o pré-processamento antes do treinamento, manter a pressão do cache e absorver a sobrecarga da orquestração, as GPUs esperam. Elas não reclamam. Elas apenas ficam sentadas queimando a cara energia do rack enquanto os dashboards ficam deitados educadamente.

É por isso que não gosto do dimensionamento preguiçoso da memória do servidor GPU. Ele trata a RAM do sistema como um ator de suporte quando na verdade faz parte do plano de dados. Numa construção séria de um servidor de IA, os estrangulamentos de memória em servidores GPU merecem a mesma atenção que a SKU da GPU, a geração PCIe, a topologia NVLink, a velocidade da NIC, a disposição do armazenamento e o envelope de arrefecimento.

Aqui está a versão opinativa: se o orçamento da GPU é sagrado, mas o orçamento da RAM é negociável, o processo de construção já está quebrado.

FAQs

De quanta RAM precisa um servidor GPU?

Um servidor de GPU precisa de RAM de sistema suficiente para suportar o sistema operacional, contêineres, dataloaders, pré-processamento, memória fixada, checkpointing, agentes de monitoramento e trabalhos simultâneos sem trocar ou deixar os aceleradores em falta, o que geralmente significa dimensionar a RAM da CPU a partir do comportamento da carga de trabalho em vez de copiar uma regra de capacidade fixa. Para inferência leve, 512GB a 1TB podem funcionar. Para nós com 8 GPUs para treinamento pesado, 1TB a 2TB é geralmente mais realista.

Qual é a diferença entre a RAM da CPU e a VRAM da GPU?

A RAM da CPU é a memória do sistema de uso geral do servidor para processos de host, preparação de dados, orquestração, pré-processamento e atividade do sistema operacional, enquanto a VRAM ou HBM da GPU é a memória local do acelerador usada para execução de modelos de alta velocidade, tensores, ativações, cache KV e cargas de trabalho residentes na GPU. Na prática, eles trabalham juntos. A VRAM executa o hot path; a RAM do sistema evita que o resto da máquina deixe esse caminho passar fome.

A DDR5 é sempre melhor do que a DDR4 para servidores GPU?

A DDR5 é melhor para servidores GPU quando a plataforma a suporta, a carga de trabalho beneficia de uma maior largura de banda ou de opções de densidade mais recentes e o plano de aquisição pode validar o tipo de módulo, a capacidade, a velocidade, a estrutura de classificação e a disposição da população sem criar riscos de suporte. A DDR4 ainda pode ser a resposta certa para frotas validadas mais antigas. O módulo DDR5 errado é pior do que o módulo DDR4 certo.

Posso misturar RAM de servidor numa compilação de servidor GPU?

A RAM de servidor só pode ser misturada quando a plataforma do servidor suporta explicitamente a combinação exacta de geração DDR, comportamento ECC, tipo RDIMM ou LRDIMM, estrutura de classificação, disposição da capacidade, comportamento de velocidade, simetria de tomada de CPU e ordem de população DIMM utilizada na configuração final. Tratar a mistura como uma exceção. Em servidores GPU, a mistura de memória sem suporte pode criar falhas de inicialização, downclocking, instabilidade ou comportamento imprevisível da carga de trabalho.

O que causa os estrangulamentos de memória nos servidores GPU?

Os estrangulamentos de memória nos servidores GPU ocorrem quando a capacidade de RAM do lado da CPU, a largura de banda da memória, a colocação NUMA, a população DIMM, o armazenamento em cache, o comportamento do carregador de dados ou o planeamento de transferência do anfitrião para a GPU não conseguem manter os aceleradores continuamente abastecidos com trabalho útil. O sintoma é geralmente a baixa utilização da GPU. A causa geralmente está a montante: pré-processamento fraco, loteamento ruim, RAM insuficiente ou um layout de memória desequilibrado.

Os seus próximos passos: Pare de comprar servidores GPU como folhas de especificações

Não dimensionar a memória do servidor GPU a partir da cópia de marketing.

Auditar a carga de trabalho. Conte as GPUs, mas também os conjuntos de dados, contentores, utilizadores, pontos de verificação, passos de pré-processamento, limites NUMA, canais de memória, ranhuras DIMM e domínios de falha. Em seguida, faça o source da memória de acordo com as regras da plataforma, e não de acordo com o desejo.

Para uma construção real, envie o modelo do servidor, a geração da CPU, a configuração da GPU, a RAM total pretendida, a capacidade DIMM preferida, o requisito DDR4 ou DDR5, a regra ECC RDIMM/LRDIMM e a quantidade pretendida a um fornecedor que possa validar antes do envio. Comece com Caminho de fornecimento de RAM de servidor em massa da ServerDIMM e fazer da memória do sistema uma decisão de conceção e não um item de última hora.

Não se vá embora ainda, fale com a nossa equipa sobre a memória do servidor

Memória de servidor com controlo de qualidade para programas novos e usados