O que acontece quando a memória é desequilibrada em servidores de soquete duplo?

Índice

A mentira que os compradores contam a si próprios: “O servidor vê a RAM, por isso está tudo bem”

O servidor arrancou.

Esta é a frase mais perigosa na aquisição de memória, porque um servidor de tomada dupla pode reconhecer toda a RAM instalada enquanto continua a funcionar com uma péssima configuração de memória de servidor de tomada dupla que reduz silenciosamente a largura de banda, aumenta o tráfego de memória remota e faz com que a latência da aplicação pareça um problema de software.

Então, o que acontece realmente quando a memória é desequilibrada em servidores com dois sockets?

Em linguagem simples: as CPUs deixam de ter acesso igual à memória local, os canais de memória deixam de funcionar com eficiência total, o comportamento NUMA fica confuso e as cargas de trabalho que dependem de latência previsível - SQL Server, hosts de virtualização, nós de análise, sistemas ERP, bancos de dados na memória - começam a pagar um imposto que ninguém vê na fatura.

Já vi equipas culparem o VMware, o Linux, o SQL Server, o firmware da BIOS, o armazenamento e os “DIMMs defeituosos” antes de alguém abrir o mapa do chassis e reparar na verdade: o CPU 1 tem uma topologia de memória, o CPU 2 tem outra e o sistema operativo está a fazer o seu melhor com uma disposição que nunca deveria ter sido enviada.

Não se trata de um pequeno erro. É uma dívida de infra-estruturas com dissipadores de calor.

A Dell diz que a parte tranquila está abertamente na sua Orientação para a configuração da memória do PowerEdge: RDIMMs e LRDIMMs não podem ser misturados, e a configuração de memória entre duas CPUs deve ser idêntica em tamanho e posição. Documento 2024 da Lenovo sobre configurações de memória equilibrada para servidores Intel Xeon de 2 sockets é ainda mais direto no que diz respeito ao desempenho: a memória equilibrada está ligada à largura de banda máxima, enquanto as disposições desequilibradas podem reduzir a largura de banda da memória disponível e criar um comportamento de acesso inconsistente.

E, no entanto, os compradores continuam a encomendar “gigabytes suficientes” em vez da disposição correta.

NUMA não é teoria. É a fatura a vencer.

NUMA significa Non-Uniform Memory Access (Acesso não uniforme à memória). Num servidor com dois sockets, cada socket de CPU tem memória fisicamente mais próxima e quando um núcleo de processador atravessa a ligação entre sockets para aceder à memória ligada à outra CPU, a latência aumenta e a largura de banda disponível pode diminuir.

Isto parece académico até a aplicação começar a respirar fundo.

A própria Intel Guia de desempenho do VTune NUMA define NUMA exatamente desta forma: o acesso à memória local é mais rápido do que o acesso à memória não local, e o software que toca frequentemente na memória remota pode sofrer uma perda de desempenho mensurável. Um estudo de otimização NUMA-aware de 2025 num sistema Intel Xeon Gold 6230R de tomada dupla relatou uma latência de memória local de cerca de 100 ns e uma latência de memória remota de cerca de 150 ns utilizando medições Intel MLC, o que representa um salto de latência de 50% antes de a aplicação ter efectuado uma única transação comercial útil (arXiv Estudo de otimização com consciência NUMA).

Aqui está a dura verdade: o NUMA não perdoa instalações físicas descuidadas.

Se a CPU 1 tiver 384 GB instalados nos seus canais e a CPU 2 tiver 256 GB, o seu sistema operativo ainda pode expor a memória total. O seu painel de controlo pode continuar a sorrir. Sua planilha de compras ainda pode dizer que a atualização foi bem-sucedida. Mas, sob carga, os threads programados em um soquete podem perseguir dados que estão atrás do outro soquete, cruzando o Intel UPI ou o AMD Infinity Fabric, e cada uma dessas viagens remotas adiciona atrito.

Um pequeno atraso. Grande confusão.

Quando esse atraso cai dentro de um buffer pool de banco de dados, heap Java, conjunto de trabalho SAP HANA, processo Redis, buffers compartilhados PostgreSQL, instância do Microsoft SQL Server ou uma pilha de VMs, ele se torna jitter. Nem sempre catastrófico. Pior: intermitente.

E é no desempenho intermitente que os engenheiros seniores perdem os fins-de-semana.

O que é que uma memória desequilibrada quebra de facto

O desequilíbrio de memória em servidores de soquete duplo geralmente cria quatro tipos de danos: desequilíbrio de canal, desequilíbrio de soquete, desequilíbrio de nó NUMA e desequilíbrio de aquisição. O último é o mais comum porque começa antes de o servidor ser tocado.

1. A largura de banda do canal de memória é desperdiçada

As CPUs de servidor modernas são construídas em torno de canais de memória. Os processadores escaláveis Xeon de 4ª e 5ª geração da Intel, por exemplo, usam oito canais de memória por processador nos sistemas cobertos pelo documento da Lenovo sobre memória balanceada. Se os canais forem preenchidos de forma desigual, a CPU não poderá intercalar a memória de forma limpa em todos os canais.

Isto significa que um servidor pode ter um número de capacidade elevado mas um número de largura de banda efectiva inferior.

A Lenovo explica que a intercalação espalha o acesso contíguo à memória por vários canais de memória para aumentar a largura de banda, mas os canais precisam da mesma capacidade de memória para formar conjuntos intercalados limpos. Quando são criados vários conjuntos de intercalação, o desempenho pode depender da região de memória em que a carga de trabalho toca. Essa é uma forma educada de o fornecedor dizer: “O seu benchmark pode parecer bom na segunda-feira e estranho na quinta-feira.”

Prefiro uma formulação mais feia: canais desiguais transformam a RAM cara numa lotaria.

Se está a planear uma atualização com módulos de 32 GB, 64 GB, 96 GB ou 128 GB, não comece pelo preço. Comece pelo mapa de slots. Para plataformas mais antigas, isso pode significar a padronização em Memória de servidor DDR4 em capacidades e níveis correspondentes. Para as plataformas mais recentes, isso pode significar construir em torno de Memória de servidor DDR5 respeitando a contagem de canais, as regras de velocidade e os limites de geração de CPU.

2. O desequilíbrio entre sockets cria uma pressão de memória remota

Numa disposição limpa de tomada dupla, a CPU 1 e a CPU 2 devem geralmente receber capacidade e posição de memória idênticas. Isso não é cosmético. Protege a localidade.

A orientação do PowerEdge da Dell diz que a configuração de memória entre as duas CPUs deve ser idêntica em tamanho e posição. Isso corresponde ao que os bons engenheiros de campo já sabem: se os soquetes não forem espelhados, os nós NUMA deixam de ser cidadãos iguais.

Agora imagine um host de virtualização. Você atribui a uma VM 32 vCPUs e 256 GB de RAM. O hipervisor tenta posicionar a CPU e a memória de forma sensata, mas o host físico tem uma memória por soquete desigual. A VM pode ocupar sockets antes do esperado, tocar na memória remota com mais frequência ou lutar com outras cargas de trabalho pela memória local “boa”.

A documentação do SQL Server da Microsoft também trata o NUMA como uma preocupação de escalonamento de primeira classe. Em Documentação do SQL Server soft-NUMA, A Microsoft explica que cada socket é normalmente representado como um nó NUMA e que o SQL Server divide as estruturas internas e os segmentos de serviço por nó NUMA. No Linux, o Melhores práticas de desempenho do SQL Server também recomendam o uso de afinidade de processo para nós NUMA e CPUs para manter um comportamento de agendamento eficiente.

Assim, quando o NUMA do hardware é confuso, a afinação da base de dados torna-se um controlo de danos.

3. Alguns servidores recusam totalmente a configuração

Nem todas as falhas são subtis. Algumas plataformas simplesmente rejeitam layouts de memória não suportados durante o POST.

Ótimo.

Prefiro ver um servidor recusar-se a arrancar do que aceitar uma má disposição e punir a produção silenciosamente. As máquinas perigosas são aquelas que toleram o erro mas reduzem a velocidade, desactivam a intercalação óptima, lançam avisos SEL ou empurram o administrador para uma zona vaga de “não suportado mas a funcionar”.

Se a sua equipa está a perguntar se pode misturar classificações, marcas, RDIMMs, LRDIMMs, velocidades ou capacidades, comece por verificar a compatibilidade antes de comprar. O guia ServerDimm sobre se é possível misturar a RAM do servidor é uma referência interna útil porque esta questão surge constantemente em conversas reais sobre aquisições. A minha resposta é direta: por vezes, é possível misturar as regras do fornecedor, mas nunca se deve improvisar entre tomadas.

A improvisação pertence ao jazz, não aos mapas de memória de produção.

4. A resolução de problemas torna-se um teatro dispendioso

O equilíbrio da má memória é frequentemente diagnosticado de forma errada.

Os sintomas parecem software: picos de latência de consulta, pausas de VM, resultados de benchmark inconsistentes, reclamações de vizinhos ruidosos, janelas de lote imprevisíveis, largura de banda de memória degradada ou pressão de nó NUMA. Em seguida, a equipa passa horas a recolher registos, a alterar as definições do kernel, a ajustar a memória máxima do SQL Server, a deslocar VMs, a culpar o armazenamento e a abrir bilhetes de fornecedor.

Mas a causa principal é física.

Tenho uma regra simples: antes de ajustar uma aplicação num servidor de socket duplo, verifique a disposição física dos DIMMs, o modo de memória da BIOS, o mapa de nós NUMA, a vista NUMA do sistema operativo e a afinidade da aplicação. Se estes não estiverem alinhados, o ajuste é um teatro.

A verificação da realidade equilibrada vs. desequilibrada

Área	Configuração equilibrada de memória de tomada dupla	Configuração desequilibrada da memória de tomada dupla
Disposição da tomada da CPU	A CPU 1 e a CPU 2 têm a mesma capacidade, posição e classe de módulo	Um soquete tem mais memória, uso de slot diferente ou caraterísticas de DIMM diferentes
Comportamento NUMA	O acesso à memória local é mais fácil de preservar	Risco de acesso NUMA mais remoto sob carga
Canais de memória	Os canais podem ser intercalados de forma mais limpa quando as capacidades coincidem	Alguns canais podem estar subutilizados ou divididos em regiões de intercalação inconsistentes
Largura de banda	Maior probabilidade de atingir a largura de banda de memória prevista	Desempenho inferior ou menos previsível da largura de banda da memória do servidor
Sintomas de aplicação	Latência mais estável para bases de dados, virtualização, análise e computação	Jitter, débito irregular, filas de espera inesperadas, janelas de lote mais lentas
Risco de aquisição	Encomendas repetidas e documentação mais fáceis	Maior risco de incompatibilidade, conversas de RMA mais difíceis, preparação mais confusa
Melhor caso de utilização	Bases de dados de produção, anfitriões de VM, HPC, ERP, analítica, computação adjacente à IA	Caixas de laboratório, testes temporários ou capacidade de emergência apenas - e mesmo assim, documentar

A lição é feia mas útil: capacidade não é configuração.

Um servidor com 768 GB mal instalados pode ser pior para uma carga de trabalho do que 512 GB instalados corretamente, especialmente se a carga de trabalho for sensível à largura de banda em vez de puramente carente de capacidade. É por esta razão que eu incentivo os compradores a adoptarem um fluxo de trabalho que dê prioridade às especificações e não um fluxo de trabalho do tipo “encontrem-me os produtos mais baratos”. Se a equipa de sourcing precisar de fornecimento em massa, a conversa deve começar com o modelo do servidor, a contagem da CPU, a capacidade pretendida por tomada, o tipo de DIMM, a classificação, a velocidade e o mapa de ranhuras - e não apenas o total de GB. DIMMs de servidor fornecimento de RAM para servidor em massa é construída em torno desse tipo de fluxo de aquisição: Fornecimento de DDR3, DDR4, DDR5, ECC, RDIMM e LRDIMM para compradores de empresas e centros de dados.

O padrão de aquisição sujo por trás da maioria dos desequilíbrios de memória

Ninguém admitiu isto na reunião de arranque, por isso vou fazê-lo eu.

Muitos desequilíbrios de memória começam porque alguém tenta “usar o que já temos”. Existem quatro RDIMMs DDR4 de 32 GB sobresselentes num armário, seis módulos de 64 GB de um anfitrião reformado e uma cotação para mais oito sticks que quase coincidem. Quase.

A construção torna-se então um compromisso.

O comprador vê poupanças. O engenheiro vê o risco. O financeiro vê um inventário reutilizado. O servidor vê um problema de topologia.

É aqui que os números das peças são importantes. A classificação é importante. A densidade da DRAM é importante. RDIMM vs. LRDIMM é importante. A velocidade é importante. A geração da CPU é importante. A ordem da população de slots é importante. Se os módulos são Samsung, Micron, SK Hynix ou Kingston não é tudo; as especificações exactas e o suporte da plataforma decidem se o servidor aceita a configuração de forma limpa.

Para os servidores de bases de dados, o erro é ainda mais caro porque a memória não é apenas capacidade. É cache, espaço de trabalho de execução, memória de ordenação, memória de hash, comportamento de columnstore, pressão de tempdb e localidade NUMA agrupados numa linha de orçamento. O artigo do ServerDimm sobre planeamento da capacidade de memória do servidor de bases de dados faz a observação correta: a melhor memória é a RAM de servidor ECC compatível, normalmente RDIMM ou LRDIMM, dependendo da plataforma, dimensionada para a carga de trabalho e instalada numa disposição de canais equilibrada.

Esta frase deveria estar impressa em todos os pedidos de compra.

Como eu faria a auditoria de uma configuração de memória de servidor de soquete duplo

Comece pelo chassis, não pelo painel de instrumentos.

Em primeiro lugar, obtenha o modelo do servidor e o manual de serviço. Confirme a contagem de CPU, os canais de memória por CPU, as ranhuras DIMM por canal, os tipos de DIMM suportados, as velocidades suportadas e as sequências de população válidas. Dell PowerEdge, Lenovo ThinkSystem, HPE ProLiant, Supermicro, Cisco UCS - cada plataforma tem regras e o servidor não se importará com o facto de a aquisição ter um prazo.

Em segundo lugar, mapeie os módulos actuais. Registe a capacidade, velocidade, classificação, número de peça, fabricante, tipo de DIMM e posição da ranhura. Não escreva “64 GB DDR4” e dê por terminado o processo. Isso é preguiça.

Em terceiro lugar, compare a simetria dos soquetes. A CPU 1 e a CPU 2 devem corresponder em termos de capacidade total e colocação de slots para a maioria dos layouts de produção. Se a CPU 1 tiver A1, A2, B1, B2 preenchidos, a CPU 2 não deve ser tratada como uma prateleira de peças sobressalentes.

Em quarto lugar, verifique a visibilidade do SO. No Linux, utilize ferramentas como numactl --hardware, lscpu, dmidecode, e testes de largura de banda de memória, quando apropriado. No Windows Server, verifique a apresentação do nó NUMA, os registos de eventos, os registos de firmware e as mensagens de deteção do motor da base de dados.

Quinto, validar sob carga de trabalho. Os testes sintéticos são úteis, mas não representam toda a verdade. Intel MLC, STREAM, diagnósticos de fornecedores, estatísticas de espera do SQL Server, contadores NUMA do VMware ESXi e dados de latência de aplicativos devem contar a mesma história. Se não contarem, confie primeiro na topologia.

Antes do envio, gostaria também de obter uma validação do lado do fornecedor. O servidorDimm's fluxo de trabalho dos testes de qualidade e da garantia é relevante neste caso porque as falhas de memória não têm apenas a ver com DIMMs mortos; têm também a ver com módulos de geração incorrecta, classe de DIMM incorrecta, números de peça pouco claros e incompatibilidade de configuração.

Quando é que uma memória desequilibrada é aceitável?

Quase nunca em produção.

Sim, há excepções. Um servidor de laboratório. Uma caixa de restauração temporária. Um host de migração de uma semana. Um servidor de ficheiros não crítico com pouca pressão de memória. Um ambiente de teste em que o objetivo é apenas inicializar o firmware e validar um periférico.

Mas se o servidor executar SQL Server, Oracle, PostgreSQL, VMware, Hyper-V, KVM, SAP, Redis, Elasticsearch, ClickHouse, Spark, trabalhos de suporte de inferência de IA, renderização CAD ou cargas de trabalho HPC, o desequilíbrio não é “suficientemente bom”. É um incidente futuro com uma melhor gestão de cabos.

E não, comprar DIMMs mais rápidos não resolve automaticamente o problema. Se os seus canais forem desiguais ou os seus soquetes forem incompatíveis, a classificação de velocidade torna-se um ruído de marketing. DDR5-5600 mal instalado continua a ser mal instalado. Um DDR5 RDIMM de 96 GB pode ser uma escolha inteligente de densidade, mas apenas quando a plataforma o suporta e o layout permanece equilibrado. Um LRDIMM de 128 GB pode resolver a pressão das ranhuras, mas não se alguém o misturar com RDIMM porque “ambos cabem”.”

Eles adaptam-se. Depois falham.

FAQs

O que acontece quando a memória está desequilibrada nos servidores de tomada dupla?

O desequilíbrio de memória em servidores de tomada dupla significa que as duas tomadas de CPU ou canais de memória não recebem capacidade, colocação ou caraterísticas de módulo DIMM equivalentes, causando largura de banda reduzida, acesso NUMA remoto mais elevado, latência menos previsível e possíveis avisos de arranque ou de firmware, dependendo das regras de população da plataforma.

Na prática, o servidor ainda pode inicializar e mostrar o total de RAM esperado, mas as cargas de trabalho podem sofrer com o acesso inconsistente à memória. Bases de dados, hipervisores, trabalhos de análise e aplicações na memória são os primeiros locais onde eu procuraria sintomas.

O que é o desequilíbrio de memória NUMA?

O desequilíbrio de memória NUMA é uma condição em que a capacidade de memória ou a colocação de memória de carga de trabalho é desigual entre os nós NUMA, forçando os processadores a acederem à memória remota com mais frequência em vez de utilizarem a memória local ligada à mesma tomada de CPU, o que pode aumentar a latência e reduzir o débito efetivo.

Em um servidor de soquete duplo, cada soquete é normalmente exposto como um nó NUMA. Se um socket tiver mais memória local utilizável do que o outro, o agendador e a aplicação podem enfrentar pools de recursos desiguais.

A memória desequilibrada reduz o desempenho do servidor?

A memória desbalanceada pode reduzir o desempenho do servidor limitando a intercalação de canais de memória, diminuindo a largura de banda disponível, aumentando o acesso remoto à memória e tornando a latência menos previsível sob carga, especialmente em cargas de trabalho sensíveis à memória, como SQL Server, virtualização, análise, ERP e aplicativos de computação de alto desempenho.

A parte chata é que a perda nem sempre é óbvia. Você pode vê-la como relatórios mais lentos, comportamento ruidoso da VM, trabalhos em lote degradados ou resultados de benchmark desiguais, em vez de um erro de hardware claro.

Um servidor de soquete duplo pode ser executado com quantidades diferentes de RAM em cada CPU?

Um servidor de soquete duplo pode, às vezes, funcionar com quantidades diferentes de RAM em cada CPU, mas as plataformas de produção geralmente esperam uma população de memória simétrica para obter o melhor desempenho, e muitas regras de fornecedores exigem tamanho e posição idênticos entre CPUs para evitar configurações não suportadas ou comportamento degradado da memória.

Minha opinião é simples: não trate “inicializa com sucesso” como aprovação. Se o guia do fornecedor diz para espelhar as CPUs, espelhe as CPUs.

Como é que se equilibra a memória em servidores de tomada dupla?

Para equilibrar a memória em servidores de soquete duplo, instale DIMMs com capacidade, tipo, classificação, velocidade e posição correspondentes em ambos os soquetes da CPU, seguindo a ordem de população de memória do fornecedor do servidor, as regras de canal e a lista de módulos suportados para essa plataforma e geração de processador exatas.

Por exemplo, se a CPU 1 receber oito RDIMMs DDR4 de 64 GB nos canais recomendados, a CPU 2 deverá normalmente receber o mesmo padrão de oito módulos. Os nomes exatos dos slots variam de acordo com o modelo do servidor, portanto, use o manual de serviço.

É melhor comprar mais RAM ou equilibrar a RAM existente primeiro?

Normalmente, é melhor equilibrar primeiro a RAM existente porque a memória equilibrada pode melhorar a largura de banda utilizável e a consistência da latência sem aumentar a capacidade total, enquanto que mais RAM instalada de forma irregular pode criar pressão NUMA, desequilíbrio de canais e uma resolução de problemas mais difícil durante cargas de trabalho de produção reais.

Mais memória só ajuda quando o servidor a pode utilizar de forma limpa. RAM extra mal colocada não é planeamento de capacidade; é desordem com contactos dourados.

Considerações Finais: Corrija o mapa de slots antes de culpar o software

Se o servidor de tomada dupla tiver problemas de desempenho após uma atualização da memória, não comece por afinar a base de dados, alterar as definições do hipervisor ou culpar o sistema operativo.

Comece pelo mapa de memória.

Confirme o modelo exato do servidor, a geração da CPU, o tipo de DIMM, a capacidade por socket, a população de canais, a classificação, a velocidade e a consistência do número de peça. Em seguida, verifique o layout NUMA no sistema operacional e teste com a carga de trabalho que realmente importa.

E se estiver a adquirir memória para uma implementação de produção, envie a configuração completa antes de comprar: modelo do servidor, disposição atual dos DIMM, capacidade pretendida, marcas preferidas, requisito de novo ou usado testado e destino. É assim que se evita transformar uma simples encomenda de RAM num incidente de desempenho em câmara lenta.

Não se vá embora ainda, fale com a nossa equipa sobre a memória do servidor

Memória de servidor com controlo de qualidade para programas novos e usados