¿Qué ocurre cuando la memoria está desequilibrada entre servidores de doble socket?

Índice

La mentira que se cuentan los compradores: “El servidor ve la RAM, así que está bien”

El servidor arrancó.

Esa es la frase más peligrosa en la adquisición de memoria, porque un servidor de doble socket puede reconocer toda la RAM instalada mientras sigue funcionando con una pésima configuración de memoria de servidor de doble socket que reduce silenciosamente el ancho de banda, aumenta el tráfico de memoria remota y hace que la latencia de la aplicación parezca un problema de software.

¿Qué ocurre realmente cuando la memoria está desequilibrada en servidores de doble zócalo?

En lenguaje llano: las CPU dejan de tener acceso equitativo a la memoria local, los canales de memoria dejan de funcionar a pleno rendimiento, el comportamiento NUMA se desordena y las cargas de trabajo que dependen de una latencia predecible -SQL Server, hosts de virtualización, nodos de análisis, sistemas ERP, bases de datos en memoria- empiezan a pagar un impuesto que nadie ve en la factura.

He visto a equipos culpar a VMware, Linux, SQL Server, el firmware de la BIOS, el almacenamiento y los “módulos DIMM defectuosos” antes de que nadie abra el mapa del chasis y se dé cuenta de la horrible verdad: la CPU 1 tiene una topología de memoria, la CPU 2 tiene otra y el sistema operativo está haciendo todo lo posible con una disposición que nunca debería haber salido al mercado.

No es un pequeño error. Es una deuda de infraestructura con los disipadores de calor.

Dell dice que la parte tranquila abiertamente en su Guía de configuración de la memoria PowerEdge: No se pueden mezclar RDIMMs y LRDIMMs, y la configuración de memoria entre dos CPUs debe ser idéntica en tamaño y posición. Documento 2024 de Lenovo sobre configuraciones de memoria equilibradas para servidores Intel Xeon de 2 zócalos es aún más directo en cuanto al rendimiento: la memoria equilibrada está vinculada al ancho de banda máximo, mientras que las distribuciones desequilibradas pueden reducir el ancho de banda de memoria disponible y crear un comportamiento de acceso incoherente.

Y, sin embargo, los compradores siguen pidiendo “suficientes gigabytes” en lugar de la distribución adecuada.

NUMA no es teoría. Es la factura que vence.

NUMA significa acceso no uniforme a la memoria. En un servidor de doble zócalo, cada zócalo de CPU tiene memoria que está físicamente más cerca de él, y cuando un núcleo de procesador atraviesa el enlace entre zócalos para acceder a la memoria conectada a la otra CPU, la latencia aumenta y el ancho de banda disponible puede disminuir.

Eso suena académico hasta que la aplicación empieza a respirar con fuerza.

La propia Intel Guía de rendimiento VTune NUMA define NUMA exactamente así: el acceso a la memoria local es más rápido que el acceso a la memoria no local, y el software que toca con frecuencia la memoria remota puede sufrir una pérdida de rendimiento medible. Un estudio de optimización con NUMA de 2025 en un sistema Intel Xeon Gold 6230R de doble zócalo informó de una latencia de memoria local de unos 100 ns y una latencia de memoria remota de unos 150 ns utilizando mediciones Intel MLC, lo que supone un salto de latencia de 50% antes de que la aplicación haya realizado una sola transacción comercial útil (Estudio de optimización arXiv NUMA-aware).

He aquí la dura verdad: NUMA no perdona una instalación física descuidada.

Si la CPU 1 tiene 384 GB instalados a través de sus canales y la CPU 2 tiene 256 GB, su sistema operativo todavía puede exponer la memoria total. Su panel de control puede seguir sonriendo. Su hoja de cálculo de aprovisionamiento puede seguir diciendo que la actualización se ha realizado correctamente. Pero bajo carga, los hilos programados en un socket pueden perseguir datos que viven detrás del otro socket, cruzando Intel UPI o AMD Infinity Fabric, y cada uno de esos viajes remotos añade fricción.

Pequeño retraso. Gran lío.

Cuando ese retraso se produce en un conjunto de búferes de base de datos, un montón de Java, un conjunto de trabajo de SAP HANA, un proceso Redis, búferes compartidos de PostgreSQL, una instancia de Microsoft SQL Server o una pila de máquinas virtuales, se convierte en fluctuación de fase. No siempre catastrófico. Peor: intermitente.

Y el rendimiento intermitente es donde los ingenieros superiores pierden los fines de semana.

Qué rompe realmente una memoria desequilibrada

El desequilibrio de memoria en servidores de doble socket suele crear cuatro tipos de daños: desequilibrio de canales, desequilibrio de sockets, desequilibrio de nodos NUMA y desequilibrio de aprovisionamiento. El último es el más común porque empieza antes de que se toque el servidor.

1. El ancho de banda del canal de memoria se desperdicia

Las CPU de servidor modernas se basan en canales de memoria. Los procesadores Intel Xeon Scalable de 4ª y 5ª generación, por ejemplo, utilizan ocho canales de memoria por procesador en los sistemas cubiertos por el documento de memoria equilibrada de Lenovo. Si se rellenan los canales de forma desigual, la CPU no puede intercalar la memoria de forma limpia en todos los canales.

Esto significa que un servidor puede tener una gran capacidad pero un menor ancho de banda efectivo.

Lenovo explica que el intercalado distribuye el acceso a la memoria contigua entre varios canales de memoria para aumentar el ancho de banda, pero los canales necesitan la misma capacidad de memoria para formar conjuntos de intercalado limpios. Cuando se crean varios conjuntos intercalados, el rendimiento puede depender de la región de memoria que toque la carga de trabajo. Es una forma educada de decir: “Tu benchmark puede estar bien el lunes y raro el jueves”.”

Prefiero una formulación más fea: los canales desiguales convierten la RAM cara en una lotería.

Si está planeando una actualización con módulos de 32 GB, 64 GB, 96 GB o 128 GB, no empiece por el precio. Empiece por el mapa de ranuras. Para las plataformas más antiguas, eso puede significar estandarizar en Memoria de servidor DDR4 en capacidades y rangos equiparados. Para las plataformas más nuevas, puede significar construir en torno a Memoria de servidor DDR5 respetando el número de canales, las normas de velocidad y los límites de generación de CPU.

2. El desequilibrio entre zócalos crea presión sobre la memoria remota

En una disposición limpia de doble zócalo, la CPU 1 y la CPU 2 deberían recibir, por lo general, idéntica capacidad y posición de memoria. Esto no es cosmético. Protege la localidad.

La guía PowerEdge de Dell dice que la configuración de memoria entre las dos CPU debe ser idéntica en tamaño y posición. Esto coincide con lo que los buenos ingenieros de campo ya saben: si los zócalos no se reflejan, los nodos NUMA dejan de ser ciudadanos iguales.

Ahora imagina un host de virtualización. Usted asigna a una VM 32 vCPUs y 256 GB de RAM. El hipervisor intenta colocar la CPU y la memoria de forma razonable, pero el host físico tiene una memoria por socket desigual. La máquina virtual puede ocupar sockets antes de lo esperado, utilizar la memoria remota con más frecuencia o luchar con otras cargas de trabajo por la memoria local “buena”.

La documentación de SQL Server de Microsoft también trata NUMA como un problema de escalado de primera clase. En Documentación sobre SQL Server soft-NUMA, Microsoft explica que cada socket se representa normalmente como un nodo NUMA, y SQL Server particiona las estructuras internas y los hilos de servicio por nodo NUMA. En Linux, Microsoft Mejores prácticas de rendimiento de SQL Server también recomiendan utilizar la afinidad de procesos para nodos NUMA y CPUs para mantener un comportamiento de programación eficiente.

Así que cuando el hardware NUMA se complica, el ajuste de la base de datos se convierte en un control de daños.

3. Algunos servidores rechazan la configuración por completo

No todos los fallos son sutiles. Algunas plataformas simplemente rechazan distribuciones de memoria no soportadas durante POST.

Bien.

Prefiero ver que un servidor se niega a arrancar que aceptar una mala distribución y castigar la producción tranquilamente. Las máquinas peligrosas son las que toleran el error pero reducen la velocidad, desactivan el intercalado óptimo, lanzan advertencias SEL o empujan al administrador a una vaga zona de “no soportado pero funcionando”.

Si tu equipo se pregunta si puede mezclar rangos, marcas, RDIMMs, LRDIMMs, velocidades o capacidades, empieza por comprobar la compatibilidad antes de comprar. La guía ServerDimm sobre si se puede mezclar la RAM del servidor es una referencia interna útil porque esta pregunta surge constantemente en conversaciones reales sobre contratación pública. Mi respuesta contundente: a veces se pueden hacer mezclas dentro de las normas del proveedor, pero nunca se debe improvisar entre tomas.

La improvisación pertenece al jazz, no a los mapas de memoria de producción.

4. La resolución de problemas se convierte en un teatro caro

El equilibrio de la mala memoria a menudo se diagnostica al revés.

Los síntomas se parecen al software: picos de latencia en las consultas, pausas en las máquinas virtuales, resultados incoherentes en las pruebas comparativas, quejas por ruido de los vecinos, ventanas de lotes impredecibles, ancho de banda de memoria degradado o presión de los nodos NUMA. Entonces el equipo pasa horas recopilando registros, cambiando la configuración del núcleo, ajustando la memoria máxima de SQL Server, moviendo máquinas virtuales, culpando al almacenamiento y abriendo tickets de proveedores.

Pero la causa fundamental es física.

Tengo una regla sencilla: antes de ajustar una aplicación en un servidor de doble zócalo, comprueba la disposición física de los módulos DIMM, el modo de memoria de la BIOS, el mapa de nodos NUMA, la vista NUMA del sistema operativo y la afinidad de la aplicación. Si no coinciden, el ajuste es un teatro.

Equilibrio frente a desequilibrio: la prueba de la realidad

Zona	Configuración de memoria equilibrada de doble zócalo	Configuración de memoria de doble zócalo desequilibrada
Disposición del zócalo de la CPU	La CPU 1 y la CPU 2 tienen la misma capacidad, posición y clase de módulo.	Un zócalo tiene más memoria, diferente uso de la ranura o diferentes características del DIMM.
Comportamiento NUMA	El acceso a la memoria local es más fácil de preservar	Mayor riesgo de acceso remoto a NUMA bajo carga
Canales de memoria	Los canales pueden intercalarse más limpiamente cuando las capacidades coinciden	Algunos canales pueden estar infrautilizados o divididos en regiones de intercalación incoherentes
Ancho de banda	Mayor probabilidad de alcanzar el ancho de banda de memoria previsto	Rendimiento del ancho de banda de la memoria del servidor inferior o menos predecible.
Síntomas de aplicación	Latencia más estable para bases de datos, virtualización, análisis y computación	Fluctuación, rendimiento desigual, colas inesperadas, ventanas de lotes más lentas
Riesgo de contratación	Repetición de pedidos y documentación más sencillas	Más riesgo de desajuste, conversaciones de RMA más difíciles, puesta en escena más desordenada
Mejor caso de uso	Bases de datos de producción, hosts de máquinas virtuales, HPC, ERP, análisis, computación adyacente a IA	Cajas de laboratorio, pruebas temporales o capacidad de emergencia solamente - e incluso entonces, documéntelo

La lección es fea pero útil: capacidad no es configuración.

Un servidor con 768 GB mal instalados puede ser peor para una carga de trabajo que 512 GB instalados correctamente, especialmente si la carga de trabajo es sensible al ancho de banda en lugar de estar puramente necesitada de capacidad. Esta es la razón por la que empujo a los compradores hacia un flujo de trabajo en el que primen las especificaciones y no un flujo de trabajo del tipo “encuéntrame los palos más baratos”. Si el equipo de aprovisionamiento necesita un suministro a granel, la conversación debe comenzar con el modelo de servidor, el recuento de CPU, la capacidad objetivo por zócalo, el tipo de DIMM, el rango, la velocidad y el mapa de ranuras, no sólo el total de GB. DIMM del servidor suministro masivo de RAM para servidores se basa en este tipo de flujo de aprovisionamiento: DDR3, DDR4, DDR5, ECC, RDIMM y LRDIMM para empresas y centros de datos.

El sucio patrón de aprovisionamiento detrás de la mayoría de los desequilibrios de memoria

Nadie admite esto en la reunión inicial, así que lo haré yo.

Muchos desequilibrios de memoria empiezan porque alguien intenta “usar lo que ya tenemos”. Hay cuatro módulos RDIMM DDR4 de 32 GB de repuesto en un armario, seis módulos de 64 GB de un host retirado y un presupuesto para ocho sticks más que casi coinciden. Casi.

Entonces la construcción se convierte en un compromiso.

El comprador ve ahorro. El ingeniero ve riesgo. El financiero ve un inventario reutilizado. El servidor ve un problema de topología.

Aquí es donde importan los números de pieza. El rango importa. La densidad de la DRAM importa. La diferencia entre RDIMM y LRDIMM. El intervalo de velocidades. La generación de CPU importa. El orden de población de las ranuras. Que los módulos sean Samsung, Micron, SK Hynix o Kingston no lo es todo; las especificaciones exactas y la compatibilidad con la plataforma deciden si el servidor acepta la configuración sin problemas.

Para los servidores de bases de datos, el error es aún más caro porque la memoria no es sólo capacidad. Es caché, espacio de trabajo de ejecución, memoria de ordenación, memoria hash, comportamiento columnstore, presión tempdb y localidad NUMA envueltos en una línea presupuestaria. El artículo de ServerDimm sobre planificación de la capacidad de memoria del servidor de bases de datos tiene razón: la mejor memoria es la RAM de servidor ECC compatible, normalmente RDIMM o LRDIMM dependiendo de la plataforma, dimensionada para la carga de trabajo e instalada en una disposición de canal equilibrada.

Esa frase debería figurar en todas las solicitudes de compra.

Cómo auditaría una configuración de memoria de servidor de doble zócalo

Empieza por el chasis, no por el salpicadero.

En primer lugar, extraiga el modelo de servidor y el manual de servicio. Confirme el número de CPU, los canales de memoria por CPU, las ranuras DIMM por canal, los tipos de DIMM admitidos, las velocidades admitidas y las secuencias de población válidas. Dell PowerEdge, Lenovo ThinkSystem, HPE ProLiant, Supermicro, Cisco UCS - cada plataforma tiene sus reglas, y al servidor no le importará que la adquisición haya tenido una fecha límite.

En segundo lugar, mapee los módulos actuales. Registre la capacidad, la velocidad, el rango, el número de pieza, el fabricante, el tipo de DIMM y la posición de la ranura. No escribas “64 GB DDR4” y ya está. Eso es de vagos.

En tercer lugar, compare la simetría de los zócalos. La CPU 1 y la CPU 2 deben coincidir en capacidad total y ubicación de las ranuras en la mayoría de los diseños de producción. Si la CPU 1 tiene A1, A2, B1, B2, la CPU 2 no debe tratarse como un estante de piezas de repuesto.

En cuarto lugar, comprueba la visibilidad del sistema operativo. En Linux, utilice herramientas como numactl --hardware, lscpu, dmidecode, y pruebas de ancho de banda de memoria cuando proceda. En Windows Server, compruebe la presentación del nodo NUMA, los registros de eventos, los registros de firmware y los mensajes de detección del motor de base de datos.

Quinto, validar bajo carga de trabajo. Las pruebas sintéticas son útiles, pero no son toda la verdad. Intel MLC, STREAM, los diagnósticos de los proveedores, las estadísticas de espera de SQL Server, los contadores NUMA de VMware ESXi y los datos de latencia de las aplicaciones deberían contar la misma historia. Si no es así, confíe primero en la topología.

Antes del envío, también querría una validación por parte del proveedor. ServerDimm's pruebas de calidad y flujo de trabajo de garantía es relevante en este caso porque los fallos de memoria no sólo se deben a módulos DIMM muertos; también se deben a módulos de generación incorrecta, clase de DIMM incorrecta, números de pieza poco claros y desajustes de configuración.

¿Cuándo es aceptable una memoria desequilibrada?

Casi nunca en producción.

Sí, hay excepciones. Un servidor de laboratorio. Una caja de restauración temporal. Un host de migración de una semana. Un servidor de archivos no crítico con poca presión de memoria. Un entorno de pruebas en el que el objetivo es simplemente arrancar firmware y validar un periférico.

Pero si el servidor ejecuta SQL Server, Oracle, PostgreSQL, VMware, Hyper-V, KVM, SAP, Redis, Elasticsearch, ClickHouse, Spark, trabajos de soporte de inferencia de IA, renderizado CAD o cargas de trabajo HPC, el desequilibrio no es “suficientemente bueno”. Es un incidente futuro con una mejor gestión del cableado.

Y no, comprar módulos DIMM más rápidos no soluciona automáticamente el problema. Si tus canales son desiguales o tus zócalos no coinciden, el índice de velocidad se convierte en ruido de marketing. Una DDR5-5600 mal instalada sigue estando mal instalada. Un RDIMM DDR5 de 96 GB puede ser una opción de densidad inteligente, pero sólo si la plataforma lo admite y la disposición se mantiene equilibrada. Un LRDIMM de 128 GB puede resolver la presión de las ranuras, pero no si alguien lo mezcla con un RDIMM porque “caben los dos”.”

Encajan. Luego fallan.

Preguntas frecuentes

¿Qué ocurre cuando la memoria está desequilibrada en servidores de doble zócalo?

El desequilibrio de memoria en servidores de doble zócalo significa que los dos zócalos de CPU o canales de memoria no reciben una capacidad, colocación o características de módulo DIMM equivalentes, lo que provoca una reducción del ancho de banda, un mayor acceso NUMA remoto, una latencia menos predecible y posibles advertencias de arranque o firmware en función de las reglas de población de la plataforma.

En la práctica, el servidor puede arrancar y mostrar la RAM total esperada, pero las cargas de trabajo pueden sufrir de acceso inconsistente a la memoria. Las bases de datos, los hipervisores, los trabajos de análisis y las aplicaciones en memoria son los primeros lugares donde buscaría los síntomas.

¿Qué es el desequilibrio de memoria NUMA?

El desequilibrio de la memoria NUMA es una situación en la que la capacidad de memoria o la ubicación de la memoria de carga de trabajo es desigual en los nodos NUMA, lo que obliga a los procesadores a acceder con más frecuencia a la memoria remota en lugar de utilizar la memoria local conectada al mismo zócalo de CPU, lo que puede aumentar la latencia y reducir el rendimiento efectivo.

En un servidor de doble socket, cada socket se expone comúnmente como un nodo NUMA. Si un socket tiene más memoria local utilizable que el otro, el programador y la aplicación pueden enfrentarse a reservas de recursos desiguales.

¿La memoria desequilibrada reduce el rendimiento del servidor?

Una memoria desequilibrada puede reducir el rendimiento del servidor al limitar la intercalación de canales de memoria, reducir el ancho de banda disponible, aumentar el acceso remoto a la memoria y hacer que la latencia sea menos predecible bajo carga, especialmente en cargas de trabajo sensibles a la memoria como SQL Server, virtualización, análisis, ERP y aplicaciones informáticas de alto rendimiento.

La parte molesta es que la pérdida no siempre es obvia. Puede que lo veas como informes más lentos, un comportamiento ruidoso de la máquina virtual, trabajos por lotes degradados o resultados desiguales en los benchmarks, en lugar de un error de hardware limpio.

¿Puede un servidor de doble zócalo funcionar con distintas cantidades de RAM en cada CPU?

Un servidor de doble zócalo puede funcionar a veces con diferentes cantidades de RAM en cada CPU, pero las plataformas de producción suelen esperar una población de memoria simétrica para obtener el mejor rendimiento, y muchas normas de los proveedores exigen un tamaño y una posición idénticos en todas las CPU para evitar configuraciones no compatibles o un comportamiento degradado de la memoria.

Mi opinión es simple: no considere “arranca con éxito” como una aprobación. Si la guía del proveedor dice que hay que duplicar las CPU, hay que duplicarlas.

¿Cómo se equilibra la memoria en servidores de doble zócalo?

Para equilibrar la memoria en servidores de doble zócalo, instale módulos DIMM de la misma capacidad, tipo, rango, velocidad y posición en ambos zócalos de la CPU, respetando el orden de ocupación de la memoria, las reglas de canal y la lista de módulos compatibles del proveedor del servidor para esa plataforma y generación de procesadores concretas.

Por ejemplo, si la CPU 1 recibe ocho módulos RDIMM DDR4 de 64 GB en los canales recomendados, la CPU 2 debería recibir normalmente el mismo patrón de ocho módulos. Los nombres exactos de las ranuras varían según el modelo de servidor, así que utilice el manual de servicio.

¿Es mejor comprar más RAM o equilibrar primero la RAM existente?

Por lo general, es mejor equilibrar primero la RAM existente, ya que una memoria equilibrada puede mejorar el ancho de banda utilizable y la coherencia de la latencia sin aumentar la capacidad total, mientras que una mayor cantidad de RAM instalada de forma desigual puede crear presión NUMA, desequilibrio de canales y una solución de problemas más difícil durante las cargas de trabajo de producción reales.

Más memoria sólo ayuda cuando el servidor puede utilizarla limpiamente. Una RAM extra mal colocada no es planificación de la capacidad; es desorden con contactos dorados.

Reflexiones finales: Arregle el mapa de las tragaperras antes de culpar al software

Si su servidor de doble socket tiene problemas de rendimiento después de una actualización de memoria, no empiece por ajustar la base de datos, cambiar la configuración del hipervisor o culpar al sistema operativo.

Empieza por el mapa de memoria.

Confirme el modelo exacto de servidor, la generación de CPU, el tipo de DIMM, la capacidad por zócalo, la población de canales, el rango, la velocidad y la coherencia del número de pieza. A continuación, compruebe la disposición NUMA en el sistema operativo y realice pruebas con la carga de trabajo que realmente importa.

Y si está buscando memoria para un despliegue de producción, envíe la configuración completa antes de comprar: modelo de servidor, disposición actual de los módulos DIMM, capacidad objetivo, marcas preferidas, requisito de nueva o usada probada y destino. Así evitará que un simple pedido de RAM se convierta en un incidente de rendimiento a cámara lenta.

No se vaya todavía, hable con nuestro equipo sobre la memoria del servidor

Memoria de servidor de calidad comprobada para programas nuevos y usados