Por qué la memoria del sistema sigue siendo importante en los servidores GPU

Índice

La GPU se lleva los aplausos. La culpa es de la RAM.

Empieza por la RAM.

Sé que suena retrógrado en un mercado en el que los compradores presumen de H100, H200, B200, NVLink, rendimiento FP8 y estructura de 400 GbE, pero lo cierto es que la planificación de la memoria de los servidores de GPU sigue comenzando en el subsistema de memoria de la CPU, ya que los datos deben organizarse, descodificarse, almacenarse en caché, fijarse, transferirse, programarse y recuperarse antes de que estos costosos aceleradores realicen un trabajo útil. ¿Por qué alguien se gastaría seis cifras en GPUs y luego trataría la memoria del sistema como algo secundario?

La propia NVIDIA Documentación DGX H100/H200 lo aclara sin dramatismo: la configuración H100 incluye 640 GB de memoria para la GPU, la configuración H200 incluye 1.128 GB de memoria para la GPU, y el mismo sistema lleva 2 TB de memoria de sistema utilizando 32 DIMM. Eso no es decoración. Es arquitectura.

Esta es mi opinión: La RAM de la CPU frente a la VRAM de la GPU no es una rivalidad. Es un pipeline. La VRAM contiene los tensores calientes, los fragmentos de modelos, la caché KV, las incrustaciones, las activaciones y los datos de trabajo de alta velocidad. La RAM del sistema gestiona el desordenado mundo que rodea a ese trabajo: cargadores de datos, colas de preprocesamiento, búferes de host, servicios de SO, contenedores, agentes de registro, metadatos de almacenamiento, recuperación de trabajos fallidos y las partes del entrenamiento distribuido que se niegan a encajar en una diapositiva limpia de benchmark.

Así que cuando alguien pregunta: “¿cuánta RAM necesita un servidor GPU?”. No empiezo con un número genérico. Pregunto qué está haciendo la máquina a las 2:17 a.m. cuando el modelo está haciendo checkpoints, la capa de almacenamiento está tosiendo, Kubernetes ha sobrecargado el nodo y ocho GPU están esperando en un cuello de botella del lado del host.

El caro mito: “Las GPU tienen memoria, así que estamos bien”

La mentira vende hardware.

La memoria del sistema para servidores de GPU es importante porque la HBM es rápida pero local, limitada y cara, mientras que la RAM DDR4 o DDR5 conectada a la CPU es el área más amplia que evita que el movimiento de datos, el aislamiento de procesos y la orquestación de cargas de trabajo se desmoronen durante el uso real en producción.

El mercado lo está haciendo más difícil, no más fácil. HAI de Stanford Informe sobre el Índice de Inteligencia Artificial 2025 afirma que el cálculo de entrenamiento para modelos de IA notables se duplica aproximadamente cada cinco meses, mientras que el tamaño de los conjuntos de datos se duplica aproximadamente cada ocho meses. Esto debería asustar a cualquiera que calcule los requisitos de RAM de un servidor de IA a partir de una hoja de cálculo reciclada.

Y no se trata sólo de un problema de laboratorio de IA. El Departamento de Energía de EE.UU. informó de que el crecimiento de la carga de los centros de datos se triplicó en la última década y se prevé que se duplique o triplique en 2028, según el trabajo del Laboratorio Nacional Lawrence Berkeley. Berkeley Lab también informó de que los centros de datos estadounidenses consumieron alrededor de 4,4% de la electricidad total de EE.UU. en 2023 y podrían alcanzar entre 6,7% y 12% en 2028, dependiendo de un crecimiento más amplio de la demanda. Liberación de energía de los centros de datos del DOE y Resumen del Laboratorio de Berkeley Ambos apuntan en la misma dirección: las infraestructuras aceleradas se están convirtiendo en infraestructuras industriales.

Y la infraestructura industrial castiga los descuidos matemáticos de la memoria.

Si está construyendo en torno a plataformas más nuevas, aquí es donde Memoria de servidor DDR5 empieza a tener sentido: plataformas de mayor generación, mayor densidad de módulos DIMM, canales de memoria de CPU modernos y mejor alineación con los ciclos actuales de construcción de servidores de IA. Para flotas heredadas estables, Memoria de servidor DDR4 sigue teniendo un papel muy importante, especialmente cuando la plataforma ya está validada y la carga de trabajo no justifica una renovación completa de los nodos.

Dónde se rompe realmente la memoria del servidor GPU

La mayoría de los servidores GPU defectuosos no fracasan estrepitosamente. Cojean.

Aparecen como una utilización de la GPU de 52% en un hardware que se espera que funcione a 85%. Aparecen como atascos del cargador de datos, actividad de intercambio, desequilibrio NUMA, comportamiento ruidoso del contenedor vecino, retrasos en los puntos de control y trabajos de formación “aleatorios” que funcionan bien el martes y se arrastran el viernes.

El cuadro siguiente es la versión que yo pondría delante de un comprador de infraestructuras escéptico.

Patrón de carga de trabajo	Lo que se rompe primero	Por qué es importante la RAM del sistema	Nota de contratación
Ajuste fino de LLM en 4-8 GPUs	Dataloader y presión en los puntos de control	La memoria RAM del host almacena los datos tokenizados, la memoria fija, los registros y los estados de recuperación.	No dimensionar sólo en función de la VRAM de la GPU; dejar margen para la orquestación.
RAG / canal de incrustación	Preprocesamiento de la CPU y puesta en escena de lotes de vectores	El análisis sintáctico de texto, la fragmentación, los metadatos y las colas de lotes llegan a la RAM antes de la ejecución en la GPU.	La capacidad de memoria puede ser más importante que la velocidad máxima del DIMM
Inferencia multiusuario	Despliegue de contenedores y sobrecarga del host	Cada pila de servicios consume RAM fuera de VRAM, especialmente con agentes de monitorización	El sobrecompromiso parece rentable hasta que salta la latencia
Formación en visión artificial	Proceso de descodificación y aumento de imágenes	La RAM de la CPU absorbe los fotogramas descodificados y las transformaciones antes de la transferencia	Las GPU rápidas exponen rápidamente la débil planificación de la memoria host
Simulación HPC con aceleración en la GPU	NUMA y desequilibrio de sockets	La localidad de la memoria de la CPU afecta a la alimentación de datos y al comportamiento de MPI	Compre la disposición de la población, no sólo la etiqueta DIMM
Nodos de IA heredados	Límite de capacidad DDR4	Las plataformas más antiguas pueden seguir siendo útiles si la memoria se ajusta y se valida	Las memorias RAM mixtas baratas pueden costar más que los módulos de sustitución homologados

Hay un desagradable hábito de compra que veo con demasiada frecuencia: los compradores se obsesionan con el número de GPU y luego piden “las memorias de 64 GB que haya disponibles”. Pero la memoria de servidor no es RAM al por menor con una pegatina diferente. ECC, RDIMM, LRDIMM, la estructura de rangos, el grado de velocidad, el voltaje, la compatibilidad con BIOS y el orden de población son importantes.

Por eso enviaría a cualquier comprador serio a un pruebas de calidad de la memoria del servidor y proceso de garantía antes de dejarles discutir sobre minúsculas diferencias de precio por unidad. La propia página de calidad de ServerDIMM hace hincapié en la revisión de la compatibilidad, las comprobaciones de la generación DDR4/DDR5, la validación ECC RDIMM o LRDIMM, la revisión del número de pieza y el control previo al envío. Ese es el trabajo aburrido que evita fallos costosos.

Capacidad no es lo mismo que ancho de banda

Más RAM ayuda.

Pero si los módulos DIMM están en las ranuras equivocadas, o repartidos de forma desigual por los zócalos de la CPU, o mezclados en estructuras de rangos no compatibles, entonces la capacidad se convierte en una manta de confort. Queda bien en una orden de compra y funciona mal bajo carga.

Me gusta la frase de ServerDIMM sobre orden de población de la memoriacompra el diseño, no el módulo. Así es exactamente como debería hacerse el trabajo de la guía de construcción de servidores GPU. Un objetivo de memoria de 2 TB no es un elemento de línea. Es la simetría del zócalo, el llenado del canal, el tipo de DIMM, el comportamiento del rango, la velocidad soportada y la validación de la plataforma.

La Agencia Internacional de la Energía Análisis de la energía y la IA prevé que el consumo mundial de electricidad de los centros de datos alcance unos 945 TWh en 2030 en su caso base, con un consumo acelerado de electricidad de los servidores que crecerá en torno a 30% anuales. Esta cifra debería cambiar nuestra forma de hablar sobre la construcción de servidores: el desaprovechamiento de la GPU no es solo un problema de rendimiento, sino también de eficiencia energética, refrigeración, densidad de bastidores y capital.

Esta es la parte que a los vendedores no les gusta decir en voz alta: un servidor GPU con aceleradores insuficientemente alimentados no está “casi optimizado”. Es una fuga financiera con ventiladores.

Mi regla práctica para los requisitos de RAM del servidor de IA

No me fío de las fórmulas universales.

Aun así, cuando tengo que comprobar rápidamente los requisitos de RAM del servidor GPU, utilizo los ratios como argumento de partida, no como diseño final. Para muchos nodos de entrenamiento e inferencia de IA, quiero suficiente memoria del sistema para cubrir la sobrecarga del sistema operativo, la sobrecarga del contenedor, la carga de datos, el preprocesamiento, la memoria anclada, la puesta en escena de lotes, la telemetría, los puntos de control y el solapamiento de trabajos en el peor de los casos. En muchas construcciones reales, eso significa que la RAM de la CPU puede superar fácilmente la VRAM total de la GPU, a veces por un amplio margen.

Para un servidor de 8 GPU de clase H100 con 640 GB de memoria GPU total, un plan de 1 TB de RAM del sistema puede ser defendible para la inferencia controlada o cargas de trabajo limitadas. Sin embargo, para una infraestructura de IA de uso mixto, intensiva en formación, multiusuario o intensiva en preparación de datos, 2 TB no es una extravagancia. A menudo es el número adulto.

Y sí, aquí es donde la contratación se vuelve política.

Finanzas pregunta por qué sube el presupuesto de RAM. El equipo de infraestructura dice “estabilidad”. El equipo de IA dice “rendimiento”. El revendedor dice “podemos ahorrar dinero con lotes mixtos”. Entonces alguien abre la guía del proveedor y se da cuenta de que RDIMM y LRDIMM no son pulseras de la amistad.

Antes de mezclar nada, lee una guía de compatibilidad sobria como ¿Se puede mezclar la RAM del servidor?. La versión corta: a veces, pero sólo dentro de las reglas de la plataforma. Misma generación DDR. Mismo tipo de DIMM compatible. Comportamiento ECC correcto. Orden de población correcto. Simetría correcta del zócalo de la CPU. Comportamiento correcto del rango y la velocidad. De lo contrario, no estará ahorrando dinero, sino comprando incertidumbre.

DDR4, DDR5, ECC RDIMM y las piezas aburridas que salvan la construcción

Las decisiones sobre cuál es la mejor RAM para construir un servidor GPU suelen reducirse a cuatro cuestiones:

¿La plataforma es DDR4 o DDR5?

¿Requiere ECC RDIMM, LRDIMM u otro tipo de módulo aprobado?

¿Qué capacidad total se necesita por nodo, por socket y por GPU?

¿Puede el proveedor proporcionar números de pieza coherentes, inventario comprobado y documentación antes de la implantación?

Esta última pregunta importa más de lo que muchos compradores admiten. A proveedor de RAM para servidores a granel centrado en el suministro de DDR3, DDR4, DDR5, ECC, RDIMM y LRDIMM no se limita a vender capacidad. El valor reside en el abastecimiento repetible: marcas conocidas, inventario comprobado, revisión de compatibilidad y un proceso de presupuesto que pregunta por el modelo de servidor, la capacidad objetivo, el tipo de módulo, la cantidad y el destino antes de fingir que todo es sencillo.

En el caso de los nodos de IA actuales, yo normalmente buscaría primero opciones de RDIMM DDR5, como módulos de 64 GB, 96 GB y 128 GB, y luego validaría la compatibilidad con la plataforma. Módulos DIMM para servidores Memoria RAM de servidor Micron 96 GB DDR5 5600 2Rx4 La lista es un ejemplo útil del nivel de detalle que debería importar a los compradores serios: capacidad, generación, configuración de rango, grado de velocidad, MPN y aplicación.

La etiqueta importa.

Un módulo RDIMM DDR5-5600 2Rx4 de 96 GB no es intercambiable con un módulo aleatorio de 96 GB extraído de otra plataforma sólo porque la capacidad coincida. En los servidores GPU, los pequeños errores de compatibilidad generan un gran ruido operativo.

La cruda realidad: la utilización de la GPU es una historia de memoria

Los ejecutivos quieren gráficos de utilización de la GPU porque son fáciles de entender. Línea verde arriba, bien. Línea verde hacia abajo, malo.

Pero la línea verde a menudo se encuentra aguas abajo de la disciplina de memoria del host. Si la capa de memoria de la CPU no puede alimentar los lotes, mantener el preprocesamiento por delante del entrenamiento, mantener la presión de la caché y absorber la sobrecarga de orquestación, las GPU esperan. No se quejan. Simplemente se sientan a quemar la costosa energía del rack mientras los cuadros de mando mienten amablemente.

Por eso no me gusta el perezoso dimensionamiento de la memoria del servidor de la GPU. Trata la RAM del sistema como un actor secundario, cuando en realidad forma parte del plano de datos. En la construcción de un servidor de IA serio, los cuellos de botella de la memoria en los servidores GPU merecen la misma atención que la SKU de la GPU, la generación de PCIe, la topología NVLink, la velocidad de la NIC, la disposición del almacenamiento y la envolvente de refrigeración.

Así que aquí está la versión opinada: si el presupuesto de la GPU es sagrado pero el de la RAM es negociable, el proceso de construcción ya está roto.

Preguntas frecuentes

¿Cuánta RAM necesita un servidor GPU?

Un servidor de GPU necesita suficiente RAM del sistema para soportar el sistema operativo, contenedores, cargadores de datos, preprocesamiento, memoria anclada, checkpointing, agentes de monitorización y trabajos concurrentes sin intercambiar o hacer pasar hambre a los aceleradores, lo que normalmente significa dimensionar la RAM de la CPU a partir del comportamiento de la carga de trabajo en lugar de copiar una regla de capacidad fija. Para la inferencia ligera, 512 GB a 1 TB pueden funcionar. Para nodos de 8 GPUs con gran capacidad de formación, de 1 TB a 2 TB suele ser más realista.

¿Cuál es la diferencia entre la RAM de la CPU y la VRAM de la GPU?

La RAM de la CPU es la memoria del sistema de propósito general del servidor para los procesos del host, la puesta en escena de datos, la orquestación, el preprocesamiento y la actividad del sistema operativo, mientras que la VRAM o HBM de la GPU es la memoria local del acelerador utilizada para la ejecución de modelos a alta velocidad, tensores, activaciones, caché KV y cargas de trabajo residentes en la GPU. En la práctica, trabajan juntas. La VRAM ejecuta la ruta caliente; la RAM del sistema evita que el resto de la máquina se quede sin esa ruta.

¿Es siempre mejor la DDR5 que la DDR4 para los servidores GPU?

La DDR5 es mejor para los servidores GPU cuando la plataforma la admite, la carga de trabajo se beneficia de un mayor ancho de banda o de opciones de densidad más recientes, y el plan de adquisición puede validar el tipo de módulo, la capacidad, la velocidad, la estructura de rangos y la disposición de la población sin crear riesgos de soporte. DDR4 puede seguir siendo la respuesta adecuada para flotas validadas más antiguas. Un módulo DDR5 incorrecto es peor que un módulo DDR4 correcto.

¿Puedo mezclar RAM de servidor en un servidor GPU?

La RAM del servidor sólo se puede mezclar cuando la plataforma del servidor admite explícitamente la combinación exacta de generación DDR, comportamiento ECC, tipo RDIMM o LRDIMM, estructura de rangos, disposición de la capacidad, comportamiento de la velocidad, simetría del zócalo de la CPU y orden de población de los DIMM utilizados en la configuración final. Trate la mezcla como una excepción. En los servidores de GPU, la mezcla de memoria no compatible puede provocar fallos de arranque, downclocking, inestabilidad o un comportamiento impredecible de la carga de trabajo.

¿Cuáles son las causas de los cuellos de botella de memoria en los servidores GPU?

Los cuellos de botella de memoria en los servidores de GPU se producen cuando la capacidad de RAM del lado de la CPU, el ancho de banda de la memoria, la colocación NUMA, la población de DIMM, el almacenamiento en caché, el comportamiento del cargador de datos o la planificación de la transferencia del host a la GPU no pueden mantener los aceleradores continuamente abastecidos con trabajo útil. El síntoma suele ser una baja utilización de la GPU. La causa suele estar en el origen: preprocesamiento deficiente, procesamiento por lotes incorrecto, memoria RAM insuficiente o distribución desequilibrada de la memoria.

Sus próximos pasos: Deje de comprar servidores GPU como si fueran hojas de especificaciones

No dimensione la memoria del servidor GPU a partir de la copia de marketing.

Audita la carga de trabajo. Cuente las GPU, pero también los conjuntos de datos, los contenedores, los usuarios, los puntos de control, los pasos de preprocesamiento, los límites NUMA, los canales de memoria, las ranuras DIMM y los dominios de fallo. A partir de ahí, la memoria se aprovisionará según las reglas de la plataforma, no según los deseos.

Para una compilación real, envíe su modelo de servidor, generación de CPU, configuración de GPU, RAM total objetivo, capacidad DIMM preferida, requisito de DDR4 o DDR5, regla ECC RDIMM/LRDIMM y cantidad objetivo a un proveedor que pueda validar antes del envío. Comience con Ruta de aprovisionamiento de RAM masiva para servidores ServerDIMM y hacer de la memoria del sistema una decisión de diseño, no una partida de última hora.

No se vaya todavía, hable con nuestro equipo sobre la memoria del servidor

Memoria de servidor de calidad comprobada para programas nuevos y usados