Почему системная память по-прежнему важна при сборке серверов на GPU

GPU получает аплодисменты. Оперативная память берет на себя вину.

Начните с оперативной памяти.

Я понимаю, что это звучит нелогично на рынке, где покупатели хвастаются H100, H200, B200, NVLink, пропускной способностью FP8 и 400 Гбит/с, но уродливая операционная правда заключается в том, что планирование памяти GPU-серверов все равно начинается с подсистемы памяти на стороне CPU, поскольку данные должны быть упорядочены, декодированы, кэшированы, рассортированы, переданы, запланированы и восстановлены до того, как эти дорогие ускорители начнут выполнять полезную работу. Зачем кому-то тратить шестизначные суммы на GPU, а потом относиться к системной памяти как к чему-то второстепенному?

Собственная разработка NVIDIA Документация по DGX H100/H200 делает это без драматизма: в конфигурации H100 указано 640 ГБ памяти GPU, в конфигурации H200 - 1 128 ГБ памяти GPU, а в одной и той же системе установлено 2 ТБ системной памяти с использованием 32 модулей DIMM. Это не украшение. Это архитектура.

Вот мое прямое мнение: ОЗУ CPU против VRAM GPU - это не соперничество. Это конвейер. В VRAM хранятся горячие тензоры, осколки моделей, кэш KV, вкрапления, активации и высокоскоростные рабочие данные. Системная оперативная память обрабатывает грязный мир вокруг этой работы: загрузчики данных, очереди препроцессинга, буферы хоста, сервисы ОС, контейнеры, агенты логирования, метаданные хранилища, восстановление после неудачных заданий и те части распределенного обучения, которые отказываются помещаться в чистый слайд бенчмарка.

Поэтому, когда кто-то спрашивает: “Сколько оперативной памяти нужно GPU-серверу?” я не начинаю с общего числа. Я спрашиваю, что делает машина в 2:17 ночи, когда модель выполняет контрольные точки, слой хранения кашляет, Kubernetes переполнил узел, а восемь GPU ждут узкого места на стороне хоста.

Миф о дороговизне: “У графических процессоров есть память, так что все в порядке”

Ложь продает оборудование.

Системная память для GPU-серверов имеет значение, поскольку HBM быстра, но локальна, ограничена и дорога, а оперативная память DDR4 или DDR5, подключаемая к процессору, - это более широкая зона ожидания, которая обеспечивает перемещение данных, изоляцию процессов и оркестровку рабочих нагрузок, чтобы они не развалились при реальном использовании в производстве.

Рынок делает это сложнее, а не проще. Стэнфордский HAI Отчет об индексе искусственного интеллекта 2025 года утверждает, что объем вычислений для обучения известных моделей ИИ удваивается примерно каждые пять месяцев, а размер наборов данных - каждые восемь месяцев. Это должно напугать любого, кто определяет требования к оперативной памяти сервера искусственного интеллекта на основе переработанной электронной таблицы.

И это проблема не только лаборатории искусственного интеллекта. Министерство энергетики США сообщило, что за последнее десятилетие нагрузка на центры обработки данных выросла в три раза, а к 2028 году, по прогнозам Национальной лаборатории Лоренса Беркли, удвоится или утроится. Лаборатория Беркли также сообщила, что в 2023 году американские центры обработки данных потребляли около 4,4% от общего объема электроэнергии в США и могут достичь 6,7% - 12% к 2028 году, в зависимости от более широкого роста спроса. Энергетический релиз центра обработки данных Министерства энергетики и Резюме Лаборатории Беркли Оба указывают на одно и то же направление: ускоренная инфраструктура превращается в промышленную.

А промышленная инфраструктура наказывает за небрежную математику памяти.

Если вы строите на основе более новых платформ, то здесь Серверная память DDR5 начинает приобретать смысл: платформы более высокого поколения, более высокая плотность модулей DIMM, современные каналы памяти процессора и лучшее согласование с текущими циклами сборки серверов ИИ. Для стабильных старых парков, Серверная память DDR4 все еще играет реальную роль, особенно когда платформа уже проверена и рабочая нагрузка не оправдывает полного обновления узлов.

Где действительно ломается память GPU-сервера

Большинство неудачных сборок GPU-серверов не приводят к впечатляющему провалу. Они хромают.

Они проявляются в виде использования 52% GPU на оборудовании, которое должно работать на 85%. Они проявляются в виде задержек загрузчика данных, активности подкачки, дисбаланса NUMA, поведения контейнеров с шумными соседями, задержек контрольных точек и “случайных” учебных заданий, которые хорошо работают во вторник и не работают в пятницу.

Ниже приведена таблица, которую я бы представил скептически настроенному покупателю инфраструктуры.

Характер рабочей нагрузки	Что ломается первым	Почему системная оперативная память имеет значение	Записка о закупках
Тонкая настройка LLM на 4-8 графических процессорах	Давление на загрузчик данных и контрольную точку	Оперативная память хоста буферизует токенизированные данные, память с выводом, журналы и состояния восстановления.	Не ограничивайте размер только VRAM GPU; оставьте пространство для оркестровки.
RAG / внедрение трубопровода	Предварительная обработка процессора и пакетная постановка векторов	Разбор текста, разбивка на части, метаданные и пакетные очереди попадают в оперативную память перед выполнением на GPU	Объем памяти может иметь большее значение, чем пиковая скорость DIMM
Многопользовательские выводы	Разрастание контейнеров и накладные расходы хоста	Каждый стек служб потребляет оперативную память вне VRAM, особенно при использовании агентов мониторинга.	Избыточная коммисия выглядит выгодной до тех пор, пока не увеличится время ожидания
Обучение компьютерному зрению	Конвейер декодирования и дополнения изображений	ОЗУ процессора поглощает декодированные кадры и преобразования перед передачей	Быстрые графические процессоры быстро обнаруживают слабые места в планировании памяти хоста
Высокопроизводительное моделирование с GPU-ускорением	NUMA и дисбаланс сокетов	Локальность памяти процессора влияет на подачу данных и поведение MPI	Покупайте схему расположения населения, а не только этикетку DIMM.
Устаревшие узлы искусственного интеллекта	Потолок емкости DDR4	Старые платформы все еще могут быть полезны, если память соответствует и проверена	Дешевая смешанная оперативная память может стоить дороже сертифицированных сменных модулей

Есть одна неприятная привычка, которую я наблюдаю слишком часто: покупатели зацикливаются на количестве графических процессоров, а затем просят “любые флешки на 64 ГБ, какие есть в наличии”. Но серверная память - это не розничная оперативная память с другой наклейкой. ECC, RDIMM, LRDIMM, ранговая структура, класс скорости, напряжение, поддержка BIOS и порядок следования имеют значение.

Именно поэтому я отправлю любого серьезного покупателя к тестирование качества серверной памяти и процесс предоставления гарантии прежде чем я позволю им спорить о крошечной разнице в цене. На собственной странице ServerDIMM, посвященной качеству, особое внимание уделяется проверке совместимости, проверке поколений DDR4/DDR5, проверке ECC RDIMM или LRDIMM, проверке артикула и предотгрузочной проверке. Это скучная работа, которая предотвращает дорогостоящие сбои.

Почему системная память по-прежнему важна при сборке GPU-серверов

Пропускная способность - это не то же самое, что пропускная способность

Больше оперативной памяти помогает.

Но если модули DIMM установлены не в те слоты, или неравномерно распределены по процессорным гнездам, или смешаны в неподдерживаемых ранговых структурах, то емкость превращается в комфортное одеяло. Она хорошо выглядит в заказе на поставку и плохо работает под нагрузкой.

Мне нравится формулировка ServerDIMM о том. порядок популяции памяти: покупают макет, а не модуль. Именно так и должен строиться справочник по сборке GPU-серверов. Целевой объем памяти 2 ТБ - это не одна строчка. Это симметрия сокетов, заполнение каналов, тип DIMM, поведение рангов, поддерживаемая скорость и проверка платформы.

Международное энергетическое агентство Анализ энергетики и искусственного интеллекта Согласно прогнозам, к 2030 году глобальное потребление электроэнергии в центрах обработки данных достигнет примерно 945 ТВт-ч в базовом варианте, при этом ускоренное потребление электроэнергии серверами будет расти примерно на 30% в год. Эта цифра должна изменить наши представления о сборке серверов: нерациональное использование GPU - это не только проблема производительности, но и проблема энергопотребления, охлаждения, плотности размещения и капиталоэффективности.

Вот та часть, о которой вендоры не любят говорить громко: GPU-сервер с недокормленными ускорителями не является “почти оптимизированным”. Это финансовая утечка с вентиляторами.

Мое практическое правило для требований к оперативной памяти сервера искусственного интеллекта

Я не доверяю универсальным формулам.

Тем не менее, когда мне нужно быстро проверить требования к оперативной памяти GPU-сервера, я использую соотношения в качестве отправного аргумента, а не для окончательного проектирования. Для многих узлов обучения и вывода ИИ мне нужно достаточно системной памяти, чтобы покрыть накладные расходы ОС, накладные расходы контейнеров, загрузку данных, препроцессирование, пиннинговую память, пакетное хранение, телеметрию, контрольные точки и наихудшее дублирование заданий. Во многих реальных сборках это означает, что объем оперативной памяти CPU может легко превышать общий объем VRAM GPU, иногда с большим отрывом.

Для сервера класса 8-GPU H100 с 640 ГБ общей памяти GPU план системной оперативной памяти в 1 ТБ может быть оправдан для контролируемых выводов или узких рабочих нагрузок. Но для многопользовательской инфраструктуры ИИ с интенсивным обучением, многопользовательской инфраструктурой, инфраструктурой подготовки данных или смешанной инфраструктурой ИИ 2 ТБ - это не экстравагантно. Зачастую это оптимальное количество.

И да, именно здесь закупки становятся политическими.

Финансовый отдел спрашивает, почему бюджет RAM растет. Команда инфраструктуры отвечает “стабильность”. Команда ИИ говорит “пропускная способность”. Реселлер говорит: “Мы можем сэкономить на смешанных партиях”. Затем кто-то открывает руководство поставщика и понимает, что RDIMM и LRDIMM - это не браслеты дружбы.

Прежде чем смешивать что-либо, прочитайте трезвое руководство по совместимости, например Можно ли смешивать оперативную память сервера?. Краткая версия: иногда, но только в рамках правил платформы. Одно и то же поколение DDR. Тот же поддерживаемый тип DIMM. Правильное поведение ECC. Правильный порядок заселения. Правильная симметрия процессорных гнезд. Корректное поведение рангов и скоростей. В противном случае вы не экономите деньги, а приобретаете неопределенность.

DDR4, DDR5, ECC RDIMM и скучные детали, которые спасают сборку

Решение о выборе лучшей оперативной памяти для сборки GPU-сервера обычно сводится к четырем вопросам:

Платформа DDR4 или DDR5?

Требуется ли модуль ECC RDIMM, LRDIMM или модуль другого утвержденного типа?

Какая общая емкость необходима для каждого узла, каждого сокета и каждого GPU?

Может ли поставщик предоставить согласованные номера деталей, проверенные запасы и документацию до развертывания?

Последний вопрос имеет большее значение, чем признают многие покупатели. A оптовый поставщик оперативной памяти сервера Мы специализируемся на поставках модулей DDR3, DDR4, DDR5, ECC, RDIMM и LRDIMM - это не просто продажа емкости. Ценность заключается в постоянном поиске поставщиков: известные бренды, проверенные запасы, обзор совместимости и процесс ценообразования, который запрашивает модель сервера, целевую емкость, тип модуля, количество и пункт назначения, прежде чем сделать вид, что все просто.

Для текущих узлов ИИ я обычно сначала рассматриваю варианты DDR5 RDIMM, такие как модули емкостью 64, 96 и 128 ГБ, а затем проверяю поддержку платформы. Модули DDR5 RDIMM для серверов Серверная оперативная память Micron 96 ГБ DDR5 5600 2Rx4 В этом списке - полезный пример того, какой уровень детализации должен быть важен для серьезных покупателей: мощность, поколение, конфигурация ранга, класс скорости, MPN и применение.

Этикетка имеет значение.

Модуль DDR5-5600 2Rx4 RDIMM емкостью 96 ГБ не может быть взаимозаменяем с произвольным модулем емкостью 96 ГБ, взятым из другой платформы, только потому, что его емкость совпадает. В GPU-серверах небольшие ошибки совместимости создают большой операционный шум.

Суровая правда: использование GPU - это история памяти

Руководителям нужны графики использования GPU, потому что их легко понять. Зеленая линия вверх - хорошо. Зеленая линия вниз - плохо.

Но зеленая линия часто находится ниже по течению от дисциплины памяти хоста. Если слой памяти на стороне CPU не может подавать партии, поддерживать препроцессирование перед обучением, поддерживать давление на кэш и поглощать накладные расходы на оркестровку, тогда GPU ждут. Они не жалуются. Они просто сидят там, сжигая дорогостоящую энергию стойки, в то время как приборные панели вежливо лежат.

Именно поэтому мне не нравится ленивое определение размера памяти GPU-сервера. В этом случае системная оперативная память рассматривается как вспомогательное средство, в то время как на самом деле она является частью плоскости данных. При создании серьезного AI-сервера узкие места в памяти GPU-серверов заслуживают такого же внимания, как SKU GPU, поколение PCIe, топология NVLink, скорость сетевой карты, расположение хранилища и охлаждение.

Итак, вот версия для размышления: если бюджет на GPU священен, а бюджет на оперативную память подлежит обсуждению, процесс сборки уже нарушен.

Вопросы и ответы

Какой объем оперативной памяти необходим GPU-серверу?

Серверу с GPU требуется достаточно системной оперативной памяти, чтобы поддерживать операционную систему, контейнеры, загрузчики данных, препроцессинг, периферийную память, контрольные точки, агентов мониторинга и одновременные задания без свопинга или голодания ускорителей, что обычно означает определение размера оперативной памяти CPU на основе поведения рабочей нагрузки, а не копирование правил фиксированной емкости. Для легких вычислений может подойти от 512 ГБ до 1 ТБ. Для узлов с 8 GPU, требующих больших объемов для обучения, более реальными являются объемы от 1 до 2 ТБ.

В чем разница между оперативной памятью процессора и VRAM графического процессора?

Оперативная память CPU - это системная память общего назначения сервера для процессов хоста, хранения данных, оркестровки, предварительной обработки и работы операционной системы, а GPU VRAM или HBM - это локальная память ускорителя, используемая для высокоскоростного выполнения моделей, тензоров, активаций, KV-кэша и рабочих нагрузок на GPU-резидентов. На практике они работают вместе. VRAM работает по горячему пути, а системная оперативная память не дает остальным частям машины запустить этот путь.

Всегда ли DDR5 лучше DDR4 для GPU-серверов?

DDR5 лучше для серверов с GPU, если платформа поддерживает ее, рабочая нагрузка выигрывает от более высокой пропускной способности или новых вариантов плотности, а план закупок позволяет проверить тип модуля, емкость, скорость, структуру рангов и расположение популяции без риска для поддержки. DDR4 все еще может быть правильным решением для старых проверенных парков. Неправильный модуль DDR5 хуже, чем правильный модуль DDR4.

Можно ли смешивать серверную оперативную память в сборке GPU-сервера?

Серверная оперативная память может смешиваться только в том случае, если серверная платформа явно поддерживает точное сочетание поколения DDR, поведения ECC, типа RDIMM или LRDIMM, ранговой структуры, расположения емкости, поведения скорости, симметрии гнезда процессора и порядка размещения DIMM, используемых в конечной конфигурации. Относитесь к смешиванию как к исключению. В серверах с GPU неподдерживаемое смешивание памяти может привести к сбоям при загрузке, разгону, нестабильности или непредсказуемому поведению рабочей нагрузки.

Что вызывает узкие места в памяти GPU-серверов?

Узкие места в серверах GPU возникают, когда объем оперативной памяти на стороне процессора, пропускная способность памяти, размещение NUMA, количество модулей DIMM, кэширование хранилища, поведение загрузчика данных или планирование передачи данных между хостом и GPU не могут обеспечить ускорителям постоянную полезную работу. Симптомом часто является низкий уровень использования GPU. Причина часто кроется выше: слабая препроцессинг, плохое пакетирование, недостаток оперативной памяти или несбалансированное расположение памяти.

Ваши следующие шаги: Перестаньте покупать GPU-серверы как технические листы

Не определяйте размер памяти GPU-сервера по маркетинговой копии.

Проведите аудит рабочей нагрузки. Считайте GPU, но также считайте наборы данных, контейнеры, пользователей, контрольные точки, шаги предварительной обработки, границы NUMA, каналы памяти, слоты DIMM и домены отказов. Затем выделите память в соответствии с правилами платформы, а не выдавая желаемое за действительное.

Для реальной сборки отправьте модель сервера, поколение процессора, конфигурацию GPU, целевой объем оперативной памяти, предпочтительную емкость модулей DIMM, требования к DDR4 или DDR5, правило ECC RDIMM/LRDIMM и целевое количество поставщику, который сможет проверить их перед отправкой. Начните с Серверная оперативная память ServerDIMM для серверов и сделать системную память проектным решением, а не пунктом в последней минуте.

Почему системная память по-прежнему важна при сборке GPU-серверов

Оглавление

GPU получает аплодисменты. Оперативная память берет на себя вину.

Миф о дороговизне: “У графических процессоров есть память, так что все в порядке”

Где действительно ломается память GPU-сервера

Пропускная способность - это не то же самое, что пропускная способность

Мое практическое правило для требований к оперативной памяти сервера искусственного интеллекта

DDR4, DDR5, ECC RDIMM и скучные детали, которые спасают сборку

Суровая правда: использование GPU - это история памяти

Вопросы и ответы

Какой объем оперативной памяти необходим GPU-серверу?

В чем разница между оперативной памятью процессора и VRAM графического процессора?

Всегда ли DDR5 лучше DDR4 для GPU-серверов?

Можно ли смешивать серверную оперативную память в сборке GPU-сервера?

Что вызывает узкие места в памяти GPU-серверов?

Ваши следующие шаги: Перестаньте покупать GPU-серверы как технические листы

ОтветитьОтменить ответ

Не уходите, поговорите с нашей командой о серверной памяти

Проверенная на качество серверная память для новых и используемых программ

Оглавление

GPU получает аплодисменты. Оперативная память берет на себя вину.

Миф о дороговизне: “У графических процессоров есть память, так что все в порядке”

Где действительно ломается память GPU-сервера

Пропускная способность - это не то же самое, что пропускная способность

Мое практическое правило для требований к оперативной памяти сервера искусственного интеллекта

DDR4, DDR5, ECC RDIMM и скучные детали, которые спасают сборку

Суровая правда: использование GPU - это история памяти

Вопросы и ответы

Какой объем оперативной памяти необходим GPU-серверу?

В чем разница между оперативной памятью процессора и VRAM графического процессора?

Всегда ли DDR5 лучше DDR4 для GPU-серверов?

Можно ли смешивать серверную оперативную память в сборке GPU-сервера?

Что вызывает узкие места в памяти GPU-серверов?

Ваши следующие шаги: Перестаньте покупать GPU-серверы как технические листы

ОтветитьОтменить ответ