Что происходит, когда память несбалансированно распределяется между двухсокетными серверами?

Ложь, которую говорят себе покупатели: “Сервер видит оперативную память, значит, все в порядке”.”

Сервер загрузился.

Это самое опасное предложение в области закупок памяти, потому что двухсокетный сервер может распознать всю установленную оперативную память и при этом работать с паршивой конфигурацией памяти двухсокетного сервера, которая незаметно снижает пропускную способность, увеличивает трафик удаленной памяти и делает задержку приложений похожей на проблему программного обеспечения.

Что же на самом деле происходит, когда память разбалансируется между двухсокетными серверами?

Говоря простым языком: процессоры перестают получать равный доступ к локальной памяти, каналы памяти перестают работать с полной эффективностью, поведение NUMA становится беспорядочным, а рабочие нагрузки, зависящие от предсказуемой задержки - SQL Server, узлы виртуализации, аналитические узлы, ERP-системы, базы данных in-memory - начинают платить налог, который никто не видит в счете-фактуре.

Я видел, как команды обвиняли VMware, Linux, SQL Server, прошивку BIOS, систему хранения и “плохие модули DIMM”, прежде чем кто-то открывал карту корпуса и замечал уродливую правду: процессор 1 имеет одну топологию памяти, процессор 2 - другую, а операционная система делает все возможное с компоновкой, которая никогда не должна была поставляться.

Это не маленькая ошибка. Это инфраструктурный долг с радиаторами.

Dell утверждает, что спокойная часть открыто находится в ее Руководство по конфигурированию памяти PowerEdge: Модули RDIMM и LRDIMM нельзя смешивать, а конфигурация памяти для двух процессоров должна быть идентичной по размеру и расположению. Документ Lenovo 2024 о сбалансированные конфигурации памяти для 2-сокетных серверов Intel Xeon еще более прямо говорит о производительности: сбалансированная память связана с максимальной пропускной способностью, в то время как несбалансированная компоновка может уменьшить доступную пропускную способность памяти и создать непоследовательное поведение доступа.

И все же покупатели по-прежнему заказывают “достаточно гигабайт”, а не правильную компоновку.

NUMA - это не теория. Это счет, который должен быть оплачен.

NUMA означает Non-Uniform Memory Access (неравномерный доступ к памяти). В двухсокетных серверах каждое процессорное гнездо имеет память, которая физически находится ближе к нему, и когда процессорное ядро преодолевает межсокетную связь, чтобы получить доступ к памяти, подключенной к другому процессору, увеличивается задержка и доступная пропускная способность может снизиться.

Это звучит академично, пока приложение не начинает тяжело дышать.

Собственная разработка Intel Руководство по производительности VTune NUMA NUMA определяется именно так: доступ к локальной памяти быстрее, чем к нелокальной, и программное обеспечение, которое часто обращается к удаленной памяти, может ощутимо потерять в производительности. В исследовании по оптимизации с учетом NUMA, проведенном в 2025 году на двухсокетной системе Intel Xeon Gold 6230R, задержка доступа к локальной памяти составила около 100 нс, а задержка доступа к удаленной памяти - около 150 нс с использованием измерений Intel MLC, что составляет 50% задержки до того, как приложение выполнит хоть одну полезную бизнес-транзакцию (arXiv Исследование оптимизации с учетом NUMA).

Вот суровая правда: NUMA не прощает небрежной физической установки.

Если в процессоре 1 установлено 384 ГБ по каналам, а в процессоре 2 - 256 ГБ, операционная система все равно покажет общее количество памяти. Ваша панель мониторинга может по-прежнему улыбаться. Ваша таблица закупок может сказать, что обновление прошло успешно. Но под нагрузкой потоки, запланированные на одном сокете, могут преследовать данные, живущие за другим сокетом, пересекая Intel UPI или AMD Infinity Fabric, и каждый из этих удаленных переходов добавляет трения.

Крошечная задержка. Большой беспорядок.

Когда эта задержка попадает в буферный пул базы данных, кучу Java, рабочий набор SAP HANA, процесс Redis, общие буферы PostgreSQL, экземпляр Microsoft SQL Server или кучу виртуальных машин, она становится джиттером. Не всегда катастрофический. Хуже: прерывистым.

А прерывистая работа - это то место, где старшие инженеры теряют выходные дни.

Что на самом деле разрушает несбалансированная память

Дисбаланс памяти в двухсокетных серверах обычно приводит к четырем видам повреждений: дисбалансу каналов, дисбалансу сокетов, дисбалансу узлов NUMA и дисбалансу закупок. Последний из них наиболее распространен, поскольку начинается еще до того, как сервер тронут.

1. Пропускная способность канала памяти расходуется впустую

Современные серверные процессоры построены на основе каналов памяти. Например, процессоры Intel 4-го и 5-го поколения Xeon Scalable используют восемь каналов памяти на процессор в системах, рассматриваемых в статье Lenovo о сбалансированной памяти. Если каналы заполнены неравномерно, процессор не может чисто перемежать память по всем каналам.

Это означает, что сервер может иметь большую емкость, но меньшую эффективную пропускную способность.

Lenovo объясняет, что чередование распределяет непрерывный доступ к памяти по нескольким каналам памяти для повышения пропускной способности, но для формирования чистых наборов чередования каналы должны иметь одинаковый объем памяти. Когда создается несколько наборов чередования, производительность может зависеть от того, к какой области памяти обращается рабочая нагрузка. Это вежливый способ производителя сказать: “Ваш эталон может выглядеть нормально в понедельник и странно в четверг”.”

Я предпочитаю более уродливую формулировку: неравномерность каналов превращает дорогую оперативную память в лотерею.

Если вы планируете обновление с помощью модулей 32 ГБ, 64 ГБ, 96 ГБ или 128 ГБ, не начинайте с цены. Начните с карты слотов. Для старых платформ это может означать стандартизацию Серверная память DDR4 в соответствующих должностях и рангах. Для новых платформ это может означать создание Серверная память DDR5 при этом соблюдается количество каналов, правила скорости и ограничения на поколение процессора.

2. Дисбаланс между сокетами создает давление на удаленную память

В чистом двухсокетном корпусе процессор 1 и процессор 2 должны иметь одинаковый объем и расположение памяти. Это не косметическое решение. Это защищает локальность.

В руководстве Dell по PowerEdge говорится, что конфигурация памяти между двумя процессорами должна быть идентичной по размеру и расположению. Это соответствует тому, что уже известно хорошим инженерам: если сокеты не зеркалированы, узлы NUMA перестают быть равноправными гражданами.

Теперь представьте хост виртуализации. Вы назначаете ВМ 32 виртуальных процессора и 256 ГБ оперативной памяти. Гипервизор пытается разумно разместить процессор и память, но физический хост имеет неравномерное распределение памяти по сокетам. ВМ может разделить сокеты раньше, чем ожидалось, чаще обращаться к удаленной памяти или бороться с другими рабочими нагрузками за “хорошую” локальную память.

В документации Microsoft по SQL Server NUMA также рассматривается как первоклассная проблема масштабирования. В Документация по SQL Server soft-NUMA, Microsoft объясняет, что каждый сокет обычно представлен в виде узла NUMA, а SQL Server разделяет внутренние структуры и потоки обслуживания на узлы NUMA. В Linux Microsoft Передовые методы повышения производительности SQL Server также рекомендуем использовать сродство процессов для узлов NUMA и процессоров для поддержания эффективного поведения планирования.

Поэтому, когда аппаратная NUMA дает сбой, настройка базы данных превращается в контроль за ущербом.

3. Некоторые серверы полностью отказываются от конфигурации

Не все сбои носят скрытый характер. Некоторые платформы просто отвергают неподдерживаемые компоновки памяти во время POST.

Хорошо.

Я скорее увижу, как сервер отказывается загружаться, чем соглашусь с плохой компоновкой и спокойно накажу производство. Опасные машины - это те, которые допускают ошибку, но снижают скорость, отключают оптимальное чередование, выдают предупреждения SEL или загоняют администратора в неопределенную зону “не поддерживается, но работает”.

Если ваша команда задается вопросом, можно ли смешивать ранги, бренды, модули RDIMM, LRDIMM, скорости или емкости, начните с проверки совместимости перед покупкой. Руководство ServerDimm на можно ли смешивать оперативную память сервера является полезным внутренним справочником, поскольку этот вопрос постоянно возникает в реальных закупочных беседах. Мой прямой ответ: иногда можно смешивать в рамках правил поставщика, но никогда не следует импровизировать между розетками.

Импровизации место в джазе, а не в производственных картах памяти.

4. Устранение неполадок становится дорогостоящим театром

Плохой баланс памяти часто диагностируется задним числом.

Симптомы выглядят как программные: скачки задержки запросов, паузы в работе ВМ, противоречивые результаты бенчмарков, жалобы на шум соседей, непредсказуемые пакетные окна, снижение пропускной способности памяти или давление на узлы NUMA. Тогда команда тратит часы на сбор журналов, изменение настроек ядра, регулировку максимальной памяти SQL Server, перемещение ВМ, обвинение хранилища и обращение к поставщику.

Но основная причина - физическая.

У меня есть простое правило: прежде чем настраивать приложение на двухсокетном сервере, проверьте физическое расположение DIMM, режим памяти BIOS, карту узлов NUMA, представление NUMA операционной системы и сродство приложений. Если они не совпадают, то настройка - это театр.

Что происходит, когда память несбалансированно распределяется между двухсокетными серверами?

Проверка реальности "Сбалансированный и несбалансированный

Область	Сбалансированная двухсокетная конфигурация памяти	Несбалансированная двухсокетная конфигурация памяти
Расположение гнезда процессора	CPU 1 и CPU 2 имеют одинаковый объем, положение и класс модуля.	В одном сокете больше памяти, другое использование слотов или другие характеристики DIMM.
Поведение NUMA	Доступ к локальной памяти легче сохранить	Риск удаленного доступа к NUMA под нагрузкой
Каналы памяти	Каналы могут чередоваться более чисто, если их пропускная способность совпадает	Некоторые каналы могут быть недоиспользованы или разделены на несовместимые области чередования
Пропускная способность	Больше шансов достичь ожидаемой пропускной способности памяти	Более низкая или менее предсказуемая производительность пропускной способности памяти сервера
Симптомы применения	Более стабильная задержка для баз данных, виртуализации, аналитики и вычислений	Джиттер, неравномерная пропускная способность, непредвиденные очереди, медленные пакетные окна
Риск закупок	Облегчение повторных заказов и документации	Больше риск несоответствия, труднее вести переговоры по возврату, беспорядочная постановка
Лучший вариант использования	Производственные базы данных, узлы виртуальных машин, HPC, ERP, аналитика, вычисления с поддержкой искусственного интеллекта.	Лабораторные боксы, временные испытания или только аварийные возможности - и даже в этом случае документируйте их

Урок некрасивый, но полезный: потенциал - это не конфигурация.

Сервер с плохо установленными 768 ГБ может быть хуже для рабочей нагрузки, чем правильно установленные 512 ГБ, особенно если рабочая нагрузка чувствительна к пропускной способности, а не просто требовательна к емкости. Именно поэтому я подталкиваю покупателей к работе по спецификациям, а не по принципу “найдите мне самые дешевые палочки”. Если команде сорсинга нужны массовые поставки, разговор следует начать с модели сервера, количества процессоров, целевой емкости на сокет, типа DIMM, ранга, скорости и карты слотов - а не только с общего объема ГБ. ServerDimm's массовая поставка оперативной памяти для серверов Страница построена именно на таком потоке закупок: Поиск поставщиков DDR3, DDR4, DDR5, ECC, RDIMM и LRDIMM для предприятий и центров обработки данных.

Грязная схема закупок, стоящая за большинством случаев несбалансированности памяти

Никто не признается в этом на стартовой встрече, поэтому это сделаю я.

Многие дисбалансы памяти начинаются из-за того, что кто-то пытается “использовать то, что у нас уже есть”. В шкафу есть четыре запасных модуля DDR4 RDIMM объемом 32 ГБ, шесть модулей объемом 64 ГБ от списанного хоста и предложение на еще восемь планок, которые почти совпадают. Почти.

Тогда сборка становится компромиссом.

Покупатель видит экономию. Инженер видит риск. Финансист видит повторно используемые запасы. Сервер видит проблему с топологией.

Здесь важны номера деталей. Рейтинг имеет значение. Плотность DRAM имеет значение. RDIMM и LRDIMM имеют значение. Бин скорости имеет значение. Поколение процессора имеет значение. Порядок расположения слотов имеет значение. То, что модули Samsung, Micron, SK Hynix или Kingston - это еще не все; точные спецификации и поддержка платформы решают, будет ли сервер принимать конфигурацию без проблем.

Для серверов баз данных ошибка обходится еще дороже, потому что память - это не просто объем. Это кэш, рабочая область выполнения, память сортировки, хэш-память, поведение колонок, давление tempdb и локальность NUMA, объединенные в одну бюджетную строку. Статья ServerDimm о планирование объема памяти сервера базы данных делает правильный вывод: лучшая память - это совместимая серверная оперативная память ECC, обычно RDIMM или LRDIMM в зависимости от платформы, рассчитанная на рабочую нагрузку и установленная в сбалансированную канальную схему.

Это предложение должно быть напечатано на каждой заявке на покупку.

Как я проведу аудит конфигурации памяти двухсокетного сервера

Начните с шасси, а не с приборной панели.

Сначала достаньте модель сервера и руководство по обслуживанию. Убедитесь в количестве процессоров, каналах памяти на процессор, слотах DIMM на канал, поддерживаемых типах DIMM, поддерживаемых скоростях и допустимых последовательностях заселения. Dell PowerEdge, Lenovo ThinkSystem, HPE ProLiant, Supermicro, Cisco UCS - у каждой платформы свои правила, и серверу будет все равно, что у закупки был крайний срок.

Во-вторых, составьте карту текущих модулей. Запишите емкость, скорость, ранг, артикул, производителя, тип DIMM и положение в слоте. Не пишите “64 ГБ DDR4” и считайте, что дело сделано. Это лень.

В-третьих, сравните симметрию сокетов. Для большинства производственных схем ЦП 1 и ЦП 2 должны совпадать по общей емкости и расположению слотов. Если процессор 1 имеет гнезда A1, A2, B1, B2, процессор 2 не должен рассматриваться как полка для запасных частей.

В-четвертых, проверьте видимость ОС. В Linux используйте такие инструменты, как numactl --hardware, lscpu, dmidecode, и тестирование пропускной способности памяти, где это необходимо. На Windows Server проверьте представление узлов NUMA, журналы событий, журналы прошивки и сообщения об обнаружении движка базы данных.

В-пятых, проверьте работу под нагрузкой. Синтетические тесты полезны, но они не отражают всей правды. Данные Intel MLC, STREAM, диагностика производителя, статистика ожидания SQL Server, счетчики VMware ESXi NUMA и данные о задержках приложений должны говорить об одном и том же. Если это не так, доверяйте в первую очередь топологии.

Перед отправкой я бы также хотел получить подтверждение от поставщика. ServerDimm's проверка качества и гарантийные обязательства Это важно, потому что сбои в работе памяти связаны не только с неработающими модулями DIMM, но и с модулями неправильного поколения, неправильным классом DIMM, неясными номерами деталей и несоответствием конфигурации.

Когда несбалансированная память допустима?

Почти никогда не используется в производстве.

Да, бывают исключения. Лабораторный сервер. Временная коробка восстановления. Недельный хост для миграции. Некритичный файловый сервер с небольшим объемом памяти. Тестовая среда, целью которой является загрузка прошивки и проверка периферийного устройства.

Но если на сервере работают SQL Server, Oracle, PostgreSQL, VMware, Hyper-V, KVM, SAP, Redis, Elasticsearch, ClickHouse, Spark, задания поддержки выводов AI, рендеринга CAD или рабочие нагрузки HPC, дисбаланс - это не “достаточно хорошо”. Это будущий инцидент с улучшенным управлением кабелями.

И нет, покупка более быстрых модулей DIMM не устраняет проблему автоматически. Если каналы неравномерны или сокеты не совпадают, рейтинг скорости становится маркетинговым шумом. DDR5-5600, установленная плохо, все равно устанавливается плохо. DDR5 RDIMM емкостью 96 ГБ может быть разумным выбором плотности, но только если платформа поддерживает ее, а компоновка остается сбалансированной. LRDIMM объемом 128 ГБ может решить проблему нехватки слотов, но не в том случае, если кто-то смешивает его с RDIMM, потому что “они оба подходят”.”

Они подходят. Потом они проваливаются.

Вопросы и ответы

Что происходит, когда память неравномерно распределена между двухсокетными серверами?

Дисбаланс памяти в двухсокетных серверах означает, что два процессорных сокета или канала памяти не имеют эквивалентного объема, размещения или характеристик модулей DIMM, что приводит к снижению пропускной способности, увеличению удаленного доступа к NUMA, менее предсказуемым задержкам и возможным предупреждениям при загрузке или прошивке в зависимости от правил использования платформы.

На практике сервер может загружаться и показывать ожидаемый объем оперативной памяти, но рабочие нагрузки могут страдать от непостоянного доступа к памяти. Базы данных, гипервизоры, аналитические задания и приложения in-memory - вот первые места, где я бы искал симптомы.

Что такое дисбаланс памяти NUMA?

Дисбаланс памяти NUMA - это состояние, при котором объем памяти или размещение рабочей нагрузки на узлах NUMA неравномерны, что вынуждает процессоры чаще обращаться к удаленной памяти вместо использования локальной памяти, подключенной к тому же процессорному разъему, что может увеличить задержки и снизить эффективную пропускную способность.

В двухсокетных серверах каждый сокет обычно используется как узел NUMA. Если один сокет имеет больше полезной локальной памяти, чем другой, планировщик и приложение могут столкнуться с неравными пулами ресурсов.

Снижает ли несбалансированная память производительность сервера?

Несбалансированная память может снижать производительность сервера, ограничивая чередование каналов памяти, уменьшая доступную пропускную способность, увеличивая удаленный доступ к памяти и делая задержки менее предсказуемыми под нагрузкой, особенно в таких чувствительных к памяти рабочих нагрузках, как SQL Server, виртуализация, аналитика, ERP и высокопроизводительные вычислительные приложения.

Самое неприятное, что потери не всегда очевидны. Вы можете увидеть это в виде более медленных отчетов, шумного поведения ВМ, ухудшения пакетных заданий или неравномерных результатов бенчмарков, а не в виде чистой аппаратной ошибки.

Может ли двухсокетный сервер работать с разным объемом оперативной памяти на каждом процессоре?

Двухсокетный сервер может иногда работать с разным объемом оперативной памяти на каждом процессоре, но производственные платформы обычно ожидают симметричного размещения памяти для достижения наилучшей производительности, а многие правила производителя требуют идентичного объема и расположения памяти на всех процессорах, чтобы избежать неподдерживаемых конфигураций или ухудшения поведения памяти.

Мое мнение простое: не рассматривайте “успешную загрузку” как одобрение. Если в руководстве производителя говорится о зеркалировании процессоров, зеркалируйте процессоры.

Как сбалансировать память в двухсокетных серверах?

Чтобы сбалансировать память в двухсокетных серверах, установите модули DIMM, соответствующие по объему, типу, рангу, скорости и расположению в обоих процессорных гнездах, соблюдая порядок установки памяти, правила использования каналов и список поддерживаемых модулей для конкретной платформы и поколения процессоров, установленные производителем сервера.

Например, если процессор 1 получает восемь модулей DDR4 RDIMM емкостью 64 ГБ по рекомендованным каналам, процессор 2, как правило, должен получить такую же восьмимодульную схему. Точные названия слотов зависят от модели сервера, поэтому используйте руководство по обслуживанию.

Что лучше - купить больше оперативной памяти или сначала сбалансировать существующую?

Обычно лучше сначала сбалансировать существующую оперативную память, поскольку сбалансированная память может улучшить пропускную способность и согласованность задержек без увеличения общей емкости, в то время как большее количество неравномерно установленной оперативной памяти может создать давление NUMA, дисбаланс каналов и затруднить устранение неполадок при реальных производственных нагрузках.

Увеличение объема памяти помогает только тогда, когда сервер может использовать ее с максимальной эффективностью. Неудачно размещенная дополнительная оперативная память - это не планирование емкости, а беспорядок с золотыми контактами.

Заключительные мысли: Исправьте карту слота, прежде чем обвинять программное обеспечение

Если ваш двухсокетный сервер испытывает проблемы с производительностью после обновления памяти, не начинайте с настройки базы данных, изменения параметров гипервизора или обвинения операционной системы.

Начните с карты памяти.

Подтвердите точную модель сервера, поколение процессора, тип DIMM, емкость на сокет, количество каналов, ранг, скорость и соответствие номеров деталей. Затем проверьте раскладку NUMA в ОС и протестируйте под нагрузкой, которая действительно имеет значение.

А если вы подбираете память для серийного производства, отправьте перед покупкой полную конфигурацию: модель сервера, текущее расположение модулей DIMM, целевую емкость, предпочтительные бренды, требования к новизне или проверке использования, а также место назначения. Так вы избежите превращения простого заказа оперативной памяти в замедленный инцидент с производительностью.

Что происходит, когда память несбалансированно распределяется между двухсокетными серверами?

Оглавление

Ложь, которую говорят себе покупатели: “Сервер видит оперативную память, значит, все в порядке”.”

NUMA - это не теория. Это счет, который должен быть оплачен.

Что на самом деле разрушает несбалансированная память

1. Пропускная способность канала памяти расходуется впустую

2. Дисбаланс между сокетами создает давление на удаленную память

3. Некоторые серверы полностью отказываются от конфигурации

4. Устранение неполадок становится дорогостоящим театром

Проверка реальности "Сбалансированный и несбалансированный

Грязная схема закупок, стоящая за большинством случаев несбалансированности памяти

Как я проведу аудит конфигурации памяти двухсокетного сервера

Когда несбалансированная память допустима?

Вопросы и ответы

Что происходит, когда память неравномерно распределена между двухсокетными серверами?

Что такое дисбаланс памяти NUMA?

Снижает ли несбалансированная память производительность сервера?

Может ли двухсокетный сервер работать с разным объемом оперативной памяти на каждом процессоре?

Как сбалансировать память в двухсокетных серверах?

Что лучше - купить больше оперативной памяти или сначала сбалансировать существующую?

Заключительные мысли: Исправьте карту слота, прежде чем обвинять программное обеспечение

ОтветитьОтменить ответ

Не уходите, поговорите с нашей командой о серверной памяти

Проверенная на качество серверная память для новых и используемых программ

Оглавление

Ложь, которую говорят себе покупатели: “Сервер видит оперативную память, значит, все в порядке”.”

NUMA - это не теория. Это счет, который должен быть оплачен.

Что на самом деле разрушает несбалансированная память

1. Пропускная способность канала памяти расходуется впустую

2. Дисбаланс между сокетами создает давление на удаленную память

3. Некоторые серверы полностью отказываются от конфигурации

4. Устранение неполадок становится дорогостоящим театром

Проверка реальности "Сбалансированный и несбалансированный

Грязная схема закупок, стоящая за большинством случаев несбалансированности памяти

Как я проведу аудит конфигурации памяти двухсокетного сервера

Когда несбалансированная память допустима?

Вопросы и ответы

Что происходит, когда память неравномерно распределена между двухсокетными серверами?

Что такое дисбаланс памяти NUMA?

Снижает ли несбалансированная память производительность сервера?

Может ли двухсокетный сервер работать с разным объемом оперативной памяти на каждом процессоре?

Как сбалансировать память в двухсокетных серверах?

Что лучше - купить больше оперативной памяти или сначала сбалансировать существующую?

Заключительные мысли: Исправьте карту слота, прежде чем обвинять программное обеспечение

ОтветитьОтменить ответ