Leçons tirées d'un projet de planification de mémoire de virtualisation

Le jour où la feuille de calcul a cessé de nous aider

La mémoire ment.

J'utilise ici un composite anonyme, car le modèle importe plus que le nom du client : un domaine de virtualisation mixte, 12 hôtes, 286 VM, une posture N+1 cible, et une feuille de planification qui prétendait que le cluster avait besoin de 7,1 To de RAM, même si la télémétrie à l'état stable montrait quelque chose de plus proche de 4,2 To de pression en direct une fois que nous avons séparé les pics de démarrage, le gonflement du cache invité, et les frais généraux de gestion dont personne ne voulait parler. Cela vous rappelle quelque chose ?

Ce n'est pas le manque de mémoire vive qui a fait échouer le projet le premier jour. Il s'agissait d'un mauvais cadrage. L'équipe a traité la vRAM configurée comme une demande, le basculement comme une note de bas de page et l'approvisionnement comme si “compatible” était un adjectif marketing plutôt qu'un test technique. J'ai vu ce film trop souvent, et il se termine toujours de la même manière : repeuplement d'urgence, fenêtres de maintenance hideuses, et une personne du service financier qui demande pourquoi le plan de mémoire initial était erroné de plusieurs centaines de gigaoctets.

Leçons tirées d'un projet de planification de la mémoire de virtualisation

Table des matières

L'ensemble de travail bat à chaque fois la mémoire vive de vanité

La gestion de la mémoire de VMware ne permet pas d'être négligent.

Trois mots durs. Mesurer la mémoire active.

La documentation vSphere actuelle de Broadcom définit toujours le surcommitment de la mémoire autour de la combinaison empreinte de la mémoire de travail de machines virtuelles dépassant la mémoire hôte, ce qui est le bon modèle mental et celui que de nombreuses équipes ignorent commodément parce que la “RAM totale assignée” est plus facile à exporter dans Excel que “ce que le domaine touche réellement sous charge”. Pourquoi les opérateurs choisissent-ils toujours le chiffre le plus facile à obtenir plutôt que le chiffre exact ?

C'est pourquoi le meilleur saut interne sur ServerDimm est De quelle quantité de mémoire un hôte de virtualisation a-t-il vraiment besoin ?, Les lecteurs sont invités à consulter le site Web de l'entreprise, car il les incite déjà à s'intéresser aux mathématiques des ensembles de travail, à la réserve d'hôte et à la marge de manœuvre de basculement plutôt qu'aux totaux de vRAM, qui sont jolis mais inutiles. Ensuite, lorsque la conception se transforme en achat, Comment vérifier la compatibilité de la mémoire d'un serveur avant de l'acheter ? est le deuxième clic correct. C'est ainsi que l'on passe de la planification des capacités à une véritable nomenclature, et non à une construction fantaisiste.

La mémoire dynamique d'Hyper-V corrige un problème et en crée un autre si vous êtes paresseux.

Le comportement des bottes est important.

La documentation de Microsoft indique que la mémoire dynamique Hyper-V sépare la RAM de démarrage de la RAM minimale, permet la récupération après le démarrage et utilise la pagination intelligente uniquement comme un pont de redémarrage temporaire lorsqu'il n'y a pas de mémoire physique disponible et que rien d'autre ne peut être récupéré ; Microsoft prévient également que la pagination intelligente s'appuie sur le disque et peut dégrader les performances parce que le disque est plus lent que la mémoire. Alors pourquoi les gens continuent-ils à dimensionner les clusters de production comme si la demande en temps de redémarrage et la demande en régime permanent étaient la même chose ?

Ma règle dans les environnements Hyper-V est très simple : Je planifie ce dont la VM a besoin pour démarrer, ce dont elle a besoin pour fonctionner et ce dont le cluster a besoin lorsqu'un hôte disparaît à 2h07 du matin. Ce sont trois chiffres différents et prétendre qu'ils ne font qu'un, c'est comme ça qu'on achète soit trop de RAM, soit pas assez.

KVM va surcharger et vous mettre dans l'embarras.

Linux se souvient de tout.

La documentation de Red Hat est inhabituellement directe sur ce point : Les invités KVM n'obtiennent pas de blocs physiques de RAM dédiés de manière permanente, l'hôte alloue la mémoire à la demande, l'overcommit nécessite suffisamment de mémoire swap et hôte pour supporter la machine elle-même, et Red Hat déclare catégoriquement que l'overcommit est une erreur. pas la solution idéale pour remédier à la pénurie générale de mémoire. Ce n'est pas un langage subtil de vendeur. Il s'agit d'une étiquette d'avertissement. Pourquoi tant d'équipes considèrent-elles encore l'overcommit comme un modèle économique ?

Voici le tableau que j'aimerais que plus d'équipes construisent avant d'acheter un seul module DIMM :

Raccourci de planification	Ce qui se passe lors de la réunion	Ce qui compte vraiment dans la production	Mon verdict
Somme des vRAM configurés	“Nous avons besoin de 7 To parce que les machines virtuelles totalisent 7 To”.”	Ensemble de travail observé, réserve de l'hôte, comportement de redémarrage, marge de manœuvre N+1	Mauvais calcul
Utilisation moyenne uniquement	“La mémoire ne dépasse jamais 62%.”	Pics pendant le redémarrage, les correctifs, les sauvegardes, le basculement et les voisins bruyants	Faux confort
Sur-engagement par défaut	“L'hyperviseur peut le récupérer plus tard.”	La remise en état devrait être rare, pas normale	Un coussin d'urgence, pas un plan
Module compatible le moins cher	“Même capacité, prix unitaire inférieur”	Validation, topologie, classe de modules, traçabilité, chemin de garantie	Coûteux par la suite
L'obsession de l'autocollant de vitesse	“Ils sont à 5600 MT/s, nous sommes donc couverts”	Vitesse réelle entraînée par plate-forme, population et équilibre des canaux	Généralement mal compris

Et oui, c'est aussi la raison pour laquelle le groupe interne ServerDimm se concentre autour de Tests de qualité et assistance à la garantie pour les mémoires de serveurs et Comment vérifier la compatibilité de la mémoire d'un serveur avant de l'acheter ? correspond mieux à cet article que de renvoyer les lecteurs à une page de produit aléatoire. La planification de la mémoire qui meurt au stade de la validation n'a jamais été un bon plan.

La planification des mauvais souvenirs est devenue plus coûteuse, et non moins

Les morsures de la puissance maintenant.

Les Rapport sur l'utilisation de l'énergie dans les centres de données aux États-Unis en 2024 du Lawrence Berkeley National Laboratory dit que les centres de données américains ont atteint 176 TWh en 2023, ou 4.4% de la consommation totale d'électricité aux États-Unis, et prévoit une fourchette d'environ 325 à 580 TWh d'ici à 2028, ce qui équivaut à 6,7% à 12,0% de la consommation d'électricité aux États-Unis. Surdimensionner la mémoire “juste pour être sûr” était autrefois un acte de paresse. Aujourd'hui, elle est paresseuse et coûteuse. Qui pense encore que la planification de la mémoire vive se fait en vase clos ?

Les temps d'arrêt continuent de détruire les budgets.

Selon la 2024 Analyse des pannes par l'Uptime Institute, 54% des personnes interrogées ont déclaré que leur dernière panne importante avait coûté plus de $100,000, 16% a déclaré qu'il coûtait plus de 1,5 million d'euros. $1 millions, Quatre personnes sur cinq ont déclaré que la dernière panne grave aurait pu être évitée grâce à une meilleure gestion, à un meilleur processus ou à une meilleure configuration. C'est le chiffre auquel je pense lorsque quelqu'un me dit qu'une mémoire tampon fine est “efficace”. Efficace pour qui ?

Et l'économie de la plateforme s'est envenimée.

En avril 2024, Reuters fait état de l'examen par l'UE des modifications apportées par Broadcom aux licences VMware., La planification de la mémoire a été mise en place à la suite de plaintes d'utilisateurs professionnels et de groupements professionnels. Je ne prétends pas que la planification de la mémoire résout à elle seule les problèmes de licence. Je dis que la marge de manœuvre pour une conception bâclée de l'hôte s'est réduite une fois que l'économie du logiciel est devenue un autre poste de dépense sous le microscope. Pourquoi élaborer un plan de mémoire que vous ne pouvez pas défendre auprès des services opérationnels ou financiers ?

La passation de marchés est l'endroit où les bonnes conceptions meurent

Cette partie est ennuyeuse.

C'est également la partie qui permet de sauver des projets, car la démarche interne la plus intelligente sur ServerDimm n'est pas de passer directement de “nous avons besoin de plus de mémoire vive” à une catégorie d'achats, mais d'orienter les lecteurs vers les rubriques suivantes Comment vérifier la compatibilité de la mémoire d'un serveur avant de l'acheter ? puis par l'intermédiaire de Tests de qualité et assistance à la garantie pour les mémoires de serveurs, où le site se penche déjà sur l'examen des spécifications, la vérification de la classe des modules, l'adéquation du système et l'assistance après-vente. Pourquoi sauter les seules étapes qui permettent d'éviter une mauvaise commande ?

Les numéros de pièces ne sont pas des documents administratifs

Lisez l'étiquette.

Si vos acheteurs continuent de confondre les étiquettes OEM avec l'identité réelle du fabricant du module, l'ancrage interne adéquat est le suivant Numéros de pièces OEM et numéros de pièces des fabricants de DRAM, Le site a été conçu pour permettre de séparer la terminologie de l'approvisionnement de la vérité technique, un travail peu glorieux mais nécessaire. J'ai vu des équipes perdre des journées entières à cause de ces absurdités, et le résultat est toujours le même : “Mais le revendeur a dit qu'il correspondait”. Depuis quand le mot “dit” est-il devenu une méthode de validation ?

DDR4 vs DDR5 : une décision de plateforme, pas d'humeur

Cessez de romancer les cycles de rafraîchissement.

S'il s'agit d'un domaine ancien, nécessitant beaucoup d'entretien, Mémoire serveur DDR4 utilisée est la conversation pratique ; si la densité, la taille du module et l'allongement de la piste comptent davantage, Mémoire serveur DDR5 utilisée ainsi que les Mémoire serveur DDR4 vs DDR5 : Comment choisir est la meilleure branche interne. Les pages de catégorie de ServerDimm montrent déjà des options DDR5 de 64, 96 et 128 Go aux côtés des pièces DDR4, ce qui est exactement le genre de détails dont les équipes de virtualisation ont besoin pour traduire les modèles de capacité en plans de population d'hôtes. Ne s'agit-il pas là d'une conversation d'achat plus honnête qu'une simple mention “prêt pour l'avenir” ?

Ce que je ferais différemment le premier jour

Je commencerais par un plus petit nombre.

Il ne s'agit pas d'une réduction de la mémoire installée, mais d'une réduction des hypothèses : J'obtiendrais 90 jours de télémétrie réelle, je séparerais la mémoire de démarrage de la mémoire d'exécution, je réserverais les frais généraux de l'hôte avant de parler de la demande des invités et j'obligerais l'équipe du projet à modéliser une défaillance de l'hôte, un cycle de maintenance et une vague de redémarrage horrible avant que quiconque n'approuve un devis de matériel.

Ensuite, je deviendrais plus strict.

Je verrouillerais le plan en fonction des règles exactes de la plate-forme, des classes de modules exactes et de la logique exacte des numéros de pièces, puis je testerais la voie d'approvisionnement en fonction de la logique des numéros de pièces. Comment vérifier la compatibilité de la mémoire d'un serveur avant de l'acheter ?, Numéros de pièces OEM et numéros de pièces des fabricants de DRAM, et Tests de qualité et assistance à la garantie pour les mémoires de serveurs. D'après mon expérience, la plupart des défaillances de la “capacité de mémoire” sont en fait des défaillances de la discipline.

FAQ

Qu'est-ce que la planification de la capacité de virtualisation ?

La planification de la capacité de virtualisation est la discipline qui consiste à dimensionner les ressources des hôtes et des clusters en combinant la demande observée de la charge de travail, les frais généraux de l'hyperviseur, la réserve du système d'exploitation de l'hôte, le comportement de redémarrage et les cibles de basculement, de sorte que les équipes d'infrastructure achètent suffisamment de RAM et de CPU pour les conditions de production réelles au lieu de se fier aux jolis chiffres créés par les totaux de vRAM provisionnés. Je fais bien plus confiance à la télémétrie et à la modélisation des pannes qu'à un total de tableur.

Qu'est-ce que le surengagement de la mémoire dans la virtualisation ?

Le surengagement de la mémoire est une fonction de virtualisation qui permet à la mémoire totale attribuée aux machines invitées de dépasser la RAM physique installée dans un hôte, le déficit étant géré par la récupération de l'hyperviseur, le ballooning, la pagination ou les mécanismes liés à l'échange une fois que les ensembles de travail augmentent et que l'hôte ne peut plus satisfaire directement la demande active. Elle peut être utile, mais uniquement si vous la traitez comme une mémoire tampon et non comme votre principale stratégie de conception.

Comment planifier la mémoire pour les machines virtuelles sans acheter trop de RAM ?

La bonne façon de planifier la mémoire pour les machines virtuelles consiste à mesurer l'utilisation active en régime permanent, à séparer la mémoire de démarrage de la mémoire d'exécution, à ajouter la réserve de l'hôte, à inclure une marge de manœuvre N+1 ou de maintenance, puis à valider la topologie finale du module par rapport à la plate-forme de serveur exacte avant d'envoyer tout bon de commande. Cette approche est plus lente que les suppositions et beaucoup moins coûteuse que les retouches.

La mémoire dynamique d'Hyper-V est-elle sûre pour la production ?

La mémoire dynamique Hyper-V est une fonction de gestion de la mémoire sûre pour la production lorsque la RAM de démarrage, la RAM minimale, la RAM maximale et les paramètres de mémoire tampon sont adaptés au comportement réel du démarrage et de la charge de travail, mais elle devient risquée lorsque les équipes prétendent que la pagination intelligente est une capacité de fonctionnement normale au lieu d'un pont de redémarrage temporaire. Je l'utilise volontiers en production et je m'en méfie instantanément lorsque personne ne peut expliquer les calculs de redémarrage.

Dois-je utiliser de la DDR4 ou de la DDR5 pour un hôte de virtualisation ?

La DDR4 est le meilleur choix pour les hôtes de virtualisation liés à des plates-formes matures et à des cycles de maintenance sensibles aux coûts, tandis que la DDR5 est le meilleur choix pour les serveurs plus récents qui ont besoin de RDIMM à plus haute densité, d'une plus grande bande passante et d'une plus grande marge de manœuvre pour la consolidation sans avoir à reconstruire l'hôte dans les douze mois. C'est la plate-forme qui décide en premier lieu ; l'argument budgétaire vient en second lieu.

Votre prochaine étape

Effectuer l'audit de la laideur.

Tirer 90 jours de télémétrie de la mémoire de l'hôte, dresser la liste de la RAM de démarrage et de la demande en régime permanent pour chaque VM critique, modéliser une défaillance de l'hôte, puis analyser le résultat. De quelle quantité de mémoire un hôte de virtualisation a-t-il vraiment besoin ?, Comment vérifier la compatibilité de la mémoire d'un serveur avant de l'acheter ?, et Tests de qualité et assistance à la garantie pour les mémoires de serveurs avant d'acheter quoi que ce soit. Lorsque les chiffres sont clairs, envoyez la plate-forme exacte, la capacité visée et la liste des modules préférés par l'intermédiaire de l'équipe d'assistance technique de l'Union européenne. Page de contact de ServerDimm. C'est ainsi que l'on cesse d'acheter de l'espoir et que l'on commence à acheter de la mémoire qui survivra réellement à la production.

Leçons tirées d'un projet de planification de la mémoire de virtualisation

Le jour où la feuille de calcul a cessé de nous aider

Table des matières

L'ensemble de travail bat à chaque fois la mémoire vive de vanité

La gestion de la mémoire de VMware ne permet pas d'être négligent.

La mémoire dynamique d'Hyper-V corrige un problème et en crée un autre si vous êtes paresseux.

KVM va surcharger et vous mettre dans l'embarras.

La planification des mauvais souvenirs est devenue plus coûteuse, et non moins

La passation de marchés est l'endroit où les bonnes conceptions meurent

La compatibilité bat les filtres de prix

Les numéros de pièces ne sont pas des documents administratifs

DDR4 vs DDR5 : une décision de plateforme, pas d'humeur

Ce que je ferais différemment le premier jour

FAQ

Qu'est-ce que la planification de la capacité de virtualisation ?

Qu'est-ce que le surengagement de la mémoire dans la virtualisation ?

Comment planifier la mémoire pour les machines virtuelles sans acheter trop de RAM ?

La mémoire dynamique d'Hyper-V est-elle sûre pour la production ?

Dois-je utiliser de la DDR4 ou de la DDR5 pour un hôte de virtualisation ?

Votre prochaine étape

Laisser un commentaireAnnuler la réponse

Ne partez pas tout de suite, parlez à notre équipe de la mémoire des serveurs

Mémoire serveur de qualité contrôlée pour les programmes neufs et d'occasion

Le jour où la feuille de calcul a cessé de nous aider

Table des matières

L'ensemble de travail bat à chaque fois la mémoire vive de vanité

La gestion de la mémoire de VMware ne permet pas d'être négligent.

La mémoire dynamique d'Hyper-V corrige un problème et en crée un autre si vous êtes paresseux.

KVM va surcharger et vous mettre dans l'embarras.

La planification des mauvais souvenirs est devenue plus coûteuse, et non moins

La passation de marchés est l'endroit où les bonnes conceptions meurent

La compatibilité bat les filtres de prix

Les numéros de pièces ne sont pas des documents administratifs

DDR4 vs DDR5 : une décision de plateforme, pas d'humeur

Ce que je ferais différemment le premier jour

FAQ

Qu'est-ce que la planification de la capacité de virtualisation ?

Qu'est-ce que le surengagement de la mémoire dans la virtualisation ?

Comment planifier la mémoire pour les machines virtuelles sans acheter trop de RAM ?

La mémoire dynamique d'Hyper-V est-elle sûre pour la production ?

Dois-je utiliser de la DDR4 ou de la DDR5 pour un hôte de virtualisation ?

Votre prochaine étape

Laisser un commentaireAnnuler la réponse