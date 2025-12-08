Fin mars 2025, Microsoft a annoncé en avant-première la refonte de son tristement célèbre « écran bleu de la mort » (Blue Screen of Death en anglais BSOD) dans Windows 11. Le nouveau design abandonne la couleur bleue traditionnelle et le code QR en faveur d'un écran simplifié qui ressemble beaucoup plus à l'écran noir que vous voyez lorsque Windows effectue une mise à jour.
Microsoft annonçait : « Nous présentons en avant-première une nouvelle interface utilisateur plus rationnelle pour les redémarrages inattendus, qui s'aligne mieux sur les principes de conception de Windows 11 et soutient notre objectif de permettre aux utilisateurs de retrouver leur productivité aussi rapidement que possible. Nous avons simplifié votre expérience tout en préservant les informations techniques à l'écran. »
Lors de la preview, il n'était pas encore certain que le nouveau BSOD resterait un écran noir une fois la version finale de la mise à jour publiée. Il semble désormais que ce nouvel écran noir de la mort soit la nouvelle interface définitive du BSOD.
« Nous rationalisons l'expérience du redémarrage inattendu », a déclaré David Weston, vice-président de Microsoft chargé de la sécurité des entreprises et des systèmes d'exploitation. « Nous ajoutons également la récupération rapide de la machine, un mécanisme de récupération pour les PC qui ne peuvent pas redémarrer avec succès. Ce changement s'inscrit dans le cadre d'un effort continu et plus large visant à réduire les perturbations en cas de redémarrage inattendu ».
Un contexte léger, une remarque lourde de sens
La séquence ne part pourtant pas dun débat théorique sur les systèmes dexploitation, mais dun sujet très concret : la machine Linux « idéale » pour Linus Torvalds. Il discute avec léquipe de Linus Tech Tips du choix du processeur, de la carte mère, de la mémoire et du refroidissement, avec un leitmotiv constant : il veut une machine fiable, silencieuse, pas nécessairement une machine à la pointe de la technologie mais solide.
Cest dans ce cadre que la question de la mémoire ECC arrive sur la table. Torvalds raconte quil avait construit une machine sans ECC, en se disant que de la RAM « raisonnable » suffirait. Elle a bien fonctionné pendant quelques années, jusquau moment où il a commencé à voir des « oops » dans le kernel, des segfaults, des comportements aberrants. Comme tout bon mainteneur, sa première réaction a été de suspecter un bug dans Linux. Il passe plusieurs jours à chercher avant de réaliser que le problème ne venait pas du code, mais du matériel. Sa machine nétait tout simplement plus fiable.
À partir de là, il devient catégorique : pour lui, ne pas avoir dECC sur une machine de travail est impensable. Et cest précisément à ce moment quil glisse sa fameuse remarque sur Windows et le Blue Screen of Death.
« Une grande partie des écrans bleus nétaient pas des bugs logiciels »
Torvalds explique, presque en passant, quil est convaincu quune part significative de la mauvaise réputation de Windows vient de machines matériellement douteuses. Il le formule de manière très directe : selon lui, beaucoup de blagues sur linstabilité de Windows et les écrans bleus ne reflètent pas vraiment des bugs de lOS, mais de la mémoire défectueuse, des alimentations limites, des overclockings instables, bref, une base matérielle sur laquelle aucun système nest vraiment capable dêtre fiable.
Il insiste notamment sur deux facteurs.
Dabord, labsence dECC dans la plupart des PC grand public. Sans correction derreurs de bout en bout, la RAM finira par produire des erreurs, ce nest quune question de temps. Parfois au bout de deux ans, parfois plus tard, mais cela finit par se manifester. Dans son propre cas, ces erreurs se traduisaient par des comportements incompréhensibles du noyau, au point de faire douter du code lui-même.
Ensuite, les pratiques doverclocking dans le monde du gaming. Pour gratter quelques pourcents de performances, on pousse CPU, GPU et RAM jusquà leur limite, au prix dune stabilité moindre. Torvalds rappelle que cela introduit une dose daléatoire supplémentaire et fragilise lensemble de la pile. Quand le système finit par planter, ce nest pas nécessairement parce que Windows est un mauvais OS, mais parce quon lui demande de tenir debout sur du matériel borderline.
Le BSOD comme symptôme, pas comme coupable
Ce renversement de perspective est important. Dans limaginaire collectif, le Blue Screen of Death symbolise le mauvais goût, la mauvaise conception, voire lincompétence de Microsoft. Torvalds adopte une vision beaucoup plus structurelle : lécran bleu est, dans bien des cas, le symptôme assez honnête dun environnement dexécution qui nest plus digne de confiance.
De ce point de vue, Windows se comporte exactement comme il le faudrait. Quand lOS détecte que le système est passé dans un état illégal, incohérent ou dangereux, la réponse saine est de sarrêter brutalement. Continuer à exécuter du code dans un univers où la mémoire ment et où les invariants de base ne tiennent plus relèverait de linconscience.
Torvalds ne dit pas que Windows est parfait, ni quil na jamais eu de bugs de kernel. Mais il remet la responsabilité au bon niveau : si lOS se retrouve face à une avalanche de corruptions mémoire, lécran bleu est un mode de défaillance acceptable. Le vrai scandale est que tant de machines grand public soient vendues sans le minimum de garde-fous matériels, tout en étant ensuite utilisées comme étalon de la « fiabilité » de lOS.
Voici un extrait de cet échange (et l'échange en entier en vidéo) :
Je m'amuse beaucoup trop aujourd'hui. C'est la meilleure journée que j'ai passée au bureau depuis très longtemps. Sérieusement. Choisir une carte mère pour Linux est assez simple. Vous voulez toutes les fonctionnalités habituelles d'une carte mère : un bon refroidissement, une bonne alimentation, toutes les E/S que vous souhaitez, mais bien sûr, vous voulez vous assurer que tous les composants intégrés sont pris en charge par Linux. L'une des choses importantes que nous avons recherchées dans une plateforme pour vous était également la prise en charge de la mémoire ECC.
Pouvez-vous nous expliquer pourquoi c'est si important ?
Je ne comprends pas pourquoi les gens ne demandent pas la prise en charge ECC pour leurs machines, car pouvoir faire confiance à sa machine est la chose la plus importante, et sans ECC, votre mémoire finira par se détériorer. Ce n'est pas une question de « si », mais de « quand ». Cela peut prendre quelques années. Lorsque j'ai assemblé la machine, vous avez apparemment tourné une vidéo. Je n'ai pas pu obtenir l'ECC et j'ai dit que j'allais prendre une RAM raisonnable et ça a bien fonctionné. Ça a bien fonctionné pendant deux ans, puis deux ans ont passé et j'ai commencé à voir des erreurs. J'ai commencé à voir des violations de segmentation. Je fais évidemment cela sur un noyau Linux moderne qui est en cours de développement. Ma première réaction a été : « Oh non, nous avons un bug. » J'ai passé des jours à essayer de comprendre quel était le bug, jusqu'à ce que je réalise que non, ce n'était pas du tout un bug. C'était ma machine qui n'était pas fiable.
Donc pour vous, il ne s'agit pas de savoir si je dois redémarrer mon système parce que mon jeu a planté.
Exactement. Il s'agit plutôt du fait que je travaille sur un logiciel utilisé par des millions de personnes à travers le monde. J'ai besoin de savoir, n'est-ce pas ? Je dois absolument pouvoir faire confiance à ma machine. Et c'est très important. Et je suis convaincu que toutes les blagues sur l'instabilité de Windows et les écrans bleus, enfin, je suppose que ce ne sont plus des écrans bleus, ne sont pas fondées. Une grande partie de ces problèmes ne sont en réalité pas dus à des bugs logiciels. Une grande partie d'entre eux sont dus à un matériel peu fiable. Et dans la communauté des gamers, vous faites aussi de l'overclocking, ce qui ajoute à l'instabilité. Vous trouverez des articles qui expliquent que la mémoire DDR intègre la technologie ECC. Mais non, ce n'est pas le cas. Ce n'est vraiment pas le cas. Certaines puces intègrent la technologie ECC, mais si un problème survient entre la barrette de mémoire et le processeur, vous ne le saurez jamais. Vous avez donc besoin d'une technologie ECC de bout en bout. Je pense en fait que c'est l'une des affirmations marketing les plus scandaleuses de notre époque.
Rendez-vous à 9:37
ECC, fiabilité et culture du « bon PC » selon Torvalds
Lautre élément clef de cette séquence, cest la radicalité avec laquelle Torvalds parle de lECC. Là où beaucoup de constructeurs se contentent de slogans marketing du type « DDR avec ECC intégré dans les puces », il démonte ce discours : si la correction derreurs ne couvre pas toute la chaîne, du module de mémoire au contrôleur dans le CPU, alors ce nest pas une vraie protection.
Pour lui, il faut un ECC de bout en bout. Sinon, les corruptions sur le bus, dans les buffers, ou dans certaines parties de la chaîne ne seront jamais détectées. Et cest à ce moment que les « bugs fantômes » apparaissent : un crash ici, un comportement étrange là, quon finit par attribuer aux développeurs ou au système dexploitation.
Sa règle personnelle est limpide : il ne touche pas à des machines sans ECC. Pour un mainteneur du kernel Linux, cette exigence est un prérequis, pas un luxe. Il a besoin de savoir, en permanence, que si une anomalie apparaît, il peut raisonnablement suspecter le logiciel avant le matériel, au lieu de perdre des jours à chasser un bug imaginaire.
Power supply, refroidissement, overclocking : une vision très « ops »
Tout au long de la vidéo, on voit se dessiner une philosophie matérielle très différente de celle du PC « enthousiaste ». Torvalds se moque des solutions trop exotiques ou trop orientées performance pure....
