Developpez.com - Rubrique Systèmes

Le Club des Développeurs et IT Pro

Première panne mondiale d'une heure pour Azure

Microsoft s'explique

Le 2014-11-20 23:59:02, par imikado, Rédacteur
Microsoft Azure est la plateforme PaaS et IaaS concurrente d'Amazon AC2.

Dans la nuit de mardi à mercredi, entre 1h et 2h (heure française) la quasi-totalité des services était interrompue (Azure Storage, Virtual Machines,Websites,Visual Studio,Azure Backup Services...)
Microsoft a réussi a réglé le problème outre Atlantique, mais les problèmes persistaient en Europe de l'Ouest au moins jusqu'à 12h (confirmé par le biais d'incident de Microsoft)
Envoyé par Journal du net
Selon le spécialiste français du pilotage de la performance des CDN et des Clouds, tout ne semble pas avoir été totalement réglé depuis sur cette zone et son datacenter (basé à Dublin). « À 11h, le taux de disponibilité était toujours sous les 90%, et à 12h il était de 93%, donc toujours pas revenu à la normale », précise-t-on chez Cedexis. Quant à la région Europe de l'ouest d'Azure (datacenter d'Amsterdam), elle semble touchée également, mais dans une moindre mesure.
Jason Zander, explique dans un billet (sur le blog de Microsoft Azure) que le problème a eu lieu durant une procédure d'amélioration des performances.
La mise à jour avait pourtant été testée durant plusieurs semaines sur certains clients avec succès, celle-ci améliorant notablement les performances.

Malheureusement, lors du déploiement sur l'ensemble de l'infrastructure, un bug (qui a échappé aux tests) a provoqué un problème de boucle infinie obligeant les équipes à revenir en arrière sur cette mise à jour et redémarrer une partie des serveurs frontaux.

During the rollout we discovered an issue that resulted in storage blob front ends going into an infinite loop, which had gone undetected during flighting. The net result was an inability for the front ends to take on further traffic, which in turn caused other services built on top to experience issues.
J. Zander, au nom de Microsoft s'excuse pour la gêne occasionnée, et assure que leurs services travaillent pour bien comprendre ce qui est arrivé et éviter que cela se reproduise à l'avenir.

Source: http://azure.microsoft.com/blog/2014...-interruption/

Incident Start Date and Time
11/19/2014 00:51:00 AM (UTC)
Date and Time Service was Restored
11/19/2014 11:45:00 AM (UTC)
Que pensez-vous de cette panne importante de 11h sur un service de Cloud si critique ?

Pensez-vous que cet incident peut faire perdre des parts de marché au profit de ses concurrents ?

Trouvez-vous normal que le problème ait été réglé en 1h pour les clients américains et 11h pour les autres ?