El retard de projecte protegeix el vostre VMS contra les fallades de l'amfitrió

Taula de continguts:

Vídeo: Tardigrades: Chubby, Misunderstood, & Not Immortal 2024

Vídeo: Tardigrades: Chubby, Misunderstood, & Not Immortal 2024
Anonim

Després de diversos canvis d'Azure i de millores de seguretat durant els darrers mesos, Microsoft presenta Project Tardigrade com el seu nou intent de fer Azure més fiable.

Project Tardigrade prevé fallades de la plataforma

Project Tardigrade és un nou servei que pretén millorar la resiliència a Azure. Inclou estratègies de mitigació que protegeixen les VM de Azure contra els fracassos de la plataforma.

A continuació, descriu Mark Russinovich, cap tecnològic de Microsoft Azure, que descriu el treball actual a Azure:

El nostre objectiu és capacitar a les organitzacions per exercir la seva càrrega de treball de forma fiable a Azure. Amb aquest com a principi directriu, invertim contínuament en evolucionar la plataforma Azure per convertir-nos en resistents a les falles, no només per impulsar la productivitat empresarial, sinó també per proporcionar una experiència perfecta al client.

Per evitar impactes en les vostres càrregues de treball, el servei permet que els components es puguin curar i recuperar-se ràpidament de possibles fallades, fins i tot en defectes crítics de l'amfitrió.

Com funciona Project Tardigrade?

A continuació, es mostra un exemple de com funciona el flux de treball de recuperació de Tardigrade:

  • Fase 1: Aquest pas no té cap impacte en executar les màquines virtuals de clients. Simplement, recicla tots els serveis que es publiquen a l'amfitrió. En el cas rar que el servei fallat no es reinicia correctament, passem a la fase 2.
  • Fase 2: El nostre servei de diagnòstic funciona a l’amfitrió per recopilar tots els registres / abocaments rellevants de forma sistemàtica, per assegurar-nos que podem diagnosticar a fons la raó del fracàs en la fase 1. Aquesta anàlisi completa ens permet “causar arrel” el problema i evitar així les repeticions. en el futur.
  • Fase 3: A un nivell elevat, restablim el sistema operatiu a un estat saludable amb un impacte mínim per al client per mitigar el problema de l'amfitrió. Durant aquesta fase, conservem els estats de cada màquina virtual a la memòria RAM, després de la qual cosa comencem a restablir el sistema operatiu en un estat saludable. Mentre que el sistema operatiu es restableix ràpidament per sota, s'executen aplicacions a totes les màquines virtuals allotjades al servidor breument "congelar-se", ja que la CPU es suspèn temporalment. Aquesta experiència és similar a una connexió de xarxa temporalment perduda, però es reprèn ràpidament a causa de la lògica de reintentació. Després que el sistema operatiu es restableixi amb èxit, les màquines virtuals consumeixen el seu estat emmagatzemat i reprenen l'activitat normal, eludint així qualsevol possible reinici de la màquina virtual.

Tenint això en compte, Project Tardigrade garantirà que la fallada de qualsevol component únic a l'amfitrió no afecti a tot el sistema. Com a tal, les falles de l'amfitrió no es veuran afectades per VM de clients.

Microsoft treballa intensament per millorar i ampliar els diferents escenaris de fallida de l'amfitrió per assegurar-se que la seva plataforma de computació en núvol és més fiable que mai.

Espereu nous desenvolupaments i altres implementacions de fiabilitat en un futur proper.

El retard de projecte protegeix el vostre VMS contra les fallades de l'amfitrió