Un Availability Set, o conjunto de disponibilidad, es una funcionalidad de agrupación lógica que podemos utilizar en Azure, para asegurarnos que los recursos de una máquina virtual que coloquemos en dicho Availability Set estén aislados entre sí cuando se implementen en un centro de datos de Azure.

Azure garantiza que las máquinas virtuales colocadas en un conjunto de disponibilidad se ejecutan en varios servidores físicos, en distintos grupos de proceso, en diferentes unidades de almacenamiento y distintos conmutadores de red. Si se produce un error de hardware o software de Azure, solo un subconjunto de las máquinas virtuales se ve afectado y la aplicación se mantiene actualizada y sigue estando disponible para los clientes. Los conjuntos de disponibilidad son una funcionalidad fundamental para compilar soluciones en la nube confiables. Microsoft garantiza una disponibilidad en nuestras máquinas virtuales del 99,95%. pero sólo si hemos creado Availability Sets para nuestras máquinas.

Los Availability Set nos permiten proteger nuestras máquinas frente a diferentes eventos:

  • Mantenimiento Hardware no planificado: Un evento de mantenimiento de hardware no planeadose produce cuando la plataforma Azure predice que en el hardware o en cualquier componente de plataforma asociado a una máquina física está a punto de producirse un error. Cuando la plataforma predice un error, se emitirá un evento de mantenimiento de hardware no planeado para reducir el efecto en las máquinas virtuales hospedadas en ese hardware. Azure usa tecnología Live Migration, o migración en vivo, para migrar las máquinas virtuales del hardware en el que se producen errores a una máquina física en buen estado. La migración en vivo es una operación de conservación de máquinas virtuales que solo detiene la máquina virtual durante un breve período. El tiempo de caída puede ser de unos 30 segundos, que es el tiempo que lleva poner la máquina virtual en pausa. Se mantienen la memoria, los archivos abiertos y las conexiones de red, pero el rendimiento puede verse reducido antes o después del evento
  • Fallo hardware no planificado: Un evento de tiempo de inactividad inesperadose produce cuando el hardware o la infraestructura física subyacente a su máquina virtual presenta algún tipo de error. Podemos encontrar errores de la red local, errores de los discos locales u otros errores a nivel de bastidor. Cuando se detecta un error de este tipo, la plataforma Azure migra (recupera) automáticamente la máquina virtual a una máquina física en buen estado en el mismo centro de datos. Durante el procedimiento de recuperación, las máquinas virtuales experimentan tiempos de inactividad (reinicio) y, en algunos casos, pérdidas de la unidad temporal. El sistema operativo y los discos de datos asociados siempre se conservan. En este caso el tiempo de caída puede ser mayor porque la máquina virtual ha podido quedar corrupta.

Las máquinas virtuales también pueden experimentar tiempos de inactividad en el improbable caso que una interrupción o desastre afecte a todo un centro de datos, o incluso a toda una región. Para estos casos, Azure proporciona opciones de protección que incluyen zonas de disponibilidad y regiones emparejadas.

  • Mantenimiento hardware planificado: Eventos de mantenimiento planeado son actualizaciones periódicas realizadas por Microsoft en la plataforma Azure subyacente para mejorar en general la fiabilidad, el rendimiento y la seguridad de la infraestructura de la plataforma sobre las que se funcionan sus máquinas virtuales. La mayoría de estas actualizaciones se realizan sin que Virtual Machines ni Cloud Services resulten afectados. Aunque la plataforma Azure intente utilizar el mantenimiento de conservación de máquinas virtuales en todas las ocasiones posibles, existen algunos casos poco frecuentes en los que estas actualizaciones requieren un reinicio de la máquina virtual para aplicar las actualizaciones necesarias a la infraestructura subyacente. En este caso, puede realizar un mantenimiento planeado de Azure con la operación de reimplementación de mantenimiento, parando sus máquinas virtuales en el período de tiempo adecuado.
  • Actualizacion: Instalación de actualizaciones. Planificado por Microsoft.

Para proteger frente a estas situaciones, los Availability Set definen:

  • UpdateDomain: Permite mantener un subconjunto de nuestras máquinas virtuales en funcionamiento ante actualizaciones programadas. Por defecto para un conjunto de disponibilidad se asignan 5 UD (dominios de actualización), que el usuario no puede configurar (las implementaciones de Resource Manager pueden aumentarse para proporcionar un máximo de veinte dominios de actualización). Cuando se configuran más de cinco máquinas virtuales en un único conjunto de disponibilidad, la sexta máquina virtual se coloca en el mismo dominio de actualización que la primera, la séptima en el mismo que la segunda, y así sucesivamente. Es posible que el orden en que se reinician los dominios de actualización no siga una secuencia durante un mantenimiento planeado, pero se reinician de uno en uno. Un dominio de actualización reiniciado tiene 30 minutos para recuperar antes de que el mantenimiento se inicie en un dominio de actualización diferente.
  • FailureDomain: Protege frente a fallos de hardware tanto planificados como no planificados. Garantiza la disponibilidad de nuestras máquinas repartiéndolas en diferentes racks, pero en el mismo CPD. No protege frente a un desastre en un CPD. Por defecto crea 2 FD  (dominios de error), pudiéndose separan hasta en 3 dominios de error en las implementaciones con Resource Manager.

Aunque colocar las máquinas virtuales en un conjunto de disponibilidad no protege su aplicación contra errores del sistema operativo ni específicos de aplicaciones, limita el impacto de posibles errores de hardware físico, interrupciones de red o cortes de alimentación.

 

Para reducir el impacto del tiempo de parada debido a uno o más de estos eventos, se recomienda las siguientes mejores prácticas de alta disponibilidad para las máquinas virtuales:

Autor/a: Alfonso Encinas Rubio

Curso: Microsoft MCSA Windows Server 2016 + Microsoft MCSE Cloud Platform & Infrastructure

Centro: Tajamar

Año académico: 2017-2018

Leave a Comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.