"La nube no es mágicamente resistente y las fallas de software, no las fallas físicas, causan casi todas sus interrupciones", dice Chris Saunderson, Director Senior de Análisis de Gartner. "En la nube, las interrupciones casi nunca involucran a todo el proveedor, ni es probable que las interrupciones del servicio sean totales. En cambio, las fallas parciales, las degradaciones del servicio, los problemas de servicio individuales o los problemas locales son más comunes".
El equipo de Entrada y Salida (I&O) necesita comprender las características y causas comunes de las interrupciones de la Nube. Señalan que la mayoría de los fallos son parciales, tienden a ser intermitentes o implican una degradación del rendimiento, donde son menos notorios. Existen diferencias en la resiliencia entre los servicios ofrecidos por los proveedores de la nube.
"La resiliencia no es un estado binario", explica Saunderson. "Nadie puede reclamar resiliencia absoluta, ni usted ni ningún proveedor de nube. Las nubes deben ser tan resistentes o incluso más que la infraestructura local, pero sólo si el equipo de Entrada y Salida las utiliza de manera resistente".
Los analistas de Gartner recomiendan que los líderes de Entrada y Salida se centren en 9 principios clave para mejorar la resiliencia de sus entornos basados en la nube:
- Alineación empresarial: alinear los requisitos de resiliencia con las necesidades empresariales. Sin esta alineación, los equipos no cumplirán las expectativas de resiliencia o gastarán de más.
- Enfoque basado en riesgos: Adoptar un enfoque basado en riesgos para la planificación de la resiliencia que se extienda más allá de los eventos catastróficos. Poner más énfasis en las fallas más comunes, donde las empresas tienen mayor control para mitigarlas.
- Mapeo de dependencias: cree gráficos de dependencia que mapeen todos los componentes de middleware, bases de datos, servicios en la nube y puntos de integración para que puedan diseñarse y configurarse para lograr resiliencia e incluirse tanto en la confiabilidad como en la planificación de recuperación ante desastres (DR).
- Disponibilidad continua: el enfoque de disponibilidad continua se centra en mantener las aplicaciones, los servicios y los datos disponibles en todo momento y en niveles de servicio sin tiempo de inactividad y con un impacto limitado durante un evento de falla.
- Resiliencia por diseño: la aplicación en sí debe ser resistente por diseño. La resiliencia de la infraestructura por sí sola no es suficiente para brindar los servicios sin tiempo de inactividad que esperan los usuarios finales.
- Automatización de DR: la implementación de una recuperación ante desastres totalmente (o casi totalmente) automatizada, ya sea a través de las herramientas propias de la empresa o de herramientas de DR nativas de la nube de terceros, proporciona la base necesaria para cumplir objetivos agresivos de tiempo de recuperación (RTO) y le permite realizar pruebas de forma rutinaria.
- Patrones de resiliencia: Adoptar patrones de resiliencia más allá de la arquitectura y la recuperación ante desastres. Los sistemas resilientes requieren que los equipos se centren en la calidad, la automatización y la mejora continua, e integren la calidad en todo el ciclo de vida de una aplicación.
- Priorice las soluciones nativas de la nube: los proveedores de la nube ofrecen una amplia gama de soluciones que se pueden utilizar para mejorar la resiliencia. Cuando sea posible, los líderes de insumos y resultados deberían aprovechar estas soluciones en lugar de intentar inventar sus propias alternativas y agregar aún más complejidad.
- Centrarse en las funciones empresariales: en lugar de limitarse a pensar simplemente en una "recuperación" similar al reemplazo, explore opciones como alternativas de TI livianas o reemplazos de aplicaciones livianas que proporcionen la funcionalidad mínima esencial para el negocio.