El caos global que paralizó internet
Después de una tarde tormentosa en internet el jueves, tanto los servicios de Google como los de Cloudflare parecían estar funcionando normalmente para el viernes por la mañana. Cuando comenzaron los problemas, la pregunta no era qué está mal con qué servicio en la nube; era, ¿qué servicio no está caído?
Primero, esto no fue solo un problema estadounidense. Google Cloud reportó que fue un problema global. Google declaró que múltiples productos de GCP estaban experimentando impacto debido a problemas del servicio de gestión de identidad y acceso.
Tampoco parecía ser un problema de internet per se. No hubo reportes de problemas con el Sistema de Nombres de Dominio (DNS) o el Border Gateway Protocol (BGP). El tráfico de internet estaba procediendo como de costumbre.
Cronología del desastre
El incidente comenzó alrededor de las 1:49 p.m. ET, según Google. Para las 3:41 p.m. ET, los ingenieros de Google identificaron la causa raíz del problema, pero el inconveniente no se resolvió completamente. Para las 4:49 p.m. ET, Google reportó que todo estaba bien, según la página de estado de Google Cloud.
La compañía también emitió un reporte sobre la causa de la interrupción:
«Desde nuestro análisis inicial, el problema ocurrió debido a una actualización automática de cuota inválida a nuestro sistema de gestión de API, que se distribuyó globalmente, causando que las solicitudes externas de API fueran rechazadas. Para recuperarnos, evitamos la verificación de cuota problemática, lo que permitió la recuperación en la mayoría de las regiones dentro de dos horas. Sin embargo, la base de datos de políticas de cuota en us-central1 se sobrecargó, resultando en una recuperación mucho más larga en esa región.»
Cloudflare también sufrió las consecuencias
Mientras que los servicios de Google sufrieron la mayor parte de la falla, no estaba solo. En una declaración, Cloudflare dijo que aunque muchos de sus servicios sufrieron fallas intermitentes, sus servicios volvieron a la normalidad para el jueves por la noche.
Un portavoz de Cloudflare dijo: «Esta es una interrupción de Google Cloud. Un número limitado de servicios en Cloudflare que usan Google Cloud fueron impactados. Esperamos que vuelvan pronto. Los servicios principales de Cloudflare no fueron impactados.»
¿Qué puede hacer cuando ocurra otra interrupción de la nube?
Si te preguntas qué puede hacer tu negocio para hacer la vida más fácil cuando — no si — ocurra otra gran interrupción de la nube, bueno, por tentador que pueda ser llevar tus servicios internamente, debes preguntarte: «¿Puedo igualar el tiempo de actividad del 99.99% de los principales servicios en la nube — Amazon Web Services, Azure y Google Cloud?» Lo más probable es que no puedas.
La solución: multi-nube y nubes híbridas
Lo que sí puedes hacer es trabajar en distribuir tus cargas de trabajo a través de múltiples proveedores de nube, por ejemplo, multi-nube o combinar nubes públicas y privadas, también conocidas como nubes híbridas. Esto reduce tu riesgo de depender de un solo proveedor y permite la conmutación por error si una nube experimenta una interrupción.
Simplemente usar una multi-nube o nube híbrida no es suficiente. Necesitas automatizar un plan de recuperación ante desastres (DRP) para que entre en acción cuando lleguen problemas al proveedor principal de tu nube. Esto puede ser tan simple como una copia de seguridad en tiempo real de tus datos o una conmutación por error completa.
Servicios especializados para la recuperación ante desastres
Si no tienes la experiencia técnica en tu negocio para construir un DRP, hay compañías que pueden ayudarte a configurar uno y gestionarlo. Estas incluyen: CommVault, Druva, Flexential y Tierpoint.
Si tu empresa depende de servicios en la nube para hacer negocios, es altamente recomendable hablar con una o más de estas compañías para asegurarte de que puedas seguir operando incluso cuando una nube importante se caiga.
Medidas preventivas implementadas por Google
Para prevenir que esto suceda en el futuro, Google ha hecho los siguientes cambios:
- Prevenir que su plataforma de gestión de API falle debido a datos inválidos o corruptos
- Prevenir que los metadatos se propaguen globalmente sin protección, pruebas y monitoreo apropiados en su lugar
- Mejorar el manejo de errores del sistema y pruebas integrales para manejar datos inválidos
La realidad es que las interrupciones masivas de servicios en la nube son inevitables. La clave está en estar preparado con estrategias de respaldo robustas y planes de continuidad del negocio que permitan mantener las operaciones críticas funcionando cuando los gigantes tecnológicos enfrentan problemas.