Amazon Web Services (AWS) ha publicado un detallado resumen post-evento que desglosa las causas, el impacto y las lecciones aprendidas de esta falla que afectó a millones de usuarios en todo el mundo.
El problema se debió a una condición de competencia entre dos componentes automatizados: DNS Planner, que crea planes DNS, y DNS Enactor, que aplica estos cambios a través de Amazon Route 53, un servicio que gestiona nombres de dominio y enruta el tráfico de internet.
Un retraso en un DNS Enactor provocó la eliminación involuntaria de planes activos, lo que eliminó las direcciones IP del punto final EAST-US-1 de DynamoDB y provocó la interrupción. La empresa desactivó temporalmente la automatización hasta que implementó medidas de seguridad contra este fallo.
La Causa Raíz: Un Fallo en la Gestión de DNS de DynamoDB
Todo comenzó con un problema latente en el sistema de gestión de DNS de Amazon DynamoDB, específicamente en la región US-EAST-1 (Norte de Virginia).
Una condición de carrera entre componentes clave —el Planificador DNS y el Ejecutor DNS— generó un registro DNS vacío e incorrecto para el endpoint regional, impidiendo que los clientes y servicios de AWS resolvieran correctamente las conexiones.
Este error inicial desencadenó un efecto dominó que se extendió a servicios como EC2 y Network Load Balancer (NLB), donde fallos en las comprobaciones de salud y la propagación de estados de red agravaron la situación.
La interrupción se dividió en tres fases distintas: desde las 11:48 PM PDT del 19 de octubre hasta las 2:20 PM PDT del día siguiente.
Durante la primera fase, DynamoDB experimentó tasas elevadas de errores en APIs debido a fallos en la resolución de endpoints, lo que generó retrasos en réplicas de tablas globales en otras regiones.
Impacto en Servicios Críticos: De EC2 a Lambda y Más Allá
El alcance fue impresionante: 113 servicios de AWS se vieron afectados, impactando no solo a clientes externos, sino también a operaciones internas de Amazon.com y sus subsidiarias.
En EC2, los lanzamientos de nuevas instancias fallaron por completo debido a la dependencia en DynamoDB para mantener arrendamientos con servidores físicos, resultando en errores de «capacidad insuficiente».
Servicios como Lambda sufrieron errores en invocaciones y latencias; ECS, EKS y Fargate enfrentaron fallos en el lanzamiento de contenedores; mientras que Amazon Connect reportó elevados errores en el manejo de llamadas y chats.
Incluso AWS STS e IAM experimentaron problemas de autenticación, dejando a usuarios incapaces de iniciar sesión en la consola. Redshift, por su parte, vio interrupciones en la creación de clústeres y procesamiento de consultas.
Afortunadamente, las instancias EC2 existentes permanecieron intactas, minimizando daños a largo plazo.
Medidas de Recuperación y Lecciones para el Futuro
AWS actuó con rapidez: identificaron el problema a las 12:26 AM PDT del 20 de octubre y completaron la mitigación inicial para DynamoDB a las 2:24 AM PDT, aunque algunos subsistemas internos tardaron más en recuperarse.
Implementaron throttling temporal en operaciones como lanzamientos de EC2 para priorizar la estabilidad, logrando una recuperación significativa para el mediodía y operaciones normales totales a las 3:01 PM PDT.
Mirando hacia adelante, Amazon detalla acciones preventivas concretas: deshabilitaron temporalmente la automatización de DNS en DynamoDB a nivel global para corregir la condición de carrera y agregar protecciones; en NLB, introducirán controles de velocidad para limitar remociones de capacidad durante fallos; y en EC2, expandirán pruebas de escala y mejorarán mecanismos de throttling. Estas medidas no solo buscan evitar recurrencias, sino también acortar tiempos de recuperación en futuros incidentes.
Esta interrupción, aunque costosa —con estimaciones en cientos de miles de millones de dólares a nivel global—, subraya el compromiso de AWS con la transparencia y la mejora continua.
En un ecosistema cloud en evolución, estos informes nos equipan mejor para navegar la complejidad digital. ¿Qué opinas de esta falla? ¡Comparte en los comentarios!
