Cómo un error de Load Balancing derribó miles de servicios

El 20 de octubre de 2025, internet fue testigo de uno de los mayores apagones digitales de la historia reciente. Durante más de ocho horas, miles de servicios quedaron fuera de línea o experimentaron inestabilidad severa. ¿El culpable? Un problema en el sistema de load balancing de Amazon Web Services (AWS), el mayor proveedor de infraestructura en la nube del mundo.

Snapchat, Fortnite, PicPay, iFood, Mercado Libre y incontables otros servicios fueron afectados. ¿Pero qué sucedió exactamente? ¿Y por qué un único problema en AWS puede causar un efecto dominó tan devastador?

El apagón

A las 4:12 AM (hora de Brasília), comenzaron los primeros reportes de problemas. AWS identificó una falla crítica en un subsistema interno responsable de monitorear la integridad de los balanceadores de carga de red en la región US-EAST-1, ubicada en el norte de Virginia, Estados Unidos.

Esta región es la mayor concentración de centros de datos del mundo, con casi 400 instalaciones. Por ofrecer los precios más bajos globalmente (gracias a exenciones fiscales), US-EAST-1 es extremadamente popular entre empresas brasileñas e internacionales. Se estima que gran parte de los datos procesados por servicios brasileños pasan por allí.

El problema inicial afectó a DynamoDB, la base de datos central de AWS, y rápidamente se propagó a otros servicios críticos como EC2 (servidores virtuales) y Lambda (ejecución de código sin servidor). Como estos servicios son la base para miles de aplicaciones, el impacto fue inmediato y global.

Línea de tiempo

Los primeros reportes de problemas comenzaron a las 04:12 de la mañana. Menos de 40 minutos después, a las 04:51, AWS confirmó el aumento de errores y latencia en sus sistemas. A las 05:26, el problema fue identificado en DynamoDB, la base de datos central de la plataforma. La aplicación de las primeras correcciones comenzó a las 06:22, pero el problema estaba lejos de resolverse.

La situación empeoró drásticamente a las 11:14, cuando el estado del sistema fue cambiado a "en deterioro". Solo a las 12:43 AWS logró identificar la causa raíz: el subsistema de monitoreo de los load balancers. Medidas adicionales de mitigación fueron aplicadas a las 13:13, pero el daño ya estaba hecho.

Más de 6,5 millones de notificaciones fueron registradas en DownDetector a lo largo del día. Según Amazon, 91 servicios internos de AWS fueron impactados simultáneamente, creando un efecto en cascada que se propagó por toda internet.

¿Qué es Load Balancing?

Imagine un restaurante con solo una caja. Si 50 personas llegan al mismo tiempo, se forma una fila enorme y el servicio se vuelve lento. ¿La solución? Abrir más cajas y distribuir los clientes entre ellas de forma inteligente.

Load balancing (balanceo de carga) es exactamente eso, pero para servidores. Es una técnica fundamental que distribuye el tráfico de red o las solicitudes de aplicaciones entre múltiples servidores, garantizando que ningún servidor quede sobrecargado mientras otros permanecen ociosos.

Cómo funciona

Un load balancer actúa como un "portero inteligente" que se sitúa entre los usuarios y los servidores. Cuando accedes a un sitio web o app, tu solicitud no va directamente a un servidor específico—primero pasa por el load balancer, que decide qué servidor está mejor posicionado para atenderla.

[Usuario] → [Load Balancer] → [Servidor 1]
                            → [Servidor 2]
                            → [Servidor 3]
                            → [Servidor 4]

Estrategias de distribución

Existen diferentes algoritmos para decidir qué servidor debe recibir cada solicitud. El método Round Robin, por ejemplo, distribuye las solicitudes de forma circular, enviando una a cada servidor en secuencia. El algoritmo Least Connections envía cada nueva solicitud al servidor con menos conexiones activas en el momento, equilibrando mejor la carga real.

Otras estrategias incluyen IP Hash, que usa la dirección IP del cliente para determinar consistentemente qué servidor lo atenderá, y el método Weighted, que distribuye el tráfico basándose en la capacidad de cada servidor. También existe el enrutamiento Geographic, que dirige a los usuarios a servidores geográficamente más cercanos, reduciendo la latencia.

Health Checks

Un aspecto crítico de los load balancers es el monitoreo de integridad, conocido como health check. Constantemente, el balanceador verifica si cada servidor está saludable y listo para recibir tráfico. Cuando un servidor está respondiendo rápidamente, recibe la carga normal de solicitudes. Si el servidor comienza a volverse lento o presenta errores, el load balancer automáticamente reduce la cantidad de tráfico dirigido a él. Y cuando un servidor queda completamente fuera de línea, es inmediatamente retirado de la rotación, garantizando que ningún usuario sea afectado.

Fue precisamente en este sistema de monitoreo donde ocurrió la falla de AWS.

¿Por qué es crítico?

El load balancing es fundamental para mantener internet funcionando de forma confiable y eficiente. Primero, garantiza alta disponibilidad: si un servidor cae, el load balancer automáticamente redirige el tráfico a servidores saludables, y los usuarios ni siquiera notan que hubo un problema. Esta capacidad de recuperación automática es esencial para servicios que no pueden detenerse.

La escalabilidad es otro beneficio crucial. Cuando es necesario atender a más usuarios, basta agregar más servidores al pool y el load balancer distribuye automáticamente el tráfico hacia ellos. No es necesario reconfigurar toda la infraestructura ni hacer cambios complejos.

Además, distribuir la carga entre múltiples servidores evita que cualquiera de ellos quede sobrecargado, manteniendo la respuesta rápida y consistente para todos los usuarios. Esto impacta directamente en la experiencia del usuario final, quien percibe el servicio como rápido y responsivo.

Finalmente, el load balancing ofrece flexibilidad para mantenimiento. Es posible retirar servidores del pool para actualizaciones, correcciones o mejoras sin derribar el servicio completo. El load balancer simplemente deja de enviar tráfico a esos servidores temporalmente, permitiendo mantenimiento sin tiempo de inactividad.

Qué salió mal

Según Amazon, el problema estaba en un subsistema interno responsable de monitorear la integridad de los balanceadores de carga de red.

En términos simples: el sistema que verificaba si los load balancers estaban funcionando correctamente comenzó a tener problemas. Esto creó un efecto en cascada devastador. Primero, el sistema de monitoreo falló, haciendo que los load balancers comenzaran a recibir información incorrecta sobre la salud de los servidores. Con datos erróneos, las solicitudes fueron enviadas a servidores que no podían atenderlas adecuadamente.

La situación empeoró cuando las nuevas instancias EC2 ya no podían ser creadas. AWS necesitó limitar esto intencionalmente para evitar un deterioro aún mayor del problema. Los servicios que dependían de estos recursos comenzaron a fallar en secuencia. DynamoDB, Lambda y otros servicios críticos se volvieron inestables, y como miles de aplicaciones dependen directamente de estos servicios fundamentales de AWS, también dejaron de funcionar, creando el apagón generalizado que afectó a usuarios en todo el mundo.

El efecto dominó

AWS tiene el 37% del mercado global de cloud. Cuando falla, no es solo "un sitio web" el que cae—es una infraestructura que sostiene gran parte de internet moderna.

Piénsalo así: si AWS fuera una compañía eléctrica, sería como si un problema en una planta generadora causara un apagón en toda una región metropolitana. No importa si tu casa tiene buenos cables o equipos modernos—sin energía de la fuente, nada funciona.

Conclusión

El apagón de AWS de octubre de 2025 fue un recordatorio de que incluso los sistemas más sofisticados pueden fallar—y cuando fallan en componentes críticos como load balancers, el impacto es masivo.

Load balancing no es solo una técnica de optimización; es la columna vertebral de internet moderna. Es lo que permite que miles de millones de personas accedan a sus servicios favoritos simultáneamente sin que todo colapse.

¿Necesitas ayuda para arquitectar sistemas resilientes? En Tucupy, ayudamos a empresas a construir infraestructuras robustas que resisten fallas y escalan con confianza. Contáctanos para conversar sobre tu proyecto.