Dos fallos simultáneos afectaron a Cloudflare y Google Cloud el pasado 12 de junio

El jueves de la semana recién pasada dos interrupciones en paralelo expusieron vulnerabilidades operativas en infraestructuras críticas: Cloudflare sufrió una interrupción sin afectación de seguridad, y Google Cloud vivió una extensa caída global que impactó a múltiples servicios.

Incidente en Cloudflare

El pasado 12 de junio, el proveedor de servicios CDN y DNS, Cloudflare, reportó una caída en su infraestructura que afectó la entrega de sitios y servicios web a nivel global. Según el blog oficial de la compañía, el incidente no fue provocado por un problema de seguridad, sino por una falla interna que provocó interrupciones en la conectividad, aunque la integridad de los datos permaneció intacta.

“La causa de esta interrupción se debió a una falla en la infraestructura de almacenamiento subyacente utilizada por nuestro servicio Workers KV, que es una dependencia crítica para muchos productos de Cloudflare y del que se depende para la configuración, la autenticación y la entrega de activos en los servicios afectados”, afirmó la compañía.

Tras activar sus protocolos de resiliencia, el equipo técnico de Cloudflare restauró la mayoría de las funciones en un par de horas. En el comunicado la empresa insistió en que no se detectaron indicios de exfiltración ni acceso no autorizado, reafirmando que “la seguridad y la privacidad de la información de nuestros clientes no se vieron comprometidas”.

Tras la interrupción, Cloudflare decidió dar prioridad a una serie de medidas para reforzar la resiliencia de sus sistemas. Entre los principales cambios se encuentra abandonar gradualmente la dependencia de un proveedor externo de la nube para el almacenamiento backend de Workers KV. También indicaron que tienen previsto transferir el almacén central de KV hacia R2, la plataforma de objetos de Cloudflare, con el objetivo de minimizar riesgos asociados a terceros.

Además, la empresa implementará mecanismos de protección entre servicios y desarrollará nuevas herramientas destinado a ir restableciendo gradualmente los servicios cuando ocurran fallos en el almacenamiento. Esto permitirá evitar sobrecargas en el tráfico, ayudando así a prevenir caídas en cascada en el futuro.

Incidente en Google Cloud

En paralelo, el mismo jueves 12 de junio, Google Cloud enfrentó un apagón severo que comenzó alrededor de las 10:51 PDT (hora de la costa del pacífico en los Estados Unidos) y se extendió hasta las 18:18 PDT del mismo día. La interrupción se originó por la implementación de una nueva funcionalidad de control de cuotas (Service Control) que incluyó un cambio erróneo en políticas automatizadas. Un campo en blanco desencadenó una falla crítica (null pointer), generando un bucle de caída que propagó errores 503 globalmente. Las regiones más afectadas tardaron cerca de tres horas en recuperarse debido a un sobrecargado sistema de base de datos Spanner, mientras que regiones secundarias se estabilizaron en aproximadamente dos horas.

Entre los afectados estuvieron múltiples productos de Google Cloud (como Compute Engine, BigQuery, Pub/Sub, Cloud Storage) y servicios de Google Workspace (Gmail, Drive, Meet, Calendar, Chat, Voice, Cloud Search, Docs y Tasks).

Desde Google indicaron que apenas se detectó la causa, se activó el proceso para desactivar la nueva función, y en minutos comenzó la recuperación, aunque esta se prolongó por más tiempo en ciertas regiones.

Como consecuencia de este incidente, plataformas como Spotify, Discord y Snapchat también reportaron caídas similares debido a su dependencia de la infraestructura de Google Cloud.