
Vicent Perez
Software Engineer & Tech Lead
•LinkedIn
Road to AWS Solutions Architect – Professional (Día 9/20) ⬇️
Hoy vamos a ver un tema muy interesante, que suele aparecer al menos en un par de preguntas del examen: El disaster recovery.
¿Qué es el disaster recovery?
Básicamente son una serie de estrategias, herramientas y políticas que permiten restaurar un sistema crítico tras un evento disruptivo, ya sea un ciberataque, un desastre natural, un error humano o un fallo de hardware, entre otros...
Este tema es muy importante, ya que hay muchas empresas, organizaciones y otras instituciones, que no se pueden permitir un downtime (imagina un banco, sistemas de comunicaciones, energía, etc), pues incurrirían en pérdidas muy grandes o incluso en la ruptura de cláusulas contractuales de SLA (Service Level Agreements).
El objetivo es restaurar el sistema rápidamente y con el menor impacto ✅
Y es aquí donde entran dos conceptos muy importantes: El Recovery Time Objective (RTO) y el Recovery Point Objective (RPO).
Vamos a ver en qué consisten ⤵️
🔄 RTO
El tiempo máximo que puede tardar un sistema, aplicación o servicio en volver a estar operativo después de la interrupción.
Por ejemplo, si tu RTO es de 2 horas, tu sistema debe estar funcionando nuevamente dentro de ese plazo después de la caída.
En AWS tendríamos varias herramientas para minimizar el tiempo de recuperación:
▪️ Uso de Auto Scaling para reponer instancias rápidamente.
▪️ Arquitecturas multi-AZ o multi-región.
▪️ Snapshots y AMIs preconfiguradas para lanzar entornos rápidamente.
💾 RPO
El máximo período de datos que puedes perder debido a una interrupción. Se refiere a la antigüedad del backup o réplica que puedes aceptar sin un impacto grave.
Por ejemplo, si tu RPO es de 15 minutos, solo puedes tolerar perder como máximo 15 minutos de datos en caso de un fallo.
¿Cómo lo podemos "paliar"?
▪️ Haciendo uso de servicios como AWS Backup.
▪️ Snapshots en RDS.
▪️ Con estrategias de replicación continua usando AWS DMS (Database Migration Service).
También tenemos bases de datos como Amazon Aurora, que nos dan RPO cercanos a cero con réplicas automáticas.
S3 Versioning y replicación entre regiones también ayudarían a reducir RPO.
Como ves, este es un tema muy importante, muchas veces infravalorado puesto que son técnicas preventivas y hasta que no pasa el desastre, no nos damos cuenta de su importancia.
Pero recuerda este dicho: más vale prevenir que curar.
Nos vemos mañana!