{"id":7261,"date":"2025-11-06T19:07:09","date_gmt":"2025-11-06T18:07:09","guid":{"rendered":"https:\/\/www.hostingtg.com\/blog\/?p=7261"},"modified":"2025-11-06T19:07:15","modified_gmt":"2025-11-06T18:07:15","slug":"resiliencia","status":"publish","type":"post","link":"https:\/\/www.hostingtg.com\/blog\/resiliencia\/","title":{"rendered":"Resiliencia en la nube: de la potencia a la confianza"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">Qu\u00e9 es resiliencia (y en qu\u00e9 se diferencia de fiabilidad y HA)<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Cuando pienso en resiliencia, dejo de mirar los \u201ccaballos de fuerza\u201d y empiezo a medir \u201cconfianza\u201d. En la nube <strong>los fallos no son excepciones, son escenarios normales<\/strong>: un disco que muere, un nodo que no responde, una AZ que cae o un pico de tr\u00e1fico an\u00f3malo. La pregunta \u00fatil nunca es \u201c\u00bfc\u00f3mo evito que falle?\u201d, sino \u201c<strong>\u00bfqu\u00e9 tan r\u00e1pido sigo dando servicio cuando falle?<\/strong>\u201d. Ah\u00ed se separa un sistema fr\u00e1gil de uno maduro.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Para ordenar ideas, conviene diferenciar t\u00e9rminos que mucha gente usa como sin\u00f3nimos:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th>Concepto<\/th><th>Pregunta que responde<\/th><th>C\u00f3mo se mide<\/th><th>Ejemplo pr\u00e1ctico<\/th><\/tr><\/thead><tbody><tr><td><strong>Fiabilidad<\/strong><\/td><td>\u00bfCon qu\u00e9 frecuencia falla?<\/td><td>MTBF\/MTTR, tasa de errores<\/td><td>Un servicio que rara vez se cae<\/td><\/tr><tr><td><strong>Alta disponibilidad (HA)<\/strong><\/td><td>\u00bfEst\u00e1 casi siempre arriba?<\/td><td>% de uptime (SLO)<\/td><td>Dise\u00f1o multi-AZ con failover<\/td><\/tr><tr><td><strong>Resiliencia<\/strong><\/td><td>\u00bfQu\u00e9 tan bien sigo operando cuando algo <em>ya<\/em> fall\u00f3?<\/td><td>RTO, RPO, tiempo de degradaci\u00f3n\/recuperaci\u00f3n<\/td><td>Degradaci\u00f3n elegante + recuperaci\u00f3n automatizada<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Traducci\u00f3n a n\u00fameros que importan:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>SLO\/SLI:<\/strong> tu promesa y c\u00f3mo la mides (latencia p95, tasa de \u00e9xito, uptime mensual).<\/li>\n\n\n\n<li><strong>RTO (Recovery Time Objective):<\/strong> cu\u00e1nto tiempo puedes tardar en recuperar el servicio.<\/li>\n\n\n\n<li><strong>RPO (Recovery Point Objective):<\/strong> cu\u00e1ntos datos puedes permitirte perder (p. ej., 1 min vs 1 hora).<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">En mi caso, cuando defino resiliencia con un equipo, empiezo por estos objetivos y <strong>valido que el negocio los entienda<\/strong>: no es lo mismo tolerar 15 minutos de ca\u00edda en un blog que en un checkout de e-commerce en pleno Black Friday.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Objetivos medibles: RTO, RPO, SLO y SLI<\/h3>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Aterriza el SLO<\/strong> (p. ej., 99,95% mensual y latencia p95 &lt; 300 ms).<\/li>\n\n\n\n<li><strong>Fija RTO\/RPO por dominio<\/strong>: base de datos, colas, almacenamiento de objetos, autenticaci\u00f3n, pagos.<\/li>\n\n\n\n<li><strong>Define \u201cmodos degradados\u201d aceptables<\/strong>: \u00bfread-only? \u00bfdeshabilitar b\u00fasquedas pesadas? \u00bflimitar adjuntos?<\/li>\n<\/ol>\n\n\n\n<p class=\"wp-block-paragraph\">Peque\u00f1o truco que me ha funcionado: <strong>construye tu dashboard de SLI desde el dise\u00f1o<\/strong>, no al final. Si no puedes medirlo el primer d\u00eda, dif\u00edcilmente lo cumplir\u00e1s el d\u00eda que algo se rompa.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h2 class=\"wp-block-heading\">Principios de dise\u00f1o: redundancia inteligente, tolerancia a fallos y recuperaci\u00f3n automatizada<\/h2>\n\n\n\n<figure class=\"wp-block-image size-full\"><a href=\"https:\/\/www.hostingtg.com\/blog\/wp-content\/uploads\/2025\/11\/resiliencia-esquema.webp\"><img fetchpriority=\"high\" decoding=\"async\" width=\"900\" height=\"580\" src=\"https:\/\/www.hostingtg.com\/blog\/wp-content\/uploads\/2025\/11\/resiliencia-esquema.webp\" alt=\"resiliencia esquema\" class=\"wp-image-7263\" title=\"\"><\/a><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">He probado varias veces que copiar y pegar \u201cdoblando todo\u201d es caro e ineficiente. Prefiero lo que llamo <strong>redundancia inteligente<\/strong>: duplico lo que rompe la experiencia si muere (DB, balanceadores, storage cr\u00edtico) y <strong>no<\/strong> lo que s\u00f3lo a\u00f1ade complejidad sin mover la aguja.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Redundancia inteligente:<\/strong>\n<ul class=\"wp-block-list\">\n<li><strong>DB y almacenamiento<\/strong>: r\u00e9plicas en otra AZ o regi\u00f3n; snapshots con retenci\u00f3n; pol\u00edticas de restauraci\u00f3n probadas.<\/li>\n\n\n\n<li><strong>Balanceadores\/ingress<\/strong>: activos en multizona; pol\u00edticas de salud agresivas con backoff.<\/li>\n\n\n\n<li><strong>Stateful vs stateless<\/strong>: mant\u00e9n stateless todo lo posible; lo stateful va con mimo (r\u00e9plicas, quorum, fencing).<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Tolerancia a fallos (degradaci\u00f3n elegante):<\/strong><br>No es \u201ctodo o nada\u201d. Un sistema maduro <strong>se degrada con elegancia<\/strong>: limita funcionalidades pesadas, pasa a <strong>modo read-only<\/strong>, encola peticiones diferibles o sirve contenido en cach\u00e9. En un incidente real, he visto que este enfoque cambia un \u201capag\u00f3n\u201d por una <strong>molestia tolerable<\/strong> para el usuario.<\/li>\n\n\n\n<li><strong>Recuperaci\u00f3n automatizada:<\/strong><br>Cuanto menos dependes de que \u201calguien entre al servidor a arreglarlo\u201d, m\u00e1s resiliente eres. Infraestructura como c\u00f3digo, health checks realistas, auto-healing y <strong>runbooks que ejecuta un bot<\/strong>. Mi regla: si lo hicimos manual una vez en un incidente, <strong>la siguiente es automatizada<\/strong>.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">D\u00f3nde s\u00ed duplicar (y d\u00f3nde no): DB, balanceadores, almacenamiento<\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>S\u00ed duplicar<\/strong>:\n<ul class=\"wp-block-list\">\n<li><strong>Base de datos transaccional<\/strong> (r\u00e9plicas + failover controlado);<\/li>\n\n\n\n<li><strong>Almacenamiento de objetos cr\u00edtico<\/strong> (versionado + replicaci\u00f3n);<\/li>\n\n\n\n<li><strong>Puntos \u00fanicos de entrada<\/strong> (LB, DNS, control planes con SLAs altos).<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Evaluar<\/strong>:\n<ul class=\"wp-block-list\">\n<li>Microservicios de baja criticidad que pueden reintentar o encolar.<\/li>\n\n\n\n<li>Herramientas internas que toleran downtime en horario no laboral.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>No duplicar a ciegas<\/strong>:\n<ul class=\"wp-block-list\">\n<li>Procesos batch sin impacto directo en el SLO;<\/li>\n\n\n\n<li>Servicios experimentales sin tr\u00e1fico de cliente.<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">Degradaci\u00f3n elegante: circuit breakers, colas y modos \u201cread-only\u201d<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Patrones que me han dado paz mental:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Circuit breaker + timeouts<\/strong>: mejor cortar y responder r\u00e1pido con un fallback que colgar al usuario.<\/li>\n\n\n\n<li><strong>Colas y reintentos con backoff<\/strong>: no mates tu DB con tormentas de reintentos.<\/li>\n\n\n\n<li><strong>Modo read-only<\/strong>: \u00fatil para picos de lectura o mantenimiento; comunica el estado al front.<\/li>\n\n\n\n<li><strong>Feature flags<\/strong>: recorta funciones pesadas durante la crisis sin redeploys.<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h2 class=\"wp-block-heading\">Patrones que funcionan cuando todo falla<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\">Activo-activo vs activo-pasivo: costes, riesgos y latencia<\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Activo-activo<\/strong>: todo sirve en paralelo (multi-regi\u00f3n o multi-AZ).\n<ul class=\"wp-block-list\">\n<li><strong>Pro<\/strong>: RTO casi cero, escalado m\u00e1s suave.<\/li>\n\n\n\n<li><strong>Contra<\/strong>: complejidad (consistencia de datos, enrutado global), coste duplicado.<\/li>\n\n\n\n<li><strong>\u00dasalo<\/strong> cuando el RTO es ultra exigente y tus datos soportan replicaci\u00f3n r\u00e1pida.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong>Activo-pasivo<\/strong>: primario sirve, secundario caliente\/listo.\n<ul class=\"wp-block-list\">\n<li><strong>Pro<\/strong>: m\u00e1s sencillo y barato.<\/li>\n\n\n\n<li><strong>Contra<\/strong>: RTO > 0; exige simulacros.<\/li>\n\n\n\n<li><strong>\u00dasalo<\/strong> cuando puedes tolerar minutos de recuperaci\u00f3n y prefieres simplicidad.<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Yo balanceo esta decisi\u00f3n con una <strong>mini-matriz coste-riesgo<\/strong>: si RTO \u2264 1\u20132 min y el negocio lo exige, activo-activo suele ser inevitable; si RTO de 10\u201315 min sirve, activo-pasivo bien ejercitado da un ROI excelente.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Georedundancia, GSLB y cambios de zona\/regi\u00f3n<\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>GSLB \/ DNS inteligente<\/strong>: enruta tr\u00e1fico lejos del fallo; health checks externos.<\/li>\n\n\n\n<li><strong>Multi-AZ primero, multi-regi\u00f3n si el riesgo lo pide<\/strong> (regulatorio, desastres grandes).<\/li>\n\n\n\n<li><strong>Datos<\/strong>: analiza latencias de replicaci\u00f3n (s\u00edncrona vs as\u00edncrona). Si tu checkout no tolera p\u00e9rdida, acota RPO a segundos con enlaces de baja latencia o dise\u00f1a \u201c<strong>escrituras locales + reconciliaci\u00f3n<\/strong>\u201d.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">Backups + replicaci\u00f3n: estrategia combinada y pruebas de restauraci\u00f3n<\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Replicaci\u00f3n<\/strong> cubre disponibilidad; <strong>backups<\/strong> cubren corrupci\u00f3n humana o l\u00f3gica.<\/li>\n\n\n\n<li>Pol\u00edtica sana: <strong>3-2-1<\/strong> (tres copias, dos soportes, una offsite), cifrado, retenciones y <strong>pruebas de restauraci\u00f3n calendarizadas<\/strong>. En mis equipos, fallar una prueba de restore <strong>rompe el build<\/strong>: preferimos \u201cavergonzarnos\u201d en staging antes que en producci\u00f3n.<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h2 class=\"wp-block-heading\">Operativa SRE: observabilidad, testeo y simulacros de desastre<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">La resiliencia no es un diagrama bonito, es <strong>disciplina operacional<\/strong>.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Observabilidad con prop\u00f3sito<\/strong>: m\u00e9tricas (SLO), logs con contexto y trazas distribuidas.<\/li>\n\n\n\n<li><strong>Alertas por s\u00edntoma, no por ruido<\/strong>: latencia p95, saturaci\u00f3n de colas, tasa de errores; evita alertas por CPU aislada.<\/li>\n\n\n\n<li><strong>Pruebas de carga y caos<\/strong>: genera picos controlados, desconecta una AZ en staging, corta una dependencia y mira si el sistema <strong>se degrada<\/strong> o <strong>se hunde<\/strong>.<\/li>\n\n\n\n<li><strong>Postmortems blameless<\/strong>: aprender > culpar; cada incidente deja una automatizaci\u00f3n nueva.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">Runbooks, automatizaci\u00f3n e IaC para \u201cmenos manos-teclado\u201d<\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Runbooks<\/strong> versionados: comandos, verificaciones, criterios de \u00e9xito y reversi\u00f3n.<\/li>\n\n\n\n<li><strong>Bots de operaci\u00f3n<\/strong>: ejecutar failovers, pausar colas, elevar l\u00edmites.<\/li>\n\n\n\n<li><strong>Infraestructura como c\u00f3digo (IaC)<\/strong>: que el estado de producci\u00f3n <strong>tenga receta<\/strong>; cero cambios \u201ca mano\u201d.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">Checklist de auditor\u00eda de resiliencia (lista r\u00e1pida)<\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li>SLO\/SLI definidos y visibles para todos<\/li>\n\n\n\n<li>RTO\/RPO por dominio con responsables<\/li>\n\n\n\n<li>Modo degradado documentado y probado<\/li>\n\n\n\n<li>Backups con restores verificados mensualmente<\/li>\n\n\n\n<li>Simulacro de AZ ca\u00edda trimestral<\/li>\n\n\n\n<li>Alertas por s\u00edntoma; on-call rotativo claro<\/li>\n\n\n\n<li>Runbooks actualizados; automatizaciones de tareas repetidas<\/li>\n\n\n\n<li>Revisiones de dependencias externas (SLA y l\u00edmites)<\/li>\n<\/ul>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h2 class=\"wp-block-heading\">Caso pr\u00e1ctico: c\u00f3mo reaccionar en 15 minutos ante un fallo total<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Escenario:<\/strong> el primario de base de datos muere y el sitio empieza a lanzar 500. Objetivo: <strong>RTO 15 min, RPO \u2264 1 min<\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Minuto 0\u20133 \u2014 Detecci\u00f3n y contenci\u00f3n<\/strong><\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Alertas por tasa de errores + latencia p95.<\/li>\n\n\n\n<li>Activar <strong>modo degradado<\/strong>: lee de cach\u00e9, pausa operaciones pesadas, activar \u201cread-only\u201d si aplica.<\/li>\n\n\n\n<li>Comunicar en status page: \u201cDegradaci\u00f3n parcial, investigando\u201d.<\/li>\n<\/ol>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Minuto 3\u20137 \u2014 Diagn\u00f3stico y decisi\u00f3n<\/strong><br>4. Health checks confirman ca\u00edda del primario; r\u00e9plicas sanas.<br>5. Decide <strong>failover<\/strong> (si r\u00e9plicas v\u00e1lidas) o <strong>restore<\/strong> (si corrupci\u00f3n).<br>6. Congelar despliegues; asignar roles: <em>incident commander, comms, executor<\/em>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Minuto 7\u201312 \u2014 Ejecuci\u00f3n automatizada<\/strong><br>7. Bot ejecuta failover a la r\u00e9plica en otra AZ\/regi\u00f3n; invalida cach\u00e9 inconsistente.<br>8. GSLB\/DNS ajusta tr\u00e1fico; balanceadores saneados.<br>9. Validar integridad de datos con checksum y tests m\u00ednimos de negocio (login, checkout).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Minuto 12\u201315 \u2014 Verificaci\u00f3n y cierre provisional<\/strong><br>10. SLI vuelven a verde; levantar modo degradado gradualmente.<br>11. Comunicar recuperaci\u00f3n y acciones siguientes.<br>12. Crear ticket para <em>root cause<\/em> y automatizaci\u00f3n que evite repetir el manual.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Lo crucial aqu\u00ed no fue la potencia de la m\u00e1quina, sino la <strong>confianza<\/strong> en que el sistema reacciona solo y el equipo sabe qu\u00e9 bot\u00f3n apretar si hace falta.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h2 class=\"wp-block-heading\">La resiliencia no es un parche, es dise\u00f1o desde el inicio<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Sistemas que \u201cno fallan\u201d no existen; sistemas que <strong>fallan bien<\/strong> s\u00ed. Yo lo resumo as\u00ed: <strong>decide tus objetivos (SLO, RTO, RPO), duplica con inteligencia lo que de verdad importa, dise\u00f1a degradaciones elegantes y automatiza la recuperaci\u00f3n<\/strong>. Todo lo dem\u00e1s son <em>slides bonitas<\/em>. La nube deja de ser potencia para convertirse en <strong>confianza<\/strong> cuando, ante el peor d\u00eda, <strong>el usuario apenas lo nota<\/strong>.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<h2 class=\"wp-block-heading\">FAQs<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>\u00bfResiliencia es lo mismo que HA?<\/strong><br>No. HA busca estar \u201csiempre arriba\u201d; resiliencia asume fallos y garantiza que el servicio <strong>siga<\/strong> de alguna forma y <strong>se recupere r\u00e1pido<\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>\u00bfQu\u00e9 priorizo si tengo poco presupuesto?<\/strong><br>Define SLO y RTO\/RPO realistas; <strong>multi-AZ en DB y LB<\/strong>, backups con restore probado y un <strong>modo degradado<\/strong> claro. Eso solo te da un salto enorme.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>\u00bfC\u00f3mo s\u00e9 si activo-activo me compensa?<\/strong><br>Si el negocio exige RTO ~0 y tus datos toleran replicaci\u00f3n de baja latencia, s\u00ed. Si puedes vivir con 10\u201315 minutos y priorizas simplicidad, activo-pasivo bien practicado es mejor.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>\u00bfCada cu\u00e1nto probar failover\/restore?<\/strong><br>Failover: trimestral (al menos). Restore: <strong>mensual<\/strong>. Lo que no pruebas, no tienes.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Opini\u00f3n Personal<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La nube me ense\u00f1\u00f3 una verdad inc\u00f3moda: <strong>la potencia no compra confianza<\/strong>. Puedes montar <a href=\"https:\/\/www.hostingtg.com\/servidores-vps\/\">CPUs de \u00faltima generaci\u00f3n, discos NVMe en RAID<\/a> y redes a 100 Gbps; el d\u00eda que algo falle \u2014y va a fallar\u2014 lo \u00fanico que importa es <strong>c\u00f3mo responde tu arquitectura<\/strong>. Por eso, para m\u00ed, la resiliencia no es un atributo t\u00e9cnico m\u00e1s: es una postura. Un sistema que presume de m\u00fasculo pero entra en p\u00e1nico ante el primer tropiezo es, en el fondo, un castillo de arena con luces LED.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Suele incomodar cuando digo que la pregunta correcta no es \u201c\u00bfc\u00f3mo evito que algo falle?\u201d, sino \u201c<strong>\u00bfqu\u00e9 tan r\u00e1pido sigo dando servicio cuando falle?<\/strong>\u201d. Parece una rendici\u00f3n, pero es lo contrario: es un compromiso con la realidad. Nadie opera en un laboratorio perfecto. Hay discos que mueren, zonas que se caen y personas \u2014brillantes, humanas\u2014 que se equivocan. El m\u00e9rito no est\u00e1 en prometer un 100% imposible, sino en <strong>dise\u00f1ar para el peor d\u00eda<\/strong> y llevarlo con elegancia.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">He visto arquitecturas que se declaran \u201cresilientes\u201d por tener todo duplicado. Error. Duplicar sin criterio es como comprar dos paraca\u00eddas sin revisar el arn\u00e9s: m\u00e1s caro, igual de fr\u00e1gil. La <strong>resiliencia inteligente<\/strong> elige con frialdad qu\u00e9 duplicar (DB, balanceadores, almacenamiento cr\u00edtico) y qu\u00e9 dejar en modo \u201cbest effort\u201d porque el impacto real es bajo. Esto no es taca\u00f1er\u00eda; es responsabilidad. Alinear RTO, RPO y SLO con el negocio deber\u00eda ser tan normal como versionar el c\u00f3digo. Si no sabes cu\u00e1ntos minutos de ca\u00edda tolera tu checkout \u2014o cu\u00e1ntos datos puedes perder sin drama\u2014 no est\u00e1s haciendo ingenier\u00eda; est\u00e1s apostando.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Tambi\u00e9n defiendo a muerte la <strong>degradaci\u00f3n elegante<\/strong>. Lo binario (o todo, o nada) suena firme pero rompe car\u00edsimo. Prefiero un servicio que, en crisis, se declare \u201cread-only\u201d, recorte funcionalidades, sirva cach\u00e9 o encole cargas pesadas. A los usuarios les molesta menos un recorte temporal y honesto que un error 500 que huele a incendio. Y s\u00ed, esto exige dise\u00f1o previo: circuit breakers, timeouts razonables, feature flags y rutas de escape claras. Si tu \u00fanica estrategia es \u201creiniciar hasta que funcione\u201d, no tienes resiliencia; tienes esperanza con cron.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Sobre <strong>automatizaci\u00f3n<\/strong>, confieso que soy fundamentalista. Cada intervenci\u00f3n manual que se repite en un incidente es una deuda t\u00e9cnica que merma tu pr\u00f3xima madrugada. Los sistemas que \u201cfallan bien\u201d recuperan solos: health checks que importan, auto-healing real, playbooks ejecutables por un bot y IaC que deja rastro. \u00bfRom\u00e1ntico arreglarlo a mano a las tres de la ma\u00f1ana? Puede. \u00bfEscalable? Jam\u00e1s. El trabajo heroico no construye confianza; la <strong>previsibilidad<\/strong> s\u00ed.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Y ahora, lo impopular: <strong>activo-activo no es el santo grial<\/strong>. Es tentador por el RTO casi cero, pero encarece, complejiza y, mal entendido, abre flancos nuevos (consistencia, latencia, reconciliaci\u00f3n). Si tu negocio acepta 10\u201315 minutos de recuperaci\u00f3n, un activo-pasivo disciplinado \u2014ensayado, con monitoreo y conmutaci\u00f3n probada\u2014 ofrece un ROI dif\u00edcil de superar. La madurez no es elegir la opci\u00f3n m\u00e1s cara, sino <strong>la que mejor alinea riesgo y valor<\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Hay un aspecto cultural que me parece tan cr\u00edtico como los diagramas: los equipos que tratan la resiliencia como <strong>una pr\u00e1ctica continua<\/strong> ganan. Observabilidad centrada en s\u00edntomas, simulacros peri\u00f3dicos (s\u00ed, \u201cromper\u201d cosas en staging), postmortems sin culpas y m\u00e9tricas visibles para todos. La resiliencia, cuando es real, deja huella: menos sorpresas, menos p\u00e1nico, m\u00e1s conversaciones serenas en medio del caos. Cuando ocurre un incidente y el equipo habla en <strong>procedimientos<\/strong> y no en <strong>opiniones<\/strong>, sabes que est\u00e1s del lado correcto.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u00bfY la comunicaci\u00f3n? Subestimada. Un buen <em>status page<\/em>, mensajes claros y expectativas honestas son parte de la resiliencia. Porque no se trata solo de mantener procesos vivos; se trata de preservar <strong>la confianza<\/strong> de quien te usa y de quien te paga. He visto incidentes t\u00e9cnicamente impecables arruinar la relaci\u00f3n con clientes por silencio o eufemismos. Preferir\u00eda mil veces un \u201cestamos en modo degradado; su pedido est\u00e1 a salvo y volveremos a la normalidad en 12 minutos\u201d a un \u201calgunas funcionalidades podr\u00edan verse afectadas\u201d que no dice nada.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Al final, la resiliencia es una \u00e9tica de trabajo aplicada a la tecnolog\u00eda: <strong>aceptar el fallo, acotar el da\u00f1o, recuperarse solo y aprender siempre<\/strong>. No hay gloria en negar la entrop\u00eda. La hay en dominarla lo suficiente como para que el usuario ni la note. El d\u00eda que tu sistema afronta su peor caso y el soporte no explota, ese d\u00eda la nube deja oficialmente de ser \u201cpotencia\u201d para convertirse en <strong>confianza<\/strong>. Y esa, para m\u00ed, es la \u00fanica m\u00e9trica que merece un aplauso.<\/p>\n\n\n\n<hr class=\"wp-block-separator has-alpha-channel-opacity\"\/>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>\u00bfT\u00fa c\u00f3mo lo ves?<\/strong><br>\u00bfHas vivido un incidente que te cambi\u00f3 la forma de dise\u00f1ar? \u00bfActivo-activo te ha merecido la pena o te pasaste a activo-pasivo con buenos simulacros? \u00bfQu\u00e9 patr\u00f3n de degradaci\u00f3n te ha salvado la noche? <strong>D\u00e9jame tus comentarios abajo<\/strong>: quiero leer tus batallas, tus aprendizajes y \u2014por qu\u00e9 no\u2014 tus herej\u00edas favoritas contra el \u201csiempre arriba\u201d.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Qu\u00e9 es resiliencia (y en qu\u00e9 se diferencia de fiabilidad y HA) Cuando pienso en resiliencia, dejo de mirar los \u201ccaballos de fuerza\u201d y empiezo a medir \u201cconfianza\u201d. En la nube los fallos no son excepciones, son escenarios normales: un disco que muere, un nodo que no responde, una AZ que cae o un pico [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":7262,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_aifi_custom_prompt":"","site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"set","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[15],"tags":[1006,222,1176],"class_list":["post-7261","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia","tag-cloud","tag-nube","tag-resiliencia"],"_links":{"self":[{"href":"https:\/\/www.hostingtg.com\/blog\/wp-json\/wp\/v2\/posts\/7261","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.hostingtg.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.hostingtg.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.hostingtg.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.hostingtg.com\/blog\/wp-json\/wp\/v2\/comments?post=7261"}],"version-history":[{"count":1,"href":"https:\/\/www.hostingtg.com\/blog\/wp-json\/wp\/v2\/posts\/7261\/revisions"}],"predecessor-version":[{"id":7264,"href":"https:\/\/www.hostingtg.com\/blog\/wp-json\/wp\/v2\/posts\/7261\/revisions\/7264"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.hostingtg.com\/blog\/wp-json\/wp\/v2\/media\/7262"}],"wp:attachment":[{"href":"https:\/\/www.hostingtg.com\/blog\/wp-json\/wp\/v2\/media?parent=7261"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.hostingtg.com\/blog\/wp-json\/wp\/v2\/categories?post=7261"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.hostingtg.com\/blog\/wp-json\/wp\/v2\/tags?post=7261"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}