Clasificar correctamente un incidente determina quién responde, qué tan rápido y quién necesita saber. En la duda, escalá para arriba.
Los primeros 15 minutos definen si un incidente se resuelve en 30 minutos o en 4 horas. Seguí esta lista — no improvises bajo presión.
Una comunicación pobre durante un incidente genera más caos que el incidente mismo. Copiá, pegá, adaptá.
🚨 INCIDENT: [Título descriptivo] Severidad: P1 / P2 / P3 Scope: [% de usuarios / endpoint / región] Inicio: [HH:MM UTC] Estado: Investigando Voy a actualizar este hilo cada 10 minutos. No hacer deploy hasta nuevo aviso.
📡 UPDATE [HH:MM UTC] — +10 min Lo que sabemos: [hallazgos concretos] Lo que estamos haciendo: [acción actual] Próximo paso: [siguiente acción] ETA resolución: [si se conoce] Seguimos en esto.
✅ RESUELTO [HH:MM UTC] — [duración total] Causa: [una frase] Qué hicimos: [acción concreta: rollback, hotfix, config change] Impacto: [usuarios afectados, datos, duración] Postmortem: [link al doc] Gracias por la paciencia. Aprendimos algo hoy.
Asunto: Incident P1 — [servicio] — actualización Hola equipo, Estamos atendiendo un incidente P1 que afecta a [servicio/feature]. Inicio: [HH:MM UTC] Impacto: [descripción en lenguaje no-técnico] Acción: [qué estamos haciendo, en español simple] Próxima actualización en 30 minutos. — Equipo de ingeniería
El postmortem no es un castigo. Es la ingeniería forense que convierte un incidente en una mejora permanente del sistema.
## Resumen ## Timeline (UTC) ## Causa raíz ## Qué salió bien ## Qué salió mal ## Action items ## ¿Cómo evitamos que vuelva a pasar? Hacé rollback sin miedo. Un rollback limpio en 2 minutos es más profesional que un hotfix en 20.
# En GitHub Actions, buscá el último deploy exitoso git log --oneline -10 # en tu repo
# Opción A: revertir el commit (si es un hotfix chico) git revert <commit-id> && git push # Opción B: redeploy del último release bueno # En GitHub Actions → seleccioná el workflow run anterior → Re-run
# Esperá que el deploy termine curl -s https://api.staging.fundamental.lat/health # Revisá el dashboard de errores — deben volver a niveles normales