Nombre del procedimiento
:::note Cómo usar esta plantilla
- Copia este archivo a
docs/runbooks/<slug-del-runbook>.md(kebab-case, descriptivo). - Ajusta el frontmatter:
id: identificador corto en mayúsculas (ej.RB-RESTART-WORKERS).owner: equipo o persona responsable del procedimiento. Acepta handles (@usuario) o teams (@org/team).severity: nivel del incidente al que aplica este runbook.P0: caída total / pérdida de datos / impacto a clientesP1: degradación severa de producciónP2: degradación parcial o recurrenteP3: issue menor / mantenimiento planeado
last_tested: última vez que el procedimiento se ejecutó (en drill o producción) y se verificó que funciona. Entre comillas para evitar que YAML lo interprete comoDate.on_call: handle de quien está actualmente on-call para este servicio (opcional; puede rotar).
- Actualiza
sidebar_labela un nombre corto. - Borra este bloque
:::note. - Completa las secciones de abajo. El H1 y la metadata se renderizan automáticamente desde el frontmatter.
:::
When to use
Describir la condición que dispara este runbook. Ej: "Alerta worker_queue_depth > 1000 durante más de 5 min".
Preconditions
- Acceso a
kubectldel clusterprod. - Credenciales activas en
@eigenoid/platform. - ...
Procedure
- Paso 1: verificar el estado actual.
kubectl get pods -n workers
- Paso 2: aplicar la mitigación.
kubectl rollout restart deployment/workers -n workers
- Paso 3: verificar que se estabilizó.
Verification
Cómo confirmar que el procedimiento funcionó. Métricas, logs, endpoints a revisar.
Rollback
Si algo sale mal, cómo revertir.
Escalation
A quién escalar si el runbook no resuelve. Ej: @oncall-lead o el team @eigenoid/platform.
References
- Dashboards relacionados.
- Alertas que lo disparan.
- ADRs relevantes.