Nombre del procedimiento

:::note Cómo usar esta plantilla

Copia este archivo a docs/runbooks/<slug-del-runbook>.md (kebab-case, descriptivo).
Ajusta el frontmatter:
- id: identificador corto en mayúsculas (ej. RB-RESTART-WORKERS).
- owner: equipo o persona responsable del procedimiento. Acepta handles (@usuario) o teams (@org/team).
- severity: nivel del incidente al que aplica este runbook.
  - P0: caída total / pérdida de datos / impacto a clientes
  - P1: degradación severa de producción
  - P2: degradación parcial o recurrente
  - P3: issue menor / mantenimiento planeado
- last_tested: última vez que el procedimiento se ejecutó (en drill o producción) y se verificó que funciona. Entre comillas para evitar que YAML lo interprete como Date.
- on_call: handle de quien está actualmente on-call para este servicio (opcional; puede rotar).
Actualiza sidebar_label a un nombre corto.
Borra este bloque :::note.
Completa las secciones de abajo. El H1 y la metadata se renderizan automáticamente desde el frontmatter.

:::

When to use

Describir la condición que dispara este runbook. Ej: "Alerta worker_queue_depth > 1000 durante más de 5 min".

Paso 2: aplicar la mitigación.

kubectl rollout restart deployment/workers -n workers

Cómo confirmar que el procedimiento funcionó. Métricas, logs, endpoints a revisar.

Si algo sale mal, cómo revertir.

A quién escalar si el runbook no resuelve. Ej: @oncall-lead o el team @eigenoid/platform.