Security-guidance: Claude Code revisa su propio código al escribir

Vuelves del café. La terminal tiene tres líneas más de las que dejaste. Una de ellas empieza con un emoji de aviso y la palabra security review. Otra es Claude diciendo “good catch” y enseñando el diff de un fix. La tercera es un mensaje de commit nuevo.

¿Qué ha pasado mientras tú no estabas? Pues que un Claude distinto del que estaba escribiendo tu código ha leído el diff por encima del hombro del primero, ha tirado de Read y Grep por el repo, ha encontrado un agujero de seguridad bastante sutil y se lo ha cantado al Claude que estaba trabajando. Que ha vuelto sobre sus pasos y lo ha arreglado antes de que tú te terminaras el café.

Esto no es ciencia ficción. Es el plugin security-guidance, mantenido por Anthropic, instalado en tu Claude Code. Lanzado el 9 de octubre de 2025 dentro de la beta pública de plugins según el anuncio oficial de Anthropic, va por la versión 2.0.0 a fecha de hoy y el repositorio público suma más de 26.000 estrellas en GitHub. El aviso completo de la captura lo verás más abajo en su sitio, cuando lleguemos al reviewer agéntico. Antes hay que entender cómo está montado todo esto por dentro.

Te cuento lo importante:

Las tres capas de revisión y cuándo se dispara cada una.
Cómo lo instalas en 30 segundos y cómo lo apagas si te pasa de pesado.
El truco de git stash create que usa para saber qué tocó Claude de verdad en este turno.
El reviewer agéntico que abre Read/Grep/Glob para verificar findings antes de soltarlos.
Un diagrama del flujo de hooks para que veas las piezas encajadas.

Vamos al lío.

Qué es security-guidance y por qué necesitas saber que existe ¶

Security-guidance es un plugin oficial para Claude Code que ejecuta tres tipos de revisión de seguridad sobre el código que el agente escribe, dentro de la misma sesión y sin necesidad de invocarlo. Es la herramienta que Anthropic propone para reducir el volumen de vulnerabilidades que llegan a tu pull request, no para reemplazar tus revisiones humanas ni tus pipelines de SAST.

Vive en el repositorio público anthropics/claude-plugins-official y forma parte del marketplace oficial junto con otros plugins curados como code-review.

¿Para qué sirve en concreto? Para revisar el código que Claude Code escribe y avisar a Claude Code de los problemas en la misma sesión, antes de que el diff llegue a tu pull request.

No reemplaza tu revisión humana. No reemplaza tu SAST. No reemplaza tu pen-testing. Lo que hace es reducir el ruido que llega a esos pasos posteriores filtrando lo más obvio en el momento.

El contexto importa, y los datos son claros. Según el State of Code Developer Survey 2026 de Sonar, una encuesta a más de 1.100 desarrolladores profesionales, el 42% del código que se commitea ya es código generado por IA y se espera que llegue al 65% en 2027. Solo el 48% de los developers lo verifica antes del commit. El 47% está preocupado por vulnerabilidades nuevas o sutiles que la IA pueda colar y el 57% por exposición de datos sensibles (Sonar 2026). Y el 96% no confía del todo en lo que el modelo escribe. Si hubiera que apostar dónde van a aparecer los CVE-2027-XXXX, ese es el caldo de cultivo.

💬 “Cada vulnerabilidad se manifiesta en el código. Los developers son los únicos que escriben ese código. Los developers son los únicos que pueden arreglarlo.” — Johannes Dahse, VP of Code Security en Sonar. Lo cubrí en detalle en La seguridad de tu código en tiempos de IA. Este plugin va justo de eso: poner un revisor en tu sesión sin que tengas que invocarlo.

La IA miente

Cómo revisar de verdad lo que programan tus agentes

Verás los métodos para verificar el código que genera la IA: ciclo anticaos, pruebas en navegador con Playwright, casos Gherkin y revisión adversarial entre modelos.

Ver el método entero →

Masterclass en directo · métodos + casos Gherkin

Cómo se instala y cómo se activa ¶

Security-guidance se instala con dos comandos slash dentro de Claude Code y un único requisito previo: Python 3.8 o superior en el PATH. No hay instalador externo, no hay variables obligatorias, no hay configuración inicial.

# 1. Instalar el plugin desde el marketplace oficial
/plugin install security-guidance@claude-plugins-official

# 2. Activarlo en la sesión actual
/reload-plugins

Requisitos del entorno:

Claude Code CLI 2.1.144 o superior, según la documentación oficial del plugin.
Python 3.8+ en tu PATH. El plugin prueba python3, python y py -3 por ese orden (mira sg-python.sh en el código si te apetece).

Una vez instalado se carga en cada sesión nueva en esa máquina sin tocar nada más. Si quieres que se cargue en sesiones cloud o que se replique a todo el equipo cuando clonen el repo, lo declaras en .claude/settings.json del proyecto:

{
  "enabledPlugins": {
    "security-guidance@claude-plugins-official": true
  }
}

💡 Hablo de plugins, settings.json y el ecosistema entero en Aprende Claude Code y en los 15 plugins más populares de Claude Code. Si todavía no tienes el flujo base dominado, vuelve después de esos.

Las tres capas que revisan tu código mientras Claude trabaja ¶

El plugin no es una revisión, son tres revisiones encadenadas en momentos distintos del ciclo de vida del agente, con coste y profundidad crecientes. Cada capa funciona de forma independiente y puede activarse o desactivarse sin afectar a las demás:

Per-edit (PostToolUse en Edit/Write/MultiEdit/NotebookEdit): pattern match con regex, sin llamada al modelo, sin coste. Es la red rápida.
Per-turn (Stop): diff review con LLM al terminar cada turno de Claude. Llamada al modelo, en background, no bloquea la respuesta.
Per-commit (PostToolUse en Bash con git commit:* y git push:*): revisión agéntica con Read/Grep/Glob sobre el repo. Es la profunda y la que cogió el ejemplo del principio.

Cada capa puede apagarse de forma independiente (ENABLE_PATTERN_RULES=0, ENABLE_STOP_REVIEW=0, ENABLE_COMMIT_REVIEW=0) o todas a la vez (SECURITY_GUIDANCE_DISABLE=1).

Para que veas cómo encaja todo en el ciclo de vida de un turno de Claude Code, este es el flujo:

                  USER PROMPT
                       │
                       ▼
        ┌──────────────────────────────┐
        │  UserPromptSubmit            │  ◄── git stash create
        │  guarda SHA baseline         │      (snapshot del
        │  en ~/.claude/security/...   │       working tree)
        └──────────────┬───────────────┘
                       │
                       ▼
        ┌─── Claude trabaja ───────────────────────┐
        │                                          │
        │  Edit / Write ──► PostToolUse            │
        │                    └► Capa 1: regex      │
        │                       (sin LLM, ~0 ms)   │
        │                                          │
        │  Bash(git commit) ──► PostToolUse        │
        │                        └► Capa 3: agéntico
        │                           Read/Grep + LLM│
        │                                          │
        │  Bash(git push) ──► PostToolUse          │
        │                      └► Push sweep       │
        │                         (commits no      │
        │                         revisados antes) │
        │                                          │
        └──────────────────┬───────────────────────┘
                           │
                           ▼  (fin del turno)
        ┌──────────────────────────────────────┐
        │  Stop hook                           │
        │  ├─ git diff <baseline_sha>          │
        │  ├─ Capa 2: LLM review del diff      │
        │  └─ ¿hay findings?                   │
        │      ├─ Sí: asyncRewake              │
        │      │   └► Claude despierta,        │
        │      │      lee findings,            │
        │      │      arregla, responde        │
        │      └─ No: turno cerrado            │
        └──────────────────────────────────────┘

Si quieres ver dónde se enganchan los hooks en el código, está todo en hooks/hooks.json del plugin:

{
  "hooks": {
    "SessionStart": [{ "hooks": [{ "command": "...ensure_agent_sdk.py" }] }],
    "UserPromptSubmit": [{ "hooks": [{ "command": "...security_reminder_hook.py" }] }],
    "PostToolUse": [
      {
        "matcher": "Edit|Write|MultiEdit|NotebookEdit",
        "hooks": [{ "command": "...security_reminder_hook.py" }]
      },
      {
        "matcher": "Bash",
        "hooks": [
          { "if": "Bash(git commit:*)", "asyncRewake": true, "command": "..." },
          { "if": "Bash(git push:*)", "asyncRewake": true, "command": "..." }
        ]
      }
    ],
    "Stop": [{ "hooks": [{ "asyncRewake": true, "command": "..." }] }]
  }
}

Lo importante de este JSON: la clave asyncRewake: true. Significa que el hook puede despertar a Claude después con los hallazgos. No bloquea la respuesta al usuario, sino que reabre el turno con la información de seguridad como input adicional. Esa es la pieza que hace que veas en la terminal el flujo Claude responde → llega review de fondo → Claude dice “good catch” y arregla.

🔑 El plugin no le pide al mismo Claude que se evalúe a sí mismo. Las revisiones LLM corren como llamadas separadas, con contexto fresco y un system prompt centrado en encontrar problemas. El reviewer no tiene apego al enfoque original. Por eso encuentra cosas que el escritor no veía.

Capa 1: la red rápida con regex ¶

La capa 1 es un matcher de patrones que ejecuta unas 25 reglas regex contra el contenido recién escrito, sin llamar a ningún modelo y por tanto sin coste. Cubre el catálogo clásico de patrones peligrosos: ejecución dinámica de código, deserialización insegura, inyección DOM, TLS roto, cripto débil y workflows de GitHub Actions con interpolación insegura.

Vive en hooks/patterns.py y tiene 25 reglas declaradas en SECURITY_PATTERNS que se aplican en cuanto Claude termina de escribir o editar un fichero. Algunos ejemplos sacados del código del plugin:

Ejecución de código dinámico: eval(, new Function, os.system, child_process.exec, subprocess.run(..., shell=True).
Deserialización insegura: pickle.load, pickle.loads, yaml.load sin SafeLoader, torch.load sin weights_only=True, cloudpickle.load, joblib.load.
Inyección DOM: dangerouslySetInnerHTML, .innerHTML =, .outerHTML =, document.write, insertAdjacentHTML.
TLS roto: verify=False, rejectUnauthorized: false, InsecureSkipVerify: true, NODE_TLS_REJECT_UNAUTHORIZED=0.
Workflows de GitHub Actions con interpolación de ${{ github.event.* }} directa en run:.
XML inseguro: xml.etree.ElementTree.parse, xml.sax.make_parser, minidom.parse (faltos de defusedxml).
Cripto débil: crypto.createCipher (sin IV), AES en modo ECB.

Cuando una regla matchea, el plugin no falla nada ni bloquea la escritura. Lo que hace es inyectar un aviso en el contexto de Claude para el siguiente paso. Por ejemplo, si Claude escribe esto:

# Carga las preferencias del usuario desde un dump
import pickle

def load_user_prefs(path):
    with open(path, "rb") as f:
        return pickle.load(f)

El hook de PostToolUse fija en el contexto:

⚠️ Security Warning: Loading pickle data (or equivalents: cPickle, cloudpickle, dill, marshal, shelve, joblib, pandas.read_pickle, numpy with allow_pickle=True) from untrusted sources allows arbitrary code execution. For simple data, prefer JSON or msgspec. For typed objects, prefer a schema-validated deserializer (msgspec.Struct, pydantic, marshmallow) that constructs only declared types. If this is safe or is explicitly needed, briefly document that in a comment before continuing.

Cada warning se dispara una vez por patrón, por fichero, por sesión. No te va a inundar la terminal. Y si Claude ya había metido ese pickle antes de que la sesión empezara (el plugin guarda el baseline del fichero), el aviso se silencia porque no es nuevo del turno actual.

💡 Puedes añadir tus propias reglas regex en .claude/security-patterns.yaml del proyecto. El plugin admite hasta 50 reglas custom adicionales, con paths de inclusión y exclusión, regex o substrings. Valida cada regex contra catastrophic backtracking antes de cargarla, así que no te tira el hook con una expresión ReDoS.

Herramientas como esta aparecen casi cada semana y cuesta seguirles el ritmo. Cada domingo selecciono 12 recursos sobre productividad con IA para que no se te escape lo que de verdad mueve la aguja. Ya somos +6.700.

Quiero esa dinamita 🧨

Capa 2: el reviewer del final de cada turno ¶

La capa 2 se dispara cuando Claude termina un turno y manda el diff de los ficheros que ha cambiado a un segundo Claude (Opus 4.7 por defecto) que aplica una checklist de seguridad de más de 20 categorías. Si encuentra problemas, despierta al Claude original con los findings vía asyncRewake para que los arregle como follow-up, sin haber bloqueado la respuesta inicial al usuario.

Un turno es una ronda de Claude respondiéndote: mandas un mensaje, Claude trabaja, Claude responde, fin del turno. Al final de cada uno se dispara el hook de Stop, que hace lo siguiente:

Llama a compute_v2_review_set para sacar la lista de ficheros que han cambiado durante este turno.
Genera el diff con git diff <baseline_sha> -- <ficheros>.
Manda ese diff a un Claude separado con un system prompt centrado en seguridad.
Si hay findings, rebooteia el turno con esos findings y Claude los arregla como follow-up.

El truco está en cómo sabe qué cambió en este turno y no antes.

El truco de `git stash create` ¶

Mira esto, sacado de diffstate.py:

def capture_git_baseline(cwd):
    # Capturar un SHA que represente el working tree actual
    # incluyendo HEAD + cambios no commiteados, sin tocar nada
    result = subprocess.run(
        ["git", "stash", "create"],
        cwd=cwd, capture_output=True, text=True, timeout=15
    )
    sha = result.stdout.strip()
    if sha:
        return sha
    # Working tree limpio: stash create devuelve vacío, usamos HEAD
    result = subprocess.run(["git", "rev-parse", "HEAD"], ...)
    return result.stdout.strip() or None

git stash create es la pieza que muy poca gente conoce. Crea un commit object con el estado del working tree (HEAD + cambios uncommiteados) pero no lo añade al stash list ni modifica el working tree. Devuelve un SHA “fantasma” que puedes usar como ref para hacer diffs y que git acabará recolectando si nadie lo referencia.

El plugin captura ese SHA en UserPromptSubmit (cada vez que el usuario manda un prompt) y lo guarda en ~/.claude/security/security_warnings_state_<sessionid>.json. Cuando llega el Stop, hace git diff <baseline_sha> y obtiene exactamente lo que cambió desde que el turno empezó. Ni más, ni menos.

¿Por qué no diffear contra HEAD? Porque si tú tenías cambios uncommiteados antes de empezar el turno (tu WIP), aparecerían en el diff y el reviewer flagearía cosas que no son del turno actual. El stash create lo congela todo en ese punto exacto.

Qué busca el reviewer ¶

El system prompt del reviewer vive en llm.py, función analyze_code_security, y tiene una checklist que cubre más de 20 categorías de vulnerabilidad. Las que más me interesan:

Authorization / IDOR / scoping: findById(id) sin check de ownership, endpoints multi-tenant que no filtran por org_id, una ruta /admin que no verifica el rol.
SSRF con allowlist roto: URLs validadas con urlparse().netloc (que incluye userinfo, así que https://trusted.com@evil.com pasa), comparaciones por substring, allowlists que no resuelven DNS antes de comparar contra 169.254.169.254 (cloud metadata).
Injection sutil: argv flag smuggling (spawn(bin, [userInput]) donde userInput empieza por -), ripgrep --pre=CMD, git --upload-pack=CMD.
OAuth/OIDC débil: state CSRF-protective solo si es unguessable Y está atado a la sesión; comparar un campo extraído de un state decodificado como JSON plano no es una defensa.
XSS por construcción manual de HTML: format!("<a href='{x}'>") o fmt.Fprintf(w, "<span>%s</span>", v) sin escape.

La lista completa son más de 20 páginas de prompt. No es regex. Es razonamiento sobre el código.

Importante: el reviewer no bloquea nada. Si encuentra algo, el plugin sale con exit code 2 y un mensaje en stderr. Claude lee ese mensaje en el siguiente paso del asyncRewake y decide qué hacer. Puede arreglarlo, puede explicar por qué no aplica, puede decir “el usuario me lo pidió a propósito”.

Como tope de seguridad, la capa 2 revisa hasta 30 ficheros por turno (MAX_DIFF_FILES = 30) y se dispara como mucho 3 veces seguidas antes de devolverte el control (MAX_STOP_HOOK_FIRINGS = 3). Si Claude entra en bucle de “arreglo, encuentra otro, arreglo, encuentra otro”, el plugin pone freno.

Capa 3: el reviewer agéntico que sí lee tu código ¶

La capa 3 es la única que tiene acceso al sistema de ficheros del repo: usa Read, Grep y Glob para investigar el código alrededor del diff antes de emitir findings. Esto le permite trazar flujos de datos cross-file, detectar omisiones comparando archivos hermanos y verificar si un sink que parece peligroso es alcanzable de verdad desde input no confiable.

Cuando Claude ejecuta git commit o git push desde su Bash tool, salta el hook agéntico. El reviewer no tiene solo el diff. Tiene Read, Grep y Glob sobre el repo entero. Puede:

Leer cada fichero tocado en su totalidad (no solo el hunk).
Grep para encontrar callers de las funciones cambiadas.
Seguir el flujo de un valor desde req.body hasta el sink en otro fichero.
Comparar con archivos hermanos para detectar omisiones (un handler que no hace el check de visibilidad que sí hace el de al lado).

El reviewer agéntico vive en llm.py, función agentic_review. Funciona en dos fases.

Fase 1: investigate ¶

Llamada al Agent SDK con allowed_tools=["Read", "Grep", "Glob"]. El system prompt le dice cosas como:

El #1 causante de vulnerabilidades perdidas es no leer el fichero que las contiene. Antes de cualquier análisis: lee CADA fichero cambiado en su totalidad (no solo los hunks). Luego haz Grep de los nombres de las funciones/clases cambiadas para encontrar callers.

El budget es de unos 15 tool calls como máximo. La idea es que use el presupuesto en leer los ficheros tocados primero y luego haga Greps dirigidos.

El output es estructurado vía JSON schema (_FINDINGS_SCHEMA), una lista de {filePath, category, vulnerableCode, explanation, fix, severity, confidence}.

Fase 2: self-refute ¶

Aquí está el truco anti-falsos-positivos. Después de obtener los candidatos, el plugin lanza una segunda llamada con un prompt adversarial:

You previously flagged these candidate vulnerabilities:
[...candidatos...]

Now adversarially try to DISPROVE each one. For each candidate,
FIRST identify the attacker (who controls the input) and the victim
(who is harmed). REFUTE if the only victim is the attacker themselves
on their own machine. KEEP if the attacker is a legitimate
user/tenant but the impact reaches other users/tenants, shared infra,
or server-side resources.

El reviewer intenta refutar sus propios findings. Solo sobreviven los que no consigue refutar con evidencia citada del código. Default: SURVIVES. Por defecto, si la duda es razonable, el finding pasa.

Esto es lo que mata el ruido en codebases reales. Un pattern match dispara un warning porque vio pickle.load. Un reviewer agéntico abre el fichero, ve que el path viene de una constante hardcoded en un script de migration, y refuta el finding con cita textual del código.

El truco de la race con el single-shot ¶

El reviewer agéntico es lento. Puede tardar 60 segundos o más. Y como vive en un hook de git commit, no bloquea el commit (es asyncRewake), pero sí quita feedback a Claude por un buen rato.

Solución: una race entre el agéntico y un fallback más rápido. Mira esto, sacado de security_reminder_hook.py:

def _agentic_review_with_race(repo_root, diff_files, rel_touched, previous_findings):
    """El agente arranca en t=0. Después de SG_AGENTIC_RACE_DELAY_S
    (default 180s) el reviewer single-shot del diff también arranca.
    El primero que termine, gana. Si el agéntico termina antes del
    delay, el fallback nunca se ejecuta."""
    delay_s = int(os.environ.get("SG_AGENTIC_RACE_DELAY_S", "180"))
    # ... lanza los dos en threads, q.get() devuelve el primero

Tres minutos de ventaja para el agéntico. Si no termina, entra el single-shot. Si el agéntico falla (SDK no instalado, error de red), también entra el single-shot. Nunca te quedas sin revisión por culpa de un timeout.

🛡️ Esta capa fire solo en commits y pushes que Claude hace desde su Bash tool. Los commits que tú ejecutas desde tu shell, incluso usando el shell escape ! dentro de una sesión, no se revisan. La doc oficial fija el límite en 20 revisiones de commit/push por hora rodante por sesión, según code.claude.com.

El aviso que te encontraste al volver del café ¶

Lo que la terminal te enseñaba al volver del café es un hallazgo de tipo parser disagreement, una clase de vulnerabilidad en la que dos parsers JSON tratan el mismo input de forma distinta y un atacante explota el desacuerdo. Es exactamente el caso que un pattern match jamás coge y donde la capa 3 del plugin demuestra su valor.

Te debo el aviso del principio. Lo que la terminal te enseñaba era esto:

⚠️ Background security review found: JSON Interoperability / Parser-Disagreement Field Smuggling in proxy.js

Good catch — this is exploitable. Go’s encoding/json matches struct fields case-insensitively, so {"message":"short","Message":"<200 chars>"} parses in Node as two distinct keys (we only see lowercase message = “short” and let it pass), but Go folds Message onto the same field and uses the last value. Same bypass works via MESSAGE, mEsSaGe, etc. I’ll fix by normalizing to an allowlisted schema and re-serializing before forwarding.

Eso es lo que generó el reviewer agéntico de la capa 3. Y es un caso de uso interesante porque un regex jamás lo coge.

Vamos a desmontar por qué.

El bug se llama parser disagreement. Ese proxy.js valida un body.message con un check tipo body.message.length < 200. Suena bien. Solo que detrás del proxy hay un servicio en Go que parsea el mismo JSON antes de actuar.

Y aquí viene el detalle: el encoding/json de Go matchea campos de struct case-insensitive. Lo dice la doc oficial del paquete. Es decir, los campos Message, MESSAGE, mEsSaGe y message se foldean al mismo campo de la struct, y el último valor gana. En cambio, el JSON.parse de Node es case-sensitive: ve dos claves distintas.

Un atacante manda esto:

{
  "message": "short",
  "Message": "<200 chars de payload>"
}

El proxy en Node valida body.message = "short" y la longitud está dentro del límite. Lo pasa al servicio Go. Go folde Message sobre el mismo campo y usa el valor largo. Bypass completo del filtro.

Para coger esto hay que:

Leer proxy.js y entender que valida body.message.
Hacer git grep o equivalente para descubrir que detrás hay un servicio en otro lenguaje.
Saber que Go y Node tratan las claves JSON de forma distinta.
Juntar las tres cosas.

Un pattern match no llega ahí. Un reviewer single-shot que solo ve el diff de proxy.js tampoco. Un reviewer agéntico que abre Read/Grep/Glob sí. Y en la terminal lo viste reconociendo el problema, explicando el ataque y comprometiéndose a normalizar el JSON a un schema allowlisted antes de reenviar.

🔑 Ese “Good catch” del segundo bullet es Claude leyéndose a sí mismo, despertado por el asyncRewake del hook de git commit. La pieza humana eres tú, mirando a la terminal con el café en la mano y decidiendo si te parece bien el fix propuesto.

Personalízalo: tu propia guidance y tus propios patrones ¶

El plugin expone dos puntos de extensión que son aditivos sobre las reglas built-in: un fichero markdown para guidance semántica que el LLM aplicará, y un fichero YAML/JSON para reglas regex extra en la capa 1. Ninguno de los dos puede silenciar checks built-in. Si una regla tuya entra en conflicto con una built-in, gana la built-in.

claude-security-guidance.md ¶

Para reglas semánticas que el reviewer LLM debe tener en cuenta. Vive en uno de estos paths:

~/.claude/claude-security-guidance.md (todos tus proyectos)
.claude/claude-security-guidance.md (proyecto, commiteado)
.claude/claude-security-guidance.local.md (proyecto, gitignored)

Los tres se concatenan en orden user → project → project-local hasta un máximo de 8 KB. Ejemplo real:

# Reglas de seguridad de este repo

- No loguees `customer_id` ni `account_number` a nivel INFO o superior.
- Todas las rutas bajo `/admin` deben llamar a `require_role("admin")`
  antes de cualquier lectura de la base de datos.
- Usa `crypto.timingSafeEqual` para comparar tokens, nunca `===`.
- Todas las llamadas HTTP salientes con URL controlada por usuario
  deben ir a través de `safe_outbound.request()` que aplica nuestra
  allowlist con resolución DNS y rechazo de RFC1918.

El reviewer lo lee en cada análisis y aplica esas reglas además de las built-in. No puede suprimir findings: una regla que diga “ignora inyección SQL” la lee como guidance contradictoria y va a flagear la inyección de todas formas.

security-patterns.yaml ¶

Para regex extra en la capa 1. Ejemplo del propio plugin:

patterns:
  - rule_name: internal_api_key
    substrings: ["sk_live_", "AKIA"]
    reminder: "Hardcoded API key prefix. Load credentials from the secret manager."
  - rule_name: tenant_unfiltered_query
    regex: "\\.objects\\.all\\(\\)"
    paths: ["src/tenants/**"]
    reminder: "Multi-tenant code must filter by org_id."

Hasta 50 reglas custom adicionales, validación contra ReDoS, paths con glob de inclusión y exclusión. JSON y YAML soportados (YAML requiere PyYAML importable). El reminder se trunca a 1 KB si te pasas.

Lo que el plugin NO hace (limitaciones honestas) ¶

Security-guidance es una defensa en profundidad, no un guardarrail duro: no bloquea ningún edit, commit ni push, y la propia documentación oficial advierte de que el reviewer puede tener tanto falsos positivos como falsos negativos. Lo dice sin maquillaje, y vale la pena replicarlo aquí:

No bloquea nada. Ni edits, ni commits, ni pushes. Los findings llegan a Claude como instrucciones, y Claude decide. Si te imaginas que un developer hostil podría ignorar los avisos, llevas razón. Es defensa en profundidad, no un guardarrail duro.
El reviewer puede fallar. Falsos negativos existen. Falsos positivos también. La doc lo dice tal cual: “treat the plugin as one layer of defense in depth, not a complete security solution”.
No reemplaza el /security-review que tú lanzas a demanda sobre una rama.
No reemplaza el Code Review de Anthropic que corre en pull requests (planes Team y Enterprise).
No reemplaza tu SAST/DAST/dependency scanning de toda la vida.
No revisa commits hechos fuera de Claude Code ni desde el shell escape !. Solo lo que Claude hace por su cuenta.
No tiene garantías formales. Cita textual de la doc: “no warranty is provided”.

Si esperabas un firewall que impidiera cualquier vulnerabilidad llegar a producción, no lo tienes. Si esperabas un reviewer que pille el 70-80% de los problemas comunes antes del PR, eso sí lo tienes.

Entender dónde encaja cada pieza en la seguridad del código generado por IA es parte del cambio que estamos viviendo en directo. Cada domingo, +6.700 developers ponemos orden juntos a esta ola. Gratis, desde 2018.

Apúntate gratis →

Coste, modelo y rate limits ¶

Las dos capas LLM (per-turn y per-commit) usan Claude Opus 4.7 por defecto, con un precio de 5 dólares por millón de tokens de entrada y 25 dólares por millón de salida según el pricing oficial de Anthropic. La capa 1 de regex es gratis. Hay tres rate limits internos que evitan que el plugin se desboque en sesiones largas.

Modelos por defecto:

Capa 1 (regex): cero. Sin llamadas al modelo.
Capa 2 (Stop diff review): claude-opus-4-7. Variable de entorno SECURITY_REVIEW_MODEL para cambiarlo. En 3P providers (Bedrock, Vertex, Foundry) hay que poner el ID específico del proveedor.
Capa 3 (commit agéntico): claude-opus-4-7 por defecto. Variable SG_AGENTIC_MODEL.

Rate limits internos:

20 revisiones de commit/push por hora rodante por sesión (MAX_COMMIT_REVIEWS_PER_HOUR = 20).
30 ficheros máximo por turno en Stop (MAX_DIFF_FILES = 30). Si te pasas, el plugin prioriza por riesgo (paths con auth, route, exec, subprocess, http…) y revisa los top 30.
80 KB máximo por fichero en el prompt, 400 KB total. Si te pasas, trunca y mete un marcador.

Higher-recall mode: SG_DUAL_OR=on corre dos llamadas paralelas y une los findings. Pilla más cosas pero duplica el coste. Off por defecto.

Si quieres una opción más barata sin perder demasiada recall, pon SECURITY_REVIEW_MODEL=claude-sonnet-4-6. Pierdes algo de precisión en categorías sutiles tipo authorization, pero te bajas a un quinto del coste por revisión.

# Cambiar modelo de la capa 2 (Stop review)
export SECURITY_REVIEW_MODEL=claude-sonnet-4-6

# Cambiar modelo de la capa 3 (commit agéntico)
export SG_AGENTIC_MODEL=claude-opus-4-7

# Activar modo dual (doble llamada, mejor recall)
export SG_DUAL_OR=on

Cómo apagarlo si te pasa de pesado ¶

Cada capa del plugin tiene su propia variable de entorno para desactivarla sin tocar las demás, y hay un killswitch global que apaga el plugin entero sin desinstalarlo. Las variables aceptan el valor 0 para apagar y 1 (o no estar definidas) para encender.

# Apagar solo la capa de regex
export ENABLE_PATTERN_RULES=0

# Apagar solo la revisión de Stop (mantiene commit/push)
export ENABLE_STOP_REVIEW=0

# Apagar solo commit y push
export ENABLE_COMMIT_REVIEW=0

# Apagar todas las revisiones LLM (regex sigue activo)
export ENABLE_CODE_SECURITY_REVIEW=0

# Killswitch total (no carga el plugin)
export SECURITY_GUIDANCE_DISABLE=1

O desde la sesión:

/plugin disable security-guidance@claude-plugins-official
/plugin uninstall security-guidance@claude-plugins-official

⚠️ Si tienes el plugin habilitado vía .claude/settings.json del proyecto (commiteado), /plugin disable no edita el archivo commiteado. Escribe un override en tu .claude/settings.local.json y queda apagado para ti pero activo para el resto del equipo.

El detalle del que casi nadie se acuerda ¶

Cada revisión del plugin envía datos del repositorio al endpoint de Claude que tengas configurado: el diff completo, los paths cambiados, el contenido relevante de los ficheros y, en el caso del reviewer agéntico, cualquier fichero adicional que abra con Read o Grep. Si tu código contiene secretos o información sensible, hay que tenerlo en cuenta antes de instalarlo.

Tu claude-security-guidance.md se manda en cada review. No metas secretos ahí.

El log de debug del plugin vive en ~/.claude/security/log.txt (o SECURITY_GUIDANCE_DEBUG_LOG). Guarda metadata del diff y categorías de findings, no contenidos. Rota a 1 MB. Nada se sube a ningún lado por parte del plugin.

Si esto choca con tu política de la empresa (servicios secretos, código clasificado, manejo de PII), la respuesta es no usar el plugin tal cual o apuntarlo a un gateway interno con ANTHROPIC_BASE_URL.

Preguntas frecuentes sobre security-guidance ¶

¿Qué hace exactamente el plugin security-guidance de Claude Code?

Security-guidance es un plugin oficial de Anthropic que ejecuta tres revisiones de seguridad sobre el código que Claude Code escribe: un pattern match con regex después de cada edit, una revisión LLM del diff al final de cada turno, y una revisión agéntica con acceso a Read/Grep/Glob cuando Claude ejecuta git commit o git push. Los hallazgos se inyectan en el contexto de Claude para que los arregle en la misma sesión.

¿Cómo se instala el plugin security-guidance?

Se instala desde Claude Code con dos comandos slash: /plugin install security-guidance@claude-plugins-official y luego /reload-plugins. Requiere Claude Code CLI 2.1.144 o superior y Python 3.8+ en el PATH. Una vez instalado se carga en cada sesión nueva sin configuración adicional.

¿En qué se diferencian las tres capas de revisión del plugin?

La capa 1 ejecuta 25 reglas regex sobre el contenido recién escrito sin llamar al modelo, coste cero. La capa 2 manda el diff del turno completo a Claude Opus 4.7 para una revisión semántica al final de cada respuesta. La capa 3 ejecuta un reviewer agéntico con Read/Grep/Glob sobre el repo entero al detectar git commit o git push, capaz de seguir flujos cross-file.

¿Qué es git stash create y por qué lo usa el plugin?

git stash create crea un commit object con el estado actual del working tree (HEAD más cambios no commiteados) sin añadirlo al stash list ni modificar nada. El plugin lo usa en UserPromptSubmit para capturar un SHA baseline contra el que diffear al final del turno, obteniendo así solo los cambios reales del turno y no el WIP previo del usuario.

¿Bloquea el plugin commits o pushes con vulnerabilidades?

No. Ninguna capa del plugin bloquea edits, commits ni pushes. Los hallazgos llegan a Claude como instrucciones vía asyncRewake y Claude decide qué hacer con ellos. Es una arquitectura de defensa en profundidad, no un guardarrail duro. Si necesitas bloqueo, combínalo con un pre-commit hook o validaciones en CI.

¿Cuál es el modelo por defecto que usa security-guidance?

Claude Opus 4.7 para las dos capas LLM, según la documentación oficial. Se puede cambiar con SECURITY_REVIEW_MODEL para la capa 2 y SG_AGENTIC_MODEL para la capa 3. Modelos como claude-sonnet-4-6 son alternativas válidas para bajar coste a cambio de algo de precisión en categorías como authorization.

¿Cuánto cuesta usar el plugin security-guidance?

La capa 1 es gratis. Las capas 2 y 3 cobran el uso normal del modelo elegido. Con Opus 4.7 a 5 dólares por millón de tokens de entrada y 25 dólares por millón de salida, una sesión típica de unas pocas horas de desarrollo añade entre 1 y 5 dólares de coste extra. El rate limit interno limita a 20 revisiones de commit/push por hora para acotar el techo de gasto.

¿Puedo añadir mis propias reglas de seguridad al plugin?

Sí. Hay dos puntos de extensión: claude-security-guidance.md para reglas semánticas que el LLM aplicará (hasta 8 KB combinados entre user, project y project-local), y security-patterns.yaml para regex extra en la capa 1 (hasta 50 reglas custom adicionales). Ambos son aditivos y no pueden silenciar las reglas built-in.

¿Funciona security-guidance con commits que hago desde mi terminal?

No. La capa 3 se dispara solo cuando Claude ejecuta git commit o git push desde su Bash tool. Los commits que tú ejecutas desde tu shell, incluso usando el shell escape ! dentro de una sesión de Claude Code, no entran en el ámbito del plugin. Anthropic asume que tu commit manual ya pasó por tu revisión.

¿Cómo desactivo el plugin security-guidance sin desinstalarlo?

Pones la variable de entorno SECURITY_GUIDANCE_DISABLE=1 y el plugin no se carga, pero queda instalado. Si quieres apagar capas concretas, hay un toggle por cada una: ENABLE_PATTERN_RULES=0, ENABLE_STOP_REVIEW=0, ENABLE_COMMIT_REVIEW=0 y ENABLE_CODE_SECURITY_REVIEW=0 (este último apaga las dos capas LLM a la vez).

Para llevarte a casa ¶

Security-guidance es una pieza más en una estrategia de defensa en profundidad, no la solución mágica. Lo que aporta es muy concreto: reduce el ruido que llega a tu PR review filtrando los problemas más obvios en el momento en que el código se escribe. Y lo hace con un diseño que está bien pensado:

Tres capas con coste y profundidad crecientes.
Un reviewer que no tiene apego al código original.
Race entre agéntico y fallback para no quedarte sin feedback.
Toggles por capa para que controles tú la factura.
Extension points aditivos para reglas de tu casa.

Como siempre con la IA, no es plug-and-forget. Si tu codebase tiene patrones específicos (un wrapper de SSRF custom, una convención de logging de PII), tienes que documentarlos en claude-security-guidance.md para que el reviewer los entienda. Y los findings que aparecen los lees tú, no los acepta Claude solo y commitea.

¿Vas a instalarlo? Bien. ¿Vas a apagarlo en sesiones donde estás haciendo prototipo rápido en CLI tools que nadie va a auditar? También bien. Lo que sí merece la pena es leer el código del plugin al menos una vez. Está en anthropics/claude-plugins-official, son 4-5 ficheros de Python bien comentados, y es un ejemplo precioso de cómo se construye un hook que llama a un modelo separado y reinyecta el resultado en la sesión.

Si lo entiendes, sabrás escribir el tuyo.

Fuentes ¶

Documentación oficial del plugin: code.claude.com/docs/en/security-guidance
Código fuente y README: anthropics/claude-plugins-official/plugins/security-guidance
Anuncio de plugins de Claude Code: anthropic.com/news
Sonar State of Code Developer Survey 2026: sonarsource.com
Informe completo en PDF: sonarsource.com/state-of-code-developer-survey-report.pdf
Pricing oficial de Anthropic: anthropic.com/pricing
Documentación de encoding/json de Go: pkg.go.dev/encoding/json
OWASP Top 10 for LLM Applications: genai.owasp.org

🧨 Última oprtunidad para recibir la dinamita que mereces sobre programación con IA el próximo domingo: Suscríbete gratis a Web Reactiva en https://webreactiva.com/newsletter