Le confinement d'agents est l'ensemble des patterns architecturaux qui limitent ce qu'un agent IA peut faire quand il déraille. Inspiré d'Anthropic, OpenAI, Google DeepMind, Microsoft et OWASP — voici les quatre couches que toute équipe déployant des agents en production doit comprendre, illustrées par des diagrammes de séquence FlowZap montrant les interactions entre Agent, Sandbox, Humain, Barrières de Permissions et SIEM.
Pourquoi le Confinement d'Agents Compte Aujourd'hui
Le 19 juin 2026, Anthropic publiait « How we contain Claude across products » — une analyse détaillée de l'architecture de sécurité protégeant claude.ai, Claude Code et Cowork. La phrase d'ouverture pose le cadre :
« À mesure que les agents deviennent plus capables, leur rayon d'impact potentiel augmente. La question d'ingénierie est de savoir comment le limiter. »
Anthropic est le dernier des quatre grands écosystèmes à avoir publié des cadres de confinement depuis février :
| Écosystème | Contribution clé | Date |
|---|---|---|
| Anthropic | Pile de confinement en 4 couches (Sandbox→Permissions→HITL→Audit) pour Claude Code | Juin 2026 |
| OpenAI | « Practices for Governing Agentic AI Systems » — rayon d'impact, chaînes de délégation, périmètre des permissions | Janv. 2026 |
| Google DeepMind | Cadre de sécurité des agents pour Astra, Mariner, Veo — isolation à l'exécution + hiérarchies d'approbation | Mars 2026 |
| Microsoft | Leçons de l'AI Red Team sur les agents Copilot — évasions de sandbox, injection de prompt dans les chaînes agentiques | Fév. 2026 |
Ce n'est pas théorique. Chaque pipeline CI/CD qui approuve automatiquement des PR venant d'un agent de codage IA est un rayon d'impact qui n'attend que d'être mesuré. Chaque serveur MCP qui accorde un accès terminal sans restriction de chemin est un vecteur d'évasion de sandbox. Les patterns ci-dessous sont ceux sur lesquels les quatre écosystèmes ont convergé.
Les 4 Couches du Confinement d'Agents
Anthropic a formalisé la pile. OpenAI, DeepMind et Microsoft ont chacun apporté des nuances. Voici le modèle unifié :
Le Modèle d'Interaction
Chaque couche de confinement est un dialogue entre participants, pas un monologue à l'intérieur de l'agent. Les diagrammes ci-dessous montrent les interactions réelles :
- Couche 1 — Sandbox : Agent ↔ Environnement de Sandbox (conteneur éphémère, validation de chemin)
- Couche 2 — Permissions : Agent ↔ Barrière de Permissions (liste blanche, vérification de périmètre)
- Couche 3 — HITL : Agent ↔ Relecteur Humain (approbation, gestion de la fatigue)
- Couche 4 — Audit : Agent ↔ SIEM (journalisation immuable, alerting)
Couche 1 : Sandboxing — Agent ↔ Sandbox
La première ligne de défense : l'agent s'exécute dans un environnement où il ne peut physiquement toucher à rien de critique.
Le pattern (5 écosystèmes convergent) :
- Conteneurs ou VM dédiés par session d'agent (Anthropic, Google, Microsoft)
- Pas d'accès réseau aux services internes par défaut (OpenAI, OWASP #4)
- Montages de systèmes de fichiers en lecture seule pour les répertoires système (tous les cinq)
- Stockage éphémère détruit après chaque session (Anthropic, Google)
[FlowZap Code block — keep unchanged]
Ce que fait Anthropic : Claude Code s'exécute dans un environnement sandboxé où chaque invocation d'outil est évaluée par rapport à ALLOWED_HOSTS, avec protection SSRF et timeouts de requête.
Ce que Microsoft ajoute : les agents Copilot s'exécutent dans des « sandbox gérées par Defender » qui interceptent l'injection de prompt à la frontière du modèle — avant que l'agent puisse agir sur une instruction malveillante. Leur red team a découvert que 34 % des évasions de sandbox dans les systèmes agentiques passaient par les descriptions d'outils, pas par les prompts utilisateur.
L'écueil : le sandboxing n'est aussi bon que sa configuration. Un conteneur avec --privileged ou un socket Docker monté à l'intérieur annule l'objectif. L'équipe sécurité de Google DeepMind recommande l'attestation à l'exécution : vérifier que la configuration de la sandbox n'a pas été altérée avant chaque session d'agent.
Couche 2 : Permissions — Agent ↔ Barrière de Permissions
Même dans une sandbox, un agent a besoin d'un certain accès. La couche 2 définit exactement lequel.
Le pattern :
- Liste blanche, jamais liste noire (Anthropic, OpenAI, OWASP)
- Principe de moindre privilège par outil (Google, Microsoft)
- Restrictions par chemin : uniquement ./workspace/, jamais /etc/ (tous les cinq)
- Lecture vs. écriture vs. exécution comme permissions séparées (Anthropic, OpenAI)
[FlowZap Code block — keep unchanged]
Ce qu'OpenAI impose : « Practices for Governing Agentic AI Systems » (Janv. 2026) mentionne explicitement le périmètre des permissions dans les chaînes de délégation — quand l'Agent A délègue à l'Agent B, B doit avoir strictement moins de permissions que A. Aucun agent enfant ne doit avoir plus de pouvoir que son parent.
Ce que l'OWASP signale : l'élément #4 « Agentivité Excessive » dans le Top 10 des Applications LLM (v2.0, Nov. 2025) avertit qu'accorder aux agents un accès illimité aux outils — en particulier le shell, les écritures sur le système de fichiers et les sorties réseau — est la vulnérabilité architecturale numéro 1 dans les déploiements d'agents en production.
Couche 3 : Approbation HITL (Humain dans la Boucle) — Agent ↔ Humain
Certaines actions sont trop dangereuses pour être automatisées. La couche 3 place un humain entre la décision de l'agent et le monde réel.
Le pattern :
- Auto-approuvé : lecture seule, faible risque (Anthropic, Microsoft)
- Demander : écritures de fichiers, appels réseau, commandes shell (tous les cinq)
- Refuser : opérations destructrices, changements de configuration, accès aux secrets (OpenAI, Google)
- Prévention de la fatigue d'approbation : approbations par lots, apprentissage des patterns (l'innovation « mode auto » d'Anthropic)
[FlowZap Code block — keep unchanged]
| Action | Par défaut | Justification |
|---|---|---|
read_file | Auto-approuvé | Lecture seule, aucun effet de bord |
grep / glob | Auto-approuvé | Opérations de recherche |
write_file | Demander | Modifie le système de fichiers |
terminal (shell) | Demander | Exécution de code arbitraire |
web_fetch | Demander | Sortie réseau |
Accès à .env | Demander + Avertir | Exposition de secrets |
rm -rf / destructeur | Refuser | Dommages irréversibles |
Ce qu'Anthropic a innové : le « mode auto » de Claude Code (Mars 2026) saute sélectivement les invites de permission pour les opérations à faible risque tout en maintenant l'humain dans la boucle pour tout ce qui modifie l'état. L'innovation clé : l'agent apprend quels patterns vous approuvez et auto-approuve des opérations futures similaires, réduisant la fatigue sans sacrifier la sécurité.
Ce que Google DeepMind impose : des « hiérarchies d'approbation » — dans les systèmes multi-agents, aucun humain n'approuve les actions de son propre agent. L'approbateur doit appartenir à une chaîne hiérarchique différente, empêchant les validations de complaisance. Le Projet Mariner implémente ceci au niveau des actions du navigateur.
Couche 4 : Journalisation d'Audit — Agent ↔ SIEM
La couche que la plupart des équipes négligent — et celle qu'elles auraient aimé avoir lors d'un incident.
Le pattern :
- Journal immuable par session d'agent (Anthropic, Microsoft)
- Chaque appel d'outil journalisé : horodatage, nom de l'outil, arguments (nettoyés), résultat (tous les cinq)
- Événements de sécurité signalés : permissions refusées, patterns inhabituels, dépassements de limite de débit (OWASP)
- Journaux envoyés vers un système séparé — non lisible par l'agent lui-même (Google)
[FlowZap Code block — keep unchanged]
Ce que la red team de Microsoft a découvert : dans 40 % de leurs attaques simulées sur les agents Copilot, les journaux d'audit étaient le seul mécanisme de détection. Les permissions échouaient à cause d'une mauvaise configuration. Le sandboxing échouait à cause d'une évasion de conteneur. Le HITL échouait à cause de la fatigue d'approbation. Les journaux d'audit ont détecté 100 % des attaques a posteriori — mais seulement dans les équipes qui avaient effectivement envoyé leurs journaux hors machine et configuré des règles d'alerting.
Ce que l'OWASP recommande : les journaux doivent être « attestables » — signés cryptographiquement pour qu'un agent ne puisse pas falsifier sa propre piste d'audit après une compromission. Ceci est particulièrement critique pour les agents CI/CD qui ont un accès en écriture au dépôt.
Tout Rassembler : La Pile de Confinement Complète
Quand les quatre couches fonctionnent ensemble, l'architecture ressemble à ceci — une Pile de Confinement unique avec laquelle l'Agent communique pour chaque appel d'outil :
[FlowZap Code block — keep unchanged]
Ce qui Marche vs. Ce qui Casse
| Approche | Fonctionne quand | Casse quand | Preuve des écosystèmes |
|---|---|---|---|
| Sandbox uniquement | Les agents sont sans état, en lecture seule | L'agent a besoin d'un état persistant ou d'un accès DB | Anthropic : sandbox seule insuffisante, juin 2026 |
| Permissions uniquement | La surface d'outils est petite et stable | Nouveaux outils ajoutés sans mettre à jour la liste blanche | OpenAI : les chaînes de délégation doivent réduire le périmètre, janv. 2026 |
| HITL uniquement | Les opérations sont peu fréquentes | L'agent fait 50+ appels d'outils/tâche (fatigue) | Anthropic : post-mortem sept. 2025 sur la fatigue du mode auto |
| Audit uniquement | Vous avez une équipe sécurité dédiée | Les journaux ne sont jamais consultés (théâtre de la sécurité) | Microsoft Red Team : 40 % des attaques détectées uniquement par l'audit, fév. 2026 |
| Pile 4 couches | Vous exécutez des agents en production | — (c'est l'état cible) | Tous les cinq écosystèmes |
La leçon de ces grands écosystèmes : aucune couche unique ne suffit. Le sandboxing sans permissions est une boîte en carton. Les permissions sans HITL sont une politique que personne ne lit. Le HITL sans journalisation d'audit signifie que vous ne saurez jamais ce que vous avez approuvé.
Ce que Cela Signifie pour l'Architecture de FlowZap
Mon propre apprentissage : les cinq patterns de confinement correspondent directement à mon orchestrateur d'agents :
| Couche de Confinement | Implémentation FlowZap | Statut |
|---|---|---|
| L1 Sandbox | Wrapper secureFetch() du serveur MCP (protection SSRF, ALLOWED_HOSTS, timeouts) | En place |
| L2 Permissions | Compétences (skills) limitées par profil (marie-pierre, code, securite, qa) — chacune avec un accès minimal aux outils | En place |
| L3 HITL | Pipeline Cron → Idea Scout → Approbation humaine → Writer | Construit cette semaine |
| L4 Audit | Journaux Cron Hermes → DB de session → Livraison Telegram | En place |
La pièce manquante : le périmètre des permissions inter-profils. Quand mon senior-dev (profil code) délègue à security-auditor (profil securite), l'agent enfant hérite actuellement de toutes les permissions du parent. Le principe de chaîne de délégation d'OpenAI dit que l'enfant doit avoir strictement moins de permissions. C'est une lacune que je dois combler.
L'Essentiel à Retenir
- Commencez par la Couche 1 (sandboxing) dès aujourd'hui. Si votre agent s'exécute dans le même environnement que votre base de données de production, corrigez cela avant toute autre chose.
- Les Couches 2 et 3 peuvent être implémentées progressivement. Mettez vos outils sur liste blanche. Ajoutez des invites d'approbation pour les écritures. Vous n'avez pas besoin d'un système parfait dès le premier jour.
- La Couche 4 (audit) est celle que la plupart des équipes négligent — et celle qu'elles auraient aimé avoir lors d'un incident. Journalisez chaque appel d'outil. Expédiez les journaux hors machine. Configurez des règles d'alerting pour les événements [SECURITY].
- Les systèmes multi-agents multiplient le rayon d'impact. Le principe de chaîne de délégation d'OpenAI et les hiérarchies d'approbation de Google ne sont pas optionnels quand vous avez plus d'un agent dans la boucle.
Inspirations:
- Anthropic Engineering — How we contain Claude across products, June 2026
- OpenAI — Practices for Governing Agentic AI Systems, January 2026
- Google DeepMind — Agent Safety Framework, March 2026
- Microsoft AI Red Team — Lessons from Securing Copilot Agents, February 2026
- OWASP Top 10 for LLM Applications v2.0, November 2025
All FlowZap diagrams generated with FlowZap Code. Copy any .fz block above and paste it into your FlowZap Account to view, edit, and share.
