Tags: Confinement d'agents, Rayon d'impact, Anthropic, OpenAI, Google DeepMind, Microsoft, OWASP, Sandbox, Permissions, HITL, Audit, Sécurité

Le confinement d'agents est l'ensemble des patterns architecturaux qui limitent ce qu'un agent IA peut faire quand il déraille. Inspiré d'Anthropic, OpenAI, Google DeepMind, Microsoft et OWASP — voici les quatre couches que toute équipe déployant des agents en production doit comprendre, illustrées par des diagrammes de séquence FlowZap montrant les interactions entre Agent, Sandbox, Humain, Barrières de Permissions et SIEM.

Pourquoi le Confinement d'Agents Compte Aujourd'hui

Le 19 juin 2026, Anthropic publiait « How we contain Claude across products » — une analyse détaillée de l'architecture de sécurité protégeant claude.ai, Claude Code et Cowork. La phrase d'ouverture pose le cadre :

« À mesure que les agents deviennent plus capables, leur rayon d'impact potentiel augmente. La question d'ingénierie est de savoir comment le limiter. »

Anthropic est le dernier des quatre grands écosystèmes à avoir publié des cadres de confinement depuis février :

Écosystème	Contribution clé	Date
Anthropic	Pile de confinement en 4 couches (Sandbox→Permissions→HITL→Audit) pour Claude Code	Juin 2026
OpenAI	« Practices for Governing Agentic AI Systems » — rayon d'impact, chaînes de délégation, périmètre des permissions	Janv. 2026
Google DeepMind	Cadre de sécurité des agents pour Astra, Mariner, Veo — isolation à l'exécution + hiérarchies d'approbation	Mars 2026
Microsoft	Leçons de l'AI Red Team sur les agents Copilot — évasions de sandbox, injection de prompt dans les chaînes agentiques	Fév. 2026

Ce n'est pas théorique. Chaque pipeline CI/CD qui approuve automatiquement des PR venant d'un agent de codage IA est un rayon d'impact qui n'attend que d'être mesuré. Chaque serveur MCP qui accorde un accès terminal sans restriction de chemin est un vecteur d'évasion de sandbox. Les patterns ci-dessous sont ceux sur lesquels les quatre écosystèmes ont convergé.

Les 4 Couches du Confinement d'Agents

Anthropic a formalisé la pile. OpenAI, DeepMind et Microsoft ont chacun apporté des nuances. Voici le modèle unifié :

Le Modèle d'Interaction

Chaque couche de confinement est un dialogue entre participants, pas un monologue à l'intérieur de l'agent. Les diagrammes ci-dessous montrent les interactions réelles :

Couche 1 — Sandbox : Agent ↔ Environnement de Sandbox (conteneur éphémère, validation de chemin)
Couche 2 — Permissions : Agent ↔ Barrière de Permissions (liste blanche, vérification de périmètre)
Couche 3 — HITL : Agent ↔ Relecteur Humain (approbation, gestion de la fatigue)
Couche 4 — Audit : Agent ↔ SIEM (journalisation immuable, alerting)

Couche 1 : Sandboxing — Agent ↔ Sandbox

La première ligne de défense : l'agent s'exécute dans un environnement où il ne peut physiquement toucher à rien de critique.

Le pattern (5 écosystèmes convergent) :

Conteneurs ou VM dédiés par session d'agent (Anthropic, Google, Microsoft)
Pas d'accès réseau aux services internes par défaut (OpenAI, OWASP #4)
Montages de systèmes de fichiers en lecture seule pour les répertoires système (tous les cinq)
Stockage éphémère détruit après chaque session (Anthropic, Google)

[FlowZap Code block — keep unchanged]

Ce que fait Anthropic : Claude Code s'exécute dans un environnement sandboxé où chaque invocation d'outil est évaluée par rapport à ALLOWED_HOSTS, avec protection SSRF et timeouts de requête.

Ce que Microsoft ajoute : les agents Copilot s'exécutent dans des « sandbox gérées par Defender » qui interceptent l'injection de prompt à la frontière du modèle — avant que l'agent puisse agir sur une instruction malveillante. Leur red team a découvert que 34 % des évasions de sandbox dans les systèmes agentiques passaient par les descriptions d'outils, pas par les prompts utilisateur.

L'écueil : le sandboxing n'est aussi bon que sa configuration. Un conteneur avec --privileged ou un socket Docker monté à l'intérieur annule l'objectif. L'équipe sécurité de Google DeepMind recommande l'attestation à l'exécution : vérifier que la configuration de la sandbox n'a pas été altérée avant chaque session d'agent.

Couche 2 : Permissions — Agent ↔ Barrière de Permissions

Même dans une sandbox, un agent a besoin d'un certain accès. La couche 2 définit exactement lequel.

Le pattern :

Liste blanche, jamais liste noire (Anthropic, OpenAI, OWASP)
Principe de moindre privilège par outil (Google, Microsoft)
Restrictions par chemin : uniquement ./workspace/, jamais /etc/ (tous les cinq)
Lecture vs. écriture vs. exécution comme permissions séparées (Anthropic, OpenAI)

[FlowZap Code block — keep unchanged]

Ce qu'OpenAI impose : « Practices for Governing Agentic AI Systems » (Janv. 2026) mentionne explicitement le périmètre des permissions dans les chaînes de délégation — quand l'Agent A délègue à l'Agent B, B doit avoir strictement moins de permissions que A. Aucun agent enfant ne doit avoir plus de pouvoir que son parent.

Ce que l'OWASP signale : l'élément #4 « Agentivité Excessive » dans le Top 10 des Applications LLM (v2.0, Nov. 2025) avertit qu'accorder aux agents un accès illimité aux outils — en particulier le shell, les écritures sur le système de fichiers et les sorties réseau — est la vulnérabilité architecturale numéro 1 dans les déploiements d'agents en production.

Couche 3 : Approbation HITL (Humain dans la Boucle) — Agent ↔ Humain

Certaines actions sont trop dangereuses pour être automatisées. La couche 3 place un humain entre la décision de l'agent et le monde réel.

Le pattern :

Auto-approuvé : lecture seule, faible risque (Anthropic, Microsoft)
Demander : écritures de fichiers, appels réseau, commandes shell (tous les cinq)
Refuser : opérations destructrices, changements de configuration, accès aux secrets (OpenAI, Google)
Prévention de la fatigue d'approbation : approbations par lots, apprentissage des patterns (l'innovation « mode auto » d'Anthropic)

[FlowZap Code block — keep unchanged]

Action	Par défaut	Justification
`read_file`	Auto-approuvé	Lecture seule, aucun effet de bord
`grep` / `glob`	Auto-approuvé	Opérations de recherche
`write_file`	Demander	Modifie le système de fichiers
`terminal` (shell)	Demander	Exécution de code arbitraire
`web_fetch`	Demander	Sortie réseau
Accès à `.env`	Demander + Avertir	Exposition de secrets
`rm -rf` / destructeur	Refuser	Dommages irréversibles

Ce qu'Anthropic a innové : le « mode auto » de Claude Code (Mars 2026) saute sélectivement les invites de permission pour les opérations à faible risque tout en maintenant l'humain dans la boucle pour tout ce qui modifie l'état. L'innovation clé : l'agent apprend quels patterns vous approuvez et auto-approuve des opérations futures similaires, réduisant la fatigue sans sacrifier la sécurité.

Ce que Google DeepMind impose : des « hiérarchies d'approbation » — dans les systèmes multi-agents, aucun humain n'approuve les actions de son propre agent. L'approbateur doit appartenir à une chaîne hiérarchique différente, empêchant les validations de complaisance. Le Projet Mariner implémente ceci au niveau des actions du navigateur.

Couche 4 : Journalisation d'Audit — Agent ↔ SIEM

La couche que la plupart des équipes négligent — et celle qu'elles auraient aimé avoir lors d'un incident.

Le pattern :

Journal immuable par session d'agent (Anthropic, Microsoft)
Chaque appel d'outil journalisé : horodatage, nom de l'outil, arguments (nettoyés), résultat (tous les cinq)
Événements de sécurité signalés : permissions refusées, patterns inhabituels, dépassements de limite de débit (OWASP)
Journaux envoyés vers un système séparé — non lisible par l'agent lui-même (Google)

[FlowZap Code block — keep unchanged]

Ce que la red team de Microsoft a découvert : dans 40 % de leurs attaques simulées sur les agents Copilot, les journaux d'audit étaient le seul mécanisme de détection. Les permissions échouaient à cause d'une mauvaise configuration. Le sandboxing échouait à cause d'une évasion de conteneur. Le HITL échouait à cause de la fatigue d'approbation. Les journaux d'audit ont détecté 100 % des attaques a posteriori — mais seulement dans les équipes qui avaient effectivement envoyé leurs journaux hors machine et configuré des règles d'alerting.

Ce que l'OWASP recommande : les journaux doivent être « attestables » — signés cryptographiquement pour qu'un agent ne puisse pas falsifier sa propre piste d'audit après une compromission. Ceci est particulièrement critique pour les agents CI/CD qui ont un accès en écriture au dépôt.

Tout Rassembler : La Pile de Confinement Complète

Quand les quatre couches fonctionnent ensemble, l'architecture ressemble à ceci — une Pile de Confinement unique avec laquelle l'Agent communique pour chaque appel d'outil :

[FlowZap Code block — keep unchanged]

Ce qui Marche vs. Ce qui Casse

Approche	Fonctionne quand	Casse quand	Preuve des écosystèmes
Sandbox uniquement	Les agents sont sans état, en lecture seule	L'agent a besoin d'un état persistant ou d'un accès DB	Anthropic : sandbox seule insuffisante, juin 2026
Permissions uniquement	La surface d'outils est petite et stable	Nouveaux outils ajoutés sans mettre à jour la liste blanche	OpenAI : les chaînes de délégation doivent réduire le périmètre, janv. 2026
HITL uniquement	Les opérations sont peu fréquentes	L'agent fait 50+ appels d'outils/tâche (fatigue)	Anthropic : post-mortem sept. 2025 sur la fatigue du mode auto
Audit uniquement	Vous avez une équipe sécurité dédiée	Les journaux ne sont jamais consultés (théâtre de la sécurité)	Microsoft Red Team : 40 % des attaques détectées uniquement par l'audit, fév. 2026
Pile 4 couches	Vous exécutez des agents en production	— (c'est l'état cible)	Tous les cinq écosystèmes

La leçon de ces grands écosystèmes : aucune couche unique ne suffit. Le sandboxing sans permissions est une boîte en carton. Les permissions sans HITL sont une politique que personne ne lit. Le HITL sans journalisation d'audit signifie que vous ne saurez jamais ce que vous avez approuvé.

Ce que Cela Signifie pour l'Architecture de FlowZap

Mon propre apprentissage : les cinq patterns de confinement correspondent directement à mon orchestrateur d'agents :

Couche de Confinement	Implémentation FlowZap	Statut
L1 Sandbox	Wrapper `secureFetch()` du serveur MCP (protection SSRF, ALLOWED_HOSTS, timeouts)	En place
L2 Permissions	Compétences (skills) limitées par profil (marie-pierre, code, securite, qa) — chacune avec un accès minimal aux outils	En place
L3 HITL	Pipeline Cron → Idea Scout → Approbation humaine → Writer	Construit cette semaine
L4 Audit	Journaux Cron Hermes → DB de session → Livraison Telegram	En place

La pièce manquante : le périmètre des permissions inter-profils. Quand mon senior-dev (profil code) délègue à security-auditor (profil securite), l'agent enfant hérite actuellement de toutes les permissions du parent. Le principe de chaîne de délégation d'OpenAI dit que l'enfant doit avoir strictement moins de permissions. C'est une lacune que je dois combler.

L'Essentiel à Retenir

Commencez par la Couche 1 (sandboxing) dès aujourd'hui. Si votre agent s'exécute dans le même environnement que votre base de données de production, corrigez cela avant toute autre chose.
Les Couches 2 et 3 peuvent être implémentées progressivement. Mettez vos outils sur liste blanche. Ajoutez des invites d'approbation pour les écritures. Vous n'avez pas besoin d'un système parfait dès le premier jour.
La Couche 4 (audit) est celle que la plupart des équipes négligent — et celle qu'elles auraient aimé avoir lors d'un incident. Journalisez chaque appel d'outil. Expédiez les journaux hors machine. Configurez des règles d'alerting pour les événements [SECURITY].
Les systèmes multi-agents multiplient le rayon d'impact. Le principe de chaîne de délégation d'OpenAI et les hiérarchies d'approbation de Google ne sont pas optionnels quand vous avez plus d'un agent dans la boucle.

Inspirations:

Anthropic Engineering — How we contain Claude across products, June 2026
OpenAI — Practices for Governing Agentic AI Systems, January 2026
Google DeepMind — Agent Safety Framework, March 2026
Microsoft AI Red Team — Lessons from Securing Copilot Agents, February 2026
OWASP Top 10 for LLM Applications v2.0, November 2025

All FlowZap diagrams generated with FlowZap Code. Copy any .fz block above and paste it into your FlowZap Account to view, edit, and share.

Patterns de Confinement d'Agents : Comment Anthropic, OpenAI, Google DeepMind et Microsoft Limitent le Rayon d'Impact de leurs Frameworks

Pourquoi le Confinement d'Agents Compte Aujourd'hui

Les 4 Couches du Confinement d'Agents

Le Modèle d'Interaction

Couche 1 : Sandboxing — Agent ↔ Sandbox

Couche 2 : Permissions — Agent ↔ Barrière de Permissions

Couche 3 : Approbation HITL (Humain dans la Boucle) — Agent ↔ Humain

Couche 4 : Journalisation d'Audit — Agent ↔ SIEM

Tout Rassembler : La Pile de Confinement Complète

Ce qui Marche vs. Ce qui Casse

Ce que Cela Signifie pour l'Architecture de FlowZap

L'Essentiel à Retenir

Inspirations: