Bienvenue sur FlowZap, l'application pour créer des diagrammes avec Rapidité, Clarté et Contrôle.

Patterns de Confinement d'Agents : Comment Anthropic, OpenAI, Google DeepMind et Microsoft Limitent le Rayon d'Impact de leurs Frameworks

20/06/2026

Tags: Confinement d'agents, Rayon d'impact, Anthropic, OpenAI, Google DeepMind, Microsoft, OWASP, Sandbox, Permissions, HITL, Audit, Sécurité

Jules Kovac

Jules Kovac

Business Analyst, Founder

Patterns de Confinement d'Agents : Comment Anthropic, OpenAI, Google DeepMind et Microsoft Limitent le Rayon d'Impact de leurs Frameworks

Le confinement d'agents est l'ensemble des patterns architecturaux qui limitent ce qu'un agent IA peut faire quand il déraille. Inspiré d'Anthropic, OpenAI, Google DeepMind, Microsoft et OWASP — voici les quatre couches que toute équipe déployant des agents en production doit comprendre, illustrées par des diagrammes de séquence FlowZap montrant les interactions entre Agent, Sandbox, Humain, Barrières de Permissions et SIEM.

 

 

Pourquoi le Confinement d'Agents Compte Aujourd'hui

Le 19 juin 2026, Anthropic publiait « How we contain Claude across products » — une analyse détaillée de l'architecture de sécurité protégeant claude.ai, Claude Code et Cowork. La phrase d'ouverture pose le cadre :

« À mesure que les agents deviennent plus capables, leur rayon d'impact potentiel augmente. La question d'ingénierie est de savoir comment le limiter. »

Anthropic est le dernier des quatre grands écosystèmes à avoir publié des cadres de confinement depuis février :

Écosystème Contribution clé Date
AnthropicPile de confinement en 4 couches (Sandbox→Permissions→HITL→Audit) pour Claude CodeJuin 2026
OpenAI« Practices for Governing Agentic AI Systems » — rayon d'impact, chaînes de délégation, périmètre des permissionsJanv. 2026
Google DeepMindCadre de sécurité des agents pour Astra, Mariner, Veo — isolation à l'exécution + hiérarchies d'approbationMars 2026
MicrosoftLeçons de l'AI Red Team sur les agents Copilot — évasions de sandbox, injection de prompt dans les chaînes agentiquesFév. 2026

Ce n'est pas théorique. Chaque pipeline CI/CD qui approuve automatiquement des PR venant d'un agent de codage IA est un rayon d'impact qui n'attend que d'être mesuré. Chaque serveur MCP qui accorde un accès terminal sans restriction de chemin est un vecteur d'évasion de sandbox. Les patterns ci-dessous sont ceux sur lesquels les quatre écosystèmes ont convergé.

 

 

Les 4 Couches du Confinement d'Agents

Anthropic a formalisé la pile. OpenAI, DeepMind et Microsoft ont chacun apporté des nuances. Voici le modèle unifié :

 

Le Modèle d'Interaction

Chaque couche de confinement est un dialogue entre participants, pas un monologue à l'intérieur de l'agent. Les diagrammes ci-dessous montrent les interactions réelles :

  1. Couche 1 — Sandbox : Agent ↔ Environnement de Sandbox (conteneur éphémère, validation de chemin)
  2. Couche 2 — Permissions : Agent ↔ Barrière de Permissions (liste blanche, vérification de périmètre)
  3. Couche 3 — HITL : Agent ↔ Relecteur Humain (approbation, gestion de la fatigue)
  4. Couche 4 — Audit : Agent ↔ SIEM (journalisation immuable, alerting)

 

 

Couche 1 : Sandboxing — Agent ↔ Sandbox

La première ligne de défense : l'agent s'exécute dans un environnement où il ne peut physiquement toucher à rien de critique.

Le pattern (5 écosystèmes convergent) :

  • Conteneurs ou VM dédiés par session d'agent (Anthropic, Google, Microsoft)
  • Pas d'accès réseau aux services internes par défaut (OpenAI, OWASP #4)
  • Montages de systèmes de fichiers en lecture seule pour les répertoires système (tous les cinq)
  • Stockage éphémère détruit après chaque session (Anthropic, Google)

[FlowZap Code block — keep unchanged]

Ce que fait Anthropic : Claude Code s'exécute dans un environnement sandboxé où chaque invocation d'outil est évaluée par rapport à ALLOWED_HOSTS, avec protection SSRF et timeouts de requête.

Ce que Microsoft ajoute : les agents Copilot s'exécutent dans des « sandbox gérées par Defender » qui interceptent l'injection de prompt à la frontière du modèle — avant que l'agent puisse agir sur une instruction malveillante. Leur red team a découvert que 34 % des évasions de sandbox dans les systèmes agentiques passaient par les descriptions d'outils, pas par les prompts utilisateur.

L'écueil : le sandboxing n'est aussi bon que sa configuration. Un conteneur avec --privileged ou un socket Docker monté à l'intérieur annule l'objectif. L'équipe sécurité de Google DeepMind recommande l'attestation à l'exécution : vérifier que la configuration de la sandbox n'a pas été altérée avant chaque session d'agent.

 

 

Couche 2 : Permissions — Agent ↔ Barrière de Permissions

Même dans une sandbox, un agent a besoin d'un certain accès. La couche 2 définit exactement lequel.

Le pattern :

  • Liste blanche, jamais liste noire (Anthropic, OpenAI, OWASP)
  • Principe de moindre privilège par outil (Google, Microsoft)
  • Restrictions par chemin : uniquement ./workspace/, jamais /etc/ (tous les cinq)
  • Lecture vs. écriture vs. exécution comme permissions séparées (Anthropic, OpenAI)

[FlowZap Code block — keep unchanged]

Ce qu'OpenAI impose : « Practices for Governing Agentic AI Systems » (Janv. 2026) mentionne explicitement le périmètre des permissions dans les chaînes de délégation — quand l'Agent A délègue à l'Agent B, B doit avoir strictement moins de permissions que A. Aucun agent enfant ne doit avoir plus de pouvoir que son parent.

Ce que l'OWASP signale : l'élément #4 « Agentivité Excessive » dans le Top 10 des Applications LLM (v2.0, Nov. 2025) avertit qu'accorder aux agents un accès illimité aux outils — en particulier le shell, les écritures sur le système de fichiers et les sorties réseau — est la vulnérabilité architecturale numéro 1 dans les déploiements d'agents en production.

 

 

Couche 3 : Approbation HITL (Humain dans la Boucle) — Agent ↔ Humain

Certaines actions sont trop dangereuses pour être automatisées. La couche 3 place un humain entre la décision de l'agent et le monde réel.

Le pattern :

  • Auto-approuvé : lecture seule, faible risque (Anthropic, Microsoft)
  • Demander : écritures de fichiers, appels réseau, commandes shell (tous les cinq)
  • Refuser : opérations destructrices, changements de configuration, accès aux secrets (OpenAI, Google)
  • Prévention de la fatigue d'approbation : approbations par lots, apprentissage des patterns (l'innovation « mode auto » d'Anthropic)

[FlowZap Code block — keep unchanged]

Action Par défaut Justification
read_fileAuto-approuvéLecture seule, aucun effet de bord
grep / globAuto-approuvéOpérations de recherche
write_fileDemanderModifie le système de fichiers
terminal (shell)DemanderExécution de code arbitraire
web_fetchDemanderSortie réseau
Accès à .envDemander + AvertirExposition de secrets
rm -rf / destructeurRefuserDommages irréversibles

Ce qu'Anthropic a innové : le « mode auto » de Claude Code (Mars 2026) saute sélectivement les invites de permission pour les opérations à faible risque tout en maintenant l'humain dans la boucle pour tout ce qui modifie l'état. L'innovation clé : l'agent apprend quels patterns vous approuvez et auto-approuve des opérations futures similaires, réduisant la fatigue sans sacrifier la sécurité.

Ce que Google DeepMind impose : des « hiérarchies d'approbation » — dans les systèmes multi-agents, aucun humain n'approuve les actions de son propre agent. L'approbateur doit appartenir à une chaîne hiérarchique différente, empêchant les validations de complaisance. Le Projet Mariner implémente ceci au niveau des actions du navigateur.

 

 

Couche 4 : Journalisation d'Audit — Agent ↔ SIEM

La couche que la plupart des équipes négligent — et celle qu'elles auraient aimé avoir lors d'un incident.

Le pattern :

  • Journal immuable par session d'agent (Anthropic, Microsoft)
  • Chaque appel d'outil journalisé : horodatage, nom de l'outil, arguments (nettoyés), résultat (tous les cinq)
  • Événements de sécurité signalés : permissions refusées, patterns inhabituels, dépassements de limite de débit (OWASP)
  • Journaux envoyés vers un système séparé — non lisible par l'agent lui-même (Google)

[FlowZap Code block — keep unchanged]

Ce que la red team de Microsoft a découvert : dans 40 % de leurs attaques simulées sur les agents Copilot, les journaux d'audit étaient le seul mécanisme de détection. Les permissions échouaient à cause d'une mauvaise configuration. Le sandboxing échouait à cause d'une évasion de conteneur. Le HITL échouait à cause de la fatigue d'approbation. Les journaux d'audit ont détecté 100 % des attaques a posteriori — mais seulement dans les équipes qui avaient effectivement envoyé leurs journaux hors machine et configuré des règles d'alerting.

Ce que l'OWASP recommande : les journaux doivent être « attestables » — signés cryptographiquement pour qu'un agent ne puisse pas falsifier sa propre piste d'audit après une compromission. Ceci est particulièrement critique pour les agents CI/CD qui ont un accès en écriture au dépôt.

 

 

Tout Rassembler : La Pile de Confinement Complète

Quand les quatre couches fonctionnent ensemble, l'architecture ressemble à ceci — une Pile de Confinement unique avec laquelle l'Agent communique pour chaque appel d'outil :

[FlowZap Code block — keep unchanged]

 

 

Ce qui Marche vs. Ce qui Casse

Approche Fonctionne quand Casse quand Preuve des écosystèmes
Sandbox uniquementLes agents sont sans état, en lecture seuleL'agent a besoin d'un état persistant ou d'un accès DBAnthropic : sandbox seule insuffisante, juin 2026
Permissions uniquementLa surface d'outils est petite et stableNouveaux outils ajoutés sans mettre à jour la liste blancheOpenAI : les chaînes de délégation doivent réduire le périmètre, janv. 2026
HITL uniquementLes opérations sont peu fréquentesL'agent fait 50+ appels d'outils/tâche (fatigue)Anthropic : post-mortem sept. 2025 sur la fatigue du mode auto
Audit uniquementVous avez une équipe sécurité dédiéeLes journaux ne sont jamais consultés (théâtre de la sécurité)Microsoft Red Team : 40 % des attaques détectées uniquement par l'audit, fév. 2026
Pile 4 couchesVous exécutez des agents en production— (c'est l'état cible)Tous les cinq écosystèmes

La leçon de ces grands écosystèmes : aucune couche unique ne suffit. Le sandboxing sans permissions est une boîte en carton. Les permissions sans HITL sont une politique que personne ne lit. Le HITL sans journalisation d'audit signifie que vous ne saurez jamais ce que vous avez approuvé.

 

 

Ce que Cela Signifie pour l'Architecture de FlowZap

Mon propre apprentissage : les cinq patterns de confinement correspondent directement à mon orchestrateur d'agents :

Couche de Confinement Implémentation FlowZap Statut
L1 SandboxWrapper secureFetch() du serveur MCP (protection SSRF, ALLOWED_HOSTS, timeouts)En place
L2 PermissionsCompétences (skills) limitées par profil (marie-pierre, code, securite, qa) — chacune avec un accès minimal aux outilsEn place
L3 HITLPipeline Cron → Idea Scout → Approbation humaine → WriterConstruit cette semaine
L4 AuditJournaux Cron Hermes → DB de session → Livraison TelegramEn place

La pièce manquante : le périmètre des permissions inter-profils. Quand mon senior-dev (profil code) délègue à security-auditor (profil securite), l'agent enfant hérite actuellement de toutes les permissions du parent. Le principe de chaîne de délégation d'OpenAI dit que l'enfant doit avoir strictement moins de permissions. C'est une lacune que je dois combler.

 

 

L'Essentiel à Retenir

  1. Commencez par la Couche 1 (sandboxing) dès aujourd'hui. Si votre agent s'exécute dans le même environnement que votre base de données de production, corrigez cela avant toute autre chose.
  2. Les Couches 2 et 3 peuvent être implémentées progressivement. Mettez vos outils sur liste blanche. Ajoutez des invites d'approbation pour les écritures. Vous n'avez pas besoin d'un système parfait dès le premier jour.
  3. La Couche 4 (audit) est celle que la plupart des équipes négligent — et celle qu'elles auraient aimé avoir lors d'un incident. Journalisez chaque appel d'outil. Expédiez les journaux hors machine. Configurez des règles d'alerting pour les événements [SECURITY].
  4. Les systèmes multi-agents multiplient le rayon d'impact. Le principe de chaîne de délégation d'OpenAI et les hiérarchies d'approbation de Google ne sont pas optionnels quand vous avez plus d'un agent dans la boucle.

 

 

Inspirations:

  • Anthropic Engineering — How we contain Claude across products, June 2026
  • OpenAI — Practices for Governing Agentic AI Systems, January 2026
  • Google DeepMind — Agent Safety Framework, March 2026
  • Microsoft AI Red Team — Lessons from Securing Copilot Agents, February 2026
  • OWASP Top 10 for LLM Applications v2.0, November 2025

All FlowZap diagrams generated with FlowZap Code. Copy any .fz block above and paste it into your FlowZap Account to view, edit, and share.

Retour à tous les articles du blogue