Architecture
Pattern de contexte court terme où le canal envoie les nouveaux messages plus l'historique récent. Le runtime agent fusionne cela avec l'état de session local, assemble l'invite, et persiste la réponse dans l'historique. Simple mais le coût et la latence augmentent avec la longueur de l'historique.
Code FlowZap complet
User { # User
n1: circle label="User sends message"
n2: rectangle label="See agent reply"
n1.handle(right) -> Agent.n3.handle(left)
Agent.n8.handle(right) -> n2.handle(left)
}
Agent { # Agent
n3: rectangle label="Receive message"
n4: rectangle label="Load session history"
n5: rectangle label="Assemble prompt"
n6: rectangle label="Call LLM"
n7: rectangle label="Receive LLM reply"
n8: rectangle label="Return answer to user"
n9: rectangle label="Persist updated session"
n3.handle(right) -> n4.handle(left)
n4.handle(right) -> n5.handle(left)
n5.handle(right) -> n6.handle(left)
n6.handle(right) -> LLM.n10.handle(left)
n7.handle(right) -> n8.handle(left)
n8.handle(bottom) -> n9.handle(top) [label="Save session"]
}
Memory { # Session Store
n11: rectangle label="Read session state"
n12: rectangle label="Write session state"
n3.handle(bottom) -> n11.handle(top) [label="Get history"]
n11.handle(right) -> Agent.n4.handle(left)
Agent.n9.handle(bottom) -> n12.handle(top) [label="Store history"]
}
LLM { # LLM
n10: rectangle label="Generate answer"
n10.handle(right) -> Agent.n7.handle(left)
}
Modèles associés
Architecture
Pattern d'historique compressé qui garde l'historique complet pendant un moment, puis quand un seuil est atteint, résume le dernier morceau et remplace les tours détaillés par un message résumé plus court. Réduit dramatiquement la taille de l'invite sur les conversations longues tout en maintenant la continuité de l'essentiel.
Architecture
Pattern de mémoire style identité où les données de profil sont chargées au démarrage de session. Chaque invite combine le persona système, le profil utilisateur, et le message courant. Les nouveaux faits peuvent être écrits dans la mémoire de profil. Surcharge prévisible minimale avec grande amélioration UX — l'agent se souvient de votre nom, stack, ton et contraintes.
Architecture
Pattern de mémoire basé sur vecteurs où le texte est découpé, embeddé et stocké dans une base de données vectorielle. À la requête, la question est embeddée, une recherche vectorielle est exécutée, les candidats sont re-classés, et les meilleurs résultats sont injectés dans l'invite. Là où l'agent donne l'impression de tout se souvenir sans halluciner.
Architecture
Pattern d'apprentissage par l'expérience où chaque exécution de tâche devient un épisode avec entrée, actions et résultat. Avant d'aborder une nouvelle tâche, l'agent récupère des épisodes similaires et les utilise comme indices. Avec le temps, l'agent donne l'impression d'apprendre au lieu de répéter les mêmes plans échoués.
Architecture
Pattern de récupération multi-modal combinant recherche sémantique, recherche exacte/mots-clés, et recherche par récence en parallèle. Les résultats sont fusionnés et re-classés en un seul ensemble de contexte. Rappel beaucoup plus élevé car l'agent peut trouver à la fois des références floues et des entités exactes. Essentiel pour la récupération de connaissances complète.
Architecture
Pattern de coordination multi-agents où un orchestrateur décompose le travail en sous-tâches, les agents spécialistes tirent de et poussent vers un store d'état partagé, et l'orchestrateur compose la réponse finale depuis cet état partagé. Les configurations multi-agents semblent cohérentes au lieu que chaque assistant ait sa propre mémoire inconsistante.