Architecture
Pattern de mémoire style identité où les données de profil sont chargées au démarrage de session. Chaque invite combine le persona système, le profil utilisateur, et le message courant. Les nouveaux faits peuvent être écrits dans la mémoire de profil. Surcharge prévisible minimale avec grande amélioration UX — l'agent se souvient de votre nom, stack, ton et contraintes.
Code FlowZap complet
User {
n1: circle label="Start session"
n2: rectangle label="Send request"
n3: rectangle label="See personalized reply"
n1.handle(right) -> n2.handle(left)
n2.handle(right) -> Agent.n4.handle(left)
Agent.n9.handle(right) -> n3.handle(left)
}
Agent {
n4: rectangle label="Identify user"
n5: rectangle label="Load profile"
n6: rectangle label="Build prompt with profile"
n7: rectangle label="Call LLM"
n8: rectangle label="Optionally update profile"
n9: rectangle label="Return answer"
n4.handle(right) -> n5.handle(left)
n5.handle(right) -> n6.handle(left)
n6.handle(right) -> n7.handle(left)
n7.handle(right) -> LLM.n10.handle(left)
n8.handle(right) -> ProfileStore.n11.handle(left) [label="Write profile"]
}
ProfileStore {
n11: rectangle label="Read/Write profile"
Agent.n5.handle(bottom) -> n11.handle(top) [label="Read profile"]
n11.handle(right) -> Agent.n5.handle(left)
}
LLM {
n10: rectangle label="Generate answer using profile"
n10.handle(right) -> Agent.n9.handle(left)
}
Modèles associés
Architecture
Pattern de contexte court terme où le canal envoie les nouveaux messages plus l'historique récent. Le runtime agent fusionne cela avec l'état de session local, assemble l'invite, et persiste la réponse dans l'historique. Simple mais le coût et la latence augmentent avec la longueur de l'historique.
Architecture
Pattern d'historique compressé qui garde l'historique complet pendant un moment, puis quand un seuil est atteint, résume le dernier morceau et remplace les tours détaillés par un message résumé plus court. Réduit dramatiquement la taille de l'invite sur les conversations longues tout en maintenant la continuité de l'essentiel.
Architecture
Pattern de mémoire basé sur vecteurs où le texte est découpé, embeddé et stocké dans une base de données vectorielle. À la requête, la question est embeddée, une recherche vectorielle est exécutée, les candidats sont re-classés, et les meilleurs résultats sont injectés dans l'invite. Là où l'agent donne l'impression de tout se souvenir sans halluciner.
Architecture
Pattern d'apprentissage par l'expérience où chaque exécution de tâche devient un épisode avec entrée, actions et résultat. Avant d'aborder une nouvelle tâche, l'agent récupère des épisodes similaires et les utilise comme indices. Avec le temps, l'agent donne l'impression d'apprendre au lieu de répéter les mêmes plans échoués.
Architecture
Pattern de récupération multi-modal combinant recherche sémantique, recherche exacte/mots-clés, et recherche par récence en parallèle. Les résultats sont fusionnés et re-classés en un seul ensemble de contexte. Rappel beaucoup plus élevé car l'agent peut trouver à la fois des références floues et des entités exactes. Essentiel pour la récupération de connaissances complète.
Architecture
Pattern de coordination multi-agents où un orchestrateur décompose le travail en sous-tâches, les agents spécialistes tirent de et poussent vers un store d'état partagé, et l'orchestrateur compose la réponse finale depuis cet état partagé. Les configurations multi-agents semblent cohérentes au lieu que chaque assistant ait sa propre mémoire inconsistante.