Architecture
Pattern de récupération multi-modal combinant recherche sémantique, recherche exacte/mots-clés, et recherche par récence en parallèle. Les résultats sont fusionnés et re-classés en un seul ensemble de contexte. Rappel beaucoup plus élevé car l'agent peut trouver à la fois des références floues et des entités exactes. Essentiel pour la récupération de connaissances complète.
Code FlowZap complet
User {
n1: circle label="Ask mixed query"
n2: rectangle label="See answer"
n1.handle(right) -> Agent.n3.handle(left)
Agent.n18.handle(right) -> n2.handle(left)
}
Agent {
n3: rectangle label="Plan retrieval strategy"
n4: rectangle label="Trigger semantic search"
n5: rectangle label="Trigger keyword search"
n6: rectangle label="Trigger recent-history search"
n7: rectangle label="Merge and rerank"
n8: rectangle label="Build prompt with hybrid context"
n9: rectangle label="Call LLM"
n18: rectangle label="Return answer"
n3.handle(bottom) -> n4.handle(top) [label="Semantic"]
n3.handle(right) -> n5.handle(left) [label="Keyword"]
n3.handle(left) -> n6.handle(right) [label="Recent"]
n7.handle(right) -> n8.handle(left)
n8.handle(right) -> n9.handle(left)
n9.handle(right) -> LLM.n19.handle(left)
}
Semantic {
n10: rectangle label="Vector search"
n11: rectangle label="Return semantic matches"
Agent.n4.handle(right) -> n10.handle(left)
n10.handle(right) -> n11.handle(left)
n11.handle(bottom) -> Agent.n7.handle(top) [label="Semantic"]
}
Keyword {
n12: rectangle label="Exact/ID search"
n13: rectangle label="Return exact matches"
Agent.n5.handle(right) -> n12.handle(left)
n12.handle(right) -> n13.handle(left)
n13.handle(bottom) -> Agent.n7.handle(top) [label="Keyword"]
}
Recent {
n14: rectangle label="Scan recent messages"
n15: rectangle label="Return recent matches"
Agent.n6.handle(right) -> n14.handle(left)
n14.handle(right) -> n15.handle(left)
n15.handle(bottom) -> Agent.n7.handle(top) [label="Recent"]
}
LLM {
n19: rectangle label="Reason over hybrid context"
n19.handle(right) -> Agent.n18.handle(left)
}
Modèles associés
Architecture
Pattern de contexte court terme où le canal envoie les nouveaux messages plus l'historique récent. Le runtime agent fusionne cela avec l'état de session local, assemble l'invite, et persiste la réponse dans l'historique. Simple mais le coût et la latence augmentent avec la longueur de l'historique.
Architecture
Pattern d'historique compressé qui garde l'historique complet pendant un moment, puis quand un seuil est atteint, résume le dernier morceau et remplace les tours détaillés par un message résumé plus court. Réduit dramatiquement la taille de l'invite sur les conversations longues tout en maintenant la continuité de l'essentiel.
Architecture
Pattern de mémoire style identité où les données de profil sont chargées au démarrage de session. Chaque invite combine le persona système, le profil utilisateur, et le message courant. Les nouveaux faits peuvent être écrits dans la mémoire de profil. Surcharge prévisible minimale avec grande amélioration UX — l'agent se souvient de votre nom, stack, ton et contraintes.
Architecture
Pattern de mémoire basé sur vecteurs où le texte est découpé, embeddé et stocké dans une base de données vectorielle. À la requête, la question est embeddée, une recherche vectorielle est exécutée, les candidats sont re-classés, et les meilleurs résultats sont injectés dans l'invite. Là où l'agent donne l'impression de tout se souvenir sans halluciner.
Architecture
Pattern d'apprentissage par l'expérience où chaque exécution de tâche devient un épisode avec entrée, actions et résultat. Avant d'aborder une nouvelle tâche, l'agent récupère des épisodes similaires et les utilise comme indices. Avec le temps, l'agent donne l'impression d'apprendre au lieu de répéter les mêmes plans échoués.
Architecture
Pattern de coordination multi-agents où un orchestrateur décompose le travail en sous-tâches, les agents spécialistes tirent de et poussent vers un store d'état partagé, et l'orchestrateur compose la réponse finale depuis cet état partagé. Les configurations multi-agents semblent cohérentes au lieu que chaque assistant ait sa propre mémoire inconsistante.