欢迎使用 FlowZap,快速、清晰、掌控的绘图应用。

信任你的 AI 智能体:安全与保密架构模式

2026/3/29

Tags: ai-agents, ai-security, mcp, zero-trust, confidential-computing, architecture

Jules Kovac

Jules Kovac

Business Analyst, Founder

信任你的 AI 智能体:安全与保密架构模式

快速答案: 在 2026 年保护 AI 智能体,意味着为智能体建立零信任身份体系、锁定 Model Context Protocol(MCP)服务器、对每一次工具调用实施运行时授权、避免把秘密放进上下文窗口,并在 shadow AI 失控之前把它纳入治理范围。

 

 

为什么 Agentic AI 成为 2026 年头号网络安全挑战

AI 智能体安全已经成为 2026 年企业安全团队必须正面解决的问题。关键数据非常明确:

  • 48% 的安全专业人士认为 agentic AI 是第一攻击向量
  • 463 万美元:一次 shadow AI 泄露的平均成本
  • 企业内 AI 智能体部署量同比增长 466.7%
  • 只有 14.4% 的智能体在完整安全审批后上线
  • 仅 2026 年 1 月到 2 月就出现 30+ 个 MCP 相关 CVE,最高 CVSS 达 9.6
  • Agentic AI 市场当前规模约 108.6 亿美元

AI 智能体会浏览网页、写代码、执行代码、调用 API、发送邮件、管理文件,甚至生成新的子智能体。与传统攻击不同,攻击者有时不需要改动代码,只需要通过自然语言注入就能改变智能体的目标和行为链路。

Gartner、RSAC 2026 和 IBM X-Force 都已经把智能体治理与安全列为年度关键议题。

 

 

2026 年的治理基线是什么?

当前最重要的两个框架是:

  1. OWASP Top 10 for Agentic Applications (2026) —— 自主 AI 系统十大关键风险分类
  2. CSA Agentic Trust Framework(ATF,2026 年 2 月) —— 覆盖身份、行为、数据治理、网络分段和事件响应五大控制域

 

 

2026 OWASP Agentic Applications Top 10

# 风险编号 风险名称 主要攻击面
1ASI01目标劫持(Prompt Injection)用户输入、RAG 语料、工具响应、邮件内容
2ASI02工具滥用工具调用层、MCP 资源
3ASI03身份与权限滥用IAM、令牌转发、OBO 链
4ASI04供应链被攻破MCP 服务器、模型权重、插件注册表
5ASI05意外代码执行代码解释器、沙箱运行器
6ASI06记忆与上下文投毒长期记忆、RAG 数据库
7ASI07不安全的多智能体通信编排者到工作者通道、A2A 协议
8ASI08级联故障多智能体编排图
9ASI09人机信任被利用HITL 审批界面
10ASI10失控智能体自我生成的子智能体

 

 

什么是 Shadow AI?为什么它是董事会级风险?

Shadow AI 指的是在没有 IT 或安全批准的情况下被部署到组织内部的 AI 智能体。许多企业内部实际上运行着大量未登记的 AI 应用和自动化流程。

这些智能体通常继承创建者的权限:凭据范围大、几乎没有审计轨迹、缺少策略控制、也没有退役机制。一旦它们连上 MCP 服务器或外部 API,一条被攻陷的自动化链就可能横跨整个组织。

 

 

什么是 Non-Human Identity(NHI)?

NHI(非人类身份) 是赋予 AI 智能体、机器人、脚本和服务账号的机器身份。在 2026 年,NHI 已成为身份安全的核心议题之一。

每个 AI 智能体都应该拥有独立、加密、短时有效的身份,并且与特定策略边界绑定。否则,智能体之间会共享凭据、相互冒充,事件发生后也很难追溯责任。

 

 

架构模式 1 —— 零信任智能体身份与 NHI 治理

推荐实现栈:

  1. Microsoft Entra Agent ID(预览版)
  2. SPIFFE / SPIRE 工作负载认证
  3. OAuth 2.0 Token Exchange(RFC 8693) 每一跳签发最小权限 token
  4. DID + 可验证凭证 用于跨组织部署
  5. NHI 资产清单工具 用于发现、分类、轮换

 

FlowZap Code —— 零信任身份流水线

User { # User
n1: circle label:"Start"
n2: rectangle label:"Send request + user JWT"
n3: rectangle label:"Receive approval"
n4: circle label:"End"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> AgentPlatform.n5.handle(top) [label="User JWT"]
n3.handle(right) -> n4.handle(left)
}

AgentPlatform { # Agent Platform
n5: rectangle label:"Validate JWT + agent ID"
n6: rectangle label:"Exchange for scoped OBO token"
n7: rectangle label:"Receive tool result"
n8: rectangle label:"Return approval"
n5.handle(right) -> n6.handle(left)
n6.handle(bottom) -> MCPTool.n9.handle(top) [label="Scoped OBO token"]
n7.handle(right) -> n8.handle(left)
n8.handle(top) -> User.n3.handle(bottom) [label="Approved"]
}

MCPTool { # MCP Tool
n9: rectangle label:"Validate scoped token"
n10: rectangle label:"Check SPIFFE SVID"
n11: rectangle label:"Execute tool call"
n12: rectangle label:"Return tool result"
n9.handle(right) -> n10.handle(left)
n10.handle(right) -> n11.handle(left)
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> AgentPlatform.n7.handle(bottom) [label="Result"]
}

 

 

架构模式 2 —— MCP 零信任边界

在 2026 年初,MCP 已经成为最活跃的攻击面之一。

  1. 所有 MCP 服务器都应要求 OAuth 2.0 + RFC 8707 Resource Indicators
  2. 工具元数据也必须视为不可信输入
  3. 每次工具执行都应放进临时隔离沙箱
  4. 工具响应在回到智能体上下文前必须清洗与去注入
  5. 建立签名的 MCP 服务器白名单注册表
  6. 监控异常流量、跨服务器横向移动和异常数据传输

 

FlowZap Code —— MCP 零信任边界

Agent { # AI Agent
n1: circle label:"Start"
n2: rectangle label:"Request tool invocation"
n3: rectangle label:"Receive clean response"
n4: circle label:"Done"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> MCPGateway.n5.handle(top) [label="Tool call + OBO token"]
n3.handle(right) -> n4.handle(left)
}

MCPGateway { # MCP Security Gateway
n5: rectangle label:"Authenticate + check registry"
n6: rectangle label:"Route to sandbox"
n7: rectangle label:"Receive sandbox result"
n8: rectangle label:"Forward clean response"
n5.handle(right) -> n6.handle(left)
n6.handle(bottom) -> ToolSandbox.n9.handle(top) [label="Sandbox request"]
n7.handle(right) -> n8.handle(left)
n8.handle(top) -> Agent.n3.handle(bottom) [label="Sanitized response"]
}

ToolSandbox { # Tool Sandbox
n9: rectangle label:"Execute in isolated container"
n10: rectangle label:"Validate response"
n11: rectangle label:"Strip injection payloads"
n12: rectangle label:"Return clean result"
n9.handle(right) -> n10.handle(left)
n10.handle(right) -> n11.handle(left)
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> MCPGateway.n7.handle(bottom) [label="Clean result"]
}

 

 

架构模式 3 —— 运行时最小权限控制

权限必须按动作级别定义,而不是按工具整体授予。

  1. 动作级 RBAC/ABAC,例如 read-onlydraft-onlySELECT only
  2. 默认不启用任何工具
  3. JIT(Just-In-Time)授权提升只在任务持续期间有效
  4. 通过 OPA 或 Cerbos 对每次调用做策略判断
  5. AI 环境与生产环境进行微隔离
Agent { # AI Agent
n1: circle label:"Start"
n2: rectangle label:"Request tool action"
n3: rectangle label:"Receive grant"
n4: rectangle label:"Execute scoped action"
n5: circle label:"Done"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> PolicyEngine.n6.handle(top) [label="Action + context"]
n3.handle(right) -> n4.handle(left)
n4.handle(right) -> n5.handle(left)
}

PolicyEngine { # Policy Engine
n6: rectangle label:"Evaluate RBAC + ABAC"
n7: rectangle label:"Issue JIT grant request"
n8: rectangle label:"Receive JIT credential"
n9: rectangle label:"Return scoped grant"
n6.handle(right) -> n7.handle(left)
n7.handle(bottom) -> JITManager.n10.handle(top) [label="Grant request"]
n8.handle(right) -> n9.handle(left)
n9.handle(top) -> Agent.n3.handle(bottom) [label="Scoped grant"]
}

JITManager { # JIT Access Manager
n10: rectangle label:"Create short-lived credential"
n11: rectangle label:"Return JIT credential"
n10.handle(right) -> n11.handle(left)
n11.handle(top) -> PolicyEngine.n8.handle(bottom) [label="JIT credential"]
}

 

 

架构模式 4 —— 无秘密 AI 智能体

绝不要把秘密直接放进智能体的上下文窗口。

正确做法是使用 Secrets Broker:智能体只看到“可调用的能力”,真正的凭据由独立组件从密钥库中动态获取,并以短 TTL 执行真实 API 调用。

同时,输出、日志和长期记忆都要做敏感信息自动脱敏,包括云密钥、Stripe key、GitHub token、JWT 等。

 

 

架构模式 5 —— 按风险分层的人类在环(HITL)

二元式“批准/拒绝”很快会让审批者疲劳。更成熟的做法是对动作按风险分层。

层级 动作类型 示例 审批方式
0 — 自动只读搜索、总结、起草无需人工
1 — 软门控内部写入CRM 备注、日历更新自动执行 + 异常告警
2 — 异步审核外部沟通发邮件、导出报告进入人工审核队列
3 — 硬阻断破坏性/财务类删除记录、转账同步人工批准
4 — 永不自动关键基础设施生产部署、大规模删除必须人工 + 双人审批

 

FlowZap Code —— 风险分层 HITL

Agent { # AI Agent
n1: circle label:"Start"
n2: rectangle label:"Propose action"
n3: rectangle label:"Receive approval"
n4: rectangle label:"Execute action"
n5: rectangle label:"Send execution record"
n6: circle label:"Complete"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> Policy.n7.handle(top) [label="Action + context"]
n3.handle(right) -> n4.handle(left)
n4.handle(right) -> n5.handle(left)
n5.handle(bottom) -> Audit.n13.handle(top) [label="Execution record"]
}

Policy { # Risk Policy Engine
n7: rectangle label:"Score action risk"
n8: rectangle label:"Create review request"
n9: rectangle label:"Receive reviewer decision"
n10: rectangle label:"Release action"
n7.handle(right) -> n8.handle(left)
n8.handle(bottom) -> Reviewer.n11.handle(top) [label="Tier 3 review"]
n9.handle(right) -> n10.handle(left)
n10.handle(top) -> Agent.n3.handle(bottom) [label="Approved"]
}

Reviewer { # Human Reviewer
n11: rectangle label:"Review diff"
n12: rectangle label:"Approve request"
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> Policy.n9.handle(bottom) [label="Approved"]
}

Audit { # Audit Log
n13: rectangle label:"Write immutable record"
n14: rectangle label:"Return log ack"
n13.handle(right) -> n14.handle(left)
n14.handle(top) -> Agent.n6.handle(bottom) [label="Logged"]
}

 

 

架构模式 6 —— 语义化可观测性

2026 年的主流标准是 OpenTelemetry + GenAI 语义约定,覆盖 LLM 调用、工具调用、智能体决策、护栏事件以及完整会话。

应重点监控的安全信号包括:

  1. 护栏触发率突然升高
  2. 工具选择异常
  3. 延迟异常,可能代表 prompt injection 循环
  4. 同一智能体反复请求更高权限

 

 

架构模式 7 —— 安全的多智能体通信

  1. 所有 A2A 通道启用 mTLS
  2. 每一跳都使用独立的 scoped token
  3. 通过 API Gateway 做 JWT 校验、限流、异常检测
  4. 使用 Service Mesh 抽象 mTLS
  5. 建立行为基线监控,识别调用频率和数据量异常

 

FlowZap Code —— 安全多智能体通信

Orchestrator { # Orchestrator Agent
n1: circle label:"Receive task"
n2: rectangle label:"Decompose subtasks"
n3: rectangle label:"Send subtask A"
n4: rectangle label:"Receive result A"
n5: rectangle label:"Send subtask B"
n6: rectangle label:"Receive result B"
n7: rectangle label:"Aggregate results"
n8: circle label:"Return answer"
n1.handle(right) -> n2.handle(left)
n2.handle(right) -> n3.handle(left)
n3.handle(bottom) -> Gateway.n9.handle(top) [label="Subtask A + scoped token"]
n4.handle(right) -> n5.handle(left)
n5.handle(bottom) -> Gateway.n13.handle(top) [label="Subtask B + scoped token"]
n6.handle(right) -> n7.handle(left)
n7.handle(right) -> n8.handle(left)
}

Gateway { # API Gateway
n9: rectangle label:"Validate request A"
n10: rectangle label:"Route to worker A"
n11: rectangle label:"Receive result A"
n12: rectangle label:"Forward result A"
n13: rectangle label:"Validate request B"
n14: rectangle label:"Route to worker B"
n15: rectangle label:"Receive result B"
n16: rectangle label:"Forward result B"
n9.handle(right) -> n10.handle(left)
n10.handle(right) -> WorkerA.n17.handle(left) [label="Validated request A"]
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> Orchestrator.n4.handle(bottom) [label="Result A"]
n13.handle(right) -> n14.handle(left)
n14.handle(right) -> WorkerB.n19.handle(left) [label="Validated request B"]
n15.handle(right) -> n16.handle(left)
n16.handle(top) -> Orchestrator.n6.handle(bottom) [label="Result B"]
}

WorkerA { # Worker Agent A
n17: rectangle label:"Validate token + execute"
n18: rectangle label:"Return result A"
n17.handle(right) -> n18.handle(left)
n18.handle(top) -> Gateway.n11.handle(bottom) [label="mTLS result A"]
}

WorkerB { # Worker Agent B
n19: rectangle label:"Validate token + execute"
n20: rectangle label:"Return result B"
n19.handle(right) -> n20.handle(left)
n20.handle(top) -> Gateway.n15.handle(bottom) [label="mTLS result B"]
}

 

 

架构模式 8 —— AI 供应链安全

2026 年,攻击者瞄准的对象包括恶意 MCP 服务器、被投毒的 RAG 语料、被篡改的模型权重,以及快速生成代码时引入的脆弱依赖。

  1. 建立签名的 MCP 白名单注册表
  2. 为 AI 组件维护 SBOM
  3. 对 RAG 文档做分块、过滤和隔离
  4. 在 CI/CD 中持续扫描 AI 依赖

 

 

架构模式 9 —— 保密型 AI(适用于监管行业)

面向 HIPAA、SOX、PCI-DSS、FedRAMP 等场景,LLM 推理应放在**硬件证明的可信执行环境(TEE)**中。

  1. Intel SGX / Intel TDX / NVIDIA H100 HBI
  2. 启动时校验策略
  3. RAG 数据仅在 enclave 内解密
  4. 由 enclave 签名的审计日志

典型平台包括:Opaque、Azure Confidential Computing、AWS Nitro Enclaves、Google Confidential VMs。

 

 

2026 年 3 月安全成熟度检查清单

身份与 NHI 治理

  • [ ] 每个智能体都有唯一的加密身份
  • [ ] 已维护 NHI 资产清单并自动轮换
  • [ ] 每个下游调用都走 OBO token exchange
  • [ ] 没有任何秘密进入上下文窗口、.env 或对话历史

MCP 与工具安全

  • [ ] 所有 MCP 服务器都要求 OAuth 2.0 + RFC 8707
  • [ ] 已部署 MCP 白名单注册表
  • [ ] 工具执行在沙箱中运行,且没有任意外网出口
  • [ ] MCP 响应在回到上下文前已完成清洗

运行时权限控制

  • [ ] 权限定义在动作级别,而非工具级别
  • [ ] 默认零工具启用
  • [ ] 每次工具调用都由 OPA 或 Cerbos 执行 RBAC/ABAC 校验

人工监督与 Shadow AI

  • [ ] 已建立分层 HITL 框架
  • [ ] 不可逆动作必须人工审批并显示 diff
  • [ ] 已完成 shadow AI 资产发现和治理

可观测性与审计

  • [ ] 已部署 OpenTelemetry GenAI 语义约定
  • [ ] 已监控护栏触发率
  • [ ] 审计日志不可篡改且具备签名

 

 

推荐供应商栈(2026 年 3 月)

能力 工具
智能体身份 / NHIEntra Agent ID、SPIFFE/SPIRE、Token Security、Oasis Security
密钥管理HashiCorp Vault、Akeyless、AWS Secrets Manager
MCP 安全网关Cerbos、OPA + 自定义网关、Netskope AI
策略引擎Cerbos、OPA、Permit.io
可观测性Langfuse、Maxim AI、OpenLLMetry、Arize Phoenix
Shadow AI 发现Netskope、Gamma AI、Zscaler
行为监控Realm Labs、Darktrace AI
保密计算Opaque、Azure Confidential VMs、AWS Nitro Enclaves

 

 

常见问题

2026 年 AI 智能体最大的安全风险是什么?
最突出的风险是 agentic AI 生态整体暴露,尤其是 MCP 服务器、工具调用链与非人类身份治理不足。

什么是 Shadow AI,应该如何治理?
Shadow AI 是未经 IT 批准部署的智能体。治理方式包括资产发现、身份层策略控制、以及通过 API Gateway 和统一审计实现集中监管。

Microsoft Entra Agent ID 是否已经正式 GA?
没有。到 2026 年 3 月,它仍处于预览阶段。

什么是 CSA Agentic Trust Framework?
它是一个围绕身份、行为、数据治理、网络分段和事件响应构建的 agentic AI 信任框架。

 

 

Inspirations:

返回所有博客文章