快速答案: 在 2026 年保护 AI 智能体,意味着为智能体建立零信任身份体系、锁定 Model Context Protocol(MCP)服务器、对每一次工具调用实施运行时授权、避免把秘密放进上下文窗口,并在 shadow AI 失控之前把它纳入治理范围。
为什么 Agentic AI 成为 2026 年头号网络安全挑战
AI 智能体安全已经成为 2026 年企业安全团队必须正面解决的问题。关键数据非常明确:
- 48% 的安全专业人士认为 agentic AI 是第一攻击向量
- 463 万美元:一次 shadow AI 泄露的平均成本
- 企业内 AI 智能体部署量同比增长 466.7%
- 只有 14.4% 的智能体在完整安全审批后上线
- 仅 2026 年 1 月到 2 月就出现 30+ 个 MCP 相关 CVE,最高 CVSS 达 9.6
- Agentic AI 市场当前规模约 108.6 亿美元
AI 智能体会浏览网页、写代码、执行代码、调用 API、发送邮件、管理文件,甚至生成新的子智能体。与传统攻击不同,攻击者有时不需要改动代码,只需要通过自然语言注入就能改变智能体的目标和行为链路。
Gartner、RSAC 2026 和 IBM X-Force 都已经把智能体治理与安全列为年度关键议题。
2026 年的治理基线是什么?
当前最重要的两个框架是:
- OWASP Top 10 for Agentic Applications (2026) —— 自主 AI 系统十大关键风险分类
- CSA Agentic Trust Framework(ATF,2026 年 2 月) —— 覆盖身份、行为、数据治理、网络分段和事件响应五大控制域
2026 OWASP Agentic Applications Top 10
| # | 风险编号 | 风险名称 | 主要攻击面 |
|---|---|---|---|
| 1 | ASI01 | 目标劫持(Prompt Injection) | 用户输入、RAG 语料、工具响应、邮件内容 |
| 2 | ASI02 | 工具滥用 | 工具调用层、MCP 资源 |
| 3 | ASI03 | 身份与权限滥用 | IAM、令牌转发、OBO 链 |
| 4 | ASI04 | 供应链被攻破 | MCP 服务器、模型权重、插件注册表 |
| 5 | ASI05 | 意外代码执行 | 代码解释器、沙箱运行器 |
| 6 | ASI06 | 记忆与上下文投毒 | 长期记忆、RAG 数据库 |
| 7 | ASI07 | 不安全的多智能体通信 | 编排者到工作者通道、A2A 协议 |
| 8 | ASI08 | 级联故障 | 多智能体编排图 |
| 9 | ASI09 | 人机信任被利用 | HITL 审批界面 |
| 10 | ASI10 | 失控智能体 | 自我生成的子智能体 |
什么是 Shadow AI?为什么它是董事会级风险?
Shadow AI 指的是在没有 IT 或安全批准的情况下被部署到组织内部的 AI 智能体。许多企业内部实际上运行着大量未登记的 AI 应用和自动化流程。
这些智能体通常继承创建者的权限:凭据范围大、几乎没有审计轨迹、缺少策略控制、也没有退役机制。一旦它们连上 MCP 服务器或外部 API,一条被攻陷的自动化链就可能横跨整个组织。
什么是 Non-Human Identity(NHI)?
NHI(非人类身份) 是赋予 AI 智能体、机器人、脚本和服务账号的机器身份。在 2026 年,NHI 已成为身份安全的核心议题之一。
每个 AI 智能体都应该拥有独立、加密、短时有效的身份,并且与特定策略边界绑定。否则,智能体之间会共享凭据、相互冒充,事件发生后也很难追溯责任。
架构模式 1 —— 零信任智能体身份与 NHI 治理
推荐实现栈:
- Microsoft Entra Agent ID(预览版)
- SPIFFE / SPIRE 工作负载认证
- OAuth 2.0 Token Exchange(RFC 8693) 每一跳签发最小权限 token
- DID + 可验证凭证 用于跨组织部署
- NHI 资产清单工具 用于发现、分类、轮换
FlowZap Code —— 零信任身份流水线
User { # User
n1: circle label:"Start"
n2: rectangle label:"Send request + user JWT"
n3: rectangle label:"Receive approval"
n4: circle label:"End"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> AgentPlatform.n5.handle(top) [label="User JWT"]
n3.handle(right) -> n4.handle(left)
}
AgentPlatform { # Agent Platform
n5: rectangle label:"Validate JWT + agent ID"
n6: rectangle label:"Exchange for scoped OBO token"
n7: rectangle label:"Receive tool result"
n8: rectangle label:"Return approval"
n5.handle(right) -> n6.handle(left)
n6.handle(bottom) -> MCPTool.n9.handle(top) [label="Scoped OBO token"]
n7.handle(right) -> n8.handle(left)
n8.handle(top) -> User.n3.handle(bottom) [label="Approved"]
}
MCPTool { # MCP Tool
n9: rectangle label:"Validate scoped token"
n10: rectangle label:"Check SPIFFE SVID"
n11: rectangle label:"Execute tool call"
n12: rectangle label:"Return tool result"
n9.handle(right) -> n10.handle(left)
n10.handle(right) -> n11.handle(left)
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> AgentPlatform.n7.handle(bottom) [label="Result"]
}
架构模式 2 —— MCP 零信任边界
在 2026 年初,MCP 已经成为最活跃的攻击面之一。
- 所有 MCP 服务器都应要求 OAuth 2.0 + RFC 8707 Resource Indicators
- 工具元数据也必须视为不可信输入
- 每次工具执行都应放进临时隔离沙箱
- 工具响应在回到智能体上下文前必须清洗与去注入
- 建立签名的 MCP 服务器白名单注册表
- 监控异常流量、跨服务器横向移动和异常数据传输
FlowZap Code —— MCP 零信任边界
Agent { # AI Agent
n1: circle label:"Start"
n2: rectangle label:"Request tool invocation"
n3: rectangle label:"Receive clean response"
n4: circle label:"Done"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> MCPGateway.n5.handle(top) [label="Tool call + OBO token"]
n3.handle(right) -> n4.handle(left)
}
MCPGateway { # MCP Security Gateway
n5: rectangle label:"Authenticate + check registry"
n6: rectangle label:"Route to sandbox"
n7: rectangle label:"Receive sandbox result"
n8: rectangle label:"Forward clean response"
n5.handle(right) -> n6.handle(left)
n6.handle(bottom) -> ToolSandbox.n9.handle(top) [label="Sandbox request"]
n7.handle(right) -> n8.handle(left)
n8.handle(top) -> Agent.n3.handle(bottom) [label="Sanitized response"]
}
ToolSandbox { # Tool Sandbox
n9: rectangle label:"Execute in isolated container"
n10: rectangle label:"Validate response"
n11: rectangle label:"Strip injection payloads"
n12: rectangle label:"Return clean result"
n9.handle(right) -> n10.handle(left)
n10.handle(right) -> n11.handle(left)
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> MCPGateway.n7.handle(bottom) [label="Clean result"]
}
架构模式 3 —— 运行时最小权限控制
权限必须按动作级别定义,而不是按工具整体授予。
- 动作级 RBAC/ABAC,例如
read-only、draft-only、SELECT only - 默认不启用任何工具
- JIT(Just-In-Time)授权提升只在任务持续期间有效
- 通过 OPA 或 Cerbos 对每次调用做策略判断
- AI 环境与生产环境进行微隔离
Agent { # AI Agent
n1: circle label:"Start"
n2: rectangle label:"Request tool action"
n3: rectangle label:"Receive grant"
n4: rectangle label:"Execute scoped action"
n5: circle label:"Done"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> PolicyEngine.n6.handle(top) [label="Action + context"]
n3.handle(right) -> n4.handle(left)
n4.handle(right) -> n5.handle(left)
}
PolicyEngine { # Policy Engine
n6: rectangle label:"Evaluate RBAC + ABAC"
n7: rectangle label:"Issue JIT grant request"
n8: rectangle label:"Receive JIT credential"
n9: rectangle label:"Return scoped grant"
n6.handle(right) -> n7.handle(left)
n7.handle(bottom) -> JITManager.n10.handle(top) [label="Grant request"]
n8.handle(right) -> n9.handle(left)
n9.handle(top) -> Agent.n3.handle(bottom) [label="Scoped grant"]
}
JITManager { # JIT Access Manager
n10: rectangle label:"Create short-lived credential"
n11: rectangle label:"Return JIT credential"
n10.handle(right) -> n11.handle(left)
n11.handle(top) -> PolicyEngine.n8.handle(bottom) [label="JIT credential"]
}
架构模式 4 —— 无秘密 AI 智能体
绝不要把秘密直接放进智能体的上下文窗口。
正确做法是使用 Secrets Broker:智能体只看到“可调用的能力”,真正的凭据由独立组件从密钥库中动态获取,并以短 TTL 执行真实 API 调用。
同时,输出、日志和长期记忆都要做敏感信息自动脱敏,包括云密钥、Stripe key、GitHub token、JWT 等。
架构模式 5 —— 按风险分层的人类在环(HITL)
二元式“批准/拒绝”很快会让审批者疲劳。更成熟的做法是对动作按风险分层。
| 层级 | 动作类型 | 示例 | 审批方式 |
|---|---|---|---|
| 0 — 自动 | 只读 | 搜索、总结、起草 | 无需人工 |
| 1 — 软门控 | 内部写入 | CRM 备注、日历更新 | 自动执行 + 异常告警 |
| 2 — 异步审核 | 外部沟通 | 发邮件、导出报告 | 进入人工审核队列 |
| 3 — 硬阻断 | 破坏性/财务类 | 删除记录、转账 | 同步人工批准 |
| 4 — 永不自动 | 关键基础设施 | 生产部署、大规模删除 | 必须人工 + 双人审批 |
FlowZap Code —— 风险分层 HITL
Agent { # AI Agent
n1: circle label:"Start"
n2: rectangle label:"Propose action"
n3: rectangle label:"Receive approval"
n4: rectangle label:"Execute action"
n5: rectangle label:"Send execution record"
n6: circle label:"Complete"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> Policy.n7.handle(top) [label="Action + context"]
n3.handle(right) -> n4.handle(left)
n4.handle(right) -> n5.handle(left)
n5.handle(bottom) -> Audit.n13.handle(top) [label="Execution record"]
}
Policy { # Risk Policy Engine
n7: rectangle label:"Score action risk"
n8: rectangle label:"Create review request"
n9: rectangle label:"Receive reviewer decision"
n10: rectangle label:"Release action"
n7.handle(right) -> n8.handle(left)
n8.handle(bottom) -> Reviewer.n11.handle(top) [label="Tier 3 review"]
n9.handle(right) -> n10.handle(left)
n10.handle(top) -> Agent.n3.handle(bottom) [label="Approved"]
}
Reviewer { # Human Reviewer
n11: rectangle label:"Review diff"
n12: rectangle label:"Approve request"
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> Policy.n9.handle(bottom) [label="Approved"]
}
Audit { # Audit Log
n13: rectangle label:"Write immutable record"
n14: rectangle label:"Return log ack"
n13.handle(right) -> n14.handle(left)
n14.handle(top) -> Agent.n6.handle(bottom) [label="Logged"]
}
架构模式 6 —— 语义化可观测性
2026 年的主流标准是 OpenTelemetry + GenAI 语义约定,覆盖 LLM 调用、工具调用、智能体决策、护栏事件以及完整会话。
应重点监控的安全信号包括:
- 护栏触发率突然升高
- 工具选择异常
- 延迟异常,可能代表 prompt injection 循环
- 同一智能体反复请求更高权限
架构模式 7 —— 安全的多智能体通信
- 所有 A2A 通道启用 mTLS
- 每一跳都使用独立的 scoped token
- 通过 API Gateway 做 JWT 校验、限流、异常检测
- 使用 Service Mesh 抽象 mTLS
- 建立行为基线监控,识别调用频率和数据量异常
FlowZap Code —— 安全多智能体通信
Orchestrator { # Orchestrator Agent
n1: circle label:"Receive task"
n2: rectangle label:"Decompose subtasks"
n3: rectangle label:"Send subtask A"
n4: rectangle label:"Receive result A"
n5: rectangle label:"Send subtask B"
n6: rectangle label:"Receive result B"
n7: rectangle label:"Aggregate results"
n8: circle label:"Return answer"
n1.handle(right) -> n2.handle(left)
n2.handle(right) -> n3.handle(left)
n3.handle(bottom) -> Gateway.n9.handle(top) [label="Subtask A + scoped token"]
n4.handle(right) -> n5.handle(left)
n5.handle(bottom) -> Gateway.n13.handle(top) [label="Subtask B + scoped token"]
n6.handle(right) -> n7.handle(left)
n7.handle(right) -> n8.handle(left)
}
Gateway { # API Gateway
n9: rectangle label:"Validate request A"
n10: rectangle label:"Route to worker A"
n11: rectangle label:"Receive result A"
n12: rectangle label:"Forward result A"
n13: rectangle label:"Validate request B"
n14: rectangle label:"Route to worker B"
n15: rectangle label:"Receive result B"
n16: rectangle label:"Forward result B"
n9.handle(right) -> n10.handle(left)
n10.handle(right) -> WorkerA.n17.handle(left) [label="Validated request A"]
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> Orchestrator.n4.handle(bottom) [label="Result A"]
n13.handle(right) -> n14.handle(left)
n14.handle(right) -> WorkerB.n19.handle(left) [label="Validated request B"]
n15.handle(right) -> n16.handle(left)
n16.handle(top) -> Orchestrator.n6.handle(bottom) [label="Result B"]
}
WorkerA { # Worker Agent A
n17: rectangle label:"Validate token + execute"
n18: rectangle label:"Return result A"
n17.handle(right) -> n18.handle(left)
n18.handle(top) -> Gateway.n11.handle(bottom) [label="mTLS result A"]
}
WorkerB { # Worker Agent B
n19: rectangle label:"Validate token + execute"
n20: rectangle label:"Return result B"
n19.handle(right) -> n20.handle(left)
n20.handle(top) -> Gateway.n15.handle(bottom) [label="mTLS result B"]
}
架构模式 8 —— AI 供应链安全
2026 年,攻击者瞄准的对象包括恶意 MCP 服务器、被投毒的 RAG 语料、被篡改的模型权重,以及快速生成代码时引入的脆弱依赖。
- 建立签名的 MCP 白名单注册表
- 为 AI 组件维护 SBOM
- 对 RAG 文档做分块、过滤和隔离
- 在 CI/CD 中持续扫描 AI 依赖
架构模式 9 —— 保密型 AI(适用于监管行业)
面向 HIPAA、SOX、PCI-DSS、FedRAMP 等场景,LLM 推理应放在**硬件证明的可信执行环境(TEE)**中。
- Intel SGX / Intel TDX / NVIDIA H100 HBI
- 启动时校验策略
- RAG 数据仅在 enclave 内解密
- 由 enclave 签名的审计日志
典型平台包括:Opaque、Azure Confidential Computing、AWS Nitro Enclaves、Google Confidential VMs。
2026 年 3 月安全成熟度检查清单
身份与 NHI 治理
- [ ] 每个智能体都有唯一的加密身份
- [ ] 已维护 NHI 资产清单并自动轮换
- [ ] 每个下游调用都走 OBO token exchange
- [ ] 没有任何秘密进入上下文窗口、
.env或对话历史
MCP 与工具安全
- [ ] 所有 MCP 服务器都要求 OAuth 2.0 + RFC 8707
- [ ] 已部署 MCP 白名单注册表
- [ ] 工具执行在沙箱中运行,且没有任意外网出口
- [ ] MCP 响应在回到上下文前已完成清洗
运行时权限控制
- [ ] 权限定义在动作级别,而非工具级别
- [ ] 默认零工具启用
- [ ] 每次工具调用都由 OPA 或 Cerbos 执行 RBAC/ABAC 校验
人工监督与 Shadow AI
- [ ] 已建立分层 HITL 框架
- [ ] 不可逆动作必须人工审批并显示 diff
- [ ] 已完成 shadow AI 资产发现和治理
可观测性与审计
- [ ] 已部署 OpenTelemetry GenAI 语义约定
- [ ] 已监控护栏触发率
- [ ] 审计日志不可篡改且具备签名
推荐供应商栈(2026 年 3 月)
| 能力 | 工具 |
|---|---|
| 智能体身份 / NHI | Entra Agent ID、SPIFFE/SPIRE、Token Security、Oasis Security |
| 密钥管理 | HashiCorp Vault、Akeyless、AWS Secrets Manager |
| MCP 安全网关 | Cerbos、OPA + 自定义网关、Netskope AI |
| 策略引擎 | Cerbos、OPA、Permit.io |
| 可观测性 | Langfuse、Maxim AI、OpenLLMetry、Arize Phoenix |
| Shadow AI 发现 | Netskope、Gamma AI、Zscaler |
| 行为监控 | Realm Labs、Darktrace AI |
| 保密计算 | Opaque、Azure Confidential VMs、AWS Nitro Enclaves |
常见问题
2026 年 AI 智能体最大的安全风险是什么?
最突出的风险是 agentic AI 生态整体暴露,尤其是 MCP 服务器、工具调用链与非人类身份治理不足。
什么是 Shadow AI,应该如何治理?
Shadow AI 是未经 IT 批准部署的智能体。治理方式包括资产发现、身份层策略控制、以及通过 API Gateway 和统一审计实现集中监管。
Microsoft Entra Agent ID 是否已经正式 GA?
没有。到 2026 年 3 月,它仍处于预览阶段。
什么是 CSA Agentic Trust Framework?
它是一个围绕身份、行为、数据治理、网络分段和事件响应构建的 agentic AI 信任框架。
Inspirations:
- https://www.darktrace.com/blog/state-of-ai-cybersecurity-2026-92-of-security-professionals-concerned-about-the-impact-of-ai-agents
- https://www.kiteworks.com/cybersecurity-risk-management/agentic-ai-attack-surface-enterprise-security-2026/
- https://www.bvp.com/atlas/securing-ai-agents-the-defining-cybersecurity-challenge-of-2026
- https://www.ibm.com/think/insights/more-2026-cyberthreat-trends
- https://genai.owasp.org/resource/owasp-top-10-for-agentic-applications-for-2026/
- https://oktsec.com/blog/csa-agentic-trust-framework-zero-trust-agents/
- https://learn.microsoft.com/en-us/entra/agent-id/identity-platform/agent-identities
- https://www.cerbos.dev/blog/mcp-permissions-securing-ai-agent-access-to-tools
- https://rafter.so/blog/ai-agent-data-leakage-secrets-management
- https://www.akeyless.io/blog/architecting-secretless-ai-agents-akeyless-in-action/
- https://zylos.ai/research/2026-02-28-opentelemetry-ai-agent-observability
- https://www.auxiliobits.com/blog/securing-ai-agent-communications-enterprise-grade-architecture-patterns/
- https://flowzap.xyz/templates/architecture-diagram-templates
- https://www.opaque.co/resources/articles/trusting-ai-with-your-enterprise-data-solving-the-llm-privacy-puzzle-with-confidential-ai
