Tags: ai-agents, ai-security, mcp, zero-trust, confidential-computing, architecture

快速答案： 在 2026 年保护 AI 智能体，意味着为智能体建立零信任身份体系、锁定 Model Context Protocol（MCP）服务器、对每一次工具调用实施运行时授权、避免把秘密放进上下文窗口，并在 shadow AI 失控之前把它纳入治理范围。

为什么 Agentic AI 成为 2026 年头号网络安全挑战

AI 智能体安全已经成为 2026 年企业安全团队必须正面解决的问题。关键数据非常明确：

48% 的安全专业人士认为 agentic AI 是第一攻击向量
463 万美元：一次 shadow AI 泄露的平均成本
企业内 AI 智能体部署量同比增长 466.7%
只有 14.4% 的智能体在完整安全审批后上线
仅 2026 年 1 月到 2 月就出现 30+ 个 MCP 相关 CVE，最高 CVSS 达 9.6
Agentic AI 市场当前规模约 108.6 亿美元

AI 智能体会浏览网页、写代码、执行代码、调用 API、发送邮件、管理文件，甚至生成新的子智能体。与传统攻击不同，攻击者有时不需要改动代码，只需要通过自然语言注入就能改变智能体的目标和行为链路。

Gartner、RSAC 2026 和 IBM X-Force 都已经把智能体治理与安全列为年度关键议题。

2026 年的治理基线是什么？

当前最重要的两个框架是：

OWASP Top 10 for Agentic Applications (2026) —— 自主 AI 系统十大关键风险分类
CSA Agentic Trust Framework（ATF，2026 年 2 月） —— 覆盖身份、行为、数据治理、网络分段和事件响应五大控制域

2026 OWASP Agentic Applications Top 10

#	风险编号	风险名称	主要攻击面
1	ASI01	目标劫持（Prompt Injection）	用户输入、RAG 语料、工具响应、邮件内容
2	ASI02	工具滥用	工具调用层、MCP 资源
3	ASI03	身份与权限滥用	IAM、令牌转发、OBO 链
4	ASI04	供应链被攻破	MCP 服务器、模型权重、插件注册表
5	ASI05	意外代码执行	代码解释器、沙箱运行器
6	ASI06	记忆与上下文投毒	长期记忆、RAG 数据库
7	ASI07	不安全的多智能体通信	编排者到工作者通道、A2A 协议
8	ASI08	级联故障	多智能体编排图
9	ASI09	人机信任被利用	HITL 审批界面
10	ASI10	失控智能体	自我生成的子智能体

什么是 Shadow AI？为什么它是董事会级风险？

Shadow AI 指的是在没有 IT 或安全批准的情况下被部署到组织内部的 AI 智能体。许多企业内部实际上运行着大量未登记的 AI 应用和自动化流程。

这些智能体通常继承创建者的权限：凭据范围大、几乎没有审计轨迹、缺少策略控制、也没有退役机制。一旦它们连上 MCP 服务器或外部 API，一条被攻陷的自动化链就可能横跨整个组织。

什么是 Non-Human Identity（NHI）？

NHI（非人类身份） 是赋予 AI 智能体、机器人、脚本和服务账号的机器身份。在 2026 年，NHI 已成为身份安全的核心议题之一。

每个 AI 智能体都应该拥有独立、加密、短时有效的身份，并且与特定策略边界绑定。否则，智能体之间会共享凭据、相互冒充，事件发生后也很难追溯责任。

架构模式 1 —— 零信任智能体身份与 NHI 治理

推荐实现栈：

Microsoft Entra Agent ID（预览版）
SPIFFE / SPIRE 工作负载认证
OAuth 2.0 Token Exchange（RFC 8693） 每一跳签发最小权限 token
DID + 可验证凭证 用于跨组织部署
NHI 资产清单工具 用于发现、分类、轮换

FlowZap Code —— 零信任身份流水线

User { # User
n1: circle label:"Start"
n2: rectangle label:"Send request + user JWT"
n3: rectangle label:"Receive approval"
n4: circle label:"End"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> AgentPlatform.n5.handle(top) [label="User JWT"]
n3.handle(right) -> n4.handle(left)
}

AgentPlatform { # Agent Platform
n5: rectangle label:"Validate JWT + agent ID"
n6: rectangle label:"Exchange for scoped OBO token"
n7: rectangle label:"Receive tool result"
n8: rectangle label:"Return approval"
n5.handle(right) -> n6.handle(left)
n6.handle(bottom) -> MCPTool.n9.handle(top) [label="Scoped OBO token"]
n7.handle(right) -> n8.handle(left)
n8.handle(top) -> User.n3.handle(bottom) [label="Approved"]
}

MCPTool { # MCP Tool
n9: rectangle label:"Validate scoped token"
n10: rectangle label:"Check SPIFFE SVID"
n11: rectangle label:"Execute tool call"
n12: rectangle label:"Return tool result"
n9.handle(right) -> n10.handle(left)
n10.handle(right) -> n11.handle(left)
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> AgentPlatform.n7.handle(bottom) [label="Result"]
}

架构模式 2 —— MCP 零信任边界

在 2026 年初，MCP 已经成为最活跃的攻击面之一。

所有 MCP 服务器都应要求 OAuth 2.0 + RFC 8707 Resource Indicators
工具元数据也必须视为不可信输入
每次工具执行都应放进临时隔离沙箱
工具响应在回到智能体上下文前必须清洗与去注入
建立签名的 MCP 服务器白名单注册表
监控异常流量、跨服务器横向移动和异常数据传输

FlowZap Code —— MCP 零信任边界

Agent { # AI Agent
n1: circle label:"Start"
n2: rectangle label:"Request tool invocation"
n3: rectangle label:"Receive clean response"
n4: circle label:"Done"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> MCPGateway.n5.handle(top) [label="Tool call + OBO token"]
n3.handle(right) -> n4.handle(left)
}

MCPGateway { # MCP Security Gateway
n5: rectangle label:"Authenticate + check registry"
n6: rectangle label:"Route to sandbox"
n7: rectangle label:"Receive sandbox result"
n8: rectangle label:"Forward clean response"
n5.handle(right) -> n6.handle(left)
n6.handle(bottom) -> ToolSandbox.n9.handle(top) [label="Sandbox request"]
n7.handle(right) -> n8.handle(left)
n8.handle(top) -> Agent.n3.handle(bottom) [label="Sanitized response"]
}

ToolSandbox { # Tool Sandbox
n9: rectangle label:"Execute in isolated container"
n10: rectangle label:"Validate response"
n11: rectangle label:"Strip injection payloads"
n12: rectangle label:"Return clean result"
n9.handle(right) -> n10.handle(left)
n10.handle(right) -> n11.handle(left)
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> MCPGateway.n7.handle(bottom) [label="Clean result"]
}

架构模式 3 —— 运行时最小权限控制

权限必须按动作级别定义，而不是按工具整体授予。

动作级 RBAC/ABAC，例如 read-only、draft-only、SELECT only
默认不启用任何工具
JIT（Just-In-Time）授权提升只在任务持续期间有效
通过 OPA 或 Cerbos 对每次调用做策略判断
AI 环境与生产环境进行微隔离

Agent { # AI Agent
n1: circle label:"Start"
n2: rectangle label:"Request tool action"
n3: rectangle label:"Receive grant"
n4: rectangle label:"Execute scoped action"
n5: circle label:"Done"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> PolicyEngine.n6.handle(top) [label="Action + context"]
n3.handle(right) -> n4.handle(left)
n4.handle(right) -> n5.handle(left)
}

PolicyEngine { # Policy Engine
n6: rectangle label:"Evaluate RBAC + ABAC"
n7: rectangle label:"Issue JIT grant request"
n8: rectangle label:"Receive JIT credential"
n9: rectangle label:"Return scoped grant"
n6.handle(right) -> n7.handle(left)
n7.handle(bottom) -> JITManager.n10.handle(top) [label="Grant request"]
n8.handle(right) -> n9.handle(left)
n9.handle(top) -> Agent.n3.handle(bottom) [label="Scoped grant"]
}

JITManager { # JIT Access Manager
n10: rectangle label:"Create short-lived credential"
n11: rectangle label:"Return JIT credential"
n10.handle(right) -> n11.handle(left)
n11.handle(top) -> PolicyEngine.n8.handle(bottom) [label="JIT credential"]
}

架构模式 4 —— 无秘密 AI 智能体

绝不要把秘密直接放进智能体的上下文窗口。

正确做法是使用 Secrets Broker：智能体只看到“可调用的能力”，真正的凭据由独立组件从密钥库中动态获取，并以短 TTL 执行真实 API 调用。

同时，输出、日志和长期记忆都要做敏感信息自动脱敏，包括云密钥、Stripe key、GitHub token、JWT 等。

架构模式 5 —— 按风险分层的人类在环（HITL）

二元式“批准/拒绝”很快会让审批者疲劳。更成熟的做法是对动作按风险分层。

层级	动作类型	示例	审批方式
0 — 自动	只读	搜索、总结、起草	无需人工
1 — 软门控	内部写入	CRM 备注、日历更新	自动执行 + 异常告警
2 — 异步审核	外部沟通	发邮件、导出报告	进入人工审核队列
3 — 硬阻断	破坏性/财务类	删除记录、转账	同步人工批准
4 — 永不自动	关键基础设施	生产部署、大规模删除	必须人工 + 双人审批

FlowZap Code —— 风险分层 HITL

Agent { # AI Agent
n1: circle label:"Start"
n2: rectangle label:"Propose action"
n3: rectangle label:"Receive approval"
n4: rectangle label:"Execute action"
n5: rectangle label:"Send execution record"
n6: circle label:"Complete"
n1.handle(right) -> n2.handle(left)
n2.handle(bottom) -> Policy.n7.handle(top) [label="Action + context"]
n3.handle(right) -> n4.handle(left)
n4.handle(right) -> n5.handle(left)
n5.handle(bottom) -> Audit.n13.handle(top) [label="Execution record"]
}

Policy { # Risk Policy Engine
n7: rectangle label:"Score action risk"
n8: rectangle label:"Create review request"
n9: rectangle label:"Receive reviewer decision"
n10: rectangle label:"Release action"
n7.handle(right) -> n8.handle(left)
n8.handle(bottom) -> Reviewer.n11.handle(top) [label="Tier 3 review"]
n9.handle(right) -> n10.handle(left)
n10.handle(top) -> Agent.n3.handle(bottom) [label="Approved"]
}

Reviewer { # Human Reviewer
n11: rectangle label:"Review diff"
n12: rectangle label:"Approve request"
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> Policy.n9.handle(bottom) [label="Approved"]
}

Audit { # Audit Log
n13: rectangle label:"Write immutable record"
n14: rectangle label:"Return log ack"
n13.handle(right) -> n14.handle(left)
n14.handle(top) -> Agent.n6.handle(bottom) [label="Logged"]
}

架构模式 6 —— 语义化可观测性

2026 年的主流标准是 OpenTelemetry + GenAI 语义约定，覆盖 LLM 调用、工具调用、智能体决策、护栏事件以及完整会话。

应重点监控的安全信号包括：

护栏触发率突然升高
工具选择异常
延迟异常，可能代表 prompt injection 循环
同一智能体反复请求更高权限

架构模式 7 —— 安全的多智能体通信

所有 A2A 通道启用 mTLS
每一跳都使用独立的 scoped token
通过 API Gateway 做 JWT 校验、限流、异常检测
使用 Service Mesh 抽象 mTLS
建立行为基线监控，识别调用频率和数据量异常

FlowZap Code —— 安全多智能体通信

Orchestrator { # Orchestrator Agent
n1: circle label:"Receive task"
n2: rectangle label:"Decompose subtasks"
n3: rectangle label:"Send subtask A"
n4: rectangle label:"Receive result A"
n5: rectangle label:"Send subtask B"
n6: rectangle label:"Receive result B"
n7: rectangle label:"Aggregate results"
n8: circle label:"Return answer"
n1.handle(right) -> n2.handle(left)
n2.handle(right) -> n3.handle(left)
n3.handle(bottom) -> Gateway.n9.handle(top) [label="Subtask A + scoped token"]
n4.handle(right) -> n5.handle(left)
n5.handle(bottom) -> Gateway.n13.handle(top) [label="Subtask B + scoped token"]
n6.handle(right) -> n7.handle(left)
n7.handle(right) -> n8.handle(left)
}

Gateway { # API Gateway
n9: rectangle label:"Validate request A"
n10: rectangle label:"Route to worker A"
n11: rectangle label:"Receive result A"
n12: rectangle label:"Forward result A"
n13: rectangle label:"Validate request B"
n14: rectangle label:"Route to worker B"
n15: rectangle label:"Receive result B"
n16: rectangle label:"Forward result B"
n9.handle(right) -> n10.handle(left)
n10.handle(right) -> WorkerA.n17.handle(left) [label="Validated request A"]
n11.handle(right) -> n12.handle(left)
n12.handle(top) -> Orchestrator.n4.handle(bottom) [label="Result A"]
n13.handle(right) -> n14.handle(left)
n14.handle(right) -> WorkerB.n19.handle(left) [label="Validated request B"]
n15.handle(right) -> n16.handle(left)
n16.handle(top) -> Orchestrator.n6.handle(bottom) [label="Result B"]
}

WorkerA { # Worker Agent A
n17: rectangle label:"Validate token + execute"
n18: rectangle label:"Return result A"
n17.handle(right) -> n18.handle(left)
n18.handle(top) -> Gateway.n11.handle(bottom) [label="mTLS result A"]
}

WorkerB { # Worker Agent B
n19: rectangle label:"Validate token + execute"
n20: rectangle label:"Return result B"
n19.handle(right) -> n20.handle(left)
n20.handle(top) -> Gateway.n15.handle(bottom) [label="mTLS result B"]
}

架构模式 8 —— AI 供应链安全

2026 年，攻击者瞄准的对象包括恶意 MCP 服务器、被投毒的 RAG 语料、被篡改的模型权重，以及快速生成代码时引入的脆弱依赖。

建立签名的 MCP 白名单注册表
为 AI 组件维护 SBOM
对 RAG 文档做分块、过滤和隔离
在 CI/CD 中持续扫描 AI 依赖

架构模式 9 —— 保密型 AI（适用于监管行业）

面向 HIPAA、SOX、PCI-DSS、FedRAMP 等场景，LLM 推理应放在**硬件证明的可信执行环境（TEE）**中。

Intel SGX / Intel TDX / NVIDIA H100 HBI
启动时校验策略
RAG 数据仅在 enclave 内解密
由 enclave 签名的审计日志

典型平台包括：Opaque、Azure Confidential Computing、AWS Nitro Enclaves、Google Confidential VMs。

2026 年 3 月安全成熟度检查清单

身份与 NHI 治理

[ ] 每个智能体都有唯一的加密身份
[ ] 已维护 NHI 资产清单并自动轮换
[ ] 每个下游调用都走 OBO token exchange
[ ] 没有任何秘密进入上下文窗口、.env 或对话历史

MCP 与工具安全

[ ] 所有 MCP 服务器都要求 OAuth 2.0 + RFC 8707
[ ] 已部署 MCP 白名单注册表
[ ] 工具执行在沙箱中运行，且没有任意外网出口
[ ] MCP 响应在回到上下文前已完成清洗

运行时权限控制

[ ] 权限定义在动作级别，而非工具级别
[ ] 默认零工具启用
[ ] 每次工具调用都由 OPA 或 Cerbos 执行 RBAC/ABAC 校验

人工监督与 Shadow AI

[ ] 已建立分层 HITL 框架
[ ] 不可逆动作必须人工审批并显示 diff
[ ] 已完成 shadow AI 资产发现和治理

可观测性与审计

[ ] 已部署 OpenTelemetry GenAI 语义约定
[ ] 已监控护栏触发率
[ ] 审计日志不可篡改且具备签名

常见问题

2026 年 AI 智能体最大的安全风险是什么？
最突出的风险是 agentic AI 生态整体暴露，尤其是 MCP 服务器、工具调用链与非人类身份治理不足。

什么是 Shadow AI，应该如何治理？
Shadow AI 是未经 IT 批准部署的智能体。治理方式包括资产发现、身份层策略控制、以及通过 API Gateway 和统一审计实现集中监管。

Microsoft Entra Agent ID 是否已经正式 GA？
没有。到 2026 年 3 月，它仍处于预览阶段。

什么是 CSA Agentic Trust Framework？
它是一个围绕身份、行为、数据治理、网络分段和事件响应构建的 agentic AI 信任框架。

能力	工具
智能体身份 / NHI	Entra Agent ID、SPIFFE/SPIRE、Token Security、Oasis Security
密钥管理	HashiCorp Vault、Akeyless、AWS Secrets Manager
MCP 安全网关	Cerbos、OPA + 自定义网关、Netskope AI
策略引擎	Cerbos、OPA、Permit.io
可观测性	Langfuse、Maxim AI、OpenLLMetry、Arize Phoenix
Shadow AI 发现	Netskope、Gamma AI、Zscaler
行为监控	Realm Labs、Darktrace AI
保密计算	Opaque、Azure Confidential VMs、AWS Nitro Enclaves

信任你的 AI 智能体：安全与保密架构模式