2026 年 2 月 18 日,OpenAI 与加密投资机构 Paradigm 联合发布了一款名为 EVMbench 的基准测试工具。根据 HEAL Security 的报道,这套工具旨在评估 AI 代理在以太坊虚拟机环境中发现、修补和利用智能合约漏洞的能力,其背后是价值超过 1000 亿美元的开源加密资产安全需求。这条新闻在 AI 圈并未激起太大水花,但在区块链安全领域,它被视为一个历史性信号:AI 正式进入价值超千亿美元的链上资产安全战场。
EVMbench 并非一款商业产品,而是一套衡量 AI 代理安全能力的“考卷”。据 AI Business 报道,该基准测试收录了来自 40 次专业审计的 120 个高危漏洞案例,多数取自 Code4rena 等公开审计竞赛平台。更值得关注的是,它纳入了 Tempo 区块链的多个漏洞场景——Tempo 是由 Stripe 和 Paradigm 为稳定币支付专门构建的 Layer 1 区块链,这意味着 EVMbench 的触角已经伸向了支付导向的智能合约领域,而这正是 RWA 与稳定币交汇的核心地带。
测试结果令人震撼。根据 eWEEK 的报道,最新的 GPT-5.3-Codex 在“漏洞利用”模式下的成功率高达 72.2%,而仅仅六个月前发布的 GPT-5 在同一测试中得分仅为 31.9%。这组数字背后,是一场正在发生的范式变革:智能合约审计,这个守护千亿资产的关键防线,正在从“人力密集型”走向“AI 增强型”。对于正在从概念验证迈向规模化部署的 RWA 而言,这一变革的影响将远超技术本身。
EVMbench 的设计逻辑,本质上是将智能合约安全的完整工作流拆解为三个递进的能力层级。据 HEAL Security 报道,这三种模式分别对应着安全工作的不同阶段:检测模式要求 AI 代理审计智能合约代码库,并基于对已知漏洞的召回率进行评分;修补模式要求 AI 在修复漏洞的同时保持合约原有功能完整,通过自动化测试和漏洞利用检查来验证;利用模式则最为激进——AI 代理必须在沙盒化的区块链环境中执行端到端的资金窃取攻击,通过交易重放和链上验证来评分。
这种设计的高明之处在于,它不是在测试 AI 的“知识点”,而是在测试 AI 的“工作流”。台湾科技大学的分析指出,检测对应审计能力,修补对应开发能力,利用对应攻击理解能力——三者构成了一个完整的安全能力闭环。OpenAI 为此开发了一套基于 Rust 语言的测试架构,可以确定性部署合约并限制不安全的 RPC 方法,所有利用任务都在隔离的本地 Anvil 环境中运行,而非真实网络。
特别值得注意的是 EVMbench 的题库构成。据 Bitcoin.com 报道,这 120 个漏洞案例不仅来自通用的 DeFi 协议审计,还专门纳入了 Tempo 区块链的多个漏洞场景。AI Business 分析指出,Tempo 是为稳定币支付设计的高吞吐量 Layer 1 区块链,将这些场景纳入评测范围,意味着 EVMbench 已经将目光投向了未来 AI 代理与稳定币支付系统深度融合的安全需求。当 AI 代理自主执行支付、管理资产时,这些场景的覆盖面恰恰是 RWA 生态最关心的部分。

EVMbench 的测试结果揭示了一个耐人寻味的现象:AI 在“攻击”上的表现远超“防守”。根据 HEAL Security 的数据,在利用模式下,GPT-5.3-Codex 达到了 72.2% 的成功率;但在检测模式下,AI 往往在找到第一个漏洞后就停止深入,难以完成全面的代码审计。OpenAI 对此的解释是,利用模式的目标足够明确——“直到资金被完全抽干为止”,这让 AI 可以不断迭代尝试;而检测模式需要的是“全面覆盖”,这是当前 AI 的短板。
eWEEK 的报道进一步印证了这一判断。报道援引测试数据称,最好的模型在漏洞检测上仅能捕捉约 46% 的漏洞,而在修补模式下,成功率也只有 39% 左右。但当给 AI 一个关于漏洞位置的小提示时,修补成功率会从 39% 跃升至 94%。这一发现揭示了一个关键结论:当前 AI 能力的瓶颈不在于技能本身,而在于搜索范围——人类提供上下文后,AI 的表现会大幅提升。
这一发现对 RWA 生态有着深刻的警示意义。攻击者可能比防守者更快利用 AI——如果 AI 能以 72% 的成功率复现攻击路径,那么黑产团队没有理由不部署同样的能力。审计的逻辑也在被改变:传统审计是“找漏洞”,未来审计可能是“验证 AI 没找到的漏洞”。速度正在成为新的安全变量,漏洞从被发现到被利用的时间窗口正在被 AI 急剧压缩。
OpenAI 在发布 EVMbench 的同时,也宣布将通过其网络安全资助计划提供 1000 万美元的 API 额度,支持防御性安全研究,特别是针对开源软件和关键基础设施的研究。公司还扩大了其安全研究代理 Aardvark 的测试范围,并与开源维护者合作提供免费代码扫描服务。这释放了一个明确信号:防御方正在与时间赛跑。
然而,EVMbench 发布后不久,来自学术界和产业界的质疑声也随之而来。2026 年 3 月 11 日,arXiv 平台上发布了一篇题为《Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?》的论文,对 EVMbench 的结论进行了重新评估。
这篇由 Chaoyuan Peng 等人撰写的论文指出,EVMbench 存在两个关键局限:一是评估范围狭窄,仅测试了 14 种代理配置,且大多数模型仅在其供应商提供的框架上测试;二是依赖的审计竞赛数据发布时间早于所有模型的发布截止日期,模型可能在训练阶段已经接触过这些数据。为弥补这些局限,研究者将测试扩展到 26 种配置,覆盖四个模型家族和三种框架,并引入了一个全新的、不包含数据污染的真实安全事件数据集——22 个发生在所有模型发布日期之后的安全事件。
研究得出三个重要发现。第一,AI 代理的检测结果并不稳定,在不同配置、任务和数据集上的排名会发生显著变化。第二,在真实安全事件上,没有任何 AI 代理能在全部 110 个代理 - 事件组合中实现端到端的成功利用——尽管它们最多能检测出 65% 的漏洞,但这与 EVMbench 得出的“漏洞发现是主要瓶颈”的结论相矛盾。第三,框架选择对结果影响显著,一个开源框架的表现比供应商提供的框架高出 5 个百分点,但 EVMbench 并未对此进行控制。
与此同时,知名区块链安全公司 OpenZeppelin 也对 EVMbench 提出了尖锐批评。据 Cointelegraph 中文报道,OpenZeppelin 在对 EVMbench 进行审计后发现,数据集中存在训练数据泄露,以及至少四项被标记为高严重性的漏洞在实际操作中并不可利用。OpenZeppelin 在 X 平台发文指出,所有高分 AI 代理“很可能在预训练阶段已接触到与基准测试相关的漏洞报告”,因为这些漏洞均来自 2024 年到 2025 年中期的审计,而 AI 代理的知识截止时间通常设定在 2025 年中期。
这些质疑共同指向一个结论:完全自动化的 AI 审计尚未到来。正如 arXiv 论文所言,AI 能够可靠地捕捉已知模式,并对人类提供的上下文做出强烈响应,但无法替代人类的判断。对于开发者而言,AI 扫描可以作为预部署检查工具;对于审计机构而言,AI 最有效的定位是“人机协同”——由 AI 负责广度覆盖,人类审计师贡献协议特定的知识和对抗性推理。
智能合约管理着超过 1000 亿美元的链上资产,这是 EVMbench 发布的背景数据。但更值得关注的是,这 1000 亿美元正在发生结构性变化——RWA 的崛起正在将传统金融资产带入链上。当国债、信贷、房地产等现实世界资产以代币化形式上链时,安全的内涵被重新定义。
对于 RWA 项目方面言,智能合约的漏洞不再是“币圈内部损失”,而是直接指向现实资产的损失。这意味着安全审计的标准必须向传统金融看齐。据 AI Business 报道,麦肯锡预测到 2028 年,已发行稳定币的总价值将达到 2 万亿美元。在这个规模下,安全不再只是技术问题,而是资产负债表的直接风险。项目方需要重新评估现有审计流程,探索 AI 审计工具的嵌入路径——不是用 AI 完全替代人类,而是让 AI 完成广度覆盖,人类聚焦协议特定逻辑和对抗性推理。
对于审计机构而言,OpenAI 承诺提供的 1000 万美元 API 额度支持防御性安全研究,这是一个明确的信号:AI 审计不是来替代审计师的,而是来武装审计师的。未来,能够驾驭 AI 的审计团队将获得指数级的能力提升。正如 arXiv 论文所言,AI 在检测模式下的不稳定性恰恰说明,人类审计师的专业判断在当前阶段不可或缺。AI 处理已知模式的识别,人类负责边界案例和创新性漏洞的发现,这种分工正在成为行业共识。
对于上市公司而言,当企业将资产以 RWA 形式上链融资时,智能合约的安全性直接关系到企业的资产负债表。据 Blockchain.news 报道,随着 AI 代理在漏洞利用上能力的提升,漏洞发现到被利用的时间窗口正在急剧缩短——那些不使用 AI 辅助审计的协议团队,将越来越处于劣势。“合约被黑客攻击”将从技术风险上升为财务风险,董事会需要对此有清晰的认知。这不仅是技术部门的职责,更是战略层面的风险管理议题。
基于上述分析,我们可以从三个层面提炼出这场范式变革的战略启示。
技术层面,人机协同是未来范式。arXiv 论文的结论值得反复强调:AI 无法替代人类判断,但可以作为“预部署检查工具”发挥最大价值。对于 RWA 项目而言,最优策略是将 AI 审计嵌入开发流程——在代码编写阶段就引入 AI 辅助扫描,在上线前由人类审计师进行最终把关。正如 eWEEK 的分析所指出的,AI 在获得小提示后修补成功率可从 39% 跃升至 94%,这意味着人类审计师可以将有限精力集中在 AI 难以把握的核心逻辑上。
认知层面,安全成本的定义正在被重塑。传统观念中,安全审计是上线前的“一次性投入”。但在 AI 代理经济崛起的背景下,攻击可以 24 小时自动化进行,安全也必须成为持续性的实时监控。HEAL Security 的报道指出,EVMbench 的发布正值 AI 代理在代码编写和规划能力上飞跃的节点,未来这些模型将在区块链的攻击与防御两端扮演转型角色。这意味着项目方需要建立持续监控机制,而非仅在发布前做一次审计。
合规层面,守住红线与用好工具必须兼顾。对于 RWA 研究院的中国大陆读者而言,EVMbench 的讨论必须在 42 号文“境内严禁、境外备案”的框架下进行。本文讨论的 AI 审计工具聚焦于技术趋势和防御性应用,绝不构成对境内合约的操作建议。但当中国企业通过香港合规通道发行 RWA 时,采用 AI 增强的审计能力,将是与国际标准接轨的必然要求。香港稳定币牌照的落地,恰恰为这种合规探索提供了通道。
2026 年,数字文明正在经历 AB 面的深度融合:AI 作为极致生产力,区块链作为先进生产关系。EVMbench 的发布,是这两条主线在资产安全这一关键节点上的首次交汇。
72.2% 的攻击成功率是一个警钟:AI 的漏洞利用能力正在指数级提升,留给防守方的时间窗口正在缩短。但 1000 万美元的防御投入也是一个承诺:AI 同样可以被用来守护资产,关键在于我们如何驾驭它。arXiv 论文的结论为这种驾驭提供了方向——AI 无法替代人类,但可以成为最得力的助手。OpenZeppelin 的批评则提醒我们,工具的构建和评估必须与被保护的合约达到同等标准。
对于 RWA 生态而言,安全从来不是技术选项,而是生存底线。当千亿资产从物理世界走向数字空间时,AI 与人类的协同审计,或许就是那道最后的防线。站在临界点上,那些率先将 AI 审计工具嵌入开发流程的项目,将在这场攻防速度战中占据先机;而那些等到监管完全明朗才行动的企业,可能会发现窗口期已经关闭。
本文讨论的 AI 审计技术适用于境外合规框架,不构成境内操作建议。对于中国企业而言,在香港合规通道下探索 AI 增强的 RWA 安全实践,将是与全球标准接轨的必由之路。
参考资料:
HEAL Security, OpenAI Launches EVMbench to Detect, Patch, and Exploit Vulnerabilities in Blockchain Environments, 2026 年 2 月 18 日
台湾科技大学, OpenAI 與 Paradigm 合推基準測試 EVMbench,評測 AI 代理智慧合約漏洞攻防能力, 2026 年 2 月 24 日
eWEEK, OpenAI Just Showed That AI Can Drain a Crypto Wallet… on Purpose, 2026 年 2 月 19 日
arXiv:2603.10795, Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?, 2026 年 3 月 11 日
AI Business, OpenAI Aims for Stablecoin Market with New EVMbench, 2026 年 2 月 23 日
Blockchain.News, OpenAI and Paradigm Launch EVMbench to Test AI Smart Contract Hacking, 2026 年 3 月 5 日
Cointelegraph 中文, OpenZeppelin:OpenAI 的 EVMbench 存在数据污染问题, 2026 年 3 月 3 日
Bitcoin.com, OpenAI and Paradigm Launch EVMbench to Measure AI Smart Contract Security, 2026 年 2 月 18 日
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
