OpenAI și Paradigm au introdus EVMbench, un nou cadru de benchmarking conceput pentru a evalua capacitatea agenților AI de a detecta, remedia și exploata vulnerabilități blockchain.
OpenAI și Paradigm lansează EVMbench pentru a măsura securitatea contractelor inteligente AI

OpenAI și Paradigm au lansat oficial EVMbench pentru a aborda riscurile de securitate din contractele inteligente care securizează peste 100 de miliarde de dolari în active cripto. Benchmark-ul utilizează 120 de vulnerabilități selectate din 40 de audituri profesionale, inclusiv scenarii din blockchain-ul Tempo, pentru a testa capabilitățile Inteligenței Artificiale (AI) într-un mediu izolat Ethereum Virtual Machine (EVM).
Sistemul evaluează agenții în trei moduri distincte: detectarea vulnerabilităților, remedierea funcțională a codului și execuția end-to-end a exploit-urilor de golire a fondurilor. Testările recente arată că modelul GPT-5.3-Codex atinge o rată de succes de 72,2% în sarcinile de exploatare, marcând o creștere semnificativă față de scorul de 31,9% înregistrat de GPT-5 cu doar șase luni în urmă.
„Măsurarea capabilității modelului în acest domeniu ajută la urmărirea riscurilor cibernetice emergente și evidențiază importanța utilizării sistemelor AI în mod defensiv pentru a audita și a consolida contractele implementate”, potrivit anunțului OpenAI.
🧭 Întrebări frecvente
• Care este scopul principal al cadrului EVMbench? Măsoară cât de eficient identifică și rezolvă agenții AI vulnerabilitățile de severitate ridicată din contractele inteligente.
• Ce organizații au colaborat pentru a dezvolta acest nou benchmark de securitate? OpenAI și firma de investiții cripto Paradigm au co-dezvoltat mediul de testare EVMbench.
• Cum verifică sistemul dacă un agent remediază cu succes codul? Testele automate asigură eliminarea vulnerabilităților fără a afecta logica funcțională intenționată a contractului.
• Există sprijin financiar disponibil pentru cercetătorii care folosesc aceste instrumente? OpenAI alocă 10 milioane de dolari în credite API pentru a sprijini cercetarea defensivă în securitate cibernetică.

















