Drivs av
News Bytes

OpenAI och Paradigm lanserar EVMbench för att mäta AI-säkerhet för smarta kontrakt

OpenAI och Paradigm har introducerat EVMbench, ett nytt benchmark-ramverk utformat för att utvärdera AI-agenters förmåga att upptäcka, åtgärda och utnyttja sårbarheter i blockkedjor.

SKRIVEN AV
DELA
OpenAI och Paradigm lanserar EVMbench för att mäta AI-säkerhet för smarta kontrakt

OpenAI och Paradigm lanserade officiellt EVMbench för att hantera säkerhetsrisker i smarta kontrakt som säkrar över 100 miljarder dollar i kryptotillgångar. Benchmarken använder 120 kuraterade sårbarheter från 40 professionella revisioner, inklusive scenarier från Tempo-blockkedjan, för att testa artificiell intelligens (AI) i en sandlådad Ethereum Virtual Machine (EVM)-miljö.

Systemet utvärderar agenter i tre tydliga lägen: upptäckt av sårbarheter, funktionell patchning av kod och end-to-end-exekvering av exploits som tömmer medel. Nyligen genomförda tester visar att modellen GPT-5.3-Codex uppnår en framgångsgrad på 72,2 % i exploit-uppgifter, vilket är en betydande ökning från 31,9 % som registrerades av GPT-5 för bara sex månader sedan.

”Att mäta modellförmåga inom det här området hjälper till att följa framväxande cyberrisker och belyser vikten av att använda AI-system defensivt för att granska och stärka kontrakt som har driftsatts”, enligt OpenAI:s tillkännagivande.

Rapport: Stripe och Paradigm's Blockchain Tempo Säkrar $500M Stöd Från Thrive, Greenoaks

Rapport: Stripe och Paradigm's Blockchain Tempo Säkrar $500M Stöd Från Thrive, Greenoaks

Upptäck effekten av Stripes stöd när Tempo avslutar sin Series A-runda på $500 miljoner för att stärka blockchain-betalningsinfrastrukturen. read more.

Läs nu

🧭 Vanliga frågor

Vad är det primära syftet med EVMbench-ramverket? Det mäter hur effektivt AI-agenter identifierar och åtgärdar smartkontraktssårbarheter med hög allvarlighetsgrad.

Vilka organisationer samarbetade för att utveckla detta nya säkerhetsbenchmark? OpenAI och kryptoinvesteringsbolaget Paradigm utvecklade gemensamt EVMbench-testmiljön.

Hur verifierar systemet om en agent framgångsrikt patchar kod? Automatiserade tester säkerställer att sårbarheter elimineras utan att kontraktets avsedda funktionella logik går sönder.

Finns det ekonomiskt stöd tillgängligt för forskare som använder dessa verktyg? OpenAI avsätter 10 miljoner dollar i API-krediter för att stödja defensiv cybersäkerhetsforskning.

Bitcoin spelval

100% Bonus upp till 1 BTC + 10% Veckovis Omsättningsfri Cashback

100% Bonus Upp Till 1 BTC + 10% Veckovis Cashback

130% upp till 2 500 USDT + 200 Gratissnurr + 20% Veckovis Omsättningsfri Cashback

1000% Välkomstbonus + Gratis Bet upp till 1 BTC

Upp till 2 500 USDT + 150 Gratissnurr + Upp till 30% Rakeback

470% Bonus upp till $500 000 + 400 Gratissnurr + 20% Rakeback

3,5% Rakeback på Varje Satsning + Veckovisa Utlottningar

425% upp till 5 BTC + 100 Gratissnurr

100% upp till $20K + Daglig Rakeback