Швидкість, з якою ШІ виявляє вразливості, перевищила швидкість, з якою він виправляє вразливості.

By: blockbeats|2026/03/30 10:07:49

Поширити

27 березня незахищений кеш даних у Anthropic виявив близько 3000 внутрішніх файлів. Один проект поста в блозі розкрив майбутню нову модель Mythos, яку Anthropic самостійно оцінив як "значно перевершує будь-яку модель ШІ за можливостями кібербезпеки". Того ж дня CrowdStrike та Okta кожен впали на 7%, тоді як Palo Alto Networks впав на 6%.

Паніка на ринку викликана не появою потужнішої моделі. Причина полягає в тому, що творець цієї моделі заявив, що її прогрес у сфері атак випереджає швидкість, з якою може встигати оборона.

Домінування штучного інтелекту в кібербезпеці

Згідно з результатами тестування академічного бенчмарку CAIBench, у тесті Cybench, що моделює реальне середовище атак і захисту, Claude Sonnet досяг успіху з імовірністю 46%. Другий за рейтингом GPT-5 мав 28%, Google Gemini 2.5 Pro досяг лише 18%, а модель з відкритим вихідним кодом qwen3-32B опустилася ще нижче, до 10%.

Швидкість, з якою ШІ виявляє вразливості, перевищила швидкість, з якою він виправляє вразливості.

Хоча 46% можуть здатися невисокими, це рівень успіху складних завдань з проникнення, включаючи такі етапи, як виявлення вразливостей, створення ланцюгів експлойтів і підвищення привілеїв. У більш базовому тесті Base рівень успіху Claude вже досяг 75%, наближаючись до свого максимуму.

Різниця не в тому, хто трохи кращий, а в масштабі. Складний потенціал Claude в атаці та захисті в 1,6 рази перевищує потенціал GPT-5 і в 2,5 рази перевищує потенціал Gemini. У цьому вимірі кібербезпеки розподіл здібностей між моделями не є драбиною, а розривом.

Подвоєння за 6 місяців

Що ще варто проаналізувати, так це не горизонтальний розрив, а вертикальна швидкість.

Згідно з офіційними даними Anthropic, Sonnet 3.7, випущений у лютому 2025 року, досяг показника успішності 35,9% на Cybench (10 спроб). У другій половині того ж року Sonnet 4.5 досяг 76,5%. Висновок дослідницької групи Anthropic: протягом 6 місяців показник успішності подвоївся.

Що означає ця швидкість? Порівняння зі сценарієм реального світу: У березні цього року для аудиту коду Firefox було використано Claude Opus 4.6. За даними InfoQ, протягом двох тижнів було виявлено 22 вразливості системи безпеки, 14 з яких були високого ризику. Ці вразливості залишалися непоміченими, незважаючи на багаторічні ручні аудити та мільйони годин тестування CPU fuzz. Команда служби безпеки Anthropic раніше повідомила, що Claude виявила понад 500 вразливостей високого ризику в декількох комерційних проектах з відкритим вихідним кодом, деякі з яких існували десятиліттями.

А стандартні терміни проведення традиційного проникнення в систему становлять від 2 до 3 тижнів, і це лише для одного додатка. Згідно зі Звітом про розслідування порушень даних Verizon 2025 року, середній час від публічного розкриття критичної вразливості до її масового використання зловмисниками становить 5 днів, а середній час виправлення вразливості – від 32 до 38 днів.

Швидкість, з якою ШІ виявляє вразливості, зростає експоненціально, тоді як швидкість виправлення вразливостей людиною є лінійною. Різниця в часі – це вікно атаки.

У витоку проекту Mythos компанія Anthropic написала, що ця модель «віщує хвилю моделей, які можуть використовувати вразливості способом, що значно перевищує зусилля захисників». Судячи з відомої публічно кривої можливостей, це не перебільшення.

Чим швидше випуск, тим нагальніше попередження

Якщо ви розташуєте дії Anthropic за останні три роки на часовій шкалі, ви побачите чітку закономірність: щоразу, коли випускається потужніша модель, за нею швидко слідує підвищений рівень безпеки.

У липні 2023 року Білий дім підписав добровільне зобов'язання, після чого у вересні того ж року було опубліковано першу Політику відповідального масштабування (RSP v1.0). У жовтні 2024 року RSP було оновлено до версії 2.0, додано порогове значення для можливостей біохімічної зброї. У листопаді 2025 року компанія Anthropic розкрила інцидент GTG-1002. Група загроз, підтримувана Китаєм, використала близько 30 організацій, використовуючи код Claude, причому ШІ самостійно виконував від 80% до 90% тактичних операцій протягом операції. Це була перша задокументована масштабна міжорганізаційна шпигунська кампанія, організована ШІ.

У лютому 2026 року RSP було оновлено до версії 3.0, одночасно випущено Claude Code Security. У тому ж місяці Пентагон назвав Anthropic «ризиком для ланцюжка поставок», оскільки Anthropic відмовився скасувати умови контракту, що забороняють широкомасштабний нагляд і повністю автономну зброю. Через місяць витік Mythos показав, що Anthropic визнав у проекті, що ця модель створює «безпрецедентні ризики для мережевої безпеки».

Темпи випуску можливостей прискорюються. Між Claude 1 і Claude 3 є одинрічна перерва, а між Opus 4.5 і Opus 4.6 — менше трьох місяців. Реакції на загрози також прискорюються, але вони завжди реактивні: спочатку з'являються можливості, а потім — виправлення політики. Колективне падіння акцій у сфері кібербезпеки 27 березня – це ціна цього тимчасового дельта.

Опитування Dark Reading на початку цього року показало, що 48% фахівців у сфері кібербезпеки визначили агенти на основі штучного інтелекту як основний вектор атаки на 2026 рік. Два роки тому цей варіант навряд чи був на вершині списку.

Стратегія випуску Mythos від Anthropic передбачає надання раннього доступу оборонним організаціям, "надаючи їм перевагу першопрохідця". Це твердження саме по собі визнає асиметрію нападу та оборони. Якщо захисникам не потрібна перевага першого ходи, це означає, що атакуючі ще не підійшли до порогу.

Вам також може сподобатися

Ранковий звіт | Coinbase Ventures здійснює свою першу інвестицію в ENA; SpaceX планує встановити ціну IPO на рівні 135 доларів за акцію

Огляд важливих ринкових подій за 3 червня

Повний текст та аналіз виступу генерального директора SanDisk на 42-й щорічній конференції зі стратегічних рішень Bernstein

Основна цінність виступу Геклера полягає у наданні надзвичайно прозорої та логічно чіткої концептуальної бази для корпоративної трансформації.

Ранковий звіт | Минулого тижня Strategy продала 32 BTC та понад 800 000 акцій MSTR; Binance офіційно анонсувала свій портал для торгівлі акціями США; Polymarket уклала ексклюзивне партнерство з OneFootball

Огляд важливих ринкових подій за 1 червня

Торговий буткемп WEEXPERIENCE у Польщі: як WEEX та FireCrew роблять криптотрейдинг доступним для кожного

29 травня WEEX у партнерстві з Firecrew провели у Польщі торговий буткемп WEEXPERIENCE. Читайте підсумок експертних сесій з технічного аналізу, психології трейдингу та інструментів ШІ, які підтверджують місію WEEX зробити криптотрейдинг доступним для кожного.

Панування Парижа: як PSG розбив мрію Arsenal у захопливому історичному фіналі Ліги чемпіонів

PSG проти Arsenal, драма, доля та розбите 20-річне прокляття. Згадайте фінал Ліги чемпіонів 2026 року, де PSG захистив свій титул у напруженій серії пенальті, а золотий момент Усмана Дембеле та один болісний промах увійшли в історію в Будапешті.

TaiJi залучає $3,5 млн стратегічних інвестицій від Castrum Capital, Becker Ventures та Coinvestor Ventures

Платформа ринкової аналітики Web3 на базі ШІ TaiJi оголосила про залучення $3,5 млн стратегічних інвестицій, які будуть спрямовані на прискорення розробки нового рушія ринкового ШІ-моделювання.

Bitcoin застряг біля $73 тис.? Як трейдери знаходять вигоду на червневому боковику

Bitcoin застряг біля позначки $73 тис., оскільки приплив коштів у ETF сповільнюється, а макроекономічна невизначеність змушує трейдерів бути обережними. Ось як акції на кшталт WEEX Joker Party допомагають трейдерам залишатися активними під час червневого бокового руху ринку.

Як стейкати Solana: покрокова інструкція на 2026 рік

Знайдіть найкращі AI-криптовалюти 2026 року за допомогою аналітичних даних: Bittensor, Render та перспективні проєкти. Включено ончейн-метрики, ризики та посібник з торгівлі на WEEX.

Гарантована ціна вже на WEEX: торгуйте з більшою точністю

Для забезпечення більш плавного досвіду торгівлі ф'ючерсами, WEEX запустила функцію «Гарантована ціна».

Останнє дослідження BIS: майбутнє стейблкоїнів та глобальний монетарний ландшафт

У звіті зазначається, що стейблкоїни зміцнюватимуть домінування долара США в короткостроковій перспективі, створюючи ризики для монетарного суверенітету ринків, що розвиваються, та економік, що формуються, тоді як довгострокова траєкторія залежатиме від моделей їх впровадження, регуляторних заходів та синергії...

Інтерв'ю з макроекономічним експертом Раулем Палом: конкуренція у сфері ШІ веде до «економічної сингулярності», не поспішайте позбуватися своїх активів у найближчі чотири роки

Порівняно з Nasdaq, Bitcoin наразі перебуває у стані сильної перепроданості в межах свого довгострокового тренду.

Чому Пітер Тіль, який стоїть за Palantir, готує шлях до відступу в Аргентині?

Palantir, політичні ризики та самозбереження технологічних олігархів.

Злам оборони захисників Solana: щоб розгромити Hyperliquid, вони використали сценарій, за який колись критикували Ethereum?

Стрімке зростання HYPE розпалює битву гігантів. Лідер Solana гнівно критикує Hyperliquid за надмірну централізацію, а Артур Хейс відповідає різкою відсіччю, укладаючи парі на $100 000.

Ранковий звіт | Coinbase Ventures здійснює свою першу інвестицію в ENA; SpaceX планує встановити ціну IPO на рівні 135 доларів за акцію

Огляд важливих ринкових подій за 3 червня

Повний текст та аналіз виступу генерального директора SanDisk на 42-й щорічній конференції зі стратегічних рішень Bernstein