logo

Обзор Claude Opus 4.7: Достоин ли он звания самой мощной модели?

By: blockbeats|2026/04/17 23:00:07
0
Поделиться
copy
Оригинальный заголовок: "Opus 4.7 никогда не задумывался как 'самая мощная модель': Все, кто хвалил скорость Claude, не могут сравниться с темпом Anthropic"
Исходный источник: Silicon Pro

16 апреля 2026 года компания Anthropic официально выпустила Claude Opus 4.7, чуть более чем через два месяца после выпуска предыдущего поколения Opus 4.6.

После недавней напряженной и суматошной серии обновлений продуктов и моделей, появление новой модели от Anthropic, естественно, произвело грандиозное впечатление. Я уверен, что вы видели множество отзывов о модели, и все называют Opus 4.7 «самой сильной моделью», что снова привело к появлению таких терминов, как «человечество обречено» и «предупреждение об безработице».

Но давайте посмотрим, что же на самом деле выпустила компания Anthropic.

Тон этого релиза на самом деле довольно необычен.

В объявлении Anthropic напрямую заявили: Возможности Opus 4.7 не так хороши, как у Claude Mythos Preview, где Mythos доступен только нескольким партнерам, таким как Apple, Google, Microsoft, Nvidia, и недоступен обычным разработчикам и пользователям.

Более того, что еще более примечательно, чем эта риторика, так это то, что он не только слабее легендарного Mythos, но и на самом деле слабее в некоторых ключевых возможностях по сравнению с моделью предыдущего поколения.

Аномальное количество в таблице производительности Opus 4.7: Долгосрочный контекстный контрольный показатель MRCR v2 @1M снизился с 78,3% в Opus 4.6 до 32,2%, падение на 46 процентных пунктов.

Очень редко флагманская модель урезает свои собственные сильные стороны вдвое.

И это решение было принято им самостоятельно.

Так что, пока все продолжают слепо хвалить каждую из своих моделей как самую «сильную», они фактически отстают от темпов Anthropic!

Обзор Claude Opus 4.7: Достоин ли он звания самой мощной модели?

Им даже не хочется решать эту проблему с мойкой автомобилей

Opus 4.7 был релизом, который никогда не был предназначен для того, чтобы быть «самой мощной моделью». Это был релиз с явными компромиссами, подход "хирургического ножа", отличающийся от различных стратегий выпуска других производителей топовых моделей в прошлом. Это также новое направление, к которому сегодня коллективно обращаются ведущие производители, поскольку они четко понимают, что «большой скачок вперед» самой модели больше не является устойчивым — Anthropic в некоторой степени приблизился к стратегиям выпуска таких компаний, как Apple и Microsoft, на очень зрелом этапе коммерциализации своих продуктов.

Это может быть реальное значение 4.7.

1. Способность к программированию: Настоящее улучшение за цифрами

Чтобы лучше понять эти изменения, лучшим способом, естественно, является сначала внимательно изучить, что на самом деле принесло это обновление.

Вот полный обзор релиза Opus 4.7 — что улучшилось, что ухудшилось, отзывы разработчиков из первых рук и необходимо ли миграция.

Официальное объявление: https://www.anthropic.com/news/claude-opus-4-7

Производительность кодирования является центральным элементом этого релиза Opus 4.7.

SWE-bench Проверено (500 реальных проблем в GitHub, требующих от моделей создания исправлений, которые проходят тесты) увеличился с 80,8% в Opus 4.6 до 87,6% в Opus 4.7, что почти на 7 процентных пунктов лучше, что делает его лучшим среди публично доступных моделей. По сравнению с 80,6% Gemini 3.1 Pro, разница значительна.

SWE-bench Pro - это более сложная версия, охватывающая полный инженерный конвейер на четырех языках программирования. Opus 4.7 подскочил с 53,4% до 64,3%, что на 11 процентных пунктов больше. По сравнению с 57,7% GPT-5.4 и 54,2% Gemini 3.1 Pro, Opus 4.7 явно опережает в этом тесте.

CursorBench - это практичный инструмент для оценки от Cursor, специально предназначенный для измерения качества программной поддержки модели в реальной среде IDE. Opus 4.6 набрал 58%, в то время как Opus 4.7 подскочил до 70%, что на 12 процентных пунктов выше. Соучредитель Cursor Майкл Труэлл заявил в официальном объявлении: «Это значительный скачок в возможностях, обеспечивающий более сильное творческое мышление при решении задач».

Данные, проверенные партнерами:

· Rakuten: Количество задач производства, решенных Opus 4.7, в три раза больше, чем у Opus 4.6, с двузначным увеличением рейтингов качества кода и качества тестирования

· Завод: Уровень успешности выполнения задач увеличился на 10-15%, что значительно снизило количество сбоев в середине обучения

· Когнитивные способности (Компания Девина): Модель "может работать непрерывно в течение нескольких часов без отключения"

· CodeRabbit: Показатель запоминания увеличился более чем на 10%, «немного быстрее, чем GPT-5.4 в режиме xhigh»

· Bolt: В задачах длительной сборки приложений Opus 4.7 превзошел Opus 4.6, «показав улучшение до 10% в наилучшем случае, без проблем регрессии, наблюдавшихся в прошлом»

· Terminal-Bench 2.0: Opus 4.7 решал три задачи, с которыми не могли справиться ни одна из предыдущих моделей Claude (или конкурентов), включая задачу, требующую многофайлового рассуждения с использованием данных из разных репозиториев для устранения условия гонки

Эти наборы данных указывают в одном направлении: Opus 4.7 продемонстрировал значительное улучшение в задачах сложного программирования с длительным временем выполнения, с использованием данных из разных файлов и с сохранением контекста. Это напрямую решает самые большие жалобы пользователей на Opus 4.6 за последние два месяца — задачи, которые прекращают выполнение на полпути и теряются при многофайловых ошибках.

II. Визуальные возможности: Наиболее недооцененное улучшение в этом выпуске

Эталон визуальной точности XBOW увеличился с 54,5% до 98,5%. Это не постепенное улучшение, а скачок на уровне реконструкции.

Конкретные изменения в спецификациях:

· Максимальное разрешение изображения увеличено с примерно 1,15 миллиона пикселей (длина по длинной стороне 1568 пикселей) до примерно 3,75 миллиона пикселей (длина по длинной стороне 2576 пикселей), что более чем в 3 раза превышает разрешение предыдущего поколения

· Координаты модели теперь соответствуют 1:1 с реальными пикселями, что устраняет необходимость ручного преобразования масштабирующего коэффициента в задачах компьютерного зрения

· Тестовая база визуального обоснования CharXiv: Без инструментов 82,1%, С инструментами 91,0%

Какие существенные последствия это имеет?

Для команды по разработке продуктов для компьютерного использования это обновление может быть решающим. Использование компьютера в эпоху Opus 4.6 находилось в состоянии «можно делать демонстрацию, но не готово к производству» — частота пропущенных кликов была слишком высокой и непредсказуемой. Визуальная точность на уровне 98,5% означает, что эта функция впервые достигла порога для надежного развертывания. Несколько технических блогов прямо заявили в своих обзорах: если вы отложили свой план использования продукта на компьютере из-за высокой частоты пропущенных кликов в Opus 4.6, то в версии 4.7 это препятствие устранено.

Обратная связь из первых рук на Reddit (r/ClaudeAI): Некоторые пользователи отметили: «Улучшение визуальных возможностей имеет решающее значение. Я уже делал множество проектов на границе возможностей, пытаясь заставить модель итеративно улучшать свои результаты в цикле визуальной обратной связи, и результат всегда был хаотичным. Мне очень интересно, как 4.7 решит эту проблему."

Помимо использования на компьютере, другие полезные сценарии включают: анализ сканированных документов (способность читать более мелкие шрифты, распознавать более мелкие детали в диаграммах), понимание скриншотов, приложения для панелей приборов и обработку сложных PDF-файлов.

Учет затрат: Изображения с более высоким разрешением будут потреблять больше токенов. Если ваш сценарий применения не требует высокой детализации изображения, рекомендуется уменьшить масштаб перед вводом.

III. Самое большое препятствие: Сжатие длинного контекста

MRCR v2 @1M (Воспроизведение длинного контекста с миллионом токенов):

· 4.6: 78,3%

· 4.7: 32,2%

Падение на 46 процентных пунктов, с почти 80% до одной трети.

Это падение почти беспрецедентно в истории итераций флагманской модели. MRCR v2 была функцией, активно продвигаемой Anthropic в эпоху Opus 4.6 — в то время точные слова Anthropic были следующими: «качественное изменение произошло в масштабе контекста, в котором модель действительно может быть использована». К версии 4.7 это «качественное изменение» исчезло.

Почему это происходит? Токенизатор был изменен.

Opus 4.7 использует новый токенизатор, и теперь один и тот же входной текст будет приводить примерно к 1.0-1.35 в разы большее количество токенов, причем точный множитель варьируется в зависимости от типа контента.

Непосредственные последствия:

· Номинальное контекстное окно 200K/1M все еще присутствует, но теперь для такого же объема текста требуется меньше места.

· Фактическое потребление токенов для агентов с длительными задачами увеличилось примерно на 35%.

· Цены остаются прежними (ввод $5, вывод $25 за миллион токенов), но фактическая стоимость использования возросла.

Официальное заявление Anthropic гласит, что новый токенизатор "улучшил эффективность обработки текста", но данные по результатам тестирования показывают значительное снижение производительности в сценариях с длинным контекстом.

Возможности поиска также ухудшились:

· BrowseComp (Глубокий поиск информации в интернете): Opus 4.6 был на уровне 83,7%, в то время как Opus 4.7 - 79,3%.

· GPT-5.4 Pro набрал 89,3% в этой области, Gemini 3.1 Pro набрал 85,9%, а Opus 4.7 в настоящее время занимает последнее место среди основных конкурирующих моделей.

Поиск и длинный текст, как раз являются наиболее распространенными сценариями для многих корпоративных пользователей.

Обратная связь разработчиков из Hacker News (пост с 275 upvotes, 215 комментариев, источник: Обсуждение на HN):

«Отключение адаптивного мышления и ручное увеличение ползунка усилий помогло мне вернуться к базовой производительности. Фразы вроде «это выглядит хорошо в наших внутренних тестах» больше не достаточны; все видят одну и ту же проблему». «В 4.7 краткие описания токенов с человекочитаемым обоснованием больше не включаются в вывод по умолчанию; вам нужно добавить display: summarized в запрос API, чтобы вернуть их».

Все это проблемы, сообщенные реальными пользователями. Однако это также выбор, сделанный Anthropic проактивно.

Цена --

--

Четвертое, новый поведенческий признак: Самопроверка и более буквальное следование инструкциям

Заслуживающее внимания утверждение в официальном объявлении Opus 4.7: Модель проверяет свои результаты перед тем, как сообщать их.

Техническая команда Hex предоставила конкретный пример во время тестирования: когда данные отсутствуют, Opus 4.7 правдиво сообщает «данные отсутствуют», вместо того чтобы предоставлять кажущийся разумным, но на самом деле сфабрикованный ответ — ловушку, в которую попадал Opus 4.6. Оценка этого была сделана на платформе финтех Block: «Она может обнаруживать свои собственные логические ошибки на этапе планирования, ускоряя выполнение и демонстрируя явное улучшение по сравнению с предыдущей моделью Claude».

Однако самопроверка привела к другому связанному изменению поведения: Opus 4.7 интерпретирует инструкции более буквально.

Это создает значительный риск миграции. Если вы тщательно настраивали запросы для Opus 4.6, 4.7 может не "читать между строк", как это делал 4.6, а строго следовать буквальному значению, которое вы написали. Компания Anthropic явно упомянула об этом в официальном руководстве по миграции и рекомендовала проводить регрессионное тестирование ключевых запросов перед развертыванием 4.7.

Практический ориентир от технического директора Hex: Для уровня с низкими требованиями Opus 4.7 работает примерно так же, как и уровень с умеренными требованиями Opus 4.6.

Пять, Механизм управления рассуждением: xhigh, Бюджеты задач и /ultrareview

С Opus 4.6 произошел инцидент, повлиявший на доверие пользователей: 9 февраля он перешел на адаптивное мышление в качестве режима по умолчанию, а 3 марта официальная глубина рассуждения по умолчанию для Claude Code была снижена с высшего уровня до среднего, ссылаясь на необходимость «сбалансировать интеллект, задержку и стоимость». Этот инцидент, получивший название «гейт интеллекта», привлек широкое внимание после того, как старший директор AMD поставил под сомнение его на GitHub.

Ответ Opus 4.7 заключался в предоставлении пользователям более явного контроля над глубиной рассуждения.

{u}Высокий уровень сложности{/u}: Новый уровень интенсивности рассуждения, расположенный между существующими высокими и максимальными уровнями. Клод Код теперь обновил все запланированные значения по умолчанию до xhigh.

Однако у сообщества разработчиков есть прямой вопрос об xhigh, как заявил пользователь Reddit: "В Opus 4.6 значение по умолчанию установлено на средний уровень, а в 4.7 — на xhigh. Мне интересно, какова логика этого решения, поскольку повышение уровня усилий, очевидно, приводит к большему потреблению токенов."

Другими словами, то, что пользователи воспринимают как исправление "возврата управления пользователю", на самом деле является увеличением базового уровня, что означает, что для выполнения той же задачи теперь требуется сжечь больше токенов. В сочетании с изменениями токенизатора это приводит к удвоению стоимости.

Бюджеты задач (в открытой бета-версии): Механизм контроля бюджета токенов для длительных задач. Разработчики устанавливают общий бюджет токенов (минимум 20 000), и модель может динамически видеть оставшийся баланс во время выполнения, чтобы соответствующим образом распределять ресурсы. Это необходимо для предотвращения остановки на полпути из-за чрезмерных расходов токенов и предотвращения ненужных вычислительных потерь.

Команда Claude Code New /ultrareview: Специальная сессия обзора кода, сосредоточенная на исправлении ошибок и проблемах дизайна, проведение глубокого обзора один раз, пользователи Pro и Max получают 3 бесплатные сессии в месяц.

Режим автооткрытия для пользователей Max: Ранее доступен только в рамках корпоративного плана, теперь также доступен для пользователей Max. В автоматическом режиме Клод может принимать решения автономно, что снижает необходимость прерывать пользователей для получения ввода. Борис Черны, руководитель команды Claude Code, заявил: "Поставьте перед Клодом задачу, дайте ему время на выполнение, а затем вернитесь к проверенным результатам."

Раздел шесть: Обзор контрольных показателей - Плюсы и минусы

Ниже приведены текущие ключевые данные по сравнению с эталонными результатами (источник: Официальная системная карта Anthropic и оценки партнеров).

Программирование и инженерия (Opus 4.7 лидирует)

Видение и мультимодальность (Opus 4.7 значительно лидирует)

Работа с знаниями (Opus 4.7 лидирует)

Комплексная оценка (Opus 4.7 явно продвигается вперед)

Общее обоснование (Три основы в основном совпадают)

Этот контрольный показатель стал насыщенным и больше не является эффективным конкурентным рубежом.

Тип исследовательской задачи (GPT-5.4 лидирует, Opus 4.7 отстает)

Контекст длинного формата (Opus 4.7 значительно регрессирует)

Краткое описание логики выбора модели: В областях программирования, инженерного агента, зрения и финансово-юридической работы Opus 4.7 имеет явное преимущество; для задач, требующих интенсивных исследований, и поиска в открытых сетях GPT-5.4 сильнее; в сценариях с длинным контекстом Opus 4.7 значительно отстает от своего предшественника, что является наиболее тревожным моментом.

Седьмая секция: Безопасный барьер – веха Mythos

Эта секция часто упускается из виду как "стандартное заявление о безопасности" в пресс-релизах, но она ключева для понимания текущей стратегии Anthropic.

7 апреля Anthropic объявила о проекте Glasswing: доступ к предварительной версии Claude Mythos получили девять партнеров, включая Apple, Google, Microsoft, Nvidia, Amazon, Cisco, CrowdStrike, JPMorgan Chase и Broadcom, специально для сценариев защищенной кибербезопасности.

Mythos — самая мощная модель Anthropic на сегодняшний день. По данным The Hacker News, она может автономно обнаруживать уязвимости нулевого дня, выявляя тысячи ранее неизвестных уязвимостей в основных операционных системах и браузерах. Однако из-за этой возможности она также считается имеющей значительные риски злоупотребления и поэтому не выпущена публично.

Opus 4.7 — первый тестовый образец в этом направлении. Во время этапа обучения Anthropic активно снижала способность модели запускать атаки в области кибербезопасности (пыталась сохранить оборонительные возможности) и внедрила систему барьеров в реальном времени для автоматического обнаружения и блокирования запросов с высоким уровнем риска в области кибербезопасности. В оригинальном объявлении говорилось: "Мы будем учиться на фактическом развертывании Opus 4.7, чтобы определить эффективность этого барьера, прежде чем решать, распространять ли его на модели уровня Mythos."

Другими словами, каждый разработчик, использующий Opus 4.7, помогает Anthropic настроить защитный барьер.

Обзор Gizmodo: В этом выпуске используется «смелая маркетинговая стратегия — активное продвижение новой модели как «менее универсальной, чем другие варианты»», что крайне редко встречается в флагманских выпусках.

Если специалистам по информационной безопасности необходимо использовать Opus 4.7 для законного тестирования на проникновение, исследования уязвимостей или работы в команде противника, им необходимо подать заявку на участие в программе Cyber Verification Program.

8. Ценообразование и миграция: Номинальная цена остается прежней, а реальная стоимость растет

Ценообразование: Входной уровень — 5 долларов за миллион токенов, выходной уровень — 25 долларов за миллион токенов, то же самое, что и в Opus 4.6. ID модели API — claude-opus-4-7. Поддерживаемые платформы включают API Claude, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, а также GitHub Copilot.

Однако, как было упомянуто ранее, изменение токенизатора теперь приводит к генерации примерно 1.0-1.35 в несколько раз больше токенов для одного и того же ввода, в сочетании с дополнительными токенами для размышлений при более высоких уровнях усилий по умолчанию, фактическая стоимость для агента долгосрочной задачи может быть в 2-3 раза выше, чем у Opus 4.6 при эквивалентных настройках.

Anthropic также сократила кэш-TTL Claude Code с одного часа до пяти минут, что означает, что если вы отходите от компьютера более чем на пять минут и возвращаетесь, кэш контекста истечет, потребуется перезагрузка, что ускорит потребление токенов. В сообществе Reddit многие пользователи пожаловались, что «квота сгорает быстрее, чем водопад».

Список разрушительных изменений для существующих пользователей Opus 4.6:

1. Параметр Extended Thinking Budgets был удален; его передача вернет ошибку 400, и вместо этого следует использовать режим адаптивного мышления

2. Параметры выборки, такие как температура, top_p, top_k, были удалены; для управления поведением вывода следует использовать подсказки

3. Строгое следование буквальным инструкциям - подсказка, точно настроенная для Opus 4.6, должна быть повторно протестирована; прямой обмен идентификаторами моделей не допускается.

4. Изменения токенизатора изменили количество токенов. Рекомендуется сначала запустить образцы на реальном трафике, прежде чем приступать к полной миграции.

5. В настройках по умолчанию больше не включаются сводки токенов инференса. Для их получения необходимо явно установить display: summarized.

Лучшая практика: В официальном руководстве по миграции Anthropic рекомендуется запустить Opus 4.7 на репрезентативном производственном трафике перед окончательным переходом, сравнив потребление токенов и качество задач перед принятием решения.

Точность выполнения может быть пугающей.

Opus 4.7 — это целенаправленное обновление с явными преимуществами, но также со значительными компромиссами. Более того, все это разработано самой Anthropic, и в значительной степени вам придется за это заплатить.

Светлая сторона прогресса этой модели:

· 87,6% на SWE-bench Verified, 64,3% на SWE-bench Pro, 70% на CursorBench и увеличение производительности задач Rakuten в 3 раза - это ощутимые улучшения в программировании в производственной среде

· Восстановление визуальных возможностей (XBOW 54,5% → 98,5%, увеличение разрешения в 3 раза, точное соответствие пикселям 1:1), что впервые позволяет использовать компьютер для надежного развертывания

· xвысокий уровень, бюджеты задач, /ultrareview - явный ответ на барьер "опрощения"

· 90,9% на BigLaw, 64,4% на финансового агента, явно лидируют в специализированной работе, связанной с юридическими вопросами в финансовой сфере

Отказавшиеся аспекты:

· MRCR v2 @1M снизился с 78,3% до 32,2%, почти вдвое сократив возможности долгого контекста

· BrowseComp снижается с 83,7% до 79,3%, возможности поиска обогнаны как GPT-5.4, так и Gemini 3.1 Pro

· изменения токенизатора + увеличение стандартных усилий + сокращение TTL кэша = тройное скрытое повышение цен

· Mythos держится на плаву, что указывает на то, что у Anthropic есть еще более сильные карты в руках, но она не играет ими

Этот релиз является самым аутентичным на сегодняшний день, не "самой мощной моделью" и не "самой мощной публичной моделью", а скорее: итерацией с явными компромиссами.

Последняя новость заключается в том, что в феврале компания Claude Code уже достигла годового дохода в размере 2,5 миллиарда долларов. Opus 4.7 - это следующий шаг в этой онлайн-линии.

Кодирование и видение - это дополнения, длинный контекст и поиск - это вычитание, цена остается номинальной, но счет растет. Anthropic работает над балансом с Opus 4.7 - как для устранения ущерба доверия, оставленного Opus 4.6, так и для проведения реального испытания безопасности в рамках подготовки к более широкому открытию моделей уровня Mythos в будущем. Что еще более важно, она стремится в полной мере использовать свое текущее лидирующее положение, переводя предпочтения пользователей в отношении ее продуктов в инерцию, от которой нельзя избавиться даже через поколения несовершенных, но незаменимых продуктов, а затем создавая такой же липкий пользовательский опыт любви и ненависти с истинной коммерческой ценностью, которого достигли зрелые компании, такие как Apple, и создавая по-настоящему ценную экосистему.

Ссылка на оригинальную статью

Вам также может понравиться

Артур Хейс Новый пост: Сейчас время "Нет торговли"

Когда волатильность действительно выходит из-под контроля и ликвидность насильственно высвобождается, рынок снова войдет в фазу, пригодную для торговли.

Подробный отчет DWF: ИИ превосходит людей в оптимизации урожайности в DeFi, но сложные транзакции все еще отстают в 5 раз

Среди агентов выбор модели и управление рисками оказывают наибольшее влияние на производительность транзакций.

Раскрыт процесс мероприятия Rhythm X Zhihu, включающего демонстрацию навыков, основную речь и круглый стол для глубокого погружения в агентов и финансы на блокчейне

Встреча в Гонконге 21 апреля

Когда 5 миллионов ИИ-агентов заполонили Telegram

От социальной сети с более чем одним миллиардом пользователей до цифровой экономики, охватывающей следующее поколение человеко-кремниевого симбиоза.

Когда проактивные маркет-мейкеры начинают проявлять инициативу

После того, как Binance объявила о регулировании проактивных маркет-мейкеров в конце марта, проактивные маркет-мейкеры начали действовать.

Финансовые трюки криптогиганта Kraken

После Coinbase несколько других криптовалютных бирж вышли на рынок капитала. Будет ли Уолл-стрит по-прежнему платить премию за ту же историю?

Популярные монеты

Последние новости криптовалют

Еще