Публикация была переведена автоматически. Исходный язык: Русский
Тэги: #AI #MachineLearning #ProductDevelopment #Tech #AstanaHub #Innovation #Gemini #Claude #LLM
За две недели февраля 2026 года искусственный интеллект пережил настоящую перезагрузку. 5 февраля Anthropic выпустил Claude Opus 4.6, а 19 февраля Google ответил Gemini 3.1 Pro — и расклад сил в индустрии изменился. Если вы строите AI-продукт, используете нейросети в работе или просто следите за трендами — этот разбор для вас.
- Gemini 3.1 Pro лидирует в 12 из 18 ключевых бенчмарков, показал 77,1% в тесте ARC-AGI-2 (был 31,1%), стоит в 6,5 раз дешевле Claude Opus 4.6
- Claude Opus 4.6 доминирует в экспертных задачах: 1606 Elo в GDPval-AA (финансы, право), №1 в LMArena по пользовательским предпочтениям
- Оба игрока ввели регулируемую глубину мышления — теперь можно управлять балансом скорость/качество на уровне каждого запроса
Google сделала ставку не на новое поколение, а на точечное, но мощное обновление. И это сработало:
| Тест | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
| ARC-AGI-2 (новая логика) | 77,1% | 68,8% | — |
| Humanity's Last Exam | 44,4% | 40,0% | 34,5% |
| GPQA Diamond (наука) | 94,3% | 91,3% | 92,4% |
| MMLU (общие знания) | 92,6% | 91,1% | — |
| APEX-Agents (агентные задачи) | 33,5% | 29,8% | — |
| GDPval-AA (финансы, право) | 1317 Elo | 1606 Elo | — |
| LMArena (выбор пользователей) | ~1500 | 1504 | — |
Важный нюанс: лидерство в бенчмарках и в пользовательских предпочтениях — это разные вещи. Gemini побеждает по цифрам, Claude — по тому, как его воспринимают живые люди.
- Прорыв в рассуждении: +46 процентных пунктов в ARC-AGI-2 — крупнейший прирост за одно поколение в истории больших моделей
- SVG-анимации: генерирует готовые интерактивные веб-элементы прямо из текстового описания — экономит часы работы разработчика
- 3 уровня мышления (Low / Medium / High): практика показывает, что 80% запросов закрывается на Low/Medium, что снижает затраты на API на 50–70%
- Контекстное окно 1 млн токенов в стабильной версии (GA)
- Снижение галлюцинаций на 38 пп. по сравнению с Gemini 3 Pro
- Цена: $2 / $12 за миллион токенов
- Адаптивное мышление с 4 уровнями: модель сама решает, насколько глубоко думать в рамках выбранного потолка
- Точность при работе с большим контекстом: 76% в поиске данных по 1 млн токенов (у конкурентов — 18,5%) — победа над "потерей в середине"
- Лучший в экспертных задачах: финансовое моделирование, юридический анализ, исследовательская аналитика
- Команды агентов: параллельное выполнение подзадач
- Тонкая работа с инструментами: модель лучше понимает когда применять внешний инструмент и как интерпретировать результат
- Контекстное окно 1 млн токенов в бета-режиме (по умолчанию 200K)
Именно в программировании история "одной лучшей модели" разрушается наиболее наглядно:
- SWE-Bench Verified (реальная разработка): Opus 4.6 — 80,8% vs Gemini — 80,6% (статистическая ничья)
- LiveCodeBench Pro (алгоритмы): Gemini лидирует — 2887 Elo vs 2393 у GPT-5.2
- Terminal-Bench 2.0 (терминальные процессы): GPT-5.3-Codex — 77,3% vs 68,5% у Gemini
- SWE-Bench Pro (продвинутая инженерия): GPT-5.3-Codex — 56,8% vs 54,2% у Gemini
- ✅ Строите продакшен-системы с бюджетом на API
- ✅ Нужны многошаговые агентные процессы
- ✅ Задачи в математике, науке, алгоритмическом кодинге
- ✅ Важен стабильный 1 млн токенов контекста
- ✅ Нужна генерация SVG и визуальных элементов
- ✅ Ответы попадают напрямую к клиентам и стейкхолдерам
- ✅ Работаете в сфере финансов, права, консалтинга
- ✅ Критически важна точность при работе с огромными документами
- ✅ Нужна высокая пользовательская оценка качества текста
- ✅ Основная работа — в терминале: управление зависимостями, сборки, DevOps
Gemini 3.1 Pro в 6,5 раз дешевле Claude Opus 4.6, при этом лидирует в большинстве бенчмарков. Но правильное сравнение — не доллар за токен, а доллар за корректно завершённую задачу. Если Opus 4.6 требует меньше итераций и доработок в экспертных задачах — его итоговая стоимость может оказаться ниже.
Умные команды уже сейчас комбинируют модели: рутинные задачи и агентные цепочки — на Gemini, финальная коммуникация с клиентами — на Claude.
Февраль 2026 закрепил главный тренд: у ИИ больше нет одного чемпиона — есть специализация. Регулируемая глубина мышления становится новым стандартом. Anthropic, вероятно, уже готовит ответный ход. Гонка продолжается.
А вы какую модель используете в своих проектах? Делитесь опытом в комментариях — особенно интересно услышать от команд, которые уже строят AI-продукты здесь, в Казахстане! 👇
Тэги: #AI #MachineLearning #ProductDevelopment #Tech #AstanaHub #Innovation #Gemini #Claude #LLM
За две недели февраля 2026 года искусственный интеллект пережил настоящую перезагрузку. 5 февраля Anthropic выпустил Claude Opus 4.6, а 19 февраля Google ответил Gemini 3.1 Pro — и расклад сил в индустрии изменился. Если вы строите AI-продукт, используете нейросети в работе или просто следите за трендами — этот разбор для вас.
- Gemini 3.1 Pro лидирует в 12 из 18 ключевых бенчмарков, показал 77,1% в тесте ARC-AGI-2 (был 31,1%), стоит в 6,5 раз дешевле Claude Opus 4.6
- Claude Opus 4.6 доминирует в экспертных задачах: 1606 Elo в GDPval-AA (финансы, право), №1 в LMArena по пользовательским предпочтениям
- Оба игрока ввели регулируемую глубину мышления — теперь можно управлять балансом скорость/качество на уровне каждого запроса
Google сделала ставку не на новое поколение, а на точечное, но мощное обновление. И это сработало:
| Тест | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
| ARC-AGI-2 (новая логика) | 77,1% | 68,8% | — |
| Humanity's Last Exam | 44,4% | 40,0% | 34,5% |
| GPQA Diamond (наука) | 94,3% | 91,3% | 92,4% |
| MMLU (общие знания) | 92,6% | 91,1% | — |
| APEX-Agents (агентные задачи) | 33,5% | 29,8% | — |
| GDPval-AA (финансы, право) | 1317 Elo | 1606 Elo | — |
| LMArena (выбор пользователей) | ~1500 | 1504 | — |
Важный нюанс: лидерство в бенчмарках и в пользовательских предпочтениях — это разные вещи. Gemini побеждает по цифрам, Claude — по тому, как его воспринимают живые люди.
- Прорыв в рассуждении: +46 процентных пунктов в ARC-AGI-2 — крупнейший прирост за одно поколение в истории больших моделей
- SVG-анимации: генерирует готовые интерактивные веб-элементы прямо из текстового описания — экономит часы работы разработчика
- 3 уровня мышления (Low / Medium / High): практика показывает, что 80% запросов закрывается на Low/Medium, что снижает затраты на API на 50–70%
- Контекстное окно 1 млн токенов в стабильной версии (GA)
- Снижение галлюцинаций на 38 пп. по сравнению с Gemini 3 Pro
- Цена: $2 / $12 за миллион токенов
- Адаптивное мышление с 4 уровнями: модель сама решает, насколько глубоко думать в рамках выбранного потолка
- Точность при работе с большим контекстом: 76% в поиске данных по 1 млн токенов (у конкурентов — 18,5%) — победа над "потерей в середине"
- Лучший в экспертных задачах: финансовое моделирование, юридический анализ, исследовательская аналитика
- Команды агентов: параллельное выполнение подзадач
- Тонкая работа с инструментами: модель лучше понимает когда применять внешний инструмент и как интерпретировать результат
- Контекстное окно 1 млн токенов в бета-режиме (по умолчанию 200K)
Именно в программировании история "одной лучшей модели" разрушается наиболее наглядно:
- SWE-Bench Verified (реальная разработка): Opus 4.6 — 80,8% vs Gemini — 80,6% (статистическая ничья)
- LiveCodeBench Pro (алгоритмы): Gemini лидирует — 2887 Elo vs 2393 у GPT-5.2
- Terminal-Bench 2.0 (терминальные процессы): GPT-5.3-Codex — 77,3% vs 68,5% у Gemini
- SWE-Bench Pro (продвинутая инженерия): GPT-5.3-Codex — 56,8% vs 54,2% у Gemini
- ✅ Строите продакшен-системы с бюджетом на API
- ✅ Нужны многошаговые агентные процессы
- ✅ Задачи в математике, науке, алгоритмическом кодинге
- ✅ Важен стабильный 1 млн токенов контекста
- ✅ Нужна генерация SVG и визуальных элементов
- ✅ Ответы попадают напрямую к клиентам и стейкхолдерам
- ✅ Работаете в сфере финансов, права, консалтинга
- ✅ Критически важна точность при работе с огромными документами
- ✅ Нужна высокая пользовательская оценка качества текста
- ✅ Основная работа — в терминале: управление зависимостями, сборки, DevOps
Gemini 3.1 Pro в 6,5 раз дешевле Claude Opus 4.6, при этом лидирует в большинстве бенчмарков. Но правильное сравнение — не доллар за токен, а доллар за корректно завершённую задачу. Если Opus 4.6 требует меньше итераций и доработок в экспертных задачах — его итоговая стоимость может оказаться ниже.
Умные команды уже сейчас комбинируют модели: рутинные задачи и агентные цепочки — на Gemini, финальная коммуникация с клиентами — на Claude.
Февраль 2026 закрепил главный тренд: у ИИ больше нет одного чемпиона — есть специализация. Регулируемая глубина мышления становится новым стандартом. Anthropic, вероятно, уже готовит ответный ход. Гонка продолжается.
А вы какую модель используете в своих проектах? Делитесь опытом в комментариях — особенно интересно услышать от команд, которые уже строят AI-продукты здесь, в Казахстане! 👇