GPT-5.4
GPT-5.4 — новейшая передовая модель OpenAI, объединяющая линейки Codex и GPT в единую систему. Она поддерживает контекстное окно свыше 1 миллиона токенов (922 тыс. токенов на входе и 128 тыс. токенов на выходе), а также работу с текстовыми и графическими входными данными, что позволяет выполнять рассуждения на длинном контексте, программирование и мультимодальный анализ в рамках единого рабочего процесса. Модель демонстрирует улучшенные результаты в программировании, понимании документов, использовании инструментов и следовании инструкциям. Она разработана как мощный универсальный вариант по умолчанию как для задач общего назначения, так и для разработки программного обеспечения, способный генерировать код промышленного качества, синтезировать информацию из множества источников и выполнять сложные многошаговые процессы с меньшим числом итераций и более высокой эффективностью использования токенов.
Gemini 3 Flash Preview
Gemini 3 Flash Preview — это очень быстрая и эффективная модель с поддержкой рассуждений, предназначенная для агентных сценариев, многошаговых диалогов и помощи в программировании. Она обеспечивает уровень рассуждений и работы с инструментами, близкий к версии Pro, при значительно меньшей задержке по сравнению с более крупными моделями Gemini. Благодаря этому модель хорошо подходит для интерактивной разработки, длительных агентных циклов и совместной работы над кодом. По сравнению с Gemini 2.5 Flash она демонстрирует заметные улучшения качества в области рассуждений, мультимодального понимания и надёжности. Модель поддерживает контекстное окно объёмом до 1 млн токенов и мультимодальные входные данные, включая текст, изображения, аудио, видео и PDF-файлы, с текстовым выводом. В неё входят настраиваемые уровни рассуждений (минимальный, низкий, средний, высокий), поддержка структурированного вывода, работа с инструментами и автоматическое кэширование контекста. Gemini 3 Flash Preview оптимизирована для пользователей, которым требуется сильное логическое мышление и агентное поведение без затрат и задержек, характерных для полноразмерных передовых моделей.
Claude Opus 4.6
Opus 4.6 — самый мощный модельный продукт Anthropic для задач программирования и длительной профессиональной работы. Он создан для агентных сценариев, охватывающих целые рабочие процессы, а не отдельные запросы, что делает его особенно эффективным при работе с крупными кодовыми базами, сложными рефакторингами и многошаговой отладкой, разворачивающейся во времени. По сравнению с предыдущими поколениями модель демонстрирует более глубокое понимание контекста, более сильную декомпозицию задач и более высокую надёжность при решении сложных инженерных проблем. Помимо программирования, Opus 4.6 отлично подходит для продолжительной интеллектуальной работы. Он способен за один проход создавать документы, планы и аналитические материалы, близкие к продакшн-уровню, и сохранять связность и целостность на протяжении очень длинных ответов и продолжительных сессий. Это делает его сильным выбором «по умолчанию» для задач, требующих устойчивости, взвешенных решений и доведения работы до результата — таких как техническое проектирование, планирование миграций и сквозная реализация проектов.
Claude Opus 4.5
Claude Opus 4.5 — это передовая модель рассуждений от Anthropic, оптимизированная для сложной разработки ПО, агентских сценариев и длительного взаимодействия с компьютером. Она обладает сильными мультимодальными возможностями, демонстрирует конкурентные результаты в практических задачах программирования и рассуждений, а также лучше защищена от prompt-инъекций. Модель спроектирована так, чтобы эффективно работать при разном уровне вычислительных затрат, позволяя разработчикам балансировать между скоростью, глубиной анализа и расходом токенов в зависимости от задачи. В ней появился новый параметр для управления токенной эффективностью, доступный через параметр Verbosity в OpenRouter (значения: low, medium, high). Opus 4.5 поддерживает продвинутую работу с инструментами, управление расширенным контекстом и согласованную работу нескольких агентов, что делает её подходящей для автономных исследований, отладки, многошагового планирования, а также манипуляций с таблицами или браузером. Модель обеспечивает значительный рост качества структурных рассуждений, стабильности выполнения и соответствия намерениям пользователя по сравнению с предыдущими поколениями Opus, снижает накладные расходы на токены и улучшает эффективность при длительных вычислительных задачах.
Gemini 3.1 Pro Preview
Gemini 3.1 Pro Preview — это передовая рассуждающая модель Google, обеспечивающая улучшенную производительность в инженерии ПО, более надёжную работу агентов и более эффективное расходование токенов в рамках сложных рабочих процессов. Развивая мультимодальную основу серии Gemini 3, она сочетает высокоточную способность к рассуждению при работе с текстом, изображениями, видео, аудио и кодом с контекстным окном на 1 млн токенов. При многошаговых вызовах инструментов (multi-turn tool calling) необходимо сохранять Reasoning Details (детали рассуждения) — см. нашу документацию. Обновление 3.1 приносит измеримые улучшения в SWE-бенчмарках и в реальных средах разработки, а также усиливает автономное выполнение задач в структурированных доменах, таких как финансы и процессы на базе электронных таблиц. Созданная для продвинутой разработки и агентных систем, Gemini 3.1 Pro Preview повышает стабильность на длинных горизонтах и качество оркестрации инструментов, одновременно увеличивая токенную эффективность. В ней появляется новый средний уровень “thinking”, который помогает лучше сбалансировать стоимость, скорость и производительность. Модель особенно сильна в агентном программировании, структурированном планировании, мультимодальном анализе и автоматизации рабочих процессов, поэтому хорошо подходит для автономных агентов, финансового моделирования, автоматизации электронных таблиц и высококонтекстных корпоративных задач.
Kimi K2.5
Kimi K2.5 — нативная мультимодальная модель Moonshot AI, обеспечивающая передовые возможности визуального кодинга и реализующая парадигму самоорганизующегося роя агентов. Построенная на базе Kimi K2 и дополнительно дообученная на примерно **15 трлн смешанных визуальных и текстовых токенов**, она демонстрирует высокую производительность в задачах общего рассуждения, визуального программирования и агентного вызова инструментов.
GLM 5
Gemini 3 Pro Preview
Gemini 3 Pro — флагманская передовая модель Google для высокоточного мультимодального рассуждения. Она сочетает высокую производительность при работе с текстом, изображениями, видео, аудио и кодом с контекстным окном на 1 млн токенов. Модель демонстрирует выдающиеся результаты в бенчмарках по общему рассуждению, решению STEM-задач, фактологическому вопрос-ответу и мультимодальному пониманию, включая лидирующие показатели в LMArena, GPQA Diamond, MathArena Apex, MMMU-Pro и Video-MMMU. Gemini 3 Pro обеспечивает надёжный вызов инструментов, устойчивость при долгосрочном планировании и сильную zero-shot-генерацию для сложных задач. Модель эффективна в агентном программировании (SWE-Bench Verified, Terminal-Bench 2.0), мультимодальном анализе и решении структурированных задач с большим объёмом информации — таких как исследовательский синтез, планирование и интерактивные обучающие сценарии.
Claude Sonnet 4.6
Sonnet 4.6 — самая мощная модель класса Sonnet от Anthropic на сегодняшний день, демонстрирующая передовые результаты в программировании, агентных сценариях и профессиональной работе. Она превосходно справляется с итеративной разработкой, навигацией по сложным кодовым базам, управлением проектами «под ключ» с использованием памяти, созданием качественно оформленных документов, а также уверенной работой с компьютером для задач веб-тестирования (QA) и автоматизации рабочих процессов.
Claude Sonnet 4.5
Claude Sonnet 4.5 — самая продвинутая на сегодняшний день модель серии Sonnet от Anthropic, оптимизированная для работы с реальными агентами и задачами разработки кода. Она демонстрирует передовые результаты на бенчмарках по программированию, таких как SWE-bench Verified, благодаря усовершенствованиям в системном дизайне, безопасности кода и соблюдении спецификаций. Модель рассчитана на длительную автономную работу: она сохраняет непрерывность задач между сессиями и предоставляет объективное отслеживание прогресса. Sonnet 4.5 также вводит расширенные агентные возможности: улучшенную оркестрацию инструментов, спекулятивное параллельное выполнение и более эффективное управление контекстом и памятью. Благодаря продвинутому трекингу контекста и учёту использования токенов при вызовах инструментов модель особенно хорошо подходит для многоконтекстных и длительных рабочих процессов. Сценарии применения включают разработку ПО, кибербезопасность, финансовый анализ, исследовательских агентов и другие области, требующие непрерывного рассуждения и активного использования инструментов.
GPT-5.1-Codex-Mini
GPT-5.1 — это новейшая передовая модель в линейке GPT-5. Она обеспечивает более сильные универсальные способности к решению задач, лучше следует инструкциям и звучит естественнее в диалогах по сравнению с GPT-5. Модель использует адаптивное вычисление: быстро отвечает на простые запросы и углубляет рассуждения там, где задача сложнее. Объяснения стали более понятными и приземлёнными, с меньшим количеством жаргона — текст легче воспринимать даже в технических или многошаговых задачах. Созданный для широкого спектра задач, GPT-5.1 показывает стабильный прирост качества в математике, программировании и структурированном анализе. Ответы в длинной форме стали более связными, а надежность использования инструментов повысилась. Улучшена и диалоговая адаптация — модель отвечает теплее и интуитивнее, не теряя точности. GPT-5.1 выступает основным полнофункциональным преемником GPT-5.
GPT-5.1-Codex
GPT-5.1-Codex-Mini — это уменьшенная и более быстрая версия модели GPT-5.1-Codex.
GPT-5.1 Chat
GPT-5.1 Chat (он же Instant) — это быстрый и лёгкий представитель семейства 5.1, оптимизированный для низкой задержки в диалогах при сохранении высокой общей интеллектуальности. Модель использует адаптивное рассуждение, «углубляясь» только в сложные запросы, что повышает точность в математике, программировании и многошаговых задачах, не замедляя обычные беседы. По умолчанию GPT-5.1 Chat звучит теплее и более разговорно, лучше следует инструкциям и стабильнее рассуждает в коротких форматах. Модель создана для сценариев с высокой нагрузкой и интерактивностью, где важнее скорость и предсказуемость, чем глубокая длительная проработка.
Grok Code Fast 1
Grok Code Fast 1 — это быстрая и экономичная модель рассуждения, прекрасно справляющаяся с агентным кодированием. Благодаря тому, что ход рассуждений отображается в ответах, разработчики могут точно направлять её для создания высококачественных рабочих процессов.
MiniMax M2
MiniMax-M2 — компактная и высокоэффективная большая языковая модель, оптимизированная для сквозного кодирования и агентных рабочих процессов. В модели задействовано 10 млрд активированных параметров (230 млрд всего), что обеспечивает практически передовой уровень интеллекта в задачах общего рассуждения, использования инструментов и выполнения многоэтапных операций при низкой задержке и эффективном развёртывании. Модель превосходно справляется с генерацией кода, редактированием нескольких файлов, циклами «компиляция–запуск–исправление» и исправлением по результатам тестов, демонстрируя впечатляющие результаты на SWE-Bench Verified, Multi-SWE-Bench и Terminal-Bench. Она также конкурентоспособна в агентных бенчмарках, таких как BrowseComp и GAIA, эффективно решая задачи долгосрочного планирования, поиска информации и восстановления после ошибок выполнения. По данным [Artificial Analysis](https://artificialanalysis.ai/models/minimax-m2), MiniMax-M2 входит в число лучших открытых моделей по комплексному интеллекту в областях математики, естественных наук и работы с инструкциями. Благодаря небольшому объёму активируемой памяти модель обеспечивает быструю генерацию, высокую степень параллелизма и улучшенную рентабельность, что делает её отличным выбором для масштабных агентов, помощников разработчиков и приложений, требующих быстрого отклика и оптимизации затрат. Чтобы не снижать производительность, MiniMax настоятельно рекомендует сохранять рассуждения между шагами. Подробнее об использовании параметра reasoning_details для передачи блоков рассуждений читайте в нашей [документации](https://openrouter.ai/docs/use-cases/reasoning-tokens#preserving-reasoning-blocks).
Grok 4.1 Fast
Grok 4.1 Fast — лучшая модель вызова агентских инструментов xAI, которая отлично подходит для реальных задач, таких как поддержка клиентов и глубокие исследования. Контекстное окно размером 2М.
Nano Banana Pro (Gemini 3 Pro Image Preview)
Nano Banana Pro — это наиболее продвинутая модель Google для генерации и редактирования изображений, созданная на базе Gemini 3 Pro. Она развивает возможности оригинальной Nano Banana, предлагая значительно улучшенное мультимодальное рассуждение, более точное соответствие реальным объектам и высокую визуальную достоверность. Модель формирует насыщенные контекстом изображения — от инфографики и схем до кинематографичных композиций — и может использовать актуальные данные.
GPT-5.2
GPT-5.2 - это новейшая модель передового уровня в семействе GPT-5, обеспечивающая более высокую агентность и улучшенную работу с длинным контекстом по сравнению с GPT-5.1. Она использует адаптивное рассуждение для динамического распределения вычислительных ресурсов: быстро отвечает на простые запросы и углубляет вычисления при выполнении более сложных задач. Созданная для широкого спектра задач, GPT-5.2 демонстрирует стабильный прирост качества в математике, программировании, науке и сценариях с использованием инструментов. Модель формирует более связные развёрнутые ответы и обеспечивает повышенную надёжность при работе с внешними инструментами.
GPT-5.4 Pro
GPT-5.4 Pro — самая продвинутая модель OpenAI, развивающая единую архитектуру GPT-5.4 и обладающая расширенными возможностями рассуждения для решения сложных и высокоответственных задач. Она поддерживает контекстное окно свыше 1 миллиона токенов (922 тыс. токенов на входе и 128 тыс. токенов на выходе), а также работу с текстовыми и графическими входными данными. Оптимизированная для пошагового рассуждения, точного следования инструкциям и высокой точности, GPT-5.4 Pro особенно хорошо проявляет себя в агентном программировании, работе с длинным контекстом и решении многошаговых задач.
Nano Banana 2 (Gemini 3.1 Flash Image Preview)
Gemini 3.1 Flash Image Preview, также известная как «Nano Banana 2», — это новейшая современная модель Google для генерации и редактирования изображений, обеспечивающая визуальное качество уровня Pro при скорости Flash. Она сочетает продвинутое контекстное понимание с быстрым и экономичным инференсом, благодаря чему сложная генерация изображений и итеративное внесение правок становятся значительно более доступными. Соотношением сторон можно управлять с помощью параметра API image_config.
Text Moderation Latest
Модерация текста с помощью OpenAI Moderation API
Omni Moderation Latest
Модерация текста и изображений с помощью OpenAI Moderation API
MiniMax M2.5
MiniMax-M2.5 — это передовая (SOTA) большая языковая модель, созданная для реальной продуктивной работы. Обученная на широком спектре сложных реальных цифровых рабочих сред, M2.5 развивает инженерные и кодинговые компетенции M2.1 и расширяет их на общие офисные задачи, достигая «свободного владения» созданием и выполнением операций с файлами Word, Excel и PowerPoint, переключением контекста между различными программными средами, а также работой в связке с агентами и человеческими командами. Набирая 80,2% на SWE-Bench Verified, 51,3% на Multi-SWE-Bench и 76,3% на BrowseComp, M2.5 также эффективнее расходует токены по сравнению с предыдущими поколениями: в ходе обучения модель была ориентирована на оптимизацию своих действий и выходных данных за счёт планирования.
Qwen3 Max Thinking
Trinity Large Preview (free)
Trinity-Large-Preview — это крупномасштабная, передовая языковая модель с открытыми весами от Arcee, построенная как разреженная Mixture-of-Experts на 400 млрд параметров, где на один токен активно задействуется 13 млрд параметров благодаря маршрутизации 4 из 256 экспертов. Модель особенно сильна в творческом письме, сторителлинге, ролевых сценариях, чат-взаимодействии и ассистировании в реальном времени с голосом — зачастую лучше, чем это обычно получается у «средней» модели, ориентированной на рассуждения. При этом мы также добавляем ряд наших более новых агентных возможностей. Trinity-Large-Preview обучали уверенно работать в агентных средах (harness) вроде OpenCode, Cline и Kilo Code, а также справляться со сложными инструментальными цепочками и длинными, насыщенными ограничениями промптами. Архитектура нативно поддерживает очень большие контекстные окна — до 512 тысяч токенов. При этом Preview API сейчас доступен с контекстом 128 тысяч токенов и 8-битной квантизацией, что делает развертывание на практике более реалистичным. Trinity-Large-Preview отражает философию Arcee «сначала эффективность»: это ориентированная на продакшен передовая модель с открытыми весами и либеральной лицензией, подходящая для реальных прикладных сценариев и экспериментов.
MiniMax M2-her
MiniMax M2-her — это крупная языковая модель, ориентированная в первую очередь на диалог, созданная для иммерсивного ролевого взаимодействия, чатов с ярко выраженными персонажами и выразительных многоходовых бесед. Спроектированная для сохранения последовательного тона и характера, она поддерживает расширенные роли сообщений (user_system, group, sample_message_user, sample_message_ai) и способна обучаться на примерах диалогов, чтобы точнее воспроизводить стиль и темп конкретного сценария. Благодаря этому модель хорошо подходит для сторителлинга, виртуальных компаньонов и разговорных приложений, где наибольшее значение имеют естественность общения и насыщенное, живое взаимодействие.
Palmyra X5
Palmyra X5 — самая продвинутая модель Writer, специально созданная для разработки и масштабирования ИИ-агентов в масштабе всей компании. Она обеспечивает ведущие в отрасли скорость и эффективность при работе с контекстными окнами объёмом до 1 миллиона токенов благодаря новой архитектуре трансформера и гибридным механизмам внимания. Это позволяет ускорить инференс и расширить контекст при обработке больших объёмов корпоративных данных, что критически важно для масштабирования ИИ-агентов.
GLM 4.7 Flash
GLM-4.7-Flash, будучи передовой моделью класса 30B (SOTA), предлагает новый вариант, сочетающий высокую производительность и эффективность. Она дополнительно оптимизирована под агентные сценарии в программировании, усиливая способности к написанию кода, долгосрочному планированию задач и взаимодействию с инструментами, и продемонстрировала лидирующие результаты среди open-source моделей сопоставимого размера в ряде актуальных публичных бенчмарк-лидербордов.
GPT Audio Mini
Более экономичная версия GPT Audio. Новый снэпшот включает улучшенный декодер, обеспечивающий более естественное звучание голосов, и сохраняет более стабильную консистентность голоса.
GPT Audio
Модель gpt-audio — первая общедоступная аудиомодель OpenAI. Новый снэпшот включает улучшенный декодер, обеспечивающий более естественное звучание голосов, и поддерживает более стабильную консистентность голоса.
Qwen3 Next 80B A3B Instruct (free)
Qwen3-Next-80B-A3B-Instruct — чат-модель серии Qwen3-Next, дообученная под следование инструкциям и оптимизированная для быстрых, стабильных ответов без отображения следов размышления. Она нацелена на сложные задачи в области рассуждений, генерации кода, ответов на вопросы по знаниям и многоязычного общения, сохраняя устойчивость по части согласованности (alignment) и форматирования. По сравнению с предыдущими instruct-вариантами Qwen3 акцент сделан на более высокой пропускной способности и стабильности при сверхдлинных входах и многоходовых диалогах, что делает модель хорошо подходящей для RAG, работы с инструментами и агентных сценариев, где важны последовательные финальные ответы, а не видимая цепочка рассуждений. Модель использует масштабируемо-эффективные подходы к обучению и декодированию, чтобы повысить параметрическую эффективность и скорость инференса, и была проверена на широком наборе публичных бенчмарков: по ряду категорий она достигает или приближается к более крупным системам Qwen3, одновременно превосходя более ранние базовые модели среднего размера. Оптимальный сценарий использования — универсальный ассистент, помощник для разработки и решение задач с длинным контекстом в продакшене, где предпочтительны детерминированные ответы и строгое следование инструкциям.
MiMo-V2-Flash
MiMo-V2-Flash — открытая базовая языковая модель, разработанная компанией Xiaomi. Это модель типа Mixture-of-Experts (MoE) с 309 млрд общих параметров и 15 млрд активных параметров, использующая гибридную архитектуру внимания. MiMo-V2-Flash поддерживает переключатель гибридного мышления и контекстное окно до 256 тыс. токенов, а также особенно сильна в задачах рассуждения, написания кода и агентных сценариях. На бенчмарках SWE-bench Verified и SWE-bench Multilingual MiMo-V2-Flash занимает первое место среди open-source моделей в мире, демонстрируя производительность, сопоставимую с Claude Sonnet 4.5, при стоимости примерно в 3,5% от неё. Пользователи могут управлять поведением рассуждения с помощью булевого параметра reasoning enabled.
GPT-5.2-Codex
GPT-5.2-Codex — обновлённая версия GPT-5.1-Codex, оптимизированная для задач программной инженерии и рабочих процессов разработки. Она рассчитана как на интерактивные сессии разработки, так и на длительное самостоятельное выполнение сложных инженерных задач. Модель поддерживает создание проектов с нуля, разработку функциональности, отладку, масштабный рефакторинг и ревью кода. По сравнению с GPT-5.1-Codex, версия 5.2-Codex лучше управляется, точнее следует инструкциям разработчика и выдаёт более чистый и качественный код. Уровень усилия на рассуждение можно настраивать через параметр `reasoning.effort`. Codex интегрируется в среды разработки, включая CLI, расширения для IDE, GitHub и облачные задачи. Он динамически адаптирует глубину рассуждений: быстро отвечает на небольшие запросы и при этом способен поддерживать продолжительные, многочасовые прогоны для крупных проектов. Модель обучена выполнять структурированное ревью кода, выявляя критические проблемы за счёт анализа зависимостей и проверки поведения по тестам. Также она поддерживает мультимодальные входные данные (например, изображения или скриншоты) для UI-разработки и умеет использовать инструменты для поиска, установки зависимостей и настройки окружения. Codex предназначен специально для агентных сценариев программирования.
GLM 4.7
GLM-4.7 — это новейшая флагманская модель Z.AI, в которой реализованы улучшения по двум ключевым направлениям: расширенные возможности программирования и более стабильное многошаговое рассуждение и выполнение задач. Модель демонстрирует заметный прогресс в выполнении сложных агентных сценариев, обеспечивая при этом более естественное диалоговое взаимодействие и более высокое качество пользовательского интерфейса.
MiniMax M2.1
MiniMax-M2.1 — это лёгкая, передовая большая языковая модель, оптимизированная для программирования, агентных workflow и разработки современных приложений. Имея всего 10 млрд активированных параметров, она обеспечивает существенный скачок в прикладных возможностях при сохранении выдающихся показателей задержки, масштабируемости и экономической эффективности. По сравнению с предыдущей версией M2.1 выдаёт более чистые и лаконичные ответы, а также обеспечивает более высокую субъективную скорость отклика. Модель демонстрирует лидирующие результаты в многоязычном программировании на основных платформах и языках разработки, достигая 49,4 % на Multi-SWE-Bench и 72,5 % на SWE-Bench Multilingual, и может выступать универсальным «мозгом» агента для IDE, инструментов разработки и задач общего назначения.
GPT-5.2 Pro
GPT-5.2 Pro — это самая продвинутая модель OpenAI, обеспечивающая значительные улучшения в агентном программировании и работе с длинным контекстом по сравнению с GPT-5 Pro. Модель оптимизирована для сложных задач, требующих пошагового рассуждения, точного следования инструкциям и высокой точности в критически важных сценариях использования. Она поддерживает функции маршрутизации на этапе выполнения (test-time routing) и расширенное понимание промптов, включая заданное пользователем намерение, например «подумай над этим максимально глубоко». Среди улучшений — снижение уровня галлюцинаций и подхалимства (sycophancy), а также более высокая производительность в задачах программирования, написания текстов и в области здравоохранения.
GPT-5.2 Chat
GPT-5.2 Chat (он же Instant) — это быстрый и легковесный представитель семейства 5.2, оптимизированный для чата с низкой задержкой при сохранении мощного общего интеллекта. Он использует адаптивное рассуждение для избирательного мышления над более сложными запросами, повышая точность в математике, программировании и многоэтапных задачах, не замедляя типичные разговоры. Модель по умолчанию теплее и разговорчивее, с улучшенным следованием инструкциям и более стабильным краткосрочным рассуждением. GPT-5.2 Chat предназначен для высокопроизводительных интерактивных нагрузок, где отзывчивость и последовательность важнее глубокого обдумывания.
GLM 4.6V
GLM-4.6V — это крупная мультимодальная модель, ориентированная на высокоточное визуальное распознавание и длительное контекстное рассуждение по изображениям, документам и смешанным медиаформатам. Она поддерживает контекст до 128 000 токенов, напрямую обрабатывает сложные макеты страниц и графики как визуальные входные данные, а также включает нативные мультимодальные вызовы функций, связывающие восприятие с выполнением последующих инструментов. Модель также поддерживает чередующуюся генерацию изображений и текста и рабочие процессы по реконструкции пользовательских интерфейсов — включая преобразование скриншотов в HTML и итеративное визуальное редактирование.
gpt-oss-120b (free)
gpt-oss-120b — языковая модель Mixture-of-Experts (MoE) от OpenAI с открытыми весами и 117 млрд параметров, разработанная для сложных рассуждений, автономного выполнения задач и универсального промышленного применения. При каждом прямом проходе активируется 5,1 млрд параметров. Модель оптимизирована для работы на одном GPU NVIDIA H100 с нативной квантизацией MXFP4. Она поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке рассуждений и встроенное использование инструментов, включая вызов функций, веб-обход и генерацию структурированного вывода.
GPT-5.1-Codex-Max
GPT-5.1-Codex-Max — это новейшая агентная модель программирования от OpenAI, разработанная для длительных и высококонтекстных задач в области разработки ПО. Она построена на обновлённой версии вычислительного стека 5.1 и обучена на агентных workflow, охватывающих программную инженерию, математику и исследовательские задачи. GPT-5.1-Codex-Max обеспечивает более высокую скорость работы, улучшенные способности к рассуждению и повышенную эффективность использования токенов на всех этапах разработки.
Cogito v2.1 671B
Cogito v2.1 671B MoE — одна из самых мощных открытых моделей в мире, сопоставимая по качеству с ведущими закрытыми и открытыми фронтир-моделями. Она обучена методом self-play с использованием обучения с подкреплением, что позволило ей достичь передовых результатов в ряде категорий: следование инструкциям, программирование, работа с длинными запросами и творческое письмо. Эта продвинутая система демонстрирует значимый шаг вперёд в направлении масштабируемого сверхинтеллекта благодаря последовательному улучшению политики обучения.
bge-m3
Модель эмбеддингов bge-m3 преобразует предложения, абзацы и длинные документы в плотные векторы размерностью 1024, обеспечивая высококачественные семантические представления. Она оптимизирована для многоязычного поиска, семантического ретривала и задач, работающих с большим контекстом.
bge-large-en-v1.5
Модель эмбеддингов bge-large-en-v1.5 преобразует английские предложения, абзацы и документы в плотные векторы размерностью 1024, обеспечивая высокоточные семантические представления. Она оптимизирована для семантического поиска, извлечения документов и последующих NLP-задач на английском языке.
multi-qa-mpnet-base-dot-v1
Модель эмбеддингов multi-qa-mpnet-base-dot-v1 преобразует предложения и короткие абзацы в плотные векторы размерностью 768, обеспечивая высококачественные семантические представления. Она оптимизирована для задач извлечения ответов на вопросы, семантического поиска и оценки сходства в широком спектре контента.
bge-base-en-v1.5
Модель эмбеддингов bge-base-en-v1.5 преобразует английские предложения и абзацы в плотные векторы размерностью 768, обеспечивая эффективные и высококачественные семантические представления. Она оптимизирована для ретривала, семантического поиска и сопоставления документов. Версия v1.5 отличается улучшенным распределением оценок сходства и повышенной точностью извлечения «из коробки».
all-MiniLM-L12-v2
Модель эмбеддингов all-MiniLM-L12-v2 преобразует предложения и короткие абзацы в плотные векторы размерностью 384, создавая компактные и качественные семантические представления. Она оптимизирована для семантического поиска, кластеризации и оценки сходства.
Qwen3 Embedding 4B
Серия Qwen3 Embedding — это новейшие проприетарные модели семейства Qwen, специально разработанные для задач текстовых эмбеддингов и ранжирования. Они унаследовали сильные многоязычные возможности, глубокое понимание длинных текстов и развитые способности к рассуждению от базовой модели. Линейка Qwen3 Embedding демонстрирует значительный прогресс в задачах текстового и кодового ретривала, классификации, кластеризации и двуязычного поиска соответствий.
Qwen3 Embedding 8B
Серия моделей Qwen3 Embedding — новейшая проприетарная линия в семействе Qwen, специально созданная для задач текстовых эмбеддингов и ранжирования. Эти модели унаследовали от базовой архитектуры выдающиеся многоязычные возможности, глубокое понимание длинных текстов и развитые навыки рассуждения. Линейка Qwen3 Embedding демонстрирует серьёзный прогресс в задачах текстового и кодового ретривала, классификации, кластеризации и двуязычного сопоставления.
Text Embedding 3 Small
Text Embedding Ada 002
text-embedding-ada-002 — устаревшая модель эмбеддингов текста от OpenAI.
Gemini Embedding 001
Модель gemini-embedding-001 обеспечивает единый передовой уровень качества для различных доменов — науки, юриспруденции, финансов и программирования. Она стабильно занимает лидирующие позиции в многоязычном рейтинге Massive Text Embedding Benchmark (MTEB) с момента экспериментального запуска в марте.
GPT-5.1
GPT-5.1 — это новейшая передовая модель в линейке GPT-5. Она обеспечивает более мощные универсальные способности к рассуждению, лучше следует инструкциям и звучит естественнее в беседе по сравнению с GPT-5. Модель использует адаптивный подход к вычислениям: быстро отвечает на простые запросы и углубляет логику там, где задача сложная. Объяснения стали яснее и понятнее, с минимумом жаргона — даже технические и многошаговые задачи теперь легче воспринимать. Созданная для широкого спектра задач, GPT-5.1 демонстрирует устойчивый рост качества в математике, программировании и структурированном анализе. Ответы в длинной форме стали значительно более связными, а работа с инструментами — надёжнее. Улучшена и диалоговая адаптация: модель отвечает теплее и интуитивнее, не теряя точности. GPT-5.1 является основным полнофункциональным преемником GPT-5.
Llama 3.1 70B Hanami x1
Это эксперимент [Sao10K](/sao10k) на основе [Euryale v2.2](/sao10k/l3.1-euryale-70b).
o4 Mini
OpenAI o4-mini — компактная модель рассуждений из серии o, оптимизированная для быстрой и экономичной работы при сохранении мощных мультимодальных и агентных возможностей. Она поддерживает использование внешних инструментов и демонстрирует конкурентоспособные результаты в задачах логического вывода и программирования по таким бенчмаркам, как AIME (99,5 % при работе с Python) и SWE-bench, превосходя своего предшественника o3-mini и в ряде областей приближаясь к уровню o3. Несмотря на небольшой размер, o4-mini показывает высокую точность в STEM-задачах, решении визуальных головоломок (например, MathVista, MMMU) и редактировании кода. Модель особенно хорошо подходит для сценариев с высокой нагрузкой, где критичны задержки или стоимость. Благодаря эффективной архитектуре и отточенному обучению с подкреплением o4-mini умеет последовательно использовать инструменты, генерировать структурированные ответы и решать многоэтапные задачи с минимальной задержкой — зачастую менее чем за минуту.
Llama 3.3 Nemotron Super 49B V1.5
Llama-3.3-Nemotron-Super-49B-v1.5 — это модель для рассуждений и чата с 49 млрд параметров, ориентированная на английский язык, созданная на базе Llama-3.3-70B-Instruct от Meta и поддерживающая контекст до 128 000 токенов. Модель дообучена под агентные сценарии (RAG, вызов инструментов) с помощью SFT на задачах по математике, программированию, естественным наукам и многоходовым диалогам, а затем прошла несколько этапов обучения с подкреплением: • Reward-aware Preference Optimization (RPO) для выравнивания поведения • RL с проверяемыми наградами (RLVR) для пошагового рассуждения • итеративный DPO для улучшения использования инструментов Поиск архитектуры, управляемый дистилляцией («Puzzle»), заменяет часть блоков внимания и варьирует ширину FFN, что снижает потребление памяти и повышает пропускную способность, позволяя запускать модель на одном GPU (H100/H200) без потери качества исполнения инструкций и цепочки рассуждений (CoT). Во внутренних тестах (NeMo-Skills, до 16 прогонов, temp=0,6, top_p=0,95) модель демонстрирует высокие результаты в задачах рассуждения и программирования: MATH500 pass@1 = 97,4; AIME-2024 = 87,5; AIME-2025 = 82,71; GPQA = 71,97; LiveCodeBench (24.10–25.02) = 73,58; MMLU-Pro (CoT) = 79,53. Модель оптимизирована для практической эффективности при выводе (высокая скорость токенов в секунду, сниженное потребление видеопамяти), поддерживает Transformers и vLLM, а также предлагает явные режимы «рассуждение вкл./выкл.» (по умолчанию chat-first, при выключенном рассуждении рекомендуется greedy). Подходит для создания интеллектуальных агентов, виртуальных ассистентов и систем поиска с длинным контекстом, где важен баланс между точностью и затратами, а также надёжное использование инструментов.
Gemma 3 4B (free)
DeepSeek V3.1 Terminus (exacto)
GPT-4.1 Mini
GPT-4.1 Mini — это модель среднего размера, демонстрирующая производительность, сопоставимую с GPT-4o, при значительно меньшей задержке и стоимости. Она поддерживает окно контекста размером в один миллион токенов и показывает результаты: 45,1% по сложным инструкциям, 35,8% на MultiChallenge и 84,1% на IFEval. Mini также обладает сильными навыками программирования (например, 31,6% на многоязычном бенчмарке polyglot diff от Aider) и пониманием визуальной информации, что делает её подходящей для интерактивных приложений с жёсткими требованиями к производительности.
LFM2-2.6B
LFM2 — новое поколение гибридных моделей, разработанных компанией Liquid AI и специально ориентированных на периферийный ИИ и развертывание на устройстве. Оно задаёт новый стандарт по качеству, скорости и эффективности использования памяти.
GPT-4O Transcribe
Grok 3 Beta
Grok 3 — новейшая флагманская модель компании xAI. Она отлично подходит для корпоративных задач: извлечения данных, программирования и суммаризации текстов. Модель обладает глубокими знаниями в областях финансов, здравоохранения, юриспруденции и науки. Grok 3 демонстрирует выдающиеся результаты в структурированных задачах и в бенчмарках GPQA, LCB и MMLU-Pro, превосходя Grok 3 Mini даже в задачах, требующих высокого уровня рассуждений. Примечание: для этой модели доступны два эндпоинта xAI. По умолчанию запросы направляются на базовый эндпоинт. Если вам нужен быстрый эндпоинт, добавьте provider: { sort: throughput }, чтобы использовать сортировку по пропускной способности.
Virtuoso Large
Virtuoso-Large — флагманская универсальная языковая модель (LLM) компании Arcee с 72 млрд параметров, оптимизированная для междоменного рассуждения, создания креативного текста и корпоративных систем вопросов-ответов. В отличие от многих аналогичных ~70 млрд-параметричных моделей, она сохраняет контекстную длину 128 тыс. токенов, унаследованную от Qwen 2.5, что позволяет ей целиком обрабатывать книги, репозитории кода и финансовые отчёты. Процесс обучения включает дистилляцию DeepSeek R1, многократную (мульти-эпоховую) донастройку с учителем и финальный этап выравнивания DPO/RLHF, что обеспечивает высокие результаты на наборах BIG-Bench-Hard, GSM-8K и длинноконтекстных тестах «needle-in-haystack». В корпоративных конвейерах Conductor Virtuoso-Large используется в качестве резервного (fallback) «мозга», когда другие специализированные языковые модели (SLM) сигнализируют о низкой уверенности. Несмотря на внушительный размер, благодаря агрессивным оптимизациям KV-кэша задержка генерации первого токена остаётся на уровне нескольких секунд при запуске на 8× H100, что делает модель мощным решением промышленного класса.
Llama 3 70B Instruct
Новая линейка моделей Meta (Llama 3) выпущена в нескольких вариантах по размерам и конфигурациям. Эта версия с 70 млрд параметров, дообученная с использованием инструкций (instruct-tuned), оптимизирована для высококачественных диалоговых сценариев. В человеко-ориентированных оценках она продемонстрировала высокую эффективность по сравнению с ведущими закрытыми моделями. Подробнее о выпуске модели: https://ai.meta.com/blog/meta-llama-3/ Использование этой модели регулируется Политикой приемлемого использования Meta: https://llama.meta.com/llama3/use-policy/
Nemotron Nano 9B V2
NVIDIA-Nemotron-Nano-9B-v2 — это большая языковая модель (LLM) компании NVIDIA, обученная «с нуля» и разработанная как единая модель для задач с рассуждениями и без них. При обработке пользовательских запросов она сначала генерирует цепочку рассуждений, а затем выдаёт окончательный ответ. Параметры вывода промежуточных рассуждений можно регулировать через системную подсказку: если пользователь предпочитает сразу получать только итоговый ответ, модель легко сконфигурировать соответствующим образом.
DeepSeek R1T2 Chimera
DeepSeek-TNG-R1T2-Chimera — модель Chimera второго поколения от TNG Tech. Это модель генерации текста с 671 млрд параметров и архитектурой mixture-of-experts, собранная из контрольных точек DeepSeek-AI (R1-0528, R1 и V3-0324) при помощи механизма Assembly-of-Experts. Трёхкомпонентная архитектура обеспечивает высокую способность к рассуждению, работая примерно на 20 % быстрее оригинальной R1 и более чем вдвое быстрее R1-0528 в среде vLLM, что даёт выгодное соотношение затрат и интеллектуальных возможностей. Контрольная точка поддерживает контексты до 60 000 токенов в стандартном режиме (протестировано до ~130 000) и сохраняет стабильное поведение токена <think>, что делает модель пригодной для анализа длинных контекстов, ведения диалогов и других задач открытой генерации.
ReMM SLERP 13B
Эксперимент по воссозданию оригинальной модели MythoMax-L2-B13 с обновлёнными моделями. #merge
Mistral Large 2411
Mistral Large 2 2411 — это обновление Mistral Large 2, выпущенное вместе с Pixtral Large 2411. Оно представляет собой значительное улучшение по сравнению с предыдущей версией Mistral Large 24.07, с заметными улучшениями в понимании длинного контекста, новой системной подсказкой и более точным вызовом функций.
Qwen3 14B
Qwen3-14B — плотная авторегрессионная языковая модель с 14,8 млрд параметров из серии Qwen3, созданная для сложных рассуждений и эффективного диалога. Модель позволяет бесшовно переключаться между «режимом размышления» для задач вроде математики, программирования и логического вывода и «обычным режимом» для повседневного общения. Она дообучена для выполнения инструкций, работы с инструментами агентов, креативного письма и выполнения мультилингвальных задач более чем на 100 языках и диалектах. Нативно обрабатывает контексты до 32 тыс. токенов и может расширяться до 131 тыс. токенов благодаря масштабированию на основе YaRN.
Llama 3.1 405B Instruct
Долгожданная модель Llama 3 класса 400 млрд параметров уже доступна! С контекстным окном в 128 тыс. токенов и впечатляющими результатами в оценочных тестах команда Meta AI снова расширяет границы открытых LLM. Новое поколение моделей Meta (Llama 3.1) представлено в нескольких размерах и конфигурациях. Эта версия на 405 млрд параметров, обученная по инструкциям, оптимизирована для создания высококачественных диалоговых взаимодействий. В сравнительных тестах она продемонстрировала сильные результаты по сравнению с ведущими закрытыми решениями, такими как GPT-4o и Claude 3.5 Sonnet. Подробнее о выпуске модели — по ссылке: https://ai.meta.com/blog/meta-llama-3-1/ Использование модели регулируется Политикой приемлемого использования Meta: https://llama.meta.com/llama3/use-policy/
Hermes 4 405B
Hermes 4 — масштабная модель рассуждений на основе Meta-Llama-3.1-405B, выпущенная компанией Nous Research. Она вводит гибридный режим рассуждений: модель может либо «думать» внутренне, оставляя метки <think>…</think>, либо сразу выдавать ответ, что позволяет балансировать между глубиной анализа и скоростью отклика. Пользователи могут включать или отключать этот режим с помощью булева параметра reasoning_enabled. Модель прошла инструкционное дообучение на расширенном пост-тренировочном корпусе (около 60 млрд токенов) с акцентом на следы рассуждений. Это улучшает её работу в математике, программировании, STEM (наука, технологии, инженерия и математика) и логических рассуждениях, сохраняя при этом универсальность помощника. Поддерживаются структурированные выходные данные: режим JSON, соответствие заданной схеме, вызов функций и использование внешних инструментов. Hermes 4 оптимизирована для управляемости, характеризуется низким процентом отказов и ориентирована на нейтральное, пользовательско-ориентированное поведение.
Morph V3 Large
Модель Morph, обеспечивающая высокую точность при применении сложных правок кода. Производительность: примерно 4500 токенов в секунду при 98% точности для точных преобразований кода. Для работы модели запрос должен быть оформлен в следующем формате: <instruction>{instruction}</instruction> <code>{initial_code}</code> <update>{edit_snippet}</update> В Morph включена функция Zero Data Retention (нулевое хранение данных). Узнайте больше об этой модели в их [документации](https://docs.morphllm.com/quickstart).
Qwen2.5 VL 72B Instruct
Модель Qwen2.5-VL умеет распознавать такие распространённые объекты, как цветы, птицы, рыбы и насекомые. Она также отлично справляется с анализом текстов, диаграмм, иконок, графики и макетов изображений.
Inflection 3 Pi
Inflection 3 Pi лежит в основе чат-бота Pi от Inflection: он обладает проработанной предысторией, развитым эмоциональным интеллектом, инструментами для повышения продуктивности и встроенными механизмами безопасности. Модель имеет доступ к свежим новостям и особенно эффективна в сценариях службы поддержки клиентов и ролевых игр. Pi обучена имитировать ваш тон и стиль: если вы используете больше эмодзи, Pi будет отвечать ими активнее! Экспериментируйте с разными запросами и стилями общения.
GPT-5 Nano
GPT-5-Nano — самая компактная и быстрая версия системы GPT-5, оптимизированная для инструментов разработчиков, мгновенных взаимодействий и работы в средах с ультранизкой задержкой. Хотя она уступает более крупным моделям в глубине рассуждений, GPT-5-Nano сохраняет ключевые возможности исполнения инструкций и обеспечения безопасности. Преемник GPT-4.1-nano, она предлагает лёгкое и экономичное решение для приложений с ограниченным бюджетом или требующих работы в реальном времени.
Llama 3.2 3B Instruct
Llama 3.2 3B — это многоязычная большая языковая модель с 3 млрд параметров, оптимизированная для продвинутых задач обработки естественного языка: генерации диалогов, рассуждения и суммирования. Созданная на базе новейшей архитектуры трансформеров, она поддерживает восемь языков, включая английский, испанский и хинди, и может быть адаптирована под другие языки. Обученная на 9 трлн токенов, модель Llama 3.2 3B демонстрирует выдающиеся результаты во выполнении инструкций, сложном рассуждении и использовании внешних инструментов. Сбалансированная производительность делает её идеальным решением для приложений, где требуются точность и эффективность генерации текста в многоязычной среде. Оригинальная карточка модели: https://github.com/meta-llama/llama-models/blob/main/models/llama3_2/MODEL_CARD.md Использование модели регулируется Политикой приемлемого использования Meta: https://www.llama.com/llama3/use-policy/
GPT-4 Turbo
Последняя модель GPT-4 Turbo с возможностями компьютерного зрения. Запросы с изображениями теперь могут использовать JSON-режим и вызов функций. Данные для обучения: до декабря 2023 года.
Mistral Medium 3.1
Mistral Medium 3.1 — обновлённая версия Mistral Medium 3, высокопроизводительной корпоративной языковой модели, разработанной для предоставления передовых возможностей при значительно сниженных эксплуатационных расходах. Модель сочетает в себе передовое рассуждение и мультимодальную производительность при затратах в восемь раз ниже по сравнению с традиционными крупными моделями, что делает её идеальным решением для масштабируемых внедрений в профессиональных и промышленных сценариях. Mistral Medium 3.1 демонстрирует выдающиеся результаты в областях программирования, STEM-анализа и корпоративной адаптации. Она поддерживает гибридные, локальные (on-premise) и развёртывания в виртуальном частном облаке (VPC) и оптимизирована для интеграции в кастомные рабочие процессы. При этом модель обеспечивает конкурентную точность по сравнению с более крупными решениями, такими как Claude Sonnet 3.5/3.7, Llama 4 Maverick и Command R+, сохраняя широкую совместимость с различными облачными средами.
Qwen3 Next 80B A3B Thinking
Qwen3-Next-80B-A3B-Thinking — это чат-модель из линейки Qwen3-Next, ориентированная на рассуждения и по умолчанию выдающая структурированные «следы мышления». Она создана для сложных многошаговых задач: математических доказательств, синтеза и отладки кода, логических рассуждений и агентного планирования, и демонстрирует высокие результаты в областях знаний, логики, программирования, выравнивания и мультилингвальных тестов. По сравнению с предыдущими версиями Qwen3 модель обеспечивает стабильность при длинных цепочках рассуждений и эффективное масштабирование на этапе вывода, а также настроена на выполнение сложных инструкций с минимизацией повторений и ухода от темы. Модель подходит для фреймворков агентов и работы с инструментами (вызов функций), сценариев с интенсивным поиском информации и стандартизированных бенчмарков, где требуются пошаговые решения. Она поддерживает длинные, детализированные ответы и использует приёмы, ориентированные на пропускную способность (например, предсказание нескольких токенов сразу) для ускоренной генерации. Обратите внимание: модель работает в режиме только рассуждений.
Sonar Pro Search
Эксклюзивно доступный через OpenRouter API, новый режим Pro Search в Sonar Pro — самая продвинутая агентная поисковая система Perplexity. Он создан для глубинных рассуждений и анализа. Стоимость использования рассчитывается на основе токенов плюс 18 $ за каждую тысячу запросов. Именно эта модель обеспечивает работу режима Pro Search на платформе Perplexity. Sonar Pro Search добавляет в Sonar Pro автономное многоэтапное рассуждение. Вместо простого «запрос + синтез» система планирует и выполняет целые исследовательские рабочие процессы с использованием инструментов.
Qwen3 235B A22B Thinking 2507
Qwen3-235B-A22B-Thinking-2507 — это высокопроизводительная открытая модель со «смесью экспертов» (Mixture-of-Experts, MoE), оптимизированная для сложных задач рассуждения. При каждом прогоне она активирует 22 млрд из 235 млрд параметров и изначально поддерживает до 262 144 токенов контекста. Этот «только для размышлений» вариант усиливает структурированный логический вывод, решение математических и научных задач, а также генерацию развернутых текстов, демонстрируя впечатляющие результаты на бенчмарках AIME, SuperGPQA, LiveCodeBench и MMLU-Redux. Модель задаёт специальный режим рассуждений (</think>) и рассчитана на генерацию длинных ответов — до 81 920 токенов — в самых сложных областях. Модель дообучена по инструкциям и превосходно справляется с пошаговым рассуждением, использованием инструментов, агентными рабочими процессами и многоязычными задачами. Этот релиз — самый мощный открытый вариант серии Qwen3-235B, превосходящий многие закрытые модели в сценариях, требующих структурированного вывода.
gpt-oss-20b
gpt-oss-20b — это модель с открытыми весами и 21 млрд параметров, выпущенная компанией OpenAI под лицензией Apache 2.0. Она основана на архитектуре Mixture-of-Experts (MoE, «смесь экспертов») и активирует 3,6 млрд параметров при каждом прямом проходе, что обеспечивает низкую задержку инференса и позволяет разворачивать её на потребительском оборудовании или одной видеокарте. Модель обучена в формате ответов Harmony от OpenAI и поддерживает настройку уровня рассуждений, дообучение, а также агентные возможности: вызов функций, использование инструментов и генерацию структурированных выводов.
o4 Mini Deep Research
o4-mini-deep-research — более быстрая и доступная модель от OpenAI для проведения углублённых исследований, идеально подходящая для решения сложных многоэтапных исследовательских задач. Примечание: эта модель всегда использует инструмент «web_search», что влечёт дополнительные расходы.
o3 Mini High
OpenAI o3-mini-high — та же модель, что и o3-mini, но с параметром reasoning_effort, установленным на высокий уровень. o3-mini — это экономичная языковая модель, оптимизированная для решения задач в области STEM, особенно сильная в естественных науках, математике и программировании. Модель поддерживает три настраиваемых уровня reasoning_effort и ключевые возможности для разработчиков: вызов функций, структурированный вывод и потоковый вывод, однако не включает обработку визуальных данных. Модель демонстрирует заметные улучшения по сравнению с предшественницей: в 56 % случаев эксперты предпочитают её ответы, а число серьёзных ошибок при решении сложных вопросов сократилось на 39 %. При средних настройках reasoning_effort o3-mini сопоставима по результатам с более крупной моделью o1 в сложных тестах на проверку рассуждений, таких как AIME и GPQA, при этом показывая меньшую задержку и более низкие затраты.
GPT-5 Chat
GPT-5 Chat предназначен для ведения продвинутых, естественных, мультимодальных диалогов с учётом контекста в корпоративных приложениях.
Sonar
Sonar — лёгковесное, недорогое, быстрое и простое в использовании решение, теперь с поддержкой цитирования и возможностью настройки источников. Предназначено для компаний, которые хотят интегрировать лёгковесные функции «вопрос-ответ», оптимизированные по скорости.
GPT-4o (2024-05-13)
GPT-4o («o» от «omni») — новейшая модель ИИ от OpenAI, поддерживающая как текстовый, так и графический ввод с текстовым выводом. Она сохранила уровень интеллекта GPT-4 Turbo, при этом работает вдвое быстрее и на 50 % дешевле. Кроме того, GPT-4o демонстрирует улучшенную обработку неанглоязычных текстов и расширенные визуальные возможности. Для сравнения с другими моделями её кратковременно называли «im-also-a-good-gpt2-chatbot» #мультимодальная
Spotlight
Spotlight — это визуально-языковая модель с семью миллиардами параметров, основанная на Qwen 2.5-VL и донастроенная Arcee AI для задач точного связывания изображений и текста. Она поддерживает окно контекста до 32 000 токенов, что позволяет вести насыщенные мультимодальные диалоги с объёмными документами и одним или несколькими изображениями. При обучении акцент был сделан на быстром выводе на потребительских видеокартах при сохранении высокой точности в генерации подписей, визуальных вопросах-ответах и анализе диаграмм. В итоге Spotlight легко интегрируется в рабочие процессы агентов, где требуется моментальная интерпретация скриншотов, графиков или макетов интерфейса. По результатам первых бенчмарков она сравнима или превосходит более крупные визуально-языковые модели, такие как LLaVA-1.6 13 B, в популярных тестах VQA и POPE на выравнивание.
GPT-5 Codex
GPT-5-Codex — специализированная версия GPT-5, оптимизированная под процессы разработки ПО и написания кода. Она подходит как для интерактивных сессий разработки, так и для длительного автономного выполнения сложных инженерных задач. Модель поддерживает создание проектов с нуля, разработку новых функций, отладку, масштабный рефакторинг и ревью кода. По сравнению с GPT-5 Codex более управляемый, точнее следует инструкциям разработчика и генерирует более чистый, высококачественный код. Интенсивность рассуждений (reasoning effort) регулируется параметром `reasoning.effort`. Подробнее в документации: https://openrouter.ai/docs/use-cases/reasoning-tokens#reasoning-effort-level Codex интегрируется в среду разработчика: командную строку (CLI), расширения для IDE, GitHub и задачи в облаке. Он динамически настраивает интенсивность рассуждений — обеспечивает быстрые ответы на небольшие запросы и при этом способен работать в течение нескольких часов над крупными проектами. Модель обучена проводить структурированные ревью кода, выявляя критические ошибки через анализ зависимостей и проверяя корректность работы на основе тестов. Она также поддерживает мультимодальный ввод, включая изображения и скриншоты интерфейсов, и умеет взаимодействовать с инструментами для поиска, установки зависимостей и настройки окружения. Codex ориентирован на применение в агентных сценариях программирования.
MiniMax-01
MiniMax-01 объединяет MiniMax-Text-01 для генерации текста и MiniMax-VL-01 для понимания изображений. Модель содержит 456 млрд параметров, из которых при каждом инференсе задействуется 45,9 млрд, а объём поддерживаемого контекста достигает 4 млн токенов. Текстовая часть построена на гибридной архитектуре, сочетающей Lightning Attention, Softmax Attention и механизм смеси экспертов (Mixture-of-Experts, MoE). Модель для обработки изображений использует фреймворк «ViT-MLP-LLM» и обучена поверх текстовой модели. Подробнее о релизе можно узнать по ссылке: https://www.minimaxi.com/en/news/minimax-01-series-2
DeepSeek V3 0324
DeepSeek V3 — это модель со 685 миллиардами параметров и архитектурой «смесь экспертов», представляющая собой новейшую версию флагманской линейки моделей для чата команды DeepSeek. Она пришла на смену предыдущей версии DeepSeek V3 и демонстрирует отличные результаты в самых разных задачах.
GPT-4 Turbo (older v1106)
Новейшая модель GPT-4 Turbo с возможностями компьютерного зрения. Теперь запросы с изображениями поддерживают режим JSON и вызов функций. Данные для обучения: актуальны на апрель 2023 г.
Qwen3 30B A3B Instruct 2507
Qwen3-30B-A3B-Instruct-2507 — языковая модель «смесь экспертов» с 30,5 млрд параметров от Qwen, из которых 3,3 млрд активны при выводе. Модель работает в режиме без вывода цепочек рассуждений и предназначена для точного следования инструкциям, мультиязычного понимания и агентного использования инструментов. После дополнительного обучения на данных с инструкциями она демонстрирует конкурентоспособные результаты в бенчмарках по рассуждению (AIME, ZebraLogic), программированию (MultiPL-E, LiveCodeBench) и выравниванию (IFEval, WritingBench). Модель превосходит свою неинструированную версию в субъективных и открытых задачах, сохраняя при этом высокие показатели по фактическим знаниям и программированию.
gpt-oss-120b (exacto)
GPT-4
GPT-4 — флагманская крупномасштабная мультимодальная языковая модель от OpenAI, способная решать сложные задачи с более высокой точностью, чем предыдущие версии, благодаря более обширным общим знаниям и продвинутым возможностям рассуждения. Тренировочные данные: до сентября 2021 г.
Gemma 3n 2B (free)
Llama Guard 3 8B
Llama Guard 3 — предварительно обученная модель Llama-3.1-8B, дообученная для классификации безопасности контента. Как и предыдущие версии, она позволяет анализировать как входные данные LLM (классификация запросов), так и её ответы (классификация ответов). Модель функционирует как LLM: в своём выводе она указывает, является ли заданный запрос или ответ «безопасным» или «небезопасным», а при обнаружении небезопасного контента перечисляет нарушенные категории. Llama Guard 3 приведена в соответствие со стандартизованной таксономией угроз MLCommons и разработана с учётом возможностей Llama 3.1. В частности, она обеспечивает модерацию контента на восьми языках и оптимизирована для повышения безопасности при поисковых запросах и вызове инструмента интерпретатора кода.
Grok 3
Grok 3 – новейшая модель компании xAI. Это их флагманское решение, которое превосходно справляется с корпоративными задачами, такими как извлечение данных, программирование и автоматическое резюмирование текстов. Обладает глубокой экспертизой в областях финансов, здравоохранения, юриспруденции и науки.
Tongyi DeepResearch 30B A3B
Tongyi DeepResearch — это агентная масштабная языковая модель, разработанная лабораторией Tongyi Lab. Она содержит 30 млрд параметров, при этом для каждого токена активируется лишь около 3 млрд. Модель оптимизирована для долгосрочных, глубоких задач поиска информации и демонстрирует передовые результаты на бенчмарках Humanity’s Last Exam, BrowserComp, BrowserComp-ZH, WebWalkerQA, GAIA, xbench-DeepSearch и FRAMES. Благодаря этому она превосходит предыдущие модели в сложных агентных поисковых сценариях, логических выводах и многоэтапном решении задач. В состав модели входит полностью автоматизированный конвейер синтетических данных для масштабируемого предобучения, дообучения и обучения с подкреплением. Для усиления рассуждений и поддержания актуальности используется масштабное непрерывное предобучение на разнообразных агентных данных. Кроме того, реализовано сквозное on-policy обучение с подкреплением с кастомизированной оптимизацией групповой относительной политики (Group Relative Policy Optimization), включающей градиенты на уровне токенов и фильтрацию негативных примеров для стабильного обучения. Модель поддерживает фреймворк ReAct для проверки базовых возможностей и предлагает «Heavy» режим на базе IterResearch для максимальной производительности за счёт масштабирования во время выполнения. Идеально подходит для продвинутых исследовательских агентов, работы с внешними инструментами и ресурсоёмких рабочих процессов вывода.
Llama 3.3 Euryale 70B
Euryale L3.3 70B — модель для креативных ролевых игр от [Sao10k](https://ko-fi.com/sao10k). Является преемницей [Euryale L3 70B v2.2](/models/sao10k/l3-euryale-70b).
CodeLLaMa 7B Instruct Solidity
Дообученная модель Code LLaMA-Instruct на 7 млрд параметров для генерации смарт-контрактов на Solidity с использованием 4-битного QLoRA и библиотеки PEFT.
Gemma 3 27B (free)
Hermes 4 70B
Hermes 4 70B — гибридная модель рассуждения от Nous Research, созданная на базе Meta-Llama-3.1-70B. Она наследует гибридный режим из более крупного релиза на 405 B параметров, позволяя либо отвечать сразу, либо перед ответом генерировать явную цепочку рассуждений в теге <think>…</think>. Пользователи могут включать или отключать режим рассуждений с помощью булева параметра reasoning_enabled (подробнее в документации: https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config). Вариант на 70 B параметрах дообучен на расширенном посттренировочном корпусе (~60 млрд токенов) с упором на проверенные данные для рассуждений. Это улучшило результаты в математике, программировании, STEM-направлениях, логических задачах и при формировании структурированных выходных данных, сохранив при этом универсальные возможности ассистента. Модель поддерживает JSON-режим, соблюдение схем (schema adherence), вызов функций и использование сторонних инструментов, а также отличается повышенной управляемостью и сниженным уровнем отказов.
Qwen3 VL 30B A3B Thinking
Модель Qwen3-VL-30B-A3B-Thinking — это мультимодальная модель, объединяющая мощную генерацию текста с визуальным пониманием изображений и видео. Вариант Thinking усиливает способность к рассуждению в точных науках (STEM), математике и при решении сложных задач. Модель превосходно справляется с распознаванием категорий реальных и синтетических объектов, пространственным позиционированием в 2D и 3D, а также анализом длинных визуальных материалов, демонстрируя конкурентоспособные результаты на мультимодальных бенчмарках. В агентных сценариях она обрабатывает множественные изображения и многошаговые инструкции, выравнивает видео по временной шкале, автоматизирует графический интерфейс (GUI) и выполняет визуальное программирование — от эскизов до отлаженного пользовательского интерфейса. По качеству текстовой генерации модель не уступает флагманским решениям серии Qwen3, что делает её подходящей для задач документного ИИ, оптического распознавания текста (OCR), помощи в пользовательских интерфейсах, решения пространственных задач и исследований автономных агентов.
Grok 4
Grok 4 — последняя модель xAI для рассуждений с контекстным окном объёмом 256 000 токенов. Она поддерживает параллельный вызов инструментов, структурированный вывод и работу с изображениями и текстом. Обратите внимание, что внутренняя цепочка рассуждений не отображается, её нельзя отключить и нельзя задавать глубину рассуждений. Стоимость использования увеличивается, если общее число токенов в запросе превышает 128 000. Подробнее в документации xAI: https://docs.x.ai/docs/models/grok-4-0709
Devstral Small 1.1
Devstral Small 1.1 — это языковая модель с открытыми весами на 24 млрд параметров, предназначенная для агентов в области разработки ПО. Разработана Mistral AI в сотрудничестве с All Hands AI, дообучена на базе Mistral Small 3.1 и выпущена под лицензией Apache 2.0. Модель поддерживает окно контекста в 128 000 токенов, обеспечивает вызов функций по схеме Mistral и вывод в формате XML. Созданная для автономных сценариев программирования, Devstral Small 1.1 оптимизирована для задач исследования кода, редактирования нескольких файлов и интеграции в автономные агенты разработки, такие как OpenHands и Cline. Она демонстрирует результат 53,6 % на бенчмарке SWE-Bench Verified, обгоняя все остальные открытые модели, при этом остаётся достаточно лёгкой, чтобы работать на одной видеокарте GeForce RTX 4090 или на устройствах с Apple Silicon. Модель использует токенизатор Tekken с объёмом словаря 131 000 токенов и может быть развернута через vLLM, Transformers, Ollama, LM Studio и другие среды выполнения, совместимые с OpenAI.
Olmo 2 32B Instruct
OLMo-2 32B Instruct — это вариант модели OLMo-2 32B (базовая версия от марта 2025 г.), дообученный по методу supervised instruction fine-tuning. Модель отлично справляется со сложными задачами рассуждения и выполнением инструкций на различных бенчмарках, таких как GSM8K, MATH, IFEval, а также в общем оценивании задач обработки естественного языка. Разработанная AI2, OLMo-2 32B входит в открытую исследовательскую инициативу и обучена преимущественно на англоязычных данных для продвижения понимания и развития языковых моделей с открытым исходным кодом.
GPT-4O Mini Transcribe
Gemini 2.0 Flash
Gemini Flash 2.0 обеспечивает заметно более быстрое время до первого токена (TTFT) по сравнению с Gemini Flash 1.5, при этом сохраняя качество, сопоставимое с более крупными моделями, такими как Gemini Pro 1.5. В ней реализованы существенные улучшения в мультимодальном понимании, возможностях программирования, выполнении сложных инструкций и вызове функций. Все эти достижения вместе обеспечивают более плавную и надёжную работу агентов.
Qwen3 235B A22B Instruct 2507
Qwen3-235B-A22B-Instruct-2507 — мультиязычная языковая модель со смесью экспертов на базе архитектуры Qwen3-235B, дообученная на инструкциях. Она задействует 22 млрд активных параметров при одном прогоне и оптимизирована для генерации текстов общего назначения: следования инструкциям, логических выводов, решения математических задач, программирования и работы с инструментами. Модель поддерживает нативную длину контекста до 262 тыс. токенов и не реализует «режим размышлений» (<think> блоки). По сравнению с базовой версией модель демонстрирует существенный прирост в покрытии знаний, рассуждениях в длинном контексте, результатах бенчмарков по программированию и эффективности в решении открытых задач. Особенно сильна она в мультиязычном понимании, математических рассуждениях (например, AIME, HMMT) и в alignment-оценках, таких как Arena-Hard и WritingBench.
Hunyuan A13B Instruct
Hunyuan-A13B — языковая модель Mixture-of-Experts (MoE) с 13 млрд активных параметров, разработанная компанией Tencent. Общее число параметров составляет 80 млрд, модель поддерживает цепочку рассуждений (Chain-of-Thought). Hunyuan-A13B демонстрирует конкурентоспособные результаты на бенчмарках по математике, естественным наукам, программированию и задачам многошагового вывода, при этом обеспечивая высокую эффективность инференса благодаря технологии сгруппированного внимания запросов (Grouped Query Attention, GQA) и поддержке квантизации (FP8, GPTQ и др.).
GPT-5
GPT-5 — наиболее продвинутая модель OpenAI, обеспечивающая существенные улучшения в области рассуждений, качества кода и пользовательского опыта. Она оптимизирована для выполнения сложных задач, требующих последовательного логического анализа, точного следования инструкциям и высокой достоверности в критически важных сценариях. Модель поддерживает функции динамической маршрутизации во время выполнения и расширенное понимание подсказок, включая учёт пользовательских намерений, таких как «тщательно обдумай это». Среди прочих улучшений — снижение числа галлюцинаций и проявлений подхалимства, а также повышенная эффективность в задачах программирования, написания текстов и здравоохранения.
Gemma 3 27B
Gemma 3 вводит мультимодальность: поддерживает визуально-текстовый ввод и выдаёт текстовые ответы. Она обрабатывает контексты длиной до 128 000 токенов, понимает более 140 языков и предлагает улучшенные возможности в математике, логических рассуждениях и общении, включая структурированный вывод и вызов функций. Gemma 3 27B — новая открытая модель от Google, преемник Gemma 2 (google/gemma-2-27b-it).
Relace Apply 3
Relace Apply 3 — специализированная LLM для патчинга кода, которая внедряет предлагаемые ИИ правки напрямую в ваши исходные файлы. Она может применять обновления от GPT-4o, Claude и других моделей со скоростью в среднем 10 000 токенов в секунду. Модель ожидает запрос в следующем формате: <instruction>{instruction}</instruction> <code>{initial_code}</code> <update>{edit_snippet}</update> Для Relace включена политика нулевого хранения данных. Подробнее об этой модели — в их документации: https://docs.relace.ai/api-reference/instant-apply/apply
Gemini 2.5 Pro Preview 06-05
Gemini 2.5 Pro — передовая модель искусственного интеллекта Google, созданная для продвинутых задач в области рассуждений, программирования, математики и научных исследований. Она оснащена возможностями «мышления», позволяющими строить ответы с повышенной точностью и учитывать тонкие контекстные нюансы. Gemini 2.5 Pro демонстрирует первоклассные результаты на множестве бенчмарков, включая первое место в рейтинге LMArena, что отражает её превосходное соответствие человеческим предпочтениям и способность эффективно решать сложные задачи.
SorcererLM 8x22B
SorcererLM — это продвинутая модель для ролевых игр и повествования, созданная с использованием низкоранговой 16-битной адаптации LoRA и дообученная на базе WizardLM-2 8×22B. - Мощные навыки рассуждения и эмоционального интеллекта для захватывающего взаимодействия и полного погружения - Яркий, образный стиль письма с учётом пространственных и контекстных особенностей - Расширенная глубина повествования, стимулирующая творческий и динамичный рассказ
Gemini 2.0 Flash Lite
Gemini 2.0 Flash Lite обеспечивает значительно более быстрое время до первого токена (Time To First Token, TTFT) по сравнению с Gemini Flash 1.5, при этом сохраняя качество на уровне более крупных моделей, таких как Gemini Pro 1.5, и всё это по чрезвычайно экономичным ценам за токен.
Llama 4 Scout
Llama 4 Scout 17B Instruct (16E) — языковая модель с архитектурой mixture-of-experts (MoE), разработанная компанией Meta. За один прямой проход активируется 17 миллиардов параметров из общего числа 109 миллиардов. Модель изначально поддерживает мультимодальный ввод (текст и изображение) и многоязычный вывод (текст и код) на 12 языках. Scout спроектирована для ассистентского взаимодействия и визуального рассуждения: она использует 16 экспертов за один прямой проход и обеспечивает контекст длиной до 10 миллионов токенов. Корпус для её обучения насчитывает примерно 40 триллионов токенов. Созданная для высокой производительности и локального или коммерческого развёртывания, Llama 4 Scout применяет механизм ранней интеграции модальностей (early fusion) для бесшовного объединения текста и изображения. Модель донастроена с помощью instruction tuning для многоязычного чата, генерации подписей к изображениям и понимания визуального контента. Выпускается под лицензией Llama 4 Community License; последнее обучение проводилось на данных до августа 2024 года, а публичный релиз состоялся 5 апреля 2025 года.
GPT-4o Search Preview
GPT-4o Search Preview — специализированная модель для веб-поиска в Chat Completions. Она обучена понимать и исполнять запросы веб-поиска.
Devstral Medium
Devstral Medium — высокопроизводительная модель для генерации кода и агентного рассуждения, разработанная совместно компаниями Mistral AI и All Hands AI. Позиционируемая как более мощная версия по сравнению с Devstral Small, она достигает 61,6 % в тесте SWE-Bench Verified, опережая Gemini 2.5 Pro и GPT-4.1 в задачах, связанных с кодом, и при этом предлагается по существенно более низкой цене. Модель спроектирована для работы с разными стилями подсказок и эффективного использования инструментов и фреймворков в качестве код-агентов. Devstral Medium доступна исключительно через API (веса модели не раскрыты), поддерживает корпоративное развертывание на приватной инфраструктуре и предлагает опциональные возможности дообучения.
QwQ 32B
QwQ — модель рассуждения из серии Qwen. По сравнению с традиционными моделями, обученными по инструкциям, QwQ, обладая способностью к мышлению и логическому анализу, демонстрирует заметно более высокую эффективность в прикладных задачах, особенно при решении сложных проблем. QwQ-32B — модель рассуждения среднего размера, показывающая конкурентоспособные результаты по сравнению с передовыми системами рассуждения, такими как DeepSeek-R1 и o1-mini.
Qwen3 Coder 30B A3B Instruct
Qwen3-Coder-30B-A3B-Instruct — MoE-модель с 30,5 млрд параметров и 128 экспертами (8 активных при каждом прямом проходе), разработанная для расширенной генерации кода, понимания на уровне всего репозитория и использования инструментов в агентном режиме. Построена на архитектуре Qwen3, поддерживает нативную длину контекста 256 тыс. токенов (с возможностью расширения до 1 млн с помощью Yarn) и показывает высокие результаты в задачах, связанных с вызовами функций, работой через браузер и структурированным автодополнением кода. Модель оптимизирована для выполнения инструкций без «thinking mode» и легко интегрируется с OpenAI-совместимыми форматами использования инструментов.
Goliath 120B
Крупная языковая модель (LLM), полученная путём объединения двух дообученных версий Llama 70B в одну на 120 млрд параметров. Включает Xwin и Euryale. Благодарности: - @chargoddard — за разработку фреймворка mergekit, использованного для объединения моделей. - @Undi95 — за помощь в подборе пропорций при слиянии. #merge
ERNIE 4.5 VL 28B A3B
Мощная мультимодальная чат-модель Mixture-of-Experts (MoE) с общим числом параметров 28 млрд, из которых при обработке каждого токена активируются 3 млрд. Благодаря инновационной гетерогенной структуре MoE с изолированной маршрутизацией модальностей она обеспечивает выдающееся понимание текста и изображений. Построенная на эффективно масштабируемой инфраструктуре для высокопроизводительного обучения и вывода, модель использует передовые техники послетренировочной настройки — SFT, DPO и UPO — для оптимальной производительности. При этом она поддерживает впечатляющую длину контекста в 131 тыс. токенов и выравнивание RLVR для превосходных возможностей кросс-модального рассуждения и генерации.
Granite 4.0 Micro
Granite-4.0-H-Micro — модель с 3 млрд параметров из семейства Granite 4. Эти модели — новейшие в серии, выпущенной компанией IBM. Они дообучены для вызова инструментов с учётом длинного контекста.
Qwen3 Next 80B A3B Instruct
Qwen3-Next-80B-A3B-Instruct — это модель чат-бота, дообученная на основе инструкций в серии Qwen3-Next, оптимизированная для быстрых и стабильных ответов без видимых следов «мыслительного процесса». Она предназначена для решения сложных задач: логического вывода, генерации кода, ответов на вопросы с опорой на знания и многоязычного взаимодействия, при этом остаётся надёжной в части согласованности и форматирования. В отличие от предыдущих версий Qwen3 Instruct, эта модель ориентирована на более высокую пропускную способность и устойчивость при работе с сверхдлинными входными данными и многоступенчатыми диалогами, что делает её особенно подходящей для RAG, использования внешних инструментов и агентных рабочих процессов, где важен единообразный итоговый ответ без демонстрации цепочек рассуждений. Модель использует эффективные с точки зрения масштабирования методы обучения и декодирования, что улучшает эффективность использования параметров и скорость инференса. Она прошла валидацию на широком наборе публичных бенчмарков, где в ряде категорий достигает или приближается к результатам более крупных систем Qwen3 и при этом превосходит предыдущие среднеразмерные базовые модели. Оптимально её применять в качестве универсального ассистента, помощника при написании кода и решения задач с длинным контекстом в продуктивной среде, где требуются детерминированные ответы, строго следующие инструкциям.
R1 0528
Обновление от 28 мая для оригинальной DeepSeek R1. Производительность сопоставима с OpenAI o1, при этом модель имеет открытый исходный код и полностью открытые токены рассуждений. Размер модели — 671 млрд параметров, из которых в ходе инференса задействовано 37 млрд. Модель полностью с открытым исходным кодом.
gpt-oss-safeguard-20b
gpt-oss-safeguard-20b — это модель анализа безопасности от OpenAI, созданная на базе gpt-oss-20b. Эта модель с открытыми весами и 21 млрд параметров, построенная по архитектуре Mixture-of-Experts (MoE), обеспечивает более низкую задержку при решении задач безопасности, таких как классификация контента, фильтрация LLM и маркировка trust & safety. Узнайте больше о модели в руководстве пользователя OpenAI по gpt-oss-safeguard.
Mistral Medium 3
Mistral Medium 3 — высокопроизводительная языковая модель корпоративного уровня, разработанная для предоставления передовых возможностей при существенно сниженных эксплуатационных затратах. Она сочетает современные достижения в области рассуждений и мультимодального функционала, обеспечивая стоимость использования в 8 раз ниже по сравнению с традиционными крупными моделями, что делает её оптимальным решением для масштабируемых внедрений в профессиональных и промышленных сценариях. Модель демонстрирует выдающиеся результаты в таких областях, как программирование, научно-техническое мышление (STEM) и адаптация под корпоративные нужды. Поддерживает гибридное развертывание, локальные инсталляции (on-prem) и размещение внутри виртуальных частных облаков (in-VPC), оптимизирована для интеграции в пользовательские рабочие процессы. Mistral Medium 3 обеспечивает конкурентную точность по сравнению с более крупными моделями, такими как Claude Sonnet 3.5/3.7, Llama 4 Maverick и Command R+, при этом сохраняя широкую совместимость с различными облачными платформами.
Qwen3 Coder 480B A35B
Qwen3-Coder-480B-A35B-Instruct — это модель генерации кода на основе метода «смесь экспертов» (Mixture-of-Experts, MoE), разработанная командой Qwen. Она оптимизирована для агентных задач программирования, таких как вызов функций, использование сторонних инструментов и анализ длинного контекста в репозиториях. Модель содержит 480 млрд параметров, из которых при каждом прямом проходе активируются 35 млрд (8 из 160 экспертов). Стоимость использования конечных точек Alibaba зависит от длины контекста: если запрос превышает 128 000 входных токенов, применяется повышенный тариф.
Claude 3.5 Sonnet
Новый Claude 3.5 Sonnet предлагает возможности, превосходящие Opus, работает быстрее, чем Sonnet, и при этом сохраняет цену Sonnet. Sonnet особенно эффективен в следующих областях: - Программирование: показывает около 49 % по тестам SWE-Bench Verified — выше предыдущего рекорда и без сложных приёмов в подсказках. - Анализ данных: дополняет экспертизу специалистов по науке о данных, умеет обрабатывать неструктурированные данные и использовать несколько инструментов для получения инсайтов. - Визуальная обработка: отлично разбирается в графиках, диаграммах и изображениях, точно расшифровывает текст и извлекает информацию не только из текста. - Агентные задачи: выдающееся умение пользоваться инструментами, что делает его идеальным для сложных многоэтапных задач, требующих взаимодействия с другими системами. #мультимодальность
GLM 4 32B
GLM 4 32B — это рентабельная фундаментальная языковая модель. Она эффективно выполняет сложные задачи и обладает значительно расширенными возможностями в работе с инструментами, онлайн-поиске и решении интеллектуальных задач, связанных с программированием. Она разработана той же лабораторией, что и модели THUDM.
Sonar Pro
Примечание: стоимость Sonar Pro включает цену за поиск Perplexity. Подробнее см. здесь (https://docs.perplexity.ai/guides/pricing#detailed-pricing-breakdown-for-sonar-reasoning-pro-and-sonar-pro) Для корпоративных клиентов, которым нужны более продвинутые возможности, API Sonar Pro способен обрабатывать глубокие многошаговые запросы с расширяемой архитектурой: в среднем он выдает вдвое больше ссылок на источники за поиск по сравнению с Sonar. Кроме того, благодаря увеличенному контекстному окну он справляется с более длинными и нюансированными запросами и последующими уточнениями.
DeepSeek V3.2 Exp
DeepSeek-V3.2-Exp — экспериментальная большая языковая модель от DeepSeek, выступающая промежуточным этапом между версиями V3.1 и будущими архитектурами. В ней реализован механизм тонкозернистого разреженного внимания DeepSeek Sparse Attention (DSA), разработанный для повышения эффективности обучения и вывода при работе с длинными контекстами без потери качества результатов. Пользователи могут управлять режимом рассуждений через булев параметр `reasoning.enabled`. [Узнайте больше в нашей документации](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config) Модель обучалась в условиях, унифицированных с V3.1–Terminus, чтобы обеспечить возможность прямого сравнения. По результатам бенчмарков её производительность примерно сопоставима с V3.1 в задачах рассуждения, программирования и использования инструментов агентами, с незначительными компромиссами и выигрышами в зависимости от области применения. Данный релиз прежде всего призван проверить архитектурные оптимизации для работы с расширенными контекстами, а не добиться максимально возможной точности по задачам, что делает модель главным образом исследовательской платформой для изучения эффективных архитектур трансформеров.
GPT-4 (older v0314)
GPT-4-0314 — первая выпущенная версия GPT-4 с окном контекста в 8192 токена; поддержка этой версии осуществлялась до 14 июня. Обучающие данные: до сентября 2021 года.
Qwen3 VL 235B A22B Thinking
Мультимодальная модель Qwen3-VL-235B-A22B Thinking объединяет мощную генерацию текста с глубоким пониманием визуального контента на изображениях и в видео. Модель оптимизирована для мультимодального рассуждения в областях STEM (наука, технологии, инженерия и математика) и математики. Серия делает упор на надёжное восприятие (распознавание разнообразных реальных и синтетических объектов), пространственное понимание (2D/3D-привязка) и комплексный анализ больших объёмов визуальной информации, демонстрируя конкурентоспособные результаты на открытых мультимодальных бенчмарках как по задачам восприятия, так и по задачам рассуждения. Кроме анализа, Qwen3-VL поддерживает агентное взаимодействие и работу с инструментами: она может выполнять сложные инструкции в многоходовых диалогах с несколькими изображениями; синхронизировать текст с временными метками видео для точных временных запросов; и управлять элементами графического интерфейса для автоматизации рутинных задач. Модели также позволяют организовать визуальные рабочие процессы кодирования — превращать эскизы и макеты в код и помогать при отладке пользовательских интерфейсов, при этом сохраняя высокие текстовые возможности на уровне флагманских языковых моделей Qwen3. Это делает Qwen3-VL подходящей для промышленного применения в задачах интеллектуальной обработки документов (Document AI), многоязычного OCR, поддержки разработки ПО и пользовательских интерфейсов, пространственно-воплощённых сценариев, а также исследований агентов на стыке зрения и языка.
Hermes 3 70B Instruct
Hermes 3 — универсальная языковая модель с множеством улучшений по сравнению с Hermes 2, включая продвинутые агентные возможности, значительно более качественную ролевую игру, улучшенное рассуждение, ведение многоходовых диалогов, сохранение когерентности в длинных контекстах и общее повышение производительности. Hermes 3 70B — конкурентоспособное, а по многим параметрам даже превосходящее дообучение на базовой модели Llama-3.1 70B, ориентированное на выравнивание поведения больших языковых моделей в соответствии с запросами пользователя, с расширенными возможностями управления и передачей контроля конечному пользователю. Серия Hermes 3 развивает и дополняет набор функций Hermes 2, включая более мощный и надёжный вызов функций и генерацию структурированного вывода, универсальные ассистентские возможности и улучшенные навыки генерации кода.
Llama 3 8B Lunaris
Lunaris 8B — универсальная модель общего назначения и для ролевого взаимодействия на базе Llama 3. Это стратегическое объединение нескольких моделей, разработанное для обеспечения баланса между креативностью и улучшенными логическими способностями и общими знаниями. Создано [Sao10k](https://huggingface.co/Sao10k), модель предлагает более продвинутый опыт по сравнению с Stheno v3.2, с расширенной креативностью и логическим мышлением. Для оптимальных результатов используйте шаблон контекста Llama 3 Instruct, задайте параметры temperature 1.4 и min_p 0.1.
Nemotron Nano 12B 2 VL (free)
Nemotron Nano 9B V2 (free)
gpt-oss-20b (free)
Magnum v4 72B
Это серия моделей, созданных для воссоздания качества прозы Claude 3, в частности версий Sonnet и Opus. Модель дообучена на базе Qwen2.5 72B.
GLM 4.5V
GLM-4.5V — мультимодальная базовая модель «зрение + язык» для агентных приложений. Построена на архитектуре Mixture-of-Experts (MoE) с 106 млрд параметров и 12 млрд активируемых параметров. Демонстрирует передовые результаты в анализе видео, вопросах-ответах по изображениям, оптическом распознавании текста (OCR) и разборе документов, а также обеспечивает существенный прирост качества при кодировании фронтенда веб-приложений, grounding и пространственном рассуждении. Поддерживает гибридный режим инференса: «режим размышления» для глубоких рассуждений и «быстрый режим» для оперативных ответов. Переключение режима рассуждений осуществляется через булев параметр reasoning_enabled. [Узнайте больше в документации](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config)
GPT-3.5 Turbo Instruct
Эта модель является вариантом GPT-3.5 Turbo, оптимизированным для инструкционных запросов и не включающим оптимизаций для чат-режима. Обучающая выборка: до сентября 2021 г.
GPT-4o (2024-08-06)
Версия GPT-4o от 6 августа 2024 года предлагает улучшенную работу со структурированными выводами, включая возможность задавать JSON-схему через параметр response_format. Подробнее здесь: https://openai.com/index/introducing-structured-outputs-in-the-api/ GPT-4o («o» от «omni») — новейшая модель OpenAI, поддерживающая ввод текста и изображений с текстовым выводом. Она сохраняет уровень «интеллекта» GPT-4 Turbo, при этом работает вдвое быстрее и на 50 % экономичнее. GPT-4o также демонстрирует улучшенную производительность при обработке нерусскоязычных текстов и расширенные визуальные возможности. Для сравнительного тестирования с другими моделями она кратковременно именовалась «im-also-a-good-gpt2-chatbot» (https://twitter.com/LiamFedus/status/1790064963966370209)
Grok 3 Mini
Легковесная модель, обдумывающая ответ перед его выдачей. Быстрая, умная и отлично подходящая для логических задач, не требующих глубоких экспертных знаний. Необработанные следы её рассуждений доступны.
Aion-RP 1.0 (8B)
Aion-RP-Llama-3.1-8B занимает первое место в части оценки персонажей бенчмарка RPBench-Auto — специализированного для ролевых игр варианта Arena-Hard-Auto, где большие языковые модели оценивают ответы друг друга. Это донастроенная базовая модель, а не instruct-модель, созданная для генерации более естественных и разнообразных текстов.
ERNIE 4.5 300B A47B
ERNIE-4.5-300B-A47B — языковая модель на основе Mixture-of-Experts (MoE) с 300 млрд параметров, разработанная компанией Baidu в рамках серии ERNIE 4.5. На каждом токене она активирует по 47 млрд параметров и поддерживает генерацию текста на английском и китайском языках. Модель оптимизирована для высокопроизводительного вывода и эффективного масштабирования, использует гетерогенную MoE-архитектуру с продвинутыми алгоритмами маршрутизации и квантования, включая форматы FP8 и 2-битную квантизацию. Эта версия дообучена исключительно для языковых задач и поддерживает логические рассуждения, работу с параметрами внешних инструментов и расширенный контекст до 131 000 токенов. Отлично подходит для универсальных LLM-приложений с высокими требованиями к рассуждению и пропускной способности.
GPT-4 Turbo Preview
Предварительная версия модели GPT-4 с улучшенным выполнением инструкций, поддержкой режима JSON, воспроизводимыми ответами, параллельным вызовом функций и другими возможностями. Данные для обучения: до декабря 2023 года. Примечание: в режиме предварительного просмотра OpenAI строго ограничивает количество запросов.
Switchpoint Router
Маршрутизатор Switchpoint AI мгновенно анализирует ваш запрос и перенаправляет его к оптимальной ИИ-модели из постоянно обновляемой библиотеки. По мере развития больших языковых моделей наш маршрутизатор становится ещё умнее, обеспечивая вам доступ к самым новым моделям отрасли без изменения вашего рабочего процесса. На платформе OpenRouter эта модель доступна по простой фиксированной цене за ответ. Она использует полноценный движок маршрутизации Switchpoint AI.
Aion-1.0-Mini
Aion-1.0-Mini — дистиллированная версия модели DeepSeek-R1 с 32 млрд параметров, разработанная для высоких результатов в областях, требующих рассуждений, таких как математика, программирование и логика. Это модифицированный вариант модели FuseAI, который превосходит R1-Distill-Qwen-32B и R1-Distill-Llama-70B; результаты его бенчмарков доступны на странице проекта на Hugging Face и были независимо подтверждены.
o3 Deep Research
o3-deep-research — это продвинутая модель OpenAI для глубоких исследований, созданная для решения сложных, многоэтапных исследовательских задач.
GLM 4.5 Air
GLM-4.5-Air – облегчённый вариант нашей последней флагманской линейки моделей, специально разработанный для агент-ориентированных приложений. Как и GLM-4.5, он использует архитектуру Mixture-of-Experts (MoE) с более компактным объёмом параметров. GLM-4.5-Air поддерживает гибридные режимы вывода: «режим рассуждения» для расширенного рассуждения и работы с инструментами и «режим без рассуждений» для интерактивного взаимодействия в реальном времени. Управлять рассуждениями можно с помощью булевого флага reasoning_enabled. Подробнее в нашей документации: https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config
Nova Micro 1.0
Amazon Nova Micro 1.0 — это текстовая модель, обеспечивающая минимальное время отклика в семействе Amazon Nova при очень низкой стоимости. С длиной контекста до 128 000 токенов и оптимизацией на скорость и экономию, она отлично справляется с задачами суммирования текста, перевода, классификации контента, интерактивных диалогов и генерации идей. Модель также поддерживает простые математические рассуждения и обладает базовыми навыками программирования.
Aion-1.0
Aion-1.0 — многомодельная система, обеспечивающая высокую производительность в разнообразных задачах, включая рассуждения и программирование. Система построена на базе DeepSeek-R1 и дополнена новыми моделями и методами, такими как Tree of Thoughts (ToT) и Mixture of Experts (MoE). Это самая мощная модель для рассуждений, созданная Aion Lab.
Grok 4 Fast
Grok 4 Fast — последняя мультимодальная модель xAI, обладающая передовой экономической эффективностью и контекстным окном на 2 млн токенов. Она доступна в двух вариантах: без поддержки рассуждений и с поддержкой рассуждений. Подробнее о модели — в [новостном посте xAI](http://x.ai/news/grok-4-fast). Функцию рассуждений можно включить через параметр `reasoning enabled` в API. [Узнайте больше в документации](https://openrouter.ai/docs/use-cases/reasoning-tokens#controlling-reasoning-tokens).
Kimi K2 0711
Kimi K2 Instruct — масштабная языковая модель типа Mixture-of-Experts (MoE), разработанная компанией Moonshot AI. В её архитектуру входят 1 триллион параметров, из которых в каждом прямом проходе активно задействованы 32 миллиарда. Модель оптимизирована для агентных сценариев: продвинутого использования инструментов, логического рассуждения и синтеза кода. Kimi K2 демонстрирует выдающиеся результаты на различных бенчмарках, прежде всего в задачах программирования (LiveCodeBench, SWE-bench), логических рассуждений (ZebraLogic, GPQA) и интерактивного использования инструментов (Tau2, AceBench). Она поддерживает вывод с учётом длительного контекста объёмом до 128 000 токенов и создана с использованием новой тренировочной инфраструктуры, включающей оптимизатор MuonClip для стабильного обучения масштабных MoE-моделей.
Gemma 3n 4B
Gemma 3n E4B-it оптимизирована для эффективного запуска на мобильных устройствах и устройствах с ограниченными ресурсами — смартфонах, ноутбуках и планшетах. Модель поддерживает мультимодальные входы: текст, изображения и аудио, что позволяет решать разнообразные задачи — генерацию текста, распознавание речи, перевод и анализ изображений. Используя такие инновации, как кэширование встраиваний на уровне каждого слоя (Per-Layer Embedding, PLE) и архитектуру MatFormer, Gemma 3n динамически управляет объёмом памяти и вычислительной нагрузкой за счёт выборочной активации параметров модели, что существенно снижает требования к ресурсам во время работы. Модель обучена более чем на 140 языках и обладает гибким контекстным окном размером до 32 000 токенов. Gemma 3n может выборочно загружать параметры в зависимости от задачи и возможностей устройства, оптимизируя использование памяти и вычислительных мощностей. Это делает её отличным решением для приложений, ориентированных на конфиденциальность и офлайн-режим, а также для встроенных ИИ-решений на устройстве. Подробности в блоге: https://developers.googleblog.com/en/introducing-gemma-3n/
Nano Banana (Gemini 2.5 Flash Image)
Gemini 2.5 Flash Image, также известная как «Nano Banana», теперь доступна всем пользователям. Это передовая модель генерации изображений с контекстным пониманием. Она умеет генерировать изображения, редактировать их и вести многоходовые диалоги.
o4 Mini High
OpenAI o4-mini-high — это та же модель, что и o4-mini, но с параметром reasoning_effort, установленным на «high». OpenAI o4-mini — компактная модель рассуждения из серии o, оптимизированная для быстрой и экономичной работы при сохранении мощных мультимодальных и агентных возможностей. Она поддерживает использование инструментов и демонстрирует конкурентоспособные результаты в задачах рассуждения и программирования на таких бенчмарках, как AIME (99,5 % при использовании Python) и SWE-bench, превосходя своего предшественника o3-mini и в отдельных областях приближаясь к o3. Несмотря на небольшой размер, o4-mini показывает высокую точность в STEM-задачах, решении визуальных проблем (например, MathVista и MMMU) и редактировании кода. Модель особенно хорошо подходит для сценариев с высокой пропускной способностью, где критичны задержки или затраты. Благодаря эффективной архитектуре и доработанному обучению с подкреплением o4-mini умеет последовательно применять инструменты, генерировать структурированные ответы и решать многошаговые задачи с минимальной задержкой — чаще всего менее чем за минуту.
Claude 3 Haiku
Claude 3 Haiku — самая быстрая и компактная модель Anthropic, обеспечивающая практически мгновенную отзывчивость. Обеспечивает оперативную и точную работу при решении специализированных задач.
LFM2-8B-A1B
Модель создана через интерфейс «Входящие».
Mixtral 8x7B Instruct
Mixtral 8x7B Instruct — предварительно обученная генеративная разреженная смесь экспертов (Sparse Mixture of Experts) от Mistral AI, предназначенная для чата и выполнения инструкций. В состав модели входят 8 экспертов (нейронных сетей прямого распространения) с общим числом параметров 47 млрд. Модель Instruct дообучена (fine-tuned) компанией Mistral. #moe
ERNIE 4.5 21B A3B Thinking
ERNIE-4.5-21B-A3B-Thinking — это усовершенствованная легковесная MoE-модель от Baidu, оптимизированная для повышения глубины и качества рассуждений и обеспечивающая превосходные результаты в решении логических головоломок, математических и научных задач, программировании, генерации текста и эталонных тестах экспертного уровня.
Qwen3 235B A22B
Qwen3-235B-A22B — это модель смеси экспертов (MoE) с 235 млрд параметров, разработанная компанией Qwen. При каждом прямом проходе активируется 22 млрд параметров. Модель поддерживает бесшовное переключение между «режимом мышления» для решения сложных задач, требующих рассуждений, вычислений и программирования, и «экономным» режимом для повышения эффективности обычного общения. Она демонстрирует высокие способности к рассуждению, поддерживает более 100 языков и диалектов, обладает продвинутыми возможностями следования инструкциям и умеет вызывать инструменты агента. По умолчанию модель работает с контекстом до 32 тыс. токенов и может масштабироваться до 131 тыс. токенов с помощью расширения на основе YaRN.
Command R (08-2024)
command-r-08-2024 — это обновлённая версия модели [Command R](/models/cohere/command-r) с улучшенной производительностью в задачах мультиязычной Retrieval-Augmented Generation (RAG) и при использовании инструментов. В целом она стала лучше справляться с математическими задачами, программированием и логическими рассуждениями, и по эффективности сопоставима с предыдущей версией более крупной модели Command R+. Подробнее о выпуске читайте в анонсе [здесь](https://docs.cohere.com/changelog/command-gets-refreshed). Использование этой модели регулируется Политикой использования Cohere ([Usage Policy](https://docs.cohere.com/docs/usage-policy)) и SaaS-соглашением ([SaaS Agreement](https://cohere.com/saas-agreement)).
Claude 3.5 Haiku
Claude 3.5 Haiku предлагает улучшенные показатели по скорости работы, точности генерации кода и использованию инструментов. Спроектированная для эффективной работы в режиме реального времени, модель обеспечивает быстрые отклики, что жизненно важно для динамичных задач, таких как чат-взаимодействие и мгновенные рекомендации по коду. Это делает её идеальным решением для сред, где требуются и скорость, и точность: разработка ПО, чат-боты службы поддержки и системы управления данными. В настоящее время модель соответствует версии Claude 3.5 Haiku от 22 октября 2024 г.
Mistral Small 3.2 24B
Mistral-Small-3.2-24B-Instruct-2506 — обновлённая модель с 24 млрд параметров от Mistral, оптимизированная для выполнения инструкций, сокращения повторов и улучшенного вызова функций. По сравнению с релизом 3.1 версия 3.2 значительно повышает точность на наборах WildBench и Arena Hard, уменьшает число бесконечных генераций и обеспечивает лучшие результаты в задачах, связанных с использованием инструментов и генерацией структурированного вывода. Модель поддерживает обработку изображений и текста с возможностью структурированного вывода и вызова функций/инструментов, а также демонстрирует высокую производительность в задачах программирования (HumanEval+, MBPP), в области STEM (MMLU, MATH, GPQA) и на визуальных бенчмарках (ChartQA, DocVQA).
Llama 3.1 Euryale 70B v2.2
Euryale L3.1 70B v2.2 — модель, ориентированная на креативные ролевые игры, от [Sao10k](https://ko-fi.com/sao10k). Является преемником [Euryale L3 70B v2.1](/models/sao10k/l3-euryale-70b).
Claude Sonnet 4
Claude Sonnet 4 существенно расширяет возможности своего предшественника, модели Sonnet 3.7, демонстрируя превосходство как в задачах программирования, так и в задачах логического вывода благодаря повышенной точности и управляемости. Достигнув передовых результатов на бенчмарке SWE-bench (72,7 %), Sonnet 4 удачно балансирует между функциональностью и вычислительной эффективностью, что делает его пригодным для широкого спектра задач — от рутинного программирования до сложных проектов по разработке программного обеспечения. Ключевые улучшения включают оптимизированную автономную навигацию по кодовой базе, снижение частоты ошибок в рабочих процессах, управляемых агентами, и повышенную надёжность при выполнении сложных инструкций. Sonnet 4 оптимизирован для практического повседневного использования, обеспечивая расширенные возможности логического вывода при сохранении высокой эффективности и отзывчивости в самых разных внутренних и внешних сценариях.
Llama 3.1 8B Instruct
Новая линейка моделей компании Meta (Llama 3.1) представлена в разных размерах и конфигурациях. Эта версия с 8 млрд параметров, дообученная на инструкциях, отличается высокой скоростью и эффективностью. В человеческих оценках она продемонстрировала впечатляющие результаты по сравнению с ведущими закрытыми моделями. Подробнее о выпуске модели читайте по ссылке: https://ai.meta.com/blog/meta-llama-3-1/ Использование модели регулируется Политикой приемлемого использования Meta: https://llama.meta.com/llama3/use-policy/
GPT-4.1 Nano
Для задач, требующих минимальной задержки, GPT-4.1 nano — самая быстрая и недорогая модель в серии GPT-4.1. При небольшом размере и окне контекста в 1 миллион токенов она демонстрирует выдающуюся производительность: 80,1% по MMLU, 50,3% по GPQA и 9,8% по Aider polyglot coding — даже выше, чем у GPT-4o mini. Идеально подходит для задач классификации или автодополнения.
Llama 3.3 70B Instruct
Многоязычная большая языковая модель Meta Llama 3.3 (LLM) — предварительно обученная и инструкционно донастроенная генеративная модель объёмом 70 млрд параметров (текст на входе/текст на выходе). Модель Llama 3.3, работающая исключительно с текстом, оптимизирована для многоязычных диалоговых сценариев и по распространённым отраслевым бенчмаркам превосходит многие доступные открытые и коммерческие чат-модели. Поддерживаемые языки: английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский.
Qwen2.5-VL 7B Instruct
Qwen2.5 VL 7B — мультимодальная большая языковая модель (LLM) от команды Qwen, обладающая следующими ключевыми улучшениями: - Передовое понимание изображений в любых разрешениях и соотношениях сторон Qwen2.5-VL демонстрирует лучшие в отрасли результаты на бенчмарках визуального понимания, включая MathVista, DocVQA, RealWorldQA, MTVQA и другие. - Понимание видео продолжительностью более 20 минут Qwen2.5-VL способен анализировать видео длительностью свыше 20 минут для высококачественного ответа на вопросы по видеоконтенту, ведения диалогов, генерации материалов и прочего. - Агент для управления мобильными устройствами, роботами и другими девайсами Обладая возможностями сложного рассуждения и принятия решений, Qwen2.5-VL может быть интегрирован со смартфонами, роботами и т. д., обеспечивая автоматическое управление на основе визуальной среды и текстовых инструкций. - Мультиязычная поддержка В дополнение к английскому и китайскому Qwen2.5-VL понимает тексты на различных языках внутри изображений, включая большинство европейских языков, японский, корейский, арабский, вьетнамский и другие. Подробнее см. в блог-посте: https://qwenlm.github.io/blog/qwen2-vl/ Исходный код и инструкции — в репозитории GitHub: https://github.com/QwenLM/Qwen2-VL Использование модели регулируется лицензионным соглашением Tongyi Qianwen (https://huggingface.co/Qwen/Qwen1.5-110B-Chat/blob/main/LICENSE).
Nemotron Nano 12B 2 VL
NVIDIA Nemotron Nano 2 VL — это открытая мультимодальная модель с 12 млрд параметров, разработанная для анализа видео и интеллектуальной обработки документов. Она основана на гибридной архитектуре Transformer–Mamba, которая сочетает точность трансформеров с памятьэффективным последовательностным моделированием Mamba, что обеспечивает существенно более высокую пропускную способность и меньшую задержку. Модель принимает на вход текст и документы с несколькими изображениями, а на выходе генерирует ответы на естественном языке. Обучение проводилось на высококачественных синтетических наборах данных, отобранных и подготовленных NVIDIA, оптимизированных для оптического распознавания символов (OCR), анализа графиков и мультимодального понимания. Nemotron Nano 2 VL демонстрирует лучшие результаты в бенчмарке OCRBench v2 и набирает в среднем около 74 баллов по задачам MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA и Video-MME, превосходя предыдущие открытые мультимодальные модели. Благодаря технологии Efficient Video Sampling (EVS) модель эффективно обрабатывает длинные видеоролики, снижая вычислительные затраты на инференс. Все веса модели, данные для обучения и рецепты дообучения выпущены под свободной лицензией NVIDIA. Развёртывание поддерживается в фреймворках NeMo и NIM, а также в основных средах для инференса.
Cydonia 24B V4.1
Модель для креативного письма без цензуры на основе Mistral Small 3.2 24B с хорошей памятью, точным выполнением подсказок и высоким интеллектом.
Qwen3 VL 8B Instruct
Qwen3-VL-8B-Instruct — это мульти-модальная модель для работы с языком и визуальной информацией из серии Qwen3-VL, созданная для точного понимания и анализа текста, изображений и видео. Она обладает улучшенной мульти-модальной интеграцией с помощью Interleaved-MRoPE для временного анализа на длинных интервалах, DeepStack для детального визуально-текстового согласования и для точной локализации событий по текстовым меткам времени. Модель поддерживает нативное контекстное окно на 256 тысяч токенов, с возможностью расширения до 1 миллиона токенов, и может работать как со статическими, так и с динамическими медиа для выполнения задач, таких как разбор документов, визуальные вопросы и ответы, пространственное мышление и управление графическим интерфейсом. Qwen3-VL-8B-Instruct достигает уровня понимания текста, сопоставимого с передовыми языковыми моделями, расширяя возможности OCR на 32 языка и улучшая устойчивость при различных визуальных условиях.
o1
Новейшее и наиболее мощное семейство моделей OpenAI, o1 разработано так, чтобы больше времени уделять обдумыванию ответа. Серия o1 обучена с помощью масштабного обучения с подкреплением для рассуждений методом цепочки рассуждений. Модели o1 оптимизированы для задач по математике, естественным наукам, программированию и другим STEM-направлениям. Они последовательно демонстрируют точность на уровне докторской степени в бенчмарках по физике, химии и биологии. Узнайте больше в анонсе запуска.
Mistral Small 3.1 24B
Mistral Small 3.1 24B Instruct — это усовершенствованная версия Mistral Small 3 (2501) с 24 млрд параметров и расширенными мультимодальными возможностями. Модель показывает передовые результаты в текстовом рассуждении и задачах компьютерного зрения, включая анализ изображений, программирование, математическое рассуждение и многоязычную поддержку на нескольких десятках языков. Оснащена расширенным контекстным окном на 128 тыс. токенов и оптимизирована для эффективного локального вывода, что позволяет использовать её в чат-ботах, при вызове функций, для работы с длинными документами и в сценариях с повышенными требованиями к конфиденциальности. Обновлённая версия — Mistral Small 3.2 (mistralai/mistral-small-3.2-24b-instruct)
Nova Premier 1.0
Amazon Nova Premier — самая мощная мультимодальная модель Amazon для решения сложных задач рассуждения и оптимальный учитель при дистилляции пользовательских моделей.
GPT-4o-mini (2024-07-18)
GPT-4o mini — новейшая модель OpenAI после GPT-4 Omni, поддерживающая как текстовый, так и графический ввод с текстовым выводом. Являясь самой продвинутой компактной моделью компании, она в разы доступнее по цене по сравнению с другими последними флагманскими решениями и более чем на 60 % дешевле, чем GPT-3.5 Turbo. При этом модель сохраняет передовые интеллектуальные возможности (SOTA) и значительно снижает затраты. GPT-4o mini набирает 82 % по тесту MMLU и в текущих общедоступных рейтингах предпочтений в чатах опережает GPT-4. Подробнее о запуске читайте в анонсе.
Gemma 3 12B (free)
Qwen2.5 VL 32B Instruct
Qwen2.5-VL-32B — мультимодальная модель «зрение–язык», доработанная методом обучения с подкреплением для улучшения математических рассуждений, генерации структурированных ответов и решения визуальных задач. Она превосходно справляется с визуальным анализом: распознаёт объекты, интерпретирует текст на изображениях и точно локализует события в длительных видеороликах. Qwen2.5-VL-32B демонстрирует передовые результаты на мультимодальных бенчмарках MMMU, MathVista и VideoMME, при этом сохраняя высокий уровень логических рассуждений и ясность в текстовых задачах, таких как MMLU, решение математических задач и генерация кода.
Gemini 2.5 Flash
Gemini 2.5 Flash — передовая универсальная модель общего назначения Google, специально разработанная для продвинутых логических рассуждений, программирования, решения математических и научных задач. В неё встроены способности к «мышлению», что позволяет выдавать ответы с большей точностью и более тонко обрабатывать контекст. Кроме того, Gemini 2.5 Flash можно настраивать с помощью параметра max tokens for reasoning («максимальное количество токенов для рассуждений»), как описано в документации (https://openrouter.ai/docs/use-cases/reasoning-tokens#max-tokens-for-reasoning).
GLM 4.6 (exacto)
Claude Opus 4
Claude Opus 4 по результатам бенчмарков признана лучшей в мире моделью для программирования на момент релиза, обеспечивая стабильную производительность при выполнении сложных длительных задач и агентных рабочих процессов. Она устанавливает новые стандарты в разработке ПО, достигая ведущих результатов в тестах SWE-bench (72,5%) и Terminal-bench (43,2%). Opus 4 поддерживает расширенные агентные сценарии, обрабатывая тысячи шагов задач подряд в течение нескольких часов без потери качества.
GPT-5 Image Mini
GPT-5 Image Mini объединяет передовые языковые возможности OpenAI, обеспеченные [GPT-5 Mini](https://openrouter.ai/openai/gpt-5-mini), с GPT Image 1 Mini для эффективной генерации изображений. Эта изначально мультимодальная модель демонстрирует превосходное следование инструкциям, визуализацию текста и детальное редактирование изображений с пониженной задержкой и затратами. Она отлично справляется с созданием высококачественных визуальных образов, одновременно сохраняя сильное понимание текста, что делает её идеальной для приложений, требующих как эффективной генерации изображений, так и обработки текста в большом масштабе.
Gemini 2.5 Pro Preview 05-06
Gemini 2.5 Pro — передовая модель ИИ от Google, созданная для решения сложных задач в областях логического мышления, программирования, математики и научных исследований. Она оснащена возможностями «мышления», позволяющими формировать продуманные ответы с повышенной точностью и тонкой обработкой контекста. Gemini 2.5 Pro демонстрирует выдающиеся результаты по множеству бенчмарков, в том числе занимает первое место в рейтинге LMArena, что подтверждает её превосходное соответствие человеческим предпочтениям и высокую эффективность при решении сложных задач.
Morph V3 Fast
Morph — самая быстрая модель для применения правок в коде: около 10 500 токенов/с при точности 96% для оперативного преобразования кода. Модель требует, чтобы запрос был оформлен в следующем формате: <instruction>{instruction}</instruction> <code>{initial_code}</code> <update>{edit_snippet}</update> Для Morph включено нулевое хранение данных. Узнайте больше о модели в [документации](https://docs.morphllm.com/quickstart).
Gemini 2.5 Flash Lite
Gemini 2.5 Flash-Lite — легковесная модель рассуждений из семейства Gemini 2.5, оптимизированная для сверхнизкой задержки и эффективности затрат. Она обеспечивает повышенную пропускную способность, более быструю генерацию токенов и более высокую производительность по распространённым бенчмаркам по сравнению с предыдущими Flash-моделями. По умолчанию «мышление» (многоэтапное рассуждение) отключено в пользу скорости, но разработчики могут включить его через параметр Reasoning API, чтобы при необходимости жертвовать стоимостью ради более сложных рассуждений.
Qwen3 Coder 480B A35B (exacto)
DeepSeek V3.1
DeepSeek-V3.1 — крупная гибридная модель рассуждений (671 млрд параметров, из них 37 млрд активных), поддерживающая режимы «с рассуждением» и «без рассуждения» через шаблоны подсказок. Она расширяет базу DeepSeek-V3 двухэтапным обучением на длинном контексте (до 128 тыс. токенов) и использует микромасштабирование FP8 для эффективного вывода. Пользователи могут управлять включением режима рассуждений с помощью булева параметра reasoning_enabled. Подробнее в документации: https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config Модель повышает эффективность работы с инструментами, генерации кода и рассуждений, достигая на сложных бенчмарках показателей, сопоставимых с DeepSeek-R1, при более высокой скорости ответа. Она поддерживает структурированный вызов инструментов, кодовых агентов и поисковых агентов, что делает её подходящей для исследований, разработки и агентных рабочих процессов. DeepSeek-V3.1 пришла на смену модели DeepSeek V3-0324 и демонстрирует высокую эффективность в самых разных задачах.
Qwen3 Coder 480B A35B (free)
GPT-5 Image
GPT-5 Image сочетает самую передовую языковую модель OpenAI с передовыми возможностями генерации изображений. Она предлагает значительные улучшения в области рассуждений, качества кода и пользовательского опыта, при этом наследуя от GPT Image 1 превосходное следование инструкциям, отображение текста и детализированное редактирование изображений.
LlamaGuard 2 8B
Эта модель защиты (safeguard) содержит 8 млрд параметров и основана на семействе Llama 3. Как и её предшественница LlamaGuard 1, она выполняет классификацию как запросов, так и ответов. LlamaGuard 2 функционирует как обычная большая языковая модель (LLM): генерирует текст, который указывает, безопасен ли данный ввод/вывод. Если данные признаны небезопасными, модель также сообщает о нарушенных категориях контента. Для достижения оптимальных результатов рекомендуется использовать необработанный ввод подсказки (raw prompt) или endpoint `/completions` вместо чат-API. В оценках, проведённых людьми, модель показала высокую эффективность по сравнению с ведущими проприетарными решениями. Подробнее о выпуске модели читайте по ссылке: https://ai.meta.com/blog/meta-llama-3/. Использование модели регулируется Политикой приемлемого использования Meta: https://llama.meta.com/llama3/use-policy/
Saba
Mistral Saba — это языковая модель с 24 миллиардами параметров, специально разработанная для Ближнего Востока и Южной Азии. Она обеспечивает точные и контекстно релевантные ответы при оптимальной производительности. Обученная на тщательно подобранных региональных датасетах, модель поддерживает несколько языков индийского происхождения — в том числе тамильский и малаялам — а также арабский. Это делает её универсальным решением для различных региональных и мультиязычных задач. Узнать подробнее можно в статье блога по ссылке: https://mistral.ai/en/news/mistral-saba
Coder Large
Coder-Large — это потомок Qwen 2.5-Instruct с 32 миллиардами параметров, дообученный на репозиториях GitHub с разрешительными лицензиями, корпусах CodeSearchNet и синтетических корпусах исправлений ошибок. Модель поддерживает контекст длиной до 32 тыс. токенов, что позволяет в одном запросе проводить рефакторинг нескольких файлов или анализировать большие диффы, и понимает более 30 языков программирования с особым вниманием к TypeScript, Go и Terraform. Внутренние бенчмарки показывают прирост в 5–8 баллов по сравнению с CodeLlama-34B-Python в тесте HumanEval и сопоставимые результаты в BugFix благодаря дополнительному этапу обучения с подкреплением, при котором модель вознаграждается за компилируемый код. По умолчанию Coder-Large выдаёт структурированные пояснения вместе с блоками кода, что делает её подходящей как для образовательных инструментов, так и для реальных сценариев использования в роли copilot. В стоимостном плане Together AI предлагает её значительно дешевле проприетарных решений, что позволяет командам масштабировать интерактивное программирование без чрезмерных затрат.
o3
o3 — универсальная и мощная модель, показывающая отличные результаты в различных областях. Она устанавливает новый стандарт для задач по математике, науке, программированию и визуальному рассуждению. Кроме того, она превосходна в техническом письме и следовании инструкциям. Используйте её для решения многоэтапных задач, требующих анализа текста, кода и изображений.
DeepSeek V3
DeepSeek-V3 — новейшая модель команды DeepSeek, развивающая возможности предыдущих версий по выполнению инструкций и написанию кода. Предварительно обучена на почти 15 триллионах токенов: по результатам проведённых оценок она превосходит другие открытые модели и сопоставима с ведущими закрытыми решениями. Подробности о модели можно найти в репозитории DeepSeek-V3 на GitHub и в официальном анонсе запуска.
Nova Pro 1.0
Amazon Nova Pro 1.0 – универсальная мультимодальная модель от Amazon, ориентированная на сочетание точности, быстродействия и экономичности при решении широкого круга задач. По состоянию на декабрь 2024 года она демонстрирует передовые результаты по ключевым бенчмаркам, включая Visual Question Answering (TextVQA) и понимание видео (VATEX). Amazon Nova Pro обладает высокими возможностями обработки как визуальной, так и текстовой информации, а также анализа финансовых документов. Примечание: в настоящее время видео на входе не поддерживается.
Claude 3.7 Sonnet
Claude 3.7 Sonnet — современная большая языковая модель с улучшенными возможностями рассуждения, программирования и решения задач. Она внедряет гибридный подход к рассуждению, позволяющий выбирать между быстрыми ответами и подробной пошаговой обработкой сложных задач. Модель демонстрирует значительные улучшения в программировании, особенно во фронтенд- и full-stack-разработке, и превосходит себя в агентных рабочих процессах, где способна самостоятельно выполнять многоэтапные операции. В стандартном режиме Claude 3.7 Sonnet сохраняет производительность на уровне своего предшественника, а в расширенном режиме рассуждений обеспечивает более высокую точность при решении математических задач, программировании и выполнении инструкций.
Kimi K2 Thinking
Kimi K2 Thinking — самая продвинутая открытая модель рассуждения от Moonshot AI на сегодняшний день, которая расширяет серию K2 в направлении агентного, многошагового мышления на длинных горизонтах. Построенная на триллионной архитектуре смеси экспертов (Mixture-of-Experts, MoE), представленной в Kimi K2, она активирует 32 млрд параметров за один проход и поддерживает контекстное окно объёмом до 256 тыс. токенов. Модель оптимизирована для непрерывного пошагового мышления, динамического вызова инструментов и выполнения сложных рабочих процессов рассуждений, охватывающих сотни шагов. Она чередует пошаговые рассуждения с применением инструментов, что позволяет автономно проводить исследования, программировать и писать тексты на протяжении сотен последовательных операций без дрейфа контекста. Kimi K2 Thinking устанавливает новые открытые бенчмарки на HLE, BrowseComp, SWE-Multilingual и LiveCodeBench, одновременно обеспечивая стабильное мультиагентное поведение при 200–300 вызовах инструментов. Построенная на масштабной MoE-архитектуре с оптимизацией MuonClip, она сочетает глубокие способности к рассуждению с высокой эффективностью вывода для самых требовательных агентных и аналитических задач.
Sonar Deep Research
Sonar Deep Research — это модель, ориентированная на исследовательские задачи, выполняющая многоступенчатый поиск, синтез и логический анализ сложных тем. Она самостоятельно ищет, изучает и оценивает источники, корректируя методику по мере накопления информации. Это позволяет генерировать подробные отчёты в таких областях, как финансы, технологии, здравоохранение и актуальные события. Примечания по тарифам (Источник: https://docs.perplexity.ai/guides/pricing#detailed-pricing-breakdown-for-sonar-deep-research) - Входные токены включают токены запроса (prompt) и токены цитирования (получаемые при выполнении поисковых запросов). - Deep Research делает несколько поисковых запросов для всестороннего исследования. Стоимость — $5 за 1000 запросов. Например, запрос из 30 поисков обойдётся в $0,15 на этом этапе. - Этап «Reasoning» выделен отдельно, поскольку на нём модель проводит масштабные автоматизированные рассуждения над собранным материалом до генерации итоговых ответов с помощью CoTs. Токены для этапа Reasoning отличаются от токенов CoTs в ответе и тарифицируются по $3 за 1 млн токенов.
Phi 4
Модель Phi-4 от Microsoft Research разработана для эффективного решения задач, требующих сложного рассуждения, а также умеет работать в условиях ограниченной оперативной памяти или когда нужны быстрые ответы. Обладая 14 млрд параметров, она обучена на сочетании высококачественных синтетических наборов данных, информации с отобранных веб-ресурсов и академических материалов. Модель прошла тщательную доработку, чтобы точно следовать инструкциям и соответствовать высоким стандартам безопасности. Лучшие результаты она показывает при вводе запросов на английском языке. Для получения дополнительной информации см. технический отчет Phi-4: https://arxiv.org/pdf/2412.08905
MiniMax M1
MiniMax-M1 — масштабная модель рассуждения с открытыми весами, созданная для работы с расширенным контекстом и высокоэффективного вывода. Она использует гибридную архитектуру Mixture-of-Experts (MoE) в сочетании с собственным механизмом «lightning attention», что позволяет обрабатывать длинные последовательности — до 1 миллиона токенов — при конкурентной эффективности по FLOP. С общим числом параметров 456 млрд и 45,9 млрд активных параметров на токен эта версия оптимизирована для решения сложных многоэтапных задач рассуждения. Обученная с помощью специализированного конвейера обучения с подкреплением (CISPO), M1 демонстрирует выдающиеся результаты в понимании длинного контекста, программной инженерии, автономном использовании инструментов и математическом мышлении. В бенчмарках FullStackBench, SWE-bench, MATH, GPQA и TAU-Bench она часто превосходит другие открытые модели, такие как DeepSeek R1 и Qwen3-235B.
GPT-4o (extended)
Gemma 3 4B
Gemma 3 получила мультимодальную архитектуру: модель способна обрабатывать входящие изображения и текст, выдавая текстовые ответы. Она работает с контекстом до 128 000 токенов, понимает более 140 языков и обладает улучшенными возможностями в решении математических задач, в рассуждениях и ведении диалогов, включая формирование структурированных ответов и вызов функций.
Llama 3.2 11B Vision Instruct
Llama 3.2 11B Vision — мультимодальная модель с 11 миллиардами параметров, созданная для задач, объединяющих визуальные и текстовые данные. Она превосходно справляется с генерацией подписей к изображениям и ответами на вопросы по содержимому, совмещая языковую генерацию и визуальное рассуждение. Предварительное обучение на огромном наборе пар «изображение–текст» гарантирует высокую точность при сложном анализе изображений. Её способность интегрировать визуальное восприятие и обработку естественного языка делает её оптимальным решением для отраслей, требующих комплексных визуально-лингвистических AI-приложений: создания контента, обслуживания клиентов на базе ИИ и научных исследований. Подробнее об официальной карточке модели: https://github.com/meta-llama/llama-models/blob/main/models/llama3_2/MODEL_CARD_VISION.md Использование модели регулируется Политикой приемлемого использования Meta: https://www.llama.com/llama3/use-policy/
Maestro Reasoning
Maestro Reasoning — флагманская аналитическая модель Arcee: производная версия Qwen 2.5-32 B с 32 млрд параметров, донастроенная с помощью DPO и обучения с подкреплением по цепочкам рассуждений для пошаговой логики. По сравнению с предварительной 7-млрдной версией, релизная 32-млрдная модель расширяет окно контекста до 128 тыс. токенов и вдвое повышает долю успешно решённых задач в тестах MATH и GSM-8K, а также улучшает точность автодополнения кода. Стиль инструкций поощряет структурированный формат «рассуждение → ответ», причём ход мыслей можно либо отобразить, либо скрыть по желанию пользователя. Такая прозрачность особенно ценна в сферах с повышенными требованиями к аудиту — финансах и здравоохранении, где важно видеть весь процесс принятия решений. В Arcee Conductor Maestro автоматически выбирается для сложных запросов с множеством ограничений, с которыми не справляются более мелкие SLM.
Qwen2.5 72B Instruct
Qwen2.5 72B — последняя серия больших языковых моделей Qwen. Qwen2.5 по сравнению с Qwen2 предлагает следующие улучшения: - Значительно расширенная база знаний и заметно улучшенные возможности в программировании и математике благодаря специализированным экспертным моделям. - Существенные улучшения в следовании инструкциям, генерации длинных текстов (более 8 000 токенов), понимании структурированных данных (например, таблиц) и формировании структурированных выходных данных, особенно в формате JSON. Модель стала более устойчива к разнообразию системных подсказок, что облегчает реализацию ролевых сценариев и настройку условий для чат-ботов. - Поддержка длинного контекста объёмом до 128 000 токенов и возможность генерации до 8 000 токенов. - Мультиязычная поддержка более чем 29 языков, включая китайский, английский, французский, испанский, португальский, немецкий, итальянский, русский, японский, корейский, вьетнамский, тайский, арабский и другие. Использование модели регулируется Лицензионным соглашением Tongyi Qianwen: https://huggingface.co/Qwen/Qwen1.5-110B-Chat/blob/main/LICENSE
WizardLM-2 8x22B
WizardLM-2 8×22B — самая продвинутая модель Wizard от Microsoft AI. Она демонстрирует высокую конкурентоспособность по сравнению с ведущими проприетарными моделями и стабильно превосходит все существующие передовые модели с открытым исходным кодом. Модель представляет собой дообучение по инструкциям (instruct fine-tune) на базе Mixtral 8×22B. Подробнее о выпуске модели можно узнать по ссылке: https://wizardlm.github.io/WizardLM2/. #moe
Mistral Large
Это флагманская модель Mistral AI — Mistral Large 2 (версия «mistral-large-2407»). Веса этой проприетарной модели доступны, и она превосходно справляется с логическим выводом, программированием, обработкой JSON, ведением диалогов и многими другими задачами. Ознакомьтесь с анонсом запуска по ссылке: https://mistral.ai/news/mistral-large-2407/ Модель поддерживает десятки языков, включая французский, немецкий, испанский, итальянский, португальский, арабский, хинди, русский, китайский, японский и корейский, а также более 80 языков программирования — Python, Java, C, C++, JavaScript, Bash и другие. Благодаря большому контекстному окну она позволяет точно извлекать информацию из объёмных документов.
Mixtral 8x22B Instruct
Официальная версия Mixtral 8×22B от Mistral, дообученная по инструкциям. Использует 39 млрд активных параметров из 141 млрд, обеспечивая непревзойденную экономичность для своего размера. Ключевые преимущества: - высокая точность в математике, программировании и рассуждениях - большая длина контекста (64 K) - свободное владение английским, французским, итальянским, немецким и испанским языками См. результаты тестирования в анонсе запуска: https://mistral.ai/news/mixtral-8x22b/ #moe
MythoMax 13B
Одна из самых эффективных и популярных тонко настроенных версий Llama 2 13B с детализированными описаниями и поддержкой ролевых сценариев. #merge
Llama Guard 4 12B
Llama Guard 4 — мультимодальная предобученная модель на базе Llama 4 Scout, дообученная для классификации безопасности контента. Подобно предыдущим версиям, она позволяет оценивать как входные запросы LLM (классификация запросов), так и ответы модели (классификация ответов). Модель функционирует как LLM: выводит текст, указывающий, безопасен ли запрос или ответ, а при обнаружении небезопасного контента перечисляет нарушенные категории. Llama Guard 4 настроена на соответствие стандартизированной таксономии рисков MLCommons и разработана с учётом мультимодальных возможностей Llama 4. Она объединяет функции предыдущих версий Llama Guard, обеспечивая модерацию контента на английском и ряде других языков, а также расширенную обработку комбинированных текстово-изображенческих запросов, включая несколько изображений. Кроме того, Llama Guard 4 интегрирована в Llama Moderations API, что позволяет надёжно классифицировать безопасность как текстовых данных, так и изображений.
Gemma 2 27B
Gemma 2 27B от Google — открытая модель, основанная на тех же исследованиях и технологиях, что и семейство моделей Gemini. Модели Gemma отлично подходят для различных задач генерации текста: ответов на вопросы, резюмирования и логических рассуждений. Подробнее см. [сообщение о запуске](https://blog.google/technology/developers/google-gemma-2/). Использование Gemma осуществляется в соответствии с [Условиями использования Gemma](https://ai.google.dev/gemma/terms) от Google.
GPT-4.1
GPT-4.1 — флагманская модель большого масштаба, оптимизированная для продвинутого выполнения инструкций, решения реальных задач разработки программного обеспечения и работы с длинным контекстом. Модель поддерживает окно контекста объёмом до миллиона токенов и превосходит GPT-4o и GPT-4.5 по задачам кодирования (54,6 % по SWE-bench Verified), соблюдению инструкций (87,4 % по IFEval) и тестам мультимодального понимания. GPT-4.1 настроена на точное отображение изменений в коде, надёжность агентов и высокую полноту при работе с большими документами, что делает её идеальным решением для агентов, инструментов для среды разработки (IDE) и корпоративных систем поиска знаний.
Grok 3 Mini Beta
Grok 3 Mini — облегчённая компактная модель для «мышления». В отличие от традиционных моделей, которые мгновенно генерируют ответы, Grok 3 Mini сначала обдумывает их. Она отлично подходит для задач, требующих серьёзных рассуждений, но не больших отраслевых знаний, и особенно хороша в математических и количественных сценариях, например при решении сложных головоломок или математических задач. Прозрачные следы «мышления» доступны для просмотра. По умолчанию уровень рассуждений низкий, но его можно повысить, задав настройку `reasoning: { effort: "high" }`. Важно: для этой модели доступно два xAI-эндпоинта. По умолчанию запросы идут на базовый эндпоинт. Если нужен более быстрый, добавьте `provider: { sort: "throughput" }`.
Qwen3 VL 30B A3B Instruct
Qwen3-VL-30B-A3B-Instruct — мультимодальная модель, объединяющая мощную генерацию текста и визуальное понимание изображений и видео. Вариант Instruct оптимизирован для выполнения инструкций в общих мультимодальных задачах. Модель превосходно справляется с распознаванием реальных и синтетических категорий, 2D/3D пространственной привязкой и глубоким пониманием продолжительных визуальных данных, показывая конкурентоспособные результаты на мультимодальных бенчмарках. В агентных сценариях она поддерживает многоходовые инструкции с несколькими изображениями, выравнивание по таймлайну видео, автоматизацию графического интерфейса (GUI) и визуальное кодирование от эскизов до отлаженных пользовательских интерфейсов. Текстовые возможности модели сопоставимы с флагманскими версиями Qwen3, что делает её подходящей для систем обработки документов, OCR, помощи в пользовательских интерфейсах, пространственных задач и исследований агентных систем.
Sonar Reasoning Pro
Примечание: стоимость Sonar Pro включает тариф поиска Perplexity. Подробности см. здесь: https://docs.perplexity.ai/guides/pricing#detailed-pricing-breakdown-for-sonar-reasoning-pro-and-sonar-pro Sonar Reasoning Pro — это передовая модель рассуждений на базе DeepSeek R1 с механизмом цепочки рассуждений (Chain of Thought, CoT). Предназначенная для сложных сценариев использования, она поддерживает глубокие многоэтапные запросы с расширенным окном контекста и может предоставлять больше ссылок на источники за один поиск, что обеспечивает более полные и расширяемые ответы.
o3 Pro
Модели серии o обучены с помощью обучения с подкреплением: они сначала обдумывают ответы и способны вести сложные рассуждения. Модель o3-pro задействует больше вычислительных ресурсов, чтобы тщательнее анализировать запрос и стабильно выдавать более качественные ответы. Обратите внимание, что для работы этой модели требуется BYOK. Настройка доступна здесь: https://openrouter.ai/settings/integrations
UnslopNemo 12B
UnslopNemo v4.1 — новейшая разработка от создателя модели Rocinante, созданная для написания приключенческих историй и ролевых сценариев.
Voxtral Small 24B 2507
Voxtral Small — это усовершенствованная версия Mistral Small 3 с передовыми возможностями аудиоввода при сохранении лучшей в своём классе текстовой производительности. Она превосходно справляется с транскрипцией речи, переводом и анализом аудио. Стоимость обработки входного аудио составляет 100 долларов США за миллион секунд.
Gemma 3n 4B (free)
GPT-3.5 Turbo 16k
Эта модель обеспечивает в четыре раза больший контекст, чем gpt-3.5-turbo, позволяя в одном запросе обрабатывать около 20 страниц текста, однако по более высокой цене. Данные для обучения: по состоянию на сентябрь 2021 года.
Jamba Large 1.7
Jamba Large 1.7 — это новейшая модель из открытого семейства Jamba, предлагающая улучшенное обоснование ответов, повышенную способность следовать инструкциям и оптимизированную производительность. Построенная на гибридной архитектуре SSM-Transformer с окном контекста в 256 000 токенов, она генерирует более точные, контекстно обоснованные ответы и обладает лучшей управляемостью по сравнению с предыдущими версиями.
GPT-5 Mini
GPT-5 Mini — компактная версия GPT-5, разработанная для выполнения менее ресурсоёмких задач, требующих рассуждений. Она сохраняет все преимущества GPT-5 в выполнении инструкций и тонкой настройке безопасности, при этом обеспечивает более низкую задержку и стоимость. GPT-5 Mini является преемником модели o4-mini от OpenAI.
Qwen3 32B
Qwen3-32B — плотная авторегрессионная языковая модель серии Qwen3 с 32,8 млрд параметров, оптимизированная для сложных рассуждений и эффективного диалога. Модель обеспечивает бесшовное переключение между «режимом размышления» для задач, таких как решение математических задач, программирование и логический вывод, и «режимом без размышлений» для более оперативного и универсального общения. Qwen3-32B демонстрирует высокую эффективность при выполнении инструкций, работе с инструментами агентов, творческом письме и решении многоязычных задач на более чем 100 языках и диалектах. Из коробки модель поддерживает контекст до 32 тыс. токенов и может расширять его до 131 тыс. токенов за счёт масштабирования на основе YaRN.
Llama 3.1 70B Instruct
Meta выпустила линейку моделей LLaMA 3.1 различных размеров и конфигураций. Эта версия на 70 млрд параметров, дообученная для выполнения инструкций, оптимизирована для высококачественных диалоговых сценариев. В человеческих оценках она продемонстрировала высокую производительность по сравнению с ведущими закрытыми моделями. Подробнее о выпуске модели: https://ai.meta.com/blog/meta-llama-3-1/. Использование этой модели регулируется Политикой приемлемого использования Meta: https://llama.meta.com/llama3/use-policy/
Noromaid 20B
Коллаборация IkariDev и Undi. Это слияние подходит для ролевых игр, эротических ролевых игр и получения общей информации. #слияние #безцензуры
R1 Distill Qwen 32B
DeepSeek R1 Distill Qwen 32B — это дистиллированная большая языковая модель на основе Qwen 2.5 32B, дообученная на выходных данных DeepSeek R1. По ряду бенчмарков она превосходит модель o1-mini от OpenAI, устанавливая новые рекордные показатели среди плотных моделей. Результаты на других тестовых наборах: - AIME 2024 pass@1: 72.6 - MATH-500 pass@1: 94.3 - Рейтинг CodeForces: 1691 Модель использует дообучение на примерах из DeepSeek R1, что обеспечивает ей конкурентоспособную производительность, сопоставимую с более крупными передовыми моделями.
Qwen3 30B A3B
Qwen3 — последнее поколение больших языковых моделей серии Qwen. Она сочетает полносвязную архитектуру (dense) и архитектуру смеси экспертов (Mixture-of-Experts, MoE), что позволяет ей превосходно справляться с задачами рассуждения, обеспечивать многоязычную поддержку и выполнять продвинутые агентные задачи. Уникальная способность мгновенно переключаться между режимом глубокой аналитической обработки для комплексных рассуждений и экономным режимом для эффективного диалога обеспечивает универсальность и высокое качество работы. Значительно опережая предыдущие модели, такие как QwQ и Qwen2.5, Qwen3 демонстрирует выдающиеся результаты в решении математических задач, программировании, рассуждениях на основе здравого смысла, креативном письме и интерактивном общении. Вариант Qwen3-30B-A3B включает 30,5 миллиарда параметров (из них задействованы 3,3 миллиарда), состоит из 48 слоёв и 128 экспертов (по 8 активных на задачу) и поддерживает контекст длиной до 131 тысячи токенов с помощью YaRN, устанавливая новый стандарт среди моделей с открытым исходным кодом.
GPT-4o-mini Search Preview
GPT-4o mini Search Preview — специализированная модель веб-поиска в Chat Completions. Она обучена понимать и выполнять поисковые запросы в интернете.
Gemini 2.5 Flash Lite Preview 09-2025
Gemini 2.5 Flash-Lite — легковесная модель рассуждений из семейства Gemini 2.5, оптимизированная для сверхнизкой задержки и высокой экономичности. Она обеспечивает повышенную пропускную способность, более быструю генерацию токенов и лучшие показатели в стандартных бенчмарках по сравнению с предыдущими Flash-моделями. По умолчанию «мышление» (многошаговое рассуждение) отключено ради максимальной скорости, но разработчики могут включить его через параметр Reasoning API (https://openrouter.ai/docs/use-cases/reasoning-tokens), чтобы при необходимости пожертвовать стоимостью ради более сложных рассуждений.
Weaver (alpha)
Попытка воссоздать многословность в стиле Claude, но не стоит ожидать такого же уровня связности и памяти. Предназначена для использования в ролевых играх и нарративных сценариях.
Mistral Nemo
Модель на 12 млрд параметров с контекстным окном до 128 000 токенов, разработанная Mistral совместно с NVIDIA. Многоязычная: поддерживает английский, французский, немецкий, испанский, итальянский, португальский, китайский, японский, корейский, арабский и хинди. Поддерживает вызов функций и распространяется под лицензией Apache 2.0.
Mercury Coder
Mercury Coder – первая диффузионная большая языковая модель (dLLM). Используя прорывной метод дискретной диффузии, она работает в 5–10 раз быстрее даже по скорости оптимизированных решений, таких как Claude 3.5 Haiku и GPT-4o Mini, при сопоставимом уровне производительности. Высокая скорость Mercury Coder позволяет разработчикам оставаться в «потоке» программирования, быстро проводить итерации в чате и получать мгновенные подсказки автозавершения кода. На платформе Copilot Arena Mercury Coder занимает первое место по скорости и разделяет второе место по качеству. Подробнее читайте в блоге: https://www.inceptionlabs.ai/blog/introducing-mercury
Llemma 7b
Модель Llemma 7B — языковая модель для математики. Она была инициализирована весами Code Llama 7B и обучена на Proof-Pile-2, включающем 200 млрд токенов. Модели Llemma особенно хорошо справляются с пошаговыми математическими рассуждениями и использованием вычислительных инструментов, таких как Python и формальные доказатели теорем.
Llama 3.2 1B Instruct
Llama 3.2 1B — языковая модель с 1 млрд параметров, оптимизированная для эффективного решения задач обработки естественного языка: суммирования, ведения диалога и многоязычного анализа текстов. Благодаря компактному размеру она может работать в условиях ограниченных вычислительных ресурсов, сохраняя при этом высокую производительность. Поддерживая восемь основных языков и допускающая донастройку под другие, Llama 1.3B идеально подходит бизнесу и разработчикам, которым требуются лёгкие, но мощные ИИ-решения для многоязычных сценариев без высоких требований к оборудованию.
Command A
Command A — это модель с открытыми весами, 111 миллиардами параметров и контекстным окном на 256 тысяч токенов, ориентированная на выдающуюся производительность в агентных, мультиязычных и задачах программирования. По сравнению с другими ведущими моделями — как проприетарными, так и с открытыми весами — Command A обеспечивает максимальную производительность при минимальных затратах на оборудование, особенно преуспевая в критически важных для бизнеса агентных и мультиязычных задачах.
Mistral Large 2407
Это флагманская модель Mistral AI — Mistral Large 2 (версия mistral-large-2407). Это проприетарная модель с доступными весами, которая отлично справляется в задачах рассуждения, программирования, работе с JSON, общении в чате и многом другом. Прочитать анонс запуска можно здесь: https://mistral.ai/news/mistral-large-2407/. Она поддерживает десятки языков, включая французский, немецкий, испанский, итальянский, португальский, арабский, хинди, русский, китайский, японский и корейский, а также более 80 языков программирования, среди которых Python, Java, C, C++, JavaScript и Bash. Благодаря расширенному контекстному окну модель способна точно извлекать информацию из объёмных документов.
GPT-5 Pro
GPT-5 Pro — самая передовая модель OpenAI, обеспечивающая значительные улучшения в области рассуждений, качества кода и удобства использования. Она оптимизирована для сложных задач, требующих пошагового рассуждения, строгого следования инструкциям и высокой точности в критически важных сценариях. Модель поддерживает функции маршрутизации на этапе инференса и продвинутое понимание подсказок, включая учёт намерений пользователя, например «тщательно обдумай это». Среди ключевых улучшений — снижение количества галлюцинаций и подхалимства, а также повышение производительности в программировании, создании текстов и медицинских задачах.
Nova Lite 1.0
Amazon Nova Lite 1.0 — это очень бюджетная мультимодальная модель от Amazon, оптимизированная для быстрой обработки изображений, видео и текста с генерацией текстовых ответов. Nova Lite обеспечивает высокую точность при обслуживании клиентов в режиме реального времени, анализе документов и ответах на вопросы по изображениям. При контексте до 300 000 токенов модель способна в одном запросе проанализировать сразу несколько изображений или до 30 минут видеозаписи.
Hermes 2 Pro - Llama-3 8B
Hermes 2 Pro — это усовершенствованная и дообученная версия Nous Hermes 2, включающая обновлённую и очищенную версию датасета OpenHermes 2.5, а также новый, разработанный внутри компании набор данных для вызова функций и работы в режиме JSON.
Llama 3.3 70B Instruct (free)
Llama 3.1 Nemotron 70B Instruct
Модель NVIDIA Llama 3.1 Nemotron 70B — это языковая модель, разработанная для генерации точных и полезных ответов. Она построена на архитектуре Llama 3.1 70B и использует метод обучения с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF), демонстрируя выдающиеся результаты в автоматических бенчмарках выравнивания. Модель идеально подходит для приложений, где требуется высокая точность и полезность ответов, и справляется с разнообразными запросами пользователей в самых разных областях. Использование модели регулируется Политикой приемлемого использования Meta.
LongCat Flash Chat
LongCat-Flash-Chat — крупномасштабная модель Mixture-of-Experts (MoE) с общим числом параметров 560 млрд, из которых для каждого входа динамически активируется от 18,6 до 31,3 млрд (в среднем ≈27 млрд). Модель использует архитектуру MoE со шорткат-соединениями, что снижает накладные расходы на обмен данными и обеспечивает высокую пропускную способность, одновременно сохраняя стабильность обучения благодаря продвинутым стратегиям масштабирования: переносу гиперпараметров, детерминированным вычислениям и многоэтапной оптимизации. В этом релизе LongCat-Flash-Chat представлена как фундаментальная модель без собственных механизмов «мышления», оптимизированная для диалоговых и агентных задач. Она поддерживает длинные контекстные окна до 128 тыс. токенов и демонстрирует конкурентоспособные результаты в задачах рассуждения, программирования, следования инструкциям и предметных бенчмарках, особенно выделяясь в использовании инструментов и при сложных многоэтапных взаимодействиях.
GLM 4.6
По сравнению с GLM-4.5, в этом обновлении представлено несколько ключевых улучшений: • Расширенное окно контекста: объём обрабатываемой истории увеличен с 128 K до 200 K токенов, что позволяет модели решать более сложные агентные задачи. • Повышенная производительность в кодировании: модель демонстрирует более высокие результаты на бенчмарках по коду и лучше проявляет себя в прикладных решениях—Claude Code, Cline, Roo Code и Kilo Code, включая улучшенную генерацию визуально проработанных фронтенд-страниц. • Усиленное рассуждение: GLM-4.6 показывает заметный прогресс в логическом мышлении и поддерживает использование внешних инструментов во время инференса, что повышает её общую эффективность. • Более продвинутые агенты: модель лучше справляется с агентами, основанными на поиске и работе с инструментами, и эффективнее интегрируется в агентные фреймворки. • Совершенствование стиля: генерируемый текст лучше соответствует человеческим ожиданиям по стилю и читаемости и звучит естественнее в ролевых сценариях.
o1-pro
Модели серии o1 обучены с помощью обучения с подкреплением, что позволяет им тщательно обдумывать ответы и выполнять сложные рассуждения. Модель o1-pro использует больше вычислительных ресурсов для более глубокой проработки и обеспечивает стабильно более качественные ответы.
Mercury
Mercury — первая диффузионная большая языковая модель (dLLM). Применяя прорывной дискретный диффузионный подход, она работает в 5–10 раз быстрее даже по сравнению с оптимизированными по скорости моделями, такими как GPT-4.1 Nano и Claude 3.5 Haiku, при этом не уступая им по качеству. Благодаря высокой скорости Mercury позволяет разработчикам обеспечивать отзывчивый пользовательский опыт — например в голосовых ассистентах, поисковых интерфейсах и чат-ботах. Подробнее читайте в статье блога: https://www.inceptionlabs.ai/blog/introducing-mercury
GPT-4o Audio
Модель gpt-4o-audio-preview получила поддержку аудиоввода в качестве подсказок. Это улучшение позволяет модели улавливать нюансы в аудиозаписях и придавать глубину пользовательскому опыту. В настоящее время аудиовывод не поддерживается. Стоимость аудиотокенов составляет 40 $ за миллион входных аудиотокенов.
GPT-3.5 Turbo (older v0613)
GPT-3.5 Turbo — самая быстрая модель OpenAI. Она может понимать и генерировать текст на естественном языке и код, а также оптимизирована для чата и традиционных задач завершения текста. Данные для обучения актуальны на сентябрь 2021 года.
Rocinante 12B
Rocinante 12B разработана для увлекательного повествования и богатой прозы. Ранние тестировщики отмечают: - расширенный словарный запас с уникальными и выразительными словами - повышенную креативность для ярких повествований - захватывающие истории, полные приключений
Inflection 3 Productivity
Inflection 3 Productivity оптимизирована для следования инструкциям. Она лучше справляется с задачами, требующими вывода в формате JSON или строгого соблюдения предоставленных рекомендаций. У модели есть доступ к актуальным новостям. Для эмоционального интеллекта, аналогичного Pi, смотрите [Inflect 3 Pi](/inflection/inflection-3-pi). Подробнее — в [анонсе Inflection](https://inflection.ai/blog/enterprise).
Command R7B (12-2024)
Command R7B (12-2024) — компактное и быстрое обновление модели Command R+, выпущенное в декабре 2024 года. Отлично справляется с RAG, работой со сторонними инструментами, агентами и другими задачами, требующими сложных рассуждений и последовательного выполнения нескольких шагов. Использование модели регулируется Политикой использования и SaaS-договором компании Cohere.
Llama 3 8B Instruct
Meta представила новую линейку моделей Llama 3, доступную в различных размерах и конфигурациях. Восьмимиллиардная версия, дообученная по инструкции (instruct-tuned), оптимизирована для высококачественных диалоговых сценариев. По итогам человеческих оценок она продемонстрировала впечатляющие результаты по сравнению с ведущими закрытыми моделями. Подробнее о релизе модели: https://ai.meta.com/blog/meta-llama-3/ Использование модели регулируется Политикой приемлемого использования Meta: https://llama.meta.com/llama3/use-policy/
GPT-4o
GPT-4o («o» от «omni») — новейшая модель ИИ от OpenAI, поддерживающая ввод текста и изображений с текстовым выводом. Она сохраняет уровень интеллекта GPT-4 Turbo, при этом работает вдвое быстрее и на 50 % экономичнее. GPT-4o также обеспечивает улучшенную работу с неанглоязычными текстами и расширенные визуальные возможности. Для сравнительного тестирования с другими моделями её кратковременно называли «im-also-a-good-gpt2-chatbot». #мультимодальность
R1 Distill Llama 70B
DeepSeek R1 Distill Llama 70B — дистиллированная большая языковая модель на базе Llama-3.3-70B-Instruct, обученная на выходах DeepSeek R1. Модель сочетает передовые методы дистилляции для достижения высокой производительности по ряду бенчмарков, включая: - AIME 2024 pass@1: 70,0 - MATH-500 pass@1: 94,5 - Рейтинг Codeforces: 1633 Благодаря дообучению на данных DeepSeek R1 модель демонстрирует результаты, сопоставимые с более крупными флагманскими системами.
GPT-4o (2024-11-20)
Версия GPT-4o от 20 ноября 2024 года предлагает расширенные возможности творческого письма: более естественные, увлекательные и персонализированные тексты для повышения релевантности и удобочитаемости. Она также стала лучше работать с загруженными файлами, обеспечивая более глубокий анализ и развернутые ответы. GPT-4o («o» от «omni») — новейшая модель искусственного интеллекта от OpenAI, поддерживающая как текстовые, так и графические входные данные и выдающая результат в виде текста. Модель сохраняет уровень интеллектуальных возможностей GPT-4 Turbo, но при этом работает вдвое быстрее и на 50 % экономичнее. Кроме того, GPT-4o демонстрирует улучшенные результаты при обработке текстов на неанглийских языках и обладает расширенными визуальными возможностями.
Kimi K2 0905 (exacto)
Gemini 2.5 Pro
Gemini 2.5 Pro — передовая модель ИИ от Google, разработанная для продвинутого рассуждения, программирования, математических и научных задач. Она использует механизмы «мышления», позволяющие формировать ответы с повышенной точностью и учитывать тонкие нюансы контекста. Gemini 2.5 Pro демонстрирует выдающиеся результаты на различных бенчмарках, включая первое место в рейтинге LMArena, что отражает её высокую степень соответствия человеческим предпочтениям и способность решать сложные задачи.
Qwen3 30B A3B Thinking 2507
Qwen3-30B-A3B-Thinking-2507 — модель типа Mixture-of-Experts с 30 миллиардами параметров, оптимизированная для сложных задач, требующих многоэтапного мышления. Она специально разработана для «режима размышления», при котором внутренние трассировки рассуждений отделены от итоговых ответов. По сравнению с предыдущими версиями Qwen3-30B эта модель демонстрирует улучшенные результаты в логическом мышлении, математике, науке, программировании и мультиязычных бенчмарках. Она также лучше выполняет инструкции, эффективнее использует инструменты и более согласована с человеческими предпочтениями. Благодаря повышенной эффективности рассуждений и расширенным лимитам вывода модель наилучшим образом подходит для продвинутых исследований, соревновательного решения задач и агентных приложений, требующих структурированного рассуждения в длинном контексте.
Kimi K2 0905
Kimi K2 0905 – сентябрьское обновление модели Kimi K2 0711 от Moonshot AI. Это масштабная языковая модель с архитектурой Mixture-of-Experts (MoE), содержащая 1 триллион параметров, из которых при каждом прямом проходе активируется 32 млрд. Модель поддерживает работу с контекстом длиной до 256 тыс. токенов (против предыдущих 128 тыс.). В этом обновлении улучшено агентно-ориентированное кодирование: повышена точность и обобщаемость на разных шаблонах, а также усовершенствована генерация фронтенд-кода: более эстетичные и функциональные решения для веба, 3D и смежных задач. Kimi K2 оптимизирована для агентных возможностей, включая продвинутое использование инструментов, логическое рассуждение и синтез кода. Модель демонстрирует выдающиеся результаты в бенчмарках по кодированию (LiveCodeBench, SWE-bench), рассуждению (ZebraLogic, GPQA) и использованию инструментов (Tau2, AceBench). Обучение проводилось с помощью инновационного стека с оптимизатором MuonClip для стабильной и масштабируемой тренировки MoE.
ERNIE 4.5 VL 424B A47B
ERNIE-4.5-VL-424B-A47B — мультимодальная модель Mixture-of-Experts (MoE) из серии ERNIE 4.5 компании Baidu. Общее число параметров составляет 424 млрд, из которых на каждый токен задействуется 47 млрд. Модель обучалась одновременно на текстовых и визуальных данных с использованием гетерогенной MoE-архитектуры и изолированной маршрутизации по модальностям, что обеспечивает точное кросс-модальное мышление, понимание изображений и генерацию в длинном контексте (до 131 000 токенов). Для тонкой настройки применялись методы SFT, DPO, UPO и RLVR, при этом модель поддерживает режимы вывода «с мышлением» и «без мышления». Предназначена для задач vision-language на английском и китайском языках, оптимизирована для эффективного масштабирования и может работать при квантизации 4-бит или 8-бит.
Codestral 2508
Передовая языковая модель Mistral для программирования, выпущенная в конце июля 2025 года. Codestral специализируется на задачах с низкой задержкой и высокой частотой выполнения, таких как заполнение недостающих фрагментов кода (fill-in-the-middle, FIM), исправление кода и генерация тестов.
Qwen2.5 Coder 32B Instruct
Qwen2.5-Coder — это новейшая серия специализированных на коде больших языковых моделей семейства Qwen (ранее известная как CodeQwen). По сравнению с CodeQwen1.5 Qwen2.5-Coder предлагает: - Существенные улучшения в генерации кода, его анализе и исправлении. - Расширенную основу для практических применений, таких как Code Agents: модель не только усиливает возможности программирования, но и сохраняет сильные стороны в математике и общих компетенциях. Чтобы узнать больше об оценочных результатах, посетите блог Qwen 2.5 Coder: https://qwenlm.github.io/blog/qwen2.5-coder-family/
GLM 4.5
GLM-4.5 — наша новейшая флагманская фундаментальная модель, разработанная специально для приложений с агентами. Она использует архитектуру Mixture-of-Experts (MoE, «смесь экспертов») и поддерживает контекст длиной до 128 000 токенов. GLM-4.5 предоставляет значительно расширенные возможности в области рассуждений, генерации кода и согласования работы агентов. Модель работает в гибридном режиме вывода с двумя вариантами: режим «thinking» для сложных рассуждений и использования инструментов и режим «non-thinking» для мгновенных ответов. Пользователи могут управлять алгоритмом рассуждений с помощью булева параметра reasoning_enabled. Подробнее в нашей документации: https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config
ERNIE 4.5 21B A3B
Сложная текстовая модель на основе Mixture-of-Experts (MoE) с общим числом параметров 21 млрд, из которых активируется по 3 млрд на каждый токен, обеспечивает выдающееся мультимодальное понимание и генерацию благодаря гетерогенным структурам MoE и маршрутизации, изолированной по модальностям. Поддерживая контекст длиной до 131 тыс. токенов, модель достигает высокой эффективности вывода за счёт параллельного взаимодействия множества экспертов и квантизации. Продвинутые методы посттренировки — SFT, DPO и UPO — обеспечивают оптимизированную работу в разных приложениях, используя специализированную маршрутизацию и балансировочные функции потерь для превосходной обработки задач.
Mistral Small 3
Mistral Small 3 — это языковая модель с 24 млрд параметров, оптимизированная для выполнения типовых задач ИИ с минимальной задержкой. Выпущена под лицензией Apache 2.0, доступна в двух вариантах: предварительно обученном и донастроенном под инструкции, оба предназначены для эффективного локального развертывания. Модель достигает 81 % точности на бенчмарке MMLU и по качеству соперничает с более крупными решениями, такими как Llama 3.3 70B и Qwen 32B, при этом на аналогичном «железе» работает втрое быстрее. Подробнее о модели в блоге: https://mistral.ai/news/mistral-small-3/
Llama 3 Euryale 70B v2.1
Euryale 70B v2.1 — модель от Sao10k, созданная для креативных ролевых отыгрышей. - Повышенная точность при выполнении подсказок - Улучшенное понимание анатомии и пространственных отношений - Отличная адаптация к уникальному и пользовательскому форматированию ответов - Максимальная креативность и множество оригинальных приёмов - Отсутствие ограничений во время ролевых игр
Qwen2.5 7B Instruct
Qwen2.5 7B — последняя версия крупной языковой модели серии Qwen. По сравнению с Qwen2 модель Qwen2.5 получила следующие ключевые улучшения: • Значительно расширенная база знаний и заметно улучшенные возможности в программировании и математике благодаря специализированным экспертным моделям в этих областях. • Существенно улучшено следование инструкциям, генерация длинных текстов (более 8 000 токенов), понимание структурированных данных (например, таблиц) и формирование структурированных выходных данных, особенно в формате JSON. Модель стала более устойчива к разнообразию системных подсказок, что повышает эффективность ролевых сценариев и задания условий для чат-ботов. • Поддержка длительного контекста до 128 000 токенов и генерация до 8 000 токенов за один прогон. • Многоязычная поддержка более 29 языков, включая китайский, английский, французский, испанский, португальский, немецкий, итальянский, русский, японский, корейский, вьетнамский, тайский, арабский и другие. Использование этой модели регулируется Лицензионным соглашением Tongyi Qianwen.
Lumimaid v0.2 8B
Lumimaid v0.2 8B — это тонкая настройка модели [Llama 3.1 8B](/models/meta-llama/llama-3.1-8b-instruct) с существенно улучшенным и расширенным датасетом по сравнению с Lumimaid v0.1. Некачественные ответы были отфильтрованы. Использование этой модели регулируется [Политикой приемлемого использования Meta](https://llama.meta.com/llama3/use-policy/).
Hermes 3 405B Instruct
Hermes 3 — универсальная языковая модель с множеством улучшений по сравнению с Hermes 2: продвинутые агентные возможности, значительно более качественное ролевое взаимодействие, усиленные способности к рассуждению, поддержка многоходовых диалогов, сохранение когерентности в длинных контекстах и оптимизация во всех остальных аспектах. Hermes 3 405B — передовая модель, полученная путём тонкой настройки всех параметров базовой Llama 3.1 405B, ориентированная на адаптацию больших языковых моделей под нужды пользователя. Она оснащена мощными инструментами управления и предоставляет конечному пользователю широкий контроль. Серия Hermes 3 развивает и расширяет возможности Hermes 2: включает более мощный и надёжный вызов функций и формирование структурированного вывода, универсальные ассистентские функции и улучшенные навыки генерации кода. Hermes 3 соперничает, а во многих случаях и превосходит модели Llama 3.1 Instruct по общим возможностям, при этом у каждой из систем есть свои сильные и слабые стороны.
Gemma 3 12B
Gemma 3 вводит мультимодальность: поддерживает ввод изображений и текста и выдаёт текстовые ответы. Обрабатывает контекстные окна до 128 000 токенов, понимает более 140 языков и обладает улучшенными возможностями в математике, рассуждении и диалоге, включая структурированный вывод и вызов функций. Gemma 3 12B — вторая по величине модель в семействе Gemma 3 после Gemma 3 27B.
o3 Mini
OpenAI o3-mini — экономичная языковая модель, оптимизированная для решения задач в области STEM (науки, технологий, инженерии и математики), особенно хорошо справляющаяся с научными, математическими и программными вопросами. Модель поддерживает параметр `reasoning_effort`, который можно установить в `high`, `medium` или `low` для управления временем «размышления». По умолчанию используется значение `medium`. В OpenRouter также доступен идентификатор модели `openai/o3-mini-high`, автоматически выставляющий `reasoning_effort` в `high`. Модель предлагает три уровня «усилий при рассуждении» и поддерживает ключевые возможности для разработчиков: вызов функций, структурированный вывод и потоковую передачу данных. При этом функциональность компьютерного зрения в ней отсутствует. По сравнению с предшественницей o3-mini демонстрирует значительные улучшения: эксперты предпочитали её ответы в 56% случаев, а число серьёзных ошибок в сложных задачах сократилось на 39%. При средних настройках `reasoning_effort` o3-mini достигает уровня производительности более крупной модели o1 в сложных тестах (таких как AIME и GPQA), сохраняя при этом более низкую задержку и стоимость.
GPT-4O Transcribe with Diarization
GPT-4o-mini
GPT-4o mini — новая модель OpenAI после GPT-4 Omni, поддерживающая текстовые и визуальные входные данные и выдающая текстовые ответы. Это их самый продвинутый компактный вариант, он во много раз доступнее по цене, чем другие последние передовые модели, и более чем на 60 % дешевле, чем GPT-3.5 Turbo. При этом сохраняется передовой уровень интеллекта (SOTA) при значительно более низкой стоимости. GPT-4o mini набирает 82 % по тесту MMLU и в настоящее время в общедоступных рейтингах предпочтений чат-ботов опережает GPT-4. Подробнее читайте в анонсе запуска. #multimodal
UI-TARS 7B
UI-TARS-1.5 — мультимодальный визуально-языковой агент, оптимизированный для работы в системах с графическим интерфейсом (GUI), включая настольные системы, веб-браузеры, мобильные платформы и игры. Разработанный компанией ByteDance, он основан на фреймворке UI-TARS и использует рассуждения на основе обучения с подкреплением, что обеспечивает надёжное планирование действий и выполнение команд во виртуальных интерфейсах. Модель демонстрирует передовые результаты на множестве интерактивных бенчмарков и задач визуальной привязки (grounding), включая OSworld, WebVoyager, AndroidWorld и ScreenSpot. Она также безупречно выполняет задания в различных играх на платформе Poki и превосходит предыдущие модели в задачах агентов для Minecraft. UI-TARS-1.5 поддерживает декомпозицию рассуждений при выводе и хорошо масштабируется: версия 1.5 заметно превосходит более ранние контрольные точки объёмом 72B и 7B.
Claude 3.7 Sonnet (thinking)
gpt-oss-120b
gpt-oss-120b — языковая модель Mixture-of-Experts (MoE) от OpenAI с открытыми весами и 117 млрд параметров, разработанная для сложных рассуждений, автономного выполнения задач и универсального промышленного применения. При каждом прямом проходе активируется 5,1 млрд параметров. Модель оптимизирована для работы на одном GPU NVIDIA H100 с нативной квантизацией MXFP4. Она поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке рассуждений и встроенное использование инструментов, включая вызов функций, веб-обход и генерацию структурированного вывода.
Pixtral Large 2411
Pixtral Large — мультимодальная модель с открытыми весами и объёмом 124 млрд параметров, построенная на основе Mistral Large 2. Модель умеет понимать документы, диаграммы и реальные изображения. Модель доступна по лицензии Mistral Research License (MRL) для исследовательского и образовательного использования, а также по лицензии Mistral Commercial License для экспериментов, тестирования и коммерческого развёртывания.
Mistral 7B Instruct v0.1
Модель на 7,3 млрд параметров, превосходящая Llama 2 (13 млрд параметров) по всем бенчмаркам и оптимизированная для быстрой работы и расширенного контекстного окна.
Skyfall 36B V2
Skyfall 36B v2 — это усовершенствованная версия модели Mistral Small 2501, специально дообученная для повышения креативности, более тонкого стиля письма, ролевых игр и связного повествования.
GPT-3.5 Turbo
GPT-3.5 Turbo — самая быстрая модель OpenAI. Она понимает и генерирует текст на естественном языке и код, оптимизирована для чата и классических задач автодополнения. Обучающие данные актуальны по состоянию на сентябрь 2021 года.
Qwen3 VL 235B A22B Instruct
Qwen3-VL-235B-A22B Instruct — это мультимодальная модель с открытыми весами, объединяющая мощную генерацию текста и понимание визуального контента на изображениях и в видео. Она рассчитана на универсальные задачи vision-language: визуальные вопросы-ответы (VQA), парсинг документов, извлечение данных из диаграмм и таблиц, многоязычный OCR. Серия Qwen3-VL делает упор на надёжное восприятие (распознавание самых разных реальных и искусственных объектов), пространственное понимание (якорение в 2D и 3D) и глубокий анализ визуального контента, демонстрируя конкурентоспособные результаты на публичных мультимодальных бенчмарках как по восприятию, так и по рассуждению. Помимо аналитики, Qwen3-VL поддерживает агентное взаимодействие и работу с внешними инструментами: она способна выполнять сложные инструкции в многоходовых диалогах с несколькими изображениями; синхронизировать текст с таймлайном видео для точных временных запросов; управлять элементами графического интерфейса для автоматизации задач. Модель также облегчает визуальные сценарии кодирования — превращает эскизы и макеты в программный код и помогает отлаживать пользовательские интерфейсы — сохраняя при этом высокую эффективность в чисто текстовых задачах на уровне флагманских языковых моделей Qwen3. Всё это делает Qwen3-VL отличным решением для промышленного применения: Document AI, многоязычного OCR, поддержки разработки ПО и UI, пространственных и встраиваемых задач, а также для исследований агентов vision-language.
R1
DeepSeek R1 уже здесь: по производительности соответствует [OpenAI o1](/openai/o1), но с открытым исходным кодом и открытыми токенами промежуточных рассуждений. Модель насчитывает 671 млрд параметров, из которых при выводе активно 37 млрд. Полностью с открытым исходным кодом — см. [технический отчёт](https://api-docs.deepseek.com/news/news250120). Лицензия MIT: свободно дистиллировать и коммерчески использовать!
Command R+ (08-2024)
command-r-plus-08-2024 — это обновление [Command R+](/models/cohere/command-r-plus), обеспечивающее примерно на 50% более высокую пропускную способность и на 25% меньшую задержку по сравнению с предыдущей версией, при тех же аппаратных ресурсах. Ознакомьтесь с анонсом выпуска [здесь](https://docs.cohere.com/changelog/command-gets-refreshed). Использование этой модели регулируется [Политикой использования](https://docs.cohere.com/docs/usage-policy) Cohere и [Договором SaaS](https://cohere.com/saas-agreement).
Qwen3 8B
Qwen3-8B — плотная каузальная языковая модель с 8,2 млрд параметров из серии Qwen3, разработанная как для задач, требующих глубокого рассуждения, так и для эффективного ведения диалога. Она обеспечивает плавное переключение между «режимом размышления» для работы с математикой, программированием и логическими выводами и «режимом без размышления» для обычного общения. Модель дообучена для следования инструкциям, интеграции с агентами, креативного письма и многоязычного использования (свыше 100 языков и диалектов). Нативно поддерживает окно контекста в 32 000 токенов и может расширяться до 131 000 токенов с помощью масштабирования YaRN.
Llama 4 Maverick
Llama 4 Maverick 17B Instruct (128E) — высокопроизводительная мультимодальная языковая модель от Meta, построенная на архитектуре mixture-of-experts (MoE) с 128 экспертами и 17 млрд активных параметров на один проход (всего 400 млрд параметров). Она поддерживает многоязычный ввод текста и изображений и генерирует текст и код на 12 языках. Оптимизированная для задач, объединяющих анализ изображений и текста, Maverick дообучена по инструкциям для поведения в роли ассистента, рассуждения над изображениями и универсального мультимодального взаимодействия. Модель обеспечивает нативную мультимодальность благодаря механизму early fusion и окну контекста размером 1 млн токенов. Обучение проводилось на тщательно отобранном наборе открытых, лицензированных и данных с платформ Meta объёмом около 22 трлн токенов, с отсечкой знаний на август 2024 года. Выпущенная 5 апреля 2025 года под лицензией Llama 4 Community License, Maverick подходит для исследовательских и коммерческих приложений, требующих продвинутого мультимодального понимания и высокой пропускной способности.
Llama 3.1 405B (base)
Meta представила новое семейство моделей Llama 3.1, доступное в разных размерах и конфигурациях. Это базовая предварительно обученная модель с 405 млрд параметров. В ходе оценок людьми она показала высокую производительность по сравнению с ведущими закрытыми моделями. Подробнее о выпуске модели можно узнать здесь: https://ai.meta.com/blog/meta-llama-3/ Использование модели подчиняется Политике допустимого использования Meta: https://llama.meta.com/llama3/use-policy/
Claude Opus 4.1
Claude Opus 4.1 — обновлённая версия флагманской модели Anthropic, демонстрирующая улучшенные показатели в программировании, рассуждениях и агентских задачах. Модель набирает 74,5 % по набору тестов SWE-bench Verified и показывает значительные улучшения в рефакторинге кода по нескольким файлам, точности отладки и детализированных рассуждениях. Поддерживает контекст объёмом до 64 000 токенов и оптимизирована для задач, связанных с исследованиями, анализом данных и рассуждениями с помощью инструментов.
Claude Haiku 4.5
Claude Haiku 4.5 — самая быстрая и эффективная модель Anthropic, обеспечивающая практически передовой интеллект при значительно меньших затратах и задержках по сравнению с более крупными моделями Claude. При уровне производительности, сопоставимом с Claude Sonnet 4 в задачах рассуждения, программирования и работы с компьютером, Haiku 4.5 приносит передовые возможности в приложения реального времени и для обработки большого объёма запросов. Модель внедряет «расширенное мышление» в семейство Haiku: регулируемую глубину рассуждений, вывод кратких сводок или поэтапных рассуждений, а также рабочие процессы с поддержкой инструментов — полный цикл программирования, Bash, веб-поиск и утилиты для работы с компьютером. Набрав более 73 % на тесте SWE-bench Verified, Haiku 4.5 входит в число лучших в мире моделей для программирования, при этом обеспечивая высокую отзывчивость для субагентов, параллельное выполнение задач и масштабируемое развертывание.
Qwen2.5 Coder 7B Instruct
Qwen2.5-Coder-7B-Instruct — это инструкционно дообученная языковая модель с 7 млрд параметров, оптимизированная для задач, связанных с кодом: генерации, логического рассуждения и исправления ошибок. Построена на архитектуре Qwen2.5, включает улучшения, такие как RoPE, SwiGLU, RMSNorm и механизм внимания GQA, поддерживает контексты до 128 тыс. токенов благодаря экстраполяции на основе YaRN. Обучена на большом корпусе исходного кода, синтетических данных и данных, связывающих текст и код, что обеспечивает стабильную высокую производительность для разных языков программирования и в автоматизированных процессах разработки. Модель входит в семейство Qwen2.5-Coder и отлично совместима с такими инструментами, как vLLM, для эффективного развёртывания. Выпущена под лицензией Apache 2.0.
DeepSeek V3.1 Terminus
DeepSeek-V3.1 Terminus — это обновление DeepSeek V3.1, сохраняющее исходные возможности модели и устраняющее замеченные пользователями проблемы (в том числе несогласованность языка и ограничения в возможностях агентов), а также дополнительно оптимизирующее производительность в задачах кодирования и поисковых агентов. Модель представляет собой крупную гибридную систему рассуждений (671 млрд параметров, из них 37 млрд активных), поддерживающую режимы с включённым и выключенным рассуждением. Она основана на DeepSeek-V3 и доработана двухэтапным обучением на длинных контекстах (до 128 K токенов), а для эффективного вывода использует микромасштабирование FP8. Пользователи могут управлять поведением рассуждений через булев параметр reasoning.enabled. Подробнее — в нашей документации. Модель улучшает работу с внешними инструментами, генерацию кода и эффективность рассуждений, демонстрируя сопоставимые с DeepSeek-R1 результаты на сложных бенчмарках при более быстрой реакции. Поддерживается структурированный вызов инструментов, кодовые агенты и поисковые агенты, что делает её подходящей для исследований, разработки ПО и агентно-ориентированных сценариев.
Gemma 2 9B
Gemma 2 9B от Google — современная модель обработки естественного языка с открытым исходным кодом, задающая новый стандарт эффективности и производительности среди моделей своего класса. Созданная для решения широкого спектра задач, она позволяет разработчикам и исследователям создавать инновационные приложения, оставаясь при этом доступной, безопасной и экономически эффективной. Подробнее см. в [анонсе запуска](https://blog.google/technology/developers/google-gemma-2/). Использование Gemma регулируется [Условиями использования Gemma](https://ai.google.dev/gemma/terms) от Google.