Каталог AI моделей с ценами в рублях

Claude Opus 4.8

Claude Opus 4.8 — наиболее мощная общедоступная модель Anthropic в семействе Opus. Она поддерживает текстовые, графические и файловые входные данные с текстовым выходом, обладает поддержкой reasoning и контекстным окном в 1 миллион токенов. Модель хорошо подходит для высокоавтономных агентов, длительных агентных сценариев, интеллектуальной работы и задач с опорой на память, где важна связность на протяжении продолжительных сессий. Особенно сильна она в многошаговых рассуждениях, сложном программировании и сквозной оркестрации проектов — при работе с крупными кодовыми базами, многоэтапной отладке и длительно работающих асинхронных агентных пайплайнах. Помимо задач, связанных с кодом, модель эффективно справляется с интеллектуальной работой, такой как подготовка документов, создание презентаций и анализ данных, сохраняя высокое качество даже в очень длинных ответах.

1.0M контекст|от 800,00 ₽/M вход|от 4 000,00 ₽/M выход|

GPT-5.4

GPT-5.4 — новейшая передовая модель OpenAI, объединяющая линейки Codex и GPT в единую систему. Она поддерживает контекстное окно свыше 1 миллиона токенов (922 тыс. токенов на входе и 128 тыс. токенов на выходе), а также работу с текстовыми и графическими входными данными, что позволяет выполнять рассуждения на длинном контексте, программирование и мультимодальный анализ в рамках единого рабочего процесса. Модель демонстрирует улучшенные результаты в программировании, понимании документов, использовании инструментов и следовании инструкциям. Она разработана как мощный универсальный вариант по умолчанию как для задач общего назначения, так и для разработки программного обеспечения, способный генерировать код промышленного качества, синтезировать информацию из множества источников и выполнять сложные многошаговые процессы с меньшим числом итераций и более высокой эффективностью использования токенов.

1.1M контекст|от 430,00 ₽/M вход|от 2 640,00 ₽/M выход|

Gemini 3 Flash Preview

Gemini 3 Flash Preview — это очень быстрая и эффективная модель с поддержкой рассуждений, предназначенная для агентных сценариев, многошаговых диалогов и помощи в программировании. Она обеспечивает уровень рассуждений и работы с инструментами, близкий к версии Pro, при значительно меньшей задержке по сравнению с более крупными моделями Gemini. Благодаря этому модель хорошо подходит для интерактивной разработки, длительных агентных циклов и совместной работы над кодом. По сравнению с Gemini 2.5 Flash она демонстрирует заметные улучшения качества в области рассуждений, мультимодального понимания и надёжности. Модель поддерживает контекстное окно объёмом до 1 млн токенов и мультимодальные входные данные, включая текст, изображения, аудио, видео и PDF-файлы, с текстовым выводом. В неё входят настраиваемые уровни рассуждений (минимальный, низкий, средний, высокий), поддержка структурированного вывода, работа с инструментами и автоматическое кэширование контекста. Gemini 3 Flash Preview оптимизирована для пользователей, которым требуется сильное логическое мышление и агентное поведение без затрат и задержек, характерных для полноразмерных передовых моделей.

1.0M контекст|от 95,00 ₽/M вход|от 530,00 ₽/M выход|

Claude Opus 4.6

Opus 4.6 — самый мощный модельный продукт Anthropic для задач программирования и длительной профессиональной работы. Он создан для агентных сценариев, охватывающих целые рабочие процессы, а не отдельные запросы, что делает его особенно эффективным при работе с крупными кодовыми базами, сложными рефакторингами и многошаговой отладкой, разворачивающейся во времени. По сравнению с предыдущими поколениями модель демонстрирует более глубокое понимание контекста, более сильную декомпозицию задач и более высокую надёжность при решении сложных инженерных проблем. Помимо программирования, Opus 4.6 отлично подходит для продолжительной интеллектуальной работы. Он способен за один проход создавать документы, планы и аналитические материалы, близкие к продакшн-уровню, и сохранять связность и целостность на протяжении очень длинных ответов и продолжительных сессий. Это делает его сильным выбором «по умолчанию» для задач, требующих устойчивости, взвешенных решений и доведения работы до результата — таких как техническое проектирование, планирование миграций и сквозная реализация проектов.

1.0M контекст|от 810,00 ₽/M вход|от 4 230,00 ₽/M выход|

Claude Opus 4.7

Opus 4.7 — это модель нового поколения в линейке Anthropic Opus, созданная для длительно работающих асинхронных агентов. Развивая сильные стороны Opus 4.6 в программировании и агентных сценариях, она обеспечивает более высокую производительность при выполнении сложных многошаговых задач и более надежную агентную работу в рамках продолжительных процессов. Особенно эффективно модель проявляет себя в асинхронных агентных пайплайнах, где задачи разворачиваются во времени: при работе с крупными кодовыми базами, многоэтапной отладке и сквозной оркестрации проектов. Помимо задач, связанных с кодом, Opus 4.7 получила улучшенные возможности для интеллектуальной работы — от подготовки документов и создания презентаций до анализа данных. Она сохраняет связность на протяжении очень длинных ответов и продолжительных сессий, благодаря чему становится сильным вариантом по умолчанию для задач, требующих устойчивости, взвешенных решений и доведения работы до конца.

1.0M контекст|от 800,00 ₽/M вход|от 4 030,00 ₽/M выход|

Gemini 3.1 Pro Preview

Gemini 3.1 Pro Preview — это передовая рассуждающая модель Google, обеспечивающая улучшенную производительность в инженерии ПО, более надёжную работу агентов и более эффективное расходование токенов в рамках сложных рабочих процессов. Развивая мультимодальную основу серии Gemini 3, она сочетает высокоточную способность к рассуждению при работе с текстом, изображениями, видео, аудио и кодом с контекстным окном на 1 млн токенов. При многошаговых вызовах инструментов (multi-turn tool calling) необходимо сохранять Reasoning Details (детали рассуждения) — см. нашу документацию. Обновление 3.1 приносит измеримые улучшения в SWE-бенчмарках и в реальных средах разработки, а также усиливает автономное выполнение задач в структурированных доменах, таких как финансы и процессы на базе электронных таблиц. Созданная для продвинутой разработки и агентных систем, Gemini 3.1 Pro Preview повышает стабильность на длинных горизонтах и качество оркестрации инструментов, одновременно увеличивая токенную эффективность. В ней появляется новый средний уровень “thinking”, который помогает лучше сбалансировать стоимость, скорость и производительность. Модель особенно сильна в агентном программировании, структурированном планировании, мультимодальном анализе и автоматизации рабочих процессов, поэтому хорошо подходит для автономных агентов, финансового моделирования, автоматизации электронных таблиц и высококонтекстных корпоративных задач.

1.0M контекст|от 350,00 ₽/M вход|от 2 010,00 ₽/M выход|

Kimi K2.5

Kimi K2.5 — нативная мультимодальная модель Moonshot AI, обеспечивающая передовые возможности визуального кодинга и реализующая парадигму самоорганизующегося роя агентов. Построенная на базе Kimi K2 и дополнительно дообученная на примерно **15 трлн смешанных визуальных и текстовых токенов**, она демонстрирует высокую производительность в задачах общего рассуждения, визуального программирования и агентного вызова инструментов.

262.1K контекст|от 120,00 ₽/M вход|от 510,00 ₽/M выход|

GLM 5

202.8K контекст|от 170,00 ₽/M вход|от 540,00 ₽/M выход|

Claude Sonnet 4.6

Sonnet 4.6 — самая мощная модель класса Sonnet от Anthropic на сегодняшний день, демонстрирующая передовые результаты в программировании, агентных сценариях и профессиональной работе. Она превосходно справляется с итеративной разработкой, навигацией по сложным кодовым базам, управлением проектами «под ключ» с использованием памяти, созданием качественно оформленных документов, а также уверенной работой с компьютером для задач веб-тестирования (QA) и автоматизации рабочих процессов.

1.0M контекст|от 510,00 ₽/M вход|от 2 520,00 ₽/M выход|

GPT-5.1-Codex-Mini

GPT-5.1 — это новейшая передовая модель в линейке GPT-5. Она обеспечивает более сильные универсальные способности к решению задач, лучше следует инструкциям и звучит естественнее в диалогах по сравнению с GPT-5. Модель использует адаптивное вычисление: быстро отвечает на простые запросы и углубляет рассуждения там, где задача сложнее. Объяснения стали более понятными и приземлёнными, с меньшим количеством жаргона — текст легче воспринимать даже в технических или многошаговых задачах. Созданный для широкого спектра задач, GPT-5.1 показывает стабильный прирост качества в математике, программировании и структурированном анализе. Ответы в длинной форме стали более связными, а надежность использования инструментов повысилась. Улучшена и диалоговая адаптация — модель отвечает теплее и интуитивнее, не теряя точности. GPT-5.1 выступает основным полнофункциональным преемником GPT-5.

400.0K контекст|от 270,00 ₽/M вход|от 1 100,00 ₽/M выход|

GPT-5.1-Codex

GPT-5.1-Codex-Mini — это уменьшенная и более быстрая версия модели GPT-5.1-Codex.

400.0K контекст|от 230,00 ₽/M вход|от 1 860,00 ₽/M выход|

GPT-5.1 Chat

GPT-5.1 Chat (он же Instant) — это быстрый и лёгкий представитель семейства 5.1, оптимизированный для низкой задержки в диалогах при сохранении высокой общей интеллектуальности. Модель использует адаптивное рассуждение, «углубляясь» только в сложные запросы, что повышает точность в математике, программировании и многошаговых задачах, не замедляя обычные беседы. По умолчанию GPT-5.1 Chat звучит теплее и более разговорно, лучше следует инструкциям и стабильнее рассуждает в коротких форматах. Модель создана для сценариев с высокой нагрузкой и интерактивностью, где важнее скорость и предсказуемость, чем глубокая длительная проработка.

128.0K контекст|от 230,00 ₽/M вход|от 1 860,00 ₽/M выход|

MiniMax M2

MiniMax-M2 — компактная и высокоэффективная большая языковая модель, оптимизированная для сквозного кодирования и агентных рабочих процессов. В модели задействовано 10 млрд активированных параметров (230 млрд всего), что обеспечивает практически передовой уровень интеллекта в задачах общего рассуждения, использования инструментов и выполнения многоэтапных операций при низкой задержке и эффективном развёртывании. Модель превосходно справляется с генерацией кода, редактированием нескольких файлов, циклами «компиляция–запуск–исправление» и исправлением по результатам тестов, демонстрируя впечатляющие результаты на SWE-Bench Verified, Multi-SWE-Bench и Terminal-Bench. Она также конкурентоспособна в агентных бенчмарках, таких как BrowseComp и GAIA, эффективно решая задачи долгосрочного планирования, поиска информации и восстановления после ошибок выполнения. По данным [Artificial Analysis](https://artificialanalysis.ai/models/minimax-m2), MiniMax-M2 входит в число лучших открытых моделей по комплексному интеллекту в областях математики, естественных наук и работы с инструкциями. Благодаря небольшому объёму активируемой памяти модель обеспечивает быструю генерацию, высокую степень параллелизма и улучшенную рентабельность, что делает её отличным выбором для масштабных агентов, помощников разработчиков и приложений, требующих быстрого отклика и оптимизации затрат. Чтобы не снижать производительность, MiniMax настоятельно рекомендует сохранять рассуждения между шагами. Подробнее об использовании параметра reasoning_details для передачи блоков рассуждений читайте в нашей [документации](https://openrouter.ai/docs/use-cases/reasoning-tokens#preserving-reasoning-blocks).

204.8K контекст|от 65,00 ₽/M вход|от 200,00 ₽/M выход|

Nano Banana Pro (Gemini 3 Pro Image Preview)

Nano Banana Pro — это наиболее продвинутая модель Google для генерации и редактирования изображений, созданная на базе Gemini 3 Pro. Она развивает возможности оригинальной Nano Banana, предлагая значительно улучшенное мультимодальное рассуждение, более точное соответствие реальным объектам и высокую визуальную достоверность. Модель формирует насыщенные контекстом изображения — от инфографики и схем до кинематографичных композиций — и может использовать актуальные данные.

65.5K контекст|от 360,00 ₽/M вход|от 2 120,00 ₽/M выход|

GPT-5.2

GPT-5.2 - это новейшая модель передового уровня в семействе GPT-5, обеспечивающая более высокую агентность и улучшенную работу с длинным контекстом по сравнению с GPT-5.1. Она использует адаптивное рассуждение для динамического распределения вычислительных ресурсов: быстро отвечает на простые запросы и углубляет вычисления при выполнении более сложных задач. Созданная для широкого спектра задач, GPT-5.2 демонстрирует стабильный прирост качества в математике, программировании, науке и сценариях с использованием инструментов. Модель формирует более связные развёрнутые ответы и обеспечивает повышенную надёжность при работе с внешними инструментами.

400.0K контекст|от 280,00 ₽/M вход|от 2 180,00 ₽/M выход|

Gemini Embedding 2

Gemini Embedding 2 — первая мультимодальная модель эмбеддингов от Google. В настоящее время она поддерживает отображение текста и изображений в единое векторное пространство для семантического поиска и генерации с дополненным поиском (RAG). Модель поддерживает входной контекст объёмом до 8 192 токенов и гибкую размерность выходных векторов от 128 до 3 072 измерений. Рекомендуемые значения: 768, 1 536 или 3 072. Gemini Embedding 2 разработана для кросс-модального сопоставления: например, можно преобразовать текстовый запрос в эмбеддинг и найти наиболее релевантные изображения — или наоборот. Благодаря этому модель хорошо подходит для мультимодального поиска, рекомендательных систем и пайплайнов анализа документов.

8.2K контекст|от 32,00 ₽/M вход|от 0,00 ₽/M выход|

Qwen3.7 Max

Qwen3.7-Max — флагманская модель в линейке Alibaba Qwen3.7. Она поддерживает текстовый ввод и вывод и предназначена для нагрузок, ориентированных на агентные сценарии, с особенно сильными сторонами в программировании, офисных и продуктивных задачах, а также в длительном автономном выполнении многошаговых процессов. По сравнению с предыдущими поколениями Qwen модель демонстрирует заметный прирост качества в программировании и агентных задачах, а также поддерживает явное кэширование промптов для более эффективного повторного использования контекста.

1.0M контекст|от 200,00 ₽/M вход|от 600,00 ₽/M выход|

Kling Video v3.0 Standard

Видеогенерация|от 12,38 ₽/сек

xAI Grok Imagine Video

Видеогенерация|от 7,37 ₽/сек

Kling Video v3.0 Pro

Видеогенерация|от 24,77 ₽/сек

Grok Build 0.1

Grok Build 0.1 — это быстрая модель для программирования от xAI, специально обученная для агентных сценариев в области разработки ПО. Она поддерживает текстовые и визуальные входные данные с текстовым выходом и оптимизирована для интерактивных кодовых агентов, использования инструментов и многошаговых задач разработки. Модель лежит в основе CLI-инструмента Grok Build от xAI и оснащена контекстным окном на 256K токенов без ограничения на объем текстового вывода, что делает ее хорошо подходящей для длительных задач, связанных с программированием и автоматизацией. В настоящее время доступна в раннем доступе.

256.0K контекст|от 160,00 ₽/M вход|от 320,00 ₽/M выход|

Gemini 3.5 Flash

Gemini 3.5 Flash — это высокоэффективная мультимодальная модель Google, обеспечивающая качество программирования и рассуждений, близкое к уровню Pro, при стоимости и скорости уровня Flash. Она в значительной степени оптимизирована под задачи программирования и параллельные агентные циклы выполнения, поддерживая входные данные в виде текста, изображений, видео, аудио и PDF. По умолчанию модель использует средний уровень рассуждений, что позволяет получать более быстрые и экономичные ответы, при этом полностью поддерживаются уровни thinking effort — minimal, low, medium и high — для более тонкой настройки баланса между стоимостью и качеством работы.

1.0M контекст|от 240,00 ₽/M вход|от 1 440,00 ₽/M выход|

Grok 4.3

Grok 4.3 — это модель рассуждения от xAI. Она принимает на вход текст и изображения и генерирует текстовый ответ. Модель подходит для агентных рабочих процессов, задач на следование инструкциям и приложений, где требуется высокая фактическая точность. Режим рассуждения всегда активен и не может быть отключён или настроен по уровню глубины. Модель поддерживает контекстное окно объёмом 1 миллион токенов и не имеет ограничения на количество выходных токенов, что делает её хорошо подходящей для анализа длинных документов, глубоких исследований и многоэтапных агентных задач. Тарификация многоуровневая: запросы, превышающие 200 тысяч токенов в сумме, оплачиваются по повышенному тарифу.

1.0M контекст|от 210,00 ₽/M вход|от 420,00 ₽/M выход|

Kling Video O1

Kling Video O1 — видео-модель от Kuaishou. Принимает текст и изображения, поддерживает text-to-video и image-to-video, ориентирована на кинематографический контент с управлением первым и последним кадром для точной композиции сцены. Клипы 5 или 10 секунд, форматы 16:9, 9:16 или 1:1.

Видеогенерация|от 17,50 ₽/сек

ByteDance Seedance 2.0 Fast

Ускоренная версия Seedance 2.0 Fast от ByteDance. Та же функциональность (text-to-video, image-to-video с first/last frame, reference-to-video), но приоритет — скорость и низкая стоимость в ущерб максимальному качеству. Тарификация по видео-токенам: (height × width × duration × 24) / 1024.

Видеогенерация|от 8,41 ₽/сек

Alibaba Wan 2.6

Самая продвинутая видео-модель Alibaba Wan 2.6 — поддерживает свыше 10 возможностей визуальной генерации в едином API. Создаёт 1080p видео при 24fps из текста, изображений, референс-видео или аудио, с нативной аудиосинхронизацией и точным lip-sync. Ключевые возможности: reference-to-video (вставка облика и голоса персонажа в новые сцены), многошотовое повествование из простого промпта, синхронные эффекты и музыка, форматы 16:9, 9:16, 1:1, клипы до 15 секунд.

Видеогенерация|от 6,25 ₽/сек

ByteDance Seedance 2.0

Видео-модель ByteDance Seedance 2.0 нового поколения. Поддерживает text-to-video, image-to-video с управлением первым и последним кадром, а также reference-to-video. Особенно сильна в сохранении консистентности персонажей, визуального стиля и движения камеры с референса. Тарифицируется по токенам: (height × width × duration × 24) / 1024.

Видеогенерация|от 10,51 ₽/сек

Alibaba Wan 2.7 (OR)

Wan 2.7 — видео-модель Alibaba нового поколения. Поддерживает text-to-video, image-to-video с управлением первым и последним кадром, а также reference-to-video, где несколько референс-изображений задают стиль и содержание сгенерированной сцены.

Видеогенерация|от 15,63 ₽/сек

Google Veo 3.1

Флагманская модель видеогенерации Google для финального production-качества. Veo 3.1 создаёт 1080p видео из текста или изображения с нативной синхронной аудиодорожкой (диалоги, эффекты, фон), поддерживает расширение сцены до 140+ секунд, переходы между двумя кадрами, вертикальное видео и 4K-апскейл.

Видеогенерация|от 31,26 ₽/сек

Google Veo 3.1 Fast

Средняя по цене модель Google Veo 3.1 Fast — баланс скорости и качества. Принимает текст или изображение, выдаёт высококачественное видео с синхронным звуком быстрее и дешевле полной Veo 3.1. Поддерживает кондишенинг по первому/последнему кадру, разные разрешения и аспекты, водяной знак SynthID.

Видеогенерация|от 12,50 ₽/сек

ByteDance Seedance 1.5 Pro

Audio-visual модель ByteDance Seedance 1.5 Pro следующего поколения с архитектурой Dual-Branch Diffusion Transformer (4.5B параметров). Генерирует видео и звук одновременно за один проход, что устраняет рассинхрон, характерный для последовательного дубляжа. Поддерживает многоязычный lip-sync (EN, ZH, JA, KO, ES и др.), кинематографичный контроль камеры (pan/tilt/zoom/orbit), диалоги нескольких персонажей и сохранение их облика между кадрами. Клипы 4–12 секунд до 1080p. Тарификация по видео-токенам: (height × width × duration × 24) / 1024.

Видеогенерация|от 1,80 ₽/сек

Google Veo 3.1 Lite

Самая бюджетная модель Google Veo 3.1 Lite, рассчитанная на массовые сценарии и быстрые итерации. Выдаёт 720p и 1080p видео из текста или изображения с синхронным звуком за менее чем 50% стоимости Veo 3.1 Fast. Клипы 4–8 секунд, форматы 16:9 и 9:16, водяной знак SynthID.

Видеогенерация|от 4,69 ₽/сек

MiniMax Hailuo 2.3

Hailuo 2.3 — видео-модель от MiniMax. Принимает текстовые промпты и референсные изображения, поддерживает text-to-video и image-to-video. Сильна в реалистичном движении и выразительной анимации персонажей, подходит для креативного и кинематографического контента.

Видеогенерация|от 12,77 ₽/сек

Google Veo 3.0 Fast

Google Veo 3.0 Fast — ускоренный вариант Veo 3.0 без нативного аудио. Снижает задержку и стоимость генерации, подходит для итераций и черновых вариантов сцен.

Видеогенерация|от 15,63 ₽/сек

Wan 2.7 T2V

Wan 2.7 в режиме text-to-video от Alibaba. Генерирует видео по текстовому промпту без визуальных референсов, ориентирован на креативные и универсальные сценарии.

Видеогенерация|от 3,13 ₽/сек

Kling 1.6 Standard

Kling 1.6 Standard — самый доступный тариф линейки 1.6 от Kuaishou. Подходит для массовых задач и экспериментов с минимальным бюджетом.

Видеогенерация|от 5,78 ₽/сек

Vidu 2.0

Vidu 2.0 — видео-модель Vidu, ориентированная на анимацию и стилизованный контент. Поддерживает text-to-video и image-to-video, выгодна по соотношению цена/качество для массовой генерации.

Видеогенерация|от 15,63 ₽/сек

Wan 2.7 R2V

Wan 2.7 в режиме reference-to-video от Alibaba. На вход подаются несколько референс-изображений, по которым модель собирает сцену, опираясь на их стиль и содержание.

Видеогенерация|от 3,13 ₽/сек

Kling 2.1 Master

Kling 2.1 Master от Kuaishou — топовая версия 2.1 с максимальным качеством движения и детализации. Применяется для production-сценариев, где важны фотореализм и сложная динамика сцены.

Видеогенерация|от 28,88 ₽/сек

Google Veo 3.0 + Audio

Google Veo 3.0 — поколение с нативной аудиодорожкой. Версия "audio" генерирует видео с синхронным звуком (речь, эффекты, фон) для production-сценариев, где звук должен совпадать со сценой "из коробки".

Видеогенерация|от 62,51 ₽/сек

Sora 2 Pro

Флагманская модель видеогенерации OpenAI с production-качеством, физически достоверным движением, синхронным звуком и сохранением состояния мира между кадрами. Sora 2 Pro следует сложным многошотовым инструкциям без потери пространственных отношений, поддерживает text-to-video и image-to-video, синхронные фоновые звуки, речь и эффекты. Включает C2PA-метаданные и водяной знак.

Видеогенерация|от 46,88 ₽/сек

ByteDance Seedance 1.0 Lite

ByteDance Seedance 1.0 Lite — облегчённая lite-версия линейки 1.0. Подходит для массовой генерации коротких видео с минимальной стоимостью, при этом сохраняет основные возможности text-to-video / image-to-video.

Видеогенерация|от 4,38 ₽/сек

Google Veo 3.0 Fast + Audio

Google Veo 3.0 Fast Audio — ускоренный Veo 3.0 с нативной синхронной аудиодорожкой. Компромисс между скоростью и звуковым сопровождением для быстрых превью с озвучкой.

Видеогенерация|от 23,44 ₽/сек

PixVerse v5.6

PixVerse v5.6 — обновлённая версия v5 с улучшенным качеством движения и стабильностью кадров. Подходит для коротких клипов, сторис и анимационного контента.

Видеогенерация|от 11,05 ₽/сек

Kling 2.1 Pro

Kling 2.1 Pro — pro-уровень линейки 2.1 от Kuaishou. Высокое качество видео при заметно меньшей стоимости, чем у Master. Подходит для большинства коммерческих сценариев генерации.

Видеогенерация|от 10,11 ₽/сек

Wan 2.7 I2V

Wan 2.7 в режиме image-to-video от Alibaba. Принимает изображение и оживляет его в видеоклип с заданной динамикой движения и сохранением визуального стиля исходника.

Видеогенерация|от 3,13 ₽/сек

Kling 2.0 Master

Kling 2.0 Master — флагман предыдущего поколения 2.0 от Kuaishou. Высокое качество и расширенный контроль над сценой, ориентирован на профессиональный контент.

Видеогенерация|от 28,88 ₽/сек

Vidu Q1

Vidu Q1 — версия линейки Q от Vidu, с улучшенной детализацией и динамикой по сравнению с базовой 2.0. Подходит для творческих и анимационных задач.

Видеогенерация|от 6,88 ₽/сек

Google Veo 2.0

Предыдущее поколение Google Veo 2.0 — генерация видео из текста и изображения без нативного звука. Подходит для базовых сценариев генерации видео, когда требования к фотореализму и аудио ниже, чем у Veo 3.x.

Видеогенерация|от 78,14 ₽/сек

Vidu Q3 Turbo

Vidu Q3 Turbo — ускоренная версия Q3 от Vidu. Жертвует частью качества ради скорости и стоимости, подходит для итераций и черновых проходов.

Видеогенерация|от 40,63 ₽/сек

Sora 2

OpenAI Sora 2 — стандартная версия флагманской видеомодели OpenAI. Генерирует видео с физически достоверным движением и синхронным звуком из текста или изображения, на ступень дешевле Sora 2 Pro при сохранении основных возможностей линейки.

Видеогенерация|от 15,63 ₽/сек

PixVerse v5

PixVerse v5 — видео-модель PixVerse для стилизованной творческой генерации. Поддерживает text-to-video и image-to-video, ориентирована на креативные и анимационные сценарии, включая работу с персонажами и стилями.

Видеогенерация|от 9,35 ₽/сек

Vidu Q3

Vidu Q3 — старшая модель линейки Q от Vidu с максимальным для линейки качеством движения и детализации. Ориентирована на профессиональные сценарии генерации видео.

Видеогенерация|от 16,25 ₽/сек

ByteDance Seedance 1.0 Pro

ByteDance Seedance 1.0 Pro — предыдущее поколение pro-уровня от ByteDance. Поддерживает text-to-video и image-to-video, фокус на консистентности персонажей и кинематографичной композиции.

Видеогенерация|от 17,82 ₽/сек

Kling 2.1 Standard

Kling 2.1 Standard — базовый тариф линейки 2.1 от Kuaishou. Оптимален по соотношению цена/качество для массовых задач: соцсети, превью, итеративная разработка сценариев.

Видеогенерация|от 5,78 ₽/сек

Kling 1.6 Pro

Kling 1.6 Pro от Kuaishou — pro-уровень линейки 1.6. Сбалансирован по цене и качеству, поддерживает text-to-video и image-to-video.

Видеогенерация|от 10,10 ₽/сек

MiniMax Hailuo 02

Hailuo 02 — предыдущее поколение видео-модели от MiniMax. Поддерживает text-to-video и image-to-video, фокус на естественном движении и анимации персонажей.

Видеогенерация|от 8,75 ₽/сек

GPT-5.5

GPT-5.5 — передовая модель OpenAI, разработанная для сложных профессиональных задач. Она развивает возможности GPT-5.4, предлагая более сильные рассуждения, повышенную надежность и улучшенную токен-эффективность при выполнении трудных задач. Модель поддерживает контекстное окно свыше 1 млн токенов: до 922 тыс. токенов на входе и до 128 тыс. токенов на выходе. Также доступна работа с текстовыми и визуальными входными данными, что позволяет выполнять масштабные задачи reasoning, программирования и мультимодальные рабочие процессы в рамках единой системы.

1.1M контекст|от 850,00 ₽/M вход|от 5 090,00 ₽/M выход|

DeepSeek V4 Pro

DeepSeek V4 Pro — крупномасштабная модель DeepSeek на базе архитектуры Mixture-of-Experts с 1,6 трлн параметров в общей сложности и 49 млрд активируемых параметров. Модель поддерживает контекстное окно до 1 млн токенов. Она разработана для продвинутых задач reasoning, программирования и долгосрочных агентных рабочих процессов, демонстрируя сильные результаты в бенчмарках по знаниям, математике и разработке ПО. DeepSeek V4 Pro построена на той же архитектуре, что и DeepSeek V4 Flash, но дополнительно использует гибридную систему внимания для эффективной обработки длинного контекста и поддерживает несколько режимов рассуждения, позволяющих балансировать между скоростью и глубиной в зависимости от задачи. Модель хорошо подходит для сложных нагрузок, таких как анализ крупных кодовых баз, многоэтапная автоматизация и масштабный синтез информации, где критически важны как высокая функциональность, так и эффективность.

1.0M контекст|от 268,00 ₽/M вход|от 514,00 ₽/M выход|

GPT-5.4 Image 2

GPT-5.4 Image 2 объединяет модель GPT-5.4 от OpenAI с передовыми возможностями генерации изображений GPT Image 2. Решение поддерживает насыщенные мультимодальные сценарии работы, позволяя пользователям беспрепятственно переключаться между рассуждением, программированием и визуальной генерацией в рамках одного взаимодействия.

272.0K контекст|от 1 360,00 ₽/M вход|от 2 540,00 ₽/M выход|

Gemma 4 26B A4B

Gemma 4 26B A4B IT — инструктивно настроенная модель типа Mixture-of-Experts (MoE) от Google DeepMind. При общем объёме 25,2 млрд параметров в процессе инференса на каждый токен активируется лишь 3,8 млрд — что обеспечивает качество уровня 31B-моделей при кратно меньших вычислительных затратах. Поддерживает мультимодальный ввод: текст, изображения и видео (до 60 секунд при 1 кадре/с). Оснащена контекстным окном на 256K токенов, нативным вызовом функций, настраиваемым режимом размышления/рассуждения и поддержкой структурированного вывода. Лицензия Apache 2.0.

262.1K контекст|от 21,00 ₽/M вход|от 70,00 ₽/M выход|

Gemma 4 31B

Gemma 4 31B Instruct — уплотненная мультимодальная модель Google DeepMind с 30,7 млрд параметров, поддерживающая ввод текста и изображений с выводом в текстовом формате. Оснащена контекстным окном на 256K токенов, настраиваемым режимом размышления/рассуждения, нативным вызовом функций и мультиязычной поддержкой более 140 языков. Демонстрирует высокие результаты в задачах программирования, логического вывода и понимания документов. Лицензия Apache 2.0.

262.1K контекст|от 23,00 ₽/M вход|от 70,00 ₽/M выход|

GLM 5V Turbo

13:22 GLM-5V-Turbo — первая нативная мультимодальная агентная базовая модель от Z.ai, разработанная для задач программирования на основе зрительного восприятия и агентно-ориентированных сценариев. Нативно обрабатывает изображения, видео и текст, демонстрирует высокие результаты в долгосрочном планировании, сложном программировании и выполнении задач, а также бесшовно интегрируется с агентами для реализации полного цикла «воспринять → спланировать → выполнить».

202.8K контекст|от 110,00 ₽/M вход|от 680,00 ₽/M выход|

Grok 4.20

2.0M контекст|от 200,00 ₽/M вход|от 400,00 ₽/M выход|

MiniMax M2.7

MiniMax-M2.7 — это крупная языковая модель нового поколения, предназначенная для автономной работы в реальных задачах и непрерывного самосовершенствования. Разработанная с возможностью активно участвовать в собственной эволюции, модель M2.7 интегрирует продвинутые агентные возможности за счёт многoагентного взаимодействия, что позволяет ей планировать, выполнять и оптимизировать сложные задачи в динамичных средах. Обученная для промышленного уровня производительности, M2.7 поддерживает такие сценарии, как отладка в реальном времени, анализ первопричин, финансовое моделирование и полноценная генерация документов в форматах Word, Excel и PowerPoint. Модель демонстрирует высокие результаты на бенчмарках, включая 56,2% на SWE-Pro и 57,0% на Terminal Bench 2, а также достигает рейтинга 1495 ELO на GDPval-AA, устанавливая новый стандарт для многoагентных систем, работающих в реальных цифровых рабочих процессах.

204.8K контекст|от 55,00 ₽/M вход|от 210,00 ₽/M выход|

GLM 5 Turbo

GLM-5 Turbo — это новая модель от Z.ai, разработанная для быстрого вывода (inference) и высокой производительности в агентных средах, таких как сценарии OpenClaw. Она глубоко оптимизирована для реальных агентных рабочих процессов с длинными цепочками выполнения, обеспечивая улучшенное разложение сложных инструкций, эффективное использование инструментов, поддержку отложенного и длительного выполнения задач, а также общую стабильность при работе с продолжительными сценариями.

202.8K контекст|от 210,00 ₽/M вход|от 690,00 ₽/M выход|

Nemotron 3 Super (free)

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 млрд параметров, которая активирует лишь 12 млрд параметров, обеспечивая максимальную вычислительную эффективность и высокую точность в сложных мультиагентных приложениях. Построенная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с многотокенной предсказательной схемой (MTP), она обеспечивает более чем на 50% более высокую скорость генерации токенов по сравнению с ведущими открытыми моделями. Модель поддерживает контекстное окно размером 1 миллион токенов, что позволяет сохранять долгосрочную согласованность в агентных сценариях, выполнять междокументное рассуждение и планировать многошаговые задачи. Latent MoE дает возможность вызывать 4 эксперта по вычислительной стоимости одного, улучшая интеллектуальные способности модели и ее обобщающую способность. Обучение с подкреплением в более чем 10 различных средах обеспечивает передовую точность на таких бенчмарках, как AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая модель с весами, датасетами и рецептами обучения под лицензией NVIDIA Open License, Nemotron 3 Super позволяет легко настраивать ее под свои задачи и безопасно разворачивать где угодно — от рабочей станции до облака.

1.0M контекст|0,00 ₽/M вход|0,00 ₽/M выход|

GPT-5.4 Pro

GPT-5.4 Pro — самая продвинутая модель OpenAI, развивающая единую архитектуру GPT-5.4 и обладающая расширенными возможностями рассуждения для решения сложных и высокоответственных задач. Она поддерживает контекстное окно свыше 1 миллиона токенов (922 тыс. токенов на входе и 128 тыс. токенов на выходе), а также работу с текстовыми и графическими входными данными. Оптимизированная для пошагового рассуждения, точного следования инструкциям и высокой точности, GPT-5.4 Pro особенно хорошо проявляет себя в агентном программировании, работе с длинным контекстом и решении многошаговых задач.

1.1M контекст|от 5 120,00 ₽/M вход|от 30 610,00 ₽/M выход|

Nano Banana 2 (Gemini 3.1 Flash Image Preview)

Gemini 3.1 Flash Image Preview, также известная как «Nano Banana 2», — это новейшая современная модель Google для генерации и редактирования изображений, обеспечивающая визуальное качество уровня Pro при скорости Flash. Она сочетает продвинутое контекстное понимание с быстрым и экономичным инференсом, благодаря чему сложная генерация изображений и итеративное внесение правок становятся значительно более доступными. Соотношением сторон можно управлять с помощью параметра API image_config.

131.1K контекст|от 55,00 ₽/M вход|от 270,00 ₽/M выход|

Text Moderation Latest

Модерация текста с помощью OpenAI Moderation API

0 контекст|0,00 ₽/M вход|0,00 ₽/M выход|

Omni Moderation Latest

Модерация текста и изображений с помощью OpenAI Moderation API

0 контекст|0,00 ₽/M вход|0,00 ₽/M выход|

MiniMax M2.5

MiniMax-M2.5 — это передовая (SOTA) большая языковая модель, созданная для реальной продуктивной работы. Обученная на широком спектре сложных реальных цифровых рабочих сред, M2.5 развивает инженерные и кодинговые компетенции M2.1 и расширяет их на общие офисные задачи, достигая «свободного владения» созданием и выполнением операций с файлами Word, Excel и PowerPoint, переключением контекста между различными программными средами, а также работой в связке с агентами и человеческими командами. Набирая 80,2% на SWE-Bench Verified, 51,3% на Multi-SWE-Bench и 76,3% на BrowseComp, M2.5 также эффективнее расходует токены по сравнению с предыдущими поколениями: в ходе обучения модель была ориентирована на оптимизацию своих действий и выходных данных за счёт планирования.

204.8K контекст|от 55,00 ₽/M вход|от 210,00 ₽/M выход|

Qwen3 Max Thinking

262.1K контекст|от 210,00 ₽/M вход|от 1 020,00 ₽/M выход|

MiniMax M2-her

MiniMax M2-her — это крупная языковая модель, ориентированная в первую очередь на диалог, созданная для иммерсивного ролевого взаимодействия, чатов с ярко выраженными персонажами и выразительных многоходовых бесед. Спроектированная для сохранения последовательного тона и характера, она поддерживает расширенные роли сообщений (user_system, group, sample_message_user, sample_message_ai) и способна обучаться на примерах диалогов, чтобы точнее воспроизводить стиль и темп конкретного сценария. Благодаря этому модель хорошо подходит для сторителлинга, виртуальных компаньонов и разговорных приложений, где наибольшее значение имеют естественность общения и насыщенное, живое взаимодействие.

65.5K контекст|от 55,00 ₽/M вход|от 210,00 ₽/M выход|

Palmyra X5

Palmyra X5 — самая продвинутая модель Writer, специально созданная для разработки и масштабирования ИИ-агентов в масштабе всей компании. Она обеспечивает ведущие в отрасли скорость и эффективность при работе с контекстными окнами объёмом до 1 миллиона токенов благодаря новой архитектуре трансформера и гибридным механизмам внимания. Это позволяет ускорить инференс и расширить контекст при обработке больших объёмов корпоративных данных, что критически важно для масштабирования ИИ-агентов.

1.0M контекст|от 110,00 ₽/M вход|от 1 100,00 ₽/M выход|

GLM 4.7 Flash

GLM-4.7-Flash, будучи передовой моделью класса 30B (SOTA), предлагает новый вариант, сочетающий высокую производительность и эффективность. Она дополнительно оптимизирована под агентные сценарии в программировании, усиливая способности к написанию кода, долгосрочному планированию задач и взаимодействию с инструментами, и продемонстрировала лидирующие результаты среди open-source моделей сопоставимого размера в ряде актуальных публичных бенчмарк-лидербордов.

202.8K контекст|от 32,00 ₽/M вход|от 85,00 ₽/M выход|

GPT Audio Mini

Более экономичная версия GPT Audio. Новый снэпшот включает улучшенный декодер, обеспечивающий более естественное звучание голосов, и сохраняет более стабильную консистентность голоса.

128.0K контекст|от 110,00 ₽/M вход|от 420,00 ₽/M выход|

GPT Audio

Модель gpt-audio — первая общедоступная аудиомодель OpenAI. Новый снэпшот включает улучшенный декодер, обеспечивающий более естественное звучание голосов, и поддерживает более стабильную консистентность голоса.

128.0K контекст|от 470,00 ₽/M вход|от 1 780,00 ₽/M выход|

Qwen3 Next 80B A3B Instruct (free)

Qwen3-Next-80B-A3B-Instruct — чат-модель серии Qwen3-Next, дообученная под следование инструкциям и оптимизированная для быстрых, стабильных ответов без отображения следов размышления. Она нацелена на сложные задачи в области рассуждений, генерации кода, ответов на вопросы по знаниям и многоязычного общения, сохраняя устойчивость по части согласованности (alignment) и форматирования. По сравнению с предыдущими instruct-вариантами Qwen3 акцент сделан на более высокой пропускной способности и стабильности при сверхдлинных входах и многоходовых диалогах, что делает модель хорошо подходящей для RAG, работы с инструментами и агентных сценариев, где важны последовательные финальные ответы, а не видимая цепочка рассуждений. Модель использует масштабируемо-эффективные подходы к обучению и декодированию, чтобы повысить параметрическую эффективность и скорость инференса, и была проверена на широком наборе публичных бенчмарков: по ряду категорий она достигает или приближается к более крупным системам Qwen3, одновременно превосходя более ранние базовые модели среднего размера. Оптимальный сценарий использования — универсальный ассистент, помощник для разработки и решение задач с длинным контекстом в продакшене, где предпочтительны детерминированные ответы и строгое следование инструкциям.

262.1K контекст|0,00 ₽/M вход|0,00 ₽/M выход|

MiMo-V2-Flash

MiMo-V2-Flash — открытая базовая языковая модель, разработанная компанией Xiaomi. Это модель типа Mixture-of-Experts (MoE) с 309 млрд общих параметров и 15 млрд активных параметров, использующая гибридную архитектуру внимания. MiMo-V2-Flash поддерживает переключатель гибридного мышления и контекстное окно до 256 тыс. токенов, а также особенно сильна в задачах рассуждения, написания кода и агентных сценариях. На бенчмарках SWE-bench Verified и SWE-bench Multilingual MiMo-V2-Flash занимает первое место среди open-source моделей в мире, демонстрируя производительность, сопоставимую с Claude Sonnet 4.5, при стоимости примерно в 3,5% от неё. Пользователи могут управлять поведением рассуждения с помощью булевого параметра reasoning enabled.

262.1K контекст|от 42,00 ₽/M вход|от 65,00 ₽/M выход|

GPT-5.2-Codex

GPT-5.2-Codex — обновлённая версия GPT-5.1-Codex, оптимизированная для задач программной инженерии и рабочих процессов разработки. Она рассчитана как на интерактивные сессии разработки, так и на длительное самостоятельное выполнение сложных инженерных задач. Модель поддерживает создание проектов с нуля, разработку функциональности, отладку, масштабный рефакторинг и ревью кода. По сравнению с GPT-5.1-Codex, версия 5.2-Codex лучше управляется, точнее следует инструкциям разработчика и выдаёт более чистый и качественный код. Уровень усилия на рассуждение можно настраивать через параметр `reasoning.effort`. Codex интегрируется в среды разработки, включая CLI, расширения для IDE, GitHub и облачные задачи. Он динамически адаптирует глубину рассуждений: быстро отвечает на небольшие запросы и при этом способен поддерживать продолжительные, многочасовые прогоны для крупных проектов. Модель обучена выполнять структурированное ревью кода, выявляя критические проблемы за счёт анализа зависимостей и проверки поведения по тестам. Также она поддерживает мультимодальные входные данные (например, изображения или скриншоты) для UI-разработки и умеет использовать инструменты для поиска, установки зависимостей и настройки окружения. Codex предназначен специально для агентных сценариев программирования.

400.0K контекст|от 320,00 ₽/M вход|от 2 420,00 ₽/M выход|

GLM 4.7

GLM-4.7 — это новейшая флагманская модель Z.AI, в которой реализованы улучшения по двум ключевым направлениям: расширенные возможности программирования и более стабильное многошаговое рассуждение и выполнение задач. Модель демонстрирует заметный прогресс в выполнении сложных агентных сценариев, обеспечивая при этом более естественное диалоговое взаимодействие и более высокое качество пользовательского интерфейса.

202.8K контекст|от 85,00 ₽/M вход|от 270,00 ₽/M выход|

MiniMax M2.1

MiniMax-M2.1 — это лёгкая, передовая большая языковая модель, оптимизированная для программирования, агентных workflow и разработки современных приложений. Имея всего 10 млрд активированных параметров, она обеспечивает существенный скачок в прикладных возможностях при сохранении выдающихся показателей задержки, масштабируемости и экономической эффективности. По сравнению с предыдущей версией M2.1 выдаёт более чистые и лаконичные ответы, а также обеспечивает более высокую субъективную скорость отклика. Модель демонстрирует лидирующие результаты в многоязычном программировании на основных платформах и языках разработки, достигая 49,4 % на Multi-SWE-Bench и 72,5 % на SWE-Bench Multilingual, и может выступать универсальным «мозгом» агента для IDE, инструментов разработки и задач общего назначения.

204.8K контекст|от 65,00 ₽/M вход|от 230,00 ₽/M выход|

GPT-5.2 Pro

GPT-5.2 Pro — это самая продвинутая модель OpenAI, обеспечивающая значительные улучшения в агентном программировании и работе с длинным контекстом по сравнению с GPT-5 Pro. Модель оптимизирована для сложных задач, требующих пошагового рассуждения, точного следования инструкциям и высокой точности в критически важных сценариях использования. Она поддерживает функции маршрутизации на этапе выполнения (test-time routing) и расширенное понимание промптов, включая заданное пользователем намерение, например «подумай над этим максимально глубоко». Среди улучшений — снижение уровня галлюцинаций и подхалимства (sycophancy), а также более высокая производительность в задачах программирования, написания текстов и в области здравоохранения.

400.0K контекст|от 3 290,00 ₽/M вход|от 21 870,00 ₽/M выход|

GPT-5.2 Chat

GPT-5.2 Chat (он же Instant) — это быстрый и легковесный представитель семейства 5.2, оптимизированный для чата с низкой задержкой при сохранении мощного общего интеллекта. Он использует адаптивное рассуждение для избирательного мышления над более сложными запросами, повышая точность в математике, программировании и многоэтапных задачах, не замедляя типичные разговоры. Модель по умолчанию теплее и разговорчивее, с улучшенным следованием инструкциям и более стабильным краткосрочным рассуждением. GPT-5.2 Chat предназначен для высокопроизводительных интерактивных нагрузок, где отзывчивость и последовательность важнее глубокого обдумывания.

128.0K контекст|от 320,00 ₽/M вход|от 2 450,00 ₽/M выход|

GLM 4.6V

GLM-4.6V — это крупная мультимодальная модель, ориентированная на высокоточное визуальное распознавание и длительное контекстное рассуждение по изображениям, документам и смешанным медиаформатам. Она поддерживает контекст до 128 000 токенов, напрямую обрабатывает сложные макеты страниц и графики как визуальные входные данные, а также включает нативные мультимодальные вызовы функций, связывающие восприятие с выполнением последующих инструментов. Модель также поддерживает чередующуюся генерацию изображений и текста и рабочие процессы по реконструкции пользовательских интерфейсов — включая преобразование скриншотов в HTML и итеративное визуальное редактирование.

131.1K контекст|от 65,00 ₽/M вход|от 170,00 ₽/M выход|

gpt-oss-120b (free)

gpt-oss-120b — языковая модель Mixture-of-Experts (MoE) от OpenAI с открытыми весами и 117 млрд параметров, разработанная для сложных рассуждений, автономного выполнения задач и универсального промышленного применения. При каждом прямом проходе активируется 5,1 млрд параметров. Модель оптимизирована для работы на одном GPU NVIDIA H100 с нативной квантизацией MXFP4. Она поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке рассуждений и встроенное использование инструментов, включая вызов функций, веб-обход и генерацию структурированного вывода.

131.1K контекст|0,00 ₽/M вход|0,00 ₽/M выход|

GPT-5.1-Codex-Max

GPT-5.1-Codex-Max — это новейшая агентная модель программирования от OpenAI, разработанная для длительных и высококонтекстных задач в области разработки ПО. Она построена на обновлённой версии вычислительного стека 5.1 и обучена на агентных workflow, охватывающих программную инженерию, математику и исследовательские задачи. GPT-5.1-Codex-Max обеспечивает более высокую скорость работы, улучшенные способности к рассуждению и повышенную эффективность использования токенов на всех этапах разработки.

400.0K контекст|от 230,00 ₽/M вход|от 1 700,00 ₽/M выход|

Claude Opus 4.5

Claude Opus 4.5 — это передовая модель рассуждений от Anthropic, оптимизированная для сложной разработки ПО, агентских сценариев и длительного взаимодействия с компьютером. Она обладает сильными мультимодальными возможностями, демонстрирует конкурентные результаты в практических задачах программирования и рассуждений, а также лучше защищена от prompt-инъекций. Модель спроектирована так, чтобы эффективно работать при разном уровне вычислительных затрат, позволяя разработчикам балансировать между скоростью, глубиной анализа и расходом токенов в зависимости от задачи. В ней появился новый параметр для управления токенной эффективностью, доступный через параметр Verbosity в OpenRouter (значения: low, medium, high). Opus 4.5 поддерживает продвинутую работу с инструментами, управление расширенным контекстом и согласованную работу нескольких агентов, что делает её подходящей для автономных исследований, отладки, многошагового планирования, а также манипуляций с таблицами или браузером. Модель обеспечивает значительный рост качества структурных рассуждений, стабильности выполнения и соответствия намерениям пользователя по сравнению с предыдущими поколениями Opus, снижает накладные расходы на токены и улучшает эффективность при длительных вычислительных задачах.

200.0K контекст|от 900,00 ₽/M вход|от 4 380,00 ₽/M выход|

bge-m3

Модель эмбеддингов bge-m3 преобразует предложения, абзацы и длинные документы в плотные векторы размерностью 1024, обеспечивая высококачественные семантические представления. Она оптимизирована для многоязычного поиска, семантического ретривала и задач, работающих с большим контекстом.

8.2K контекст|от 32,00 ₽/M вход|от 0,00 ₽/M выход|

bge-large-en-v1.5

Модель эмбеддингов bge-large-en-v1.5 преобразует английские предложения, абзацы и документы в плотные векторы размерностью 1024, обеспечивая высокоточные семантические представления. Она оптимизирована для семантического поиска, извлечения документов и последующих NLP-задач на английском языке.

8.2K контекст|от 32,00 ₽/M вход|от 0,00 ₽/M выход|

multi-qa-mpnet-base-dot-v1

Модель эмбеддингов multi-qa-mpnet-base-dot-v1 преобразует предложения и короткие абзацы в плотные векторы размерностью 768, обеспечивая высококачественные семантические представления. Она оптимизирована для задач извлечения ответов на вопросы, семантического поиска и оценки сходства в широком спектре контента.

8.2K контекст|от 32,00 ₽/M вход|от 0,00 ₽/M выход|

bge-base-en-v1.5

Модель эмбеддингов bge-base-en-v1.5 преобразует английские предложения и абзацы в плотные векторы размерностью 768, обеспечивая эффективные и высококачественные семантические представления. Она оптимизирована для ретривала, семантического поиска и сопоставления документов. Версия v1.5 отличается улучшенным распределением оценок сходства и повышенной точностью извлечения «из коробки».

8.2K контекст|от 32,00 ₽/M вход|от 0,00 ₽/M выход|

all-MiniLM-L12-v2

Модель эмбеддингов all-MiniLM-L12-v2 преобразует предложения и короткие абзацы в плотные векторы размерностью 384, создавая компактные и качественные семантические представления. Она оптимизирована для семантического поиска, кластеризации и оценки сходства.

8.2K контекст|от 32,00 ₽/M вход|от 0,00 ₽/M выход|

Qwen3 Embedding 4B

Серия Qwen3 Embedding — это новейшие проприетарные модели семейства Qwen, специально разработанные для задач текстовых эмбеддингов и ранжирования. Они унаследовали сильные многоязычные возможности, глубокое понимание длинных текстов и развитые способности к рассуждению от базовой модели. Линейка Qwen3 Embedding демонстрирует значительный прогресс в задачах текстового и кодового ретривала, классификации, кластеризации и двуязычного поиска соответствий.

32.8K контекст|от 32,00 ₽/M вход|от 0,00 ₽/M выход|

Qwen3 Embedding 8B

Серия моделей Qwen3 Embedding — новейшая проприетарная линия в семействе Qwen, специально созданная для задач текстовых эмбеддингов и ранжирования. Эти модели унаследовали от базовой архитектуры выдающиеся многоязычные возможности, глубокое понимание длинных текстов и развитые навыки рассуждения. Линейка Qwen3 Embedding демонстрирует серьёзный прогресс в задачах текстового и кодового ретривала, классификации, кластеризации и двуязычного сопоставления.

32.0K контекст|от 32,00 ₽/M вход|от 0,00 ₽/M выход|

Text Embedding 3 Small

8.2K контекст|от 32,00 ₽/M вход|от 0,00 ₽/M выход|

Text Embedding Ada 002

text-embedding-ada-002 — устаревшая модель эмбеддингов текста от OpenAI.

8.2K контекст|от 42,00 ₽/M вход|от 0,00 ₽/M выход|

GPT-5.1

GPT-5.1 — это новейшая передовая модель в линейке GPT-5. Она обеспечивает более мощные универсальные способности к рассуждению, лучше следует инструкциям и звучит естественнее в беседе по сравнению с GPT-5. Модель использует адаптивный подход к вычислениям: быстро отвечает на простые запросы и углубляет логику там, где задача сложная. Объяснения стали яснее и понятнее, с минимумом жаргона — даже технические и многошаговые задачи теперь легче воспринимать. Созданная для широкого спектра задач, GPT-5.1 демонстрирует устойчивый рост качества в математике, программировании и структурированном анализе. Ответы в длинной форме стали значительно более связными, а работа с инструментами — надёжнее. Улучшена и диалоговая адаптация: модель отвечает теплее и интуитивнее, не теряя точности. GPT-5.1 является основным полнофункциональным преемником GPT-5.

400.0K контекст|от 230,00 ₽/M вход|от 1 860,00 ₽/M выход|

Llama 3.3 Euryale 70B

Euryale L3.3 70B — модель для креативных ролевых игр от [Sao10k](https://ko-fi.com/sao10k). Является преемницей [Euryale L3 70B v2.2](/models/sao10k/l3-euryale-70b).

131.1K контекст|от 140,00 ₽/M вход|от 160,00 ₽/M выход|

Hermes 4 70B

Hermes 4 70B — гибридная модель рассуждения от Nous Research, созданная на базе Meta-Llama-3.1-70B. Она наследует гибридный режим из более крупного релиза на 405 B параметров, позволяя либо отвечать сразу, либо перед ответом генерировать явную цепочку рассуждений в теге <think>…</think>. Пользователи могут включать или отключать режим рассуждений с помощью булева параметра reasoning_enabled (подробнее в документации: https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config). Вариант на 70 B параметрах дообучен на расширенном посттренировочном корпусе (~60 млрд токенов) с упором на проверенные данные для рассуждений. Это улучшило результаты в математике, программировании, STEM-направлениях, логических задачах и при формировании структурированных выходных данных, сохранив при этом универсальные возможности ассистента. Модель поддерживает JSON-режим, соблюдение схем (schema adherence), вызов функций и использование сторонних инструментов, а также отличается повышенной управляемостью и сниженным уровнем отказов.

131.1K контекст|от 42,00 ₽/M вход|от 85,00 ₽/M выход|

Qwen3 VL 30B A3B Thinking

Модель Qwen3-VL-30B-A3B-Thinking — это мультимодальная модель, объединяющая мощную генерацию текста с визуальным пониманием изображений и видео. Вариант Thinking усиливает способность к рассуждению в точных науках (STEM), математике и при решении сложных задач. Модель превосходно справляется с распознаванием категорий реальных и синтетических объектов, пространственным позиционированием в 2D и 3D, а также анализом длинных визуальных материалов, демонстрируя конкурентоспособные результаты на мультимодальных бенчмарках. В агентных сценариях она обрабатывает множественные изображения и многошаговые инструкции, выравнивает видео по временной шкале, автоматизирует графический интерфейс (GUI) и выполняет визуальное программирование — от эскизов до отлаженного пользовательского интерфейса. По качеству текстовой генерации модель не уступает флагманским решениям серии Qwen3, что делает её подходящей для задач документного ИИ, оптического распознавания текста (OCR), помощи в пользовательских интерфейсах, решения пространственных задач и исследований автономных агентов.

131.1K контекст|от 55,00 ₽/M вход|от 200,00 ₽/M выход|

Llama 4 Maverick

Llama 4 Maverick 17B Instruct (128E) — высокопроизводительная мультимодальная языковая модель от Meta, построенная на архитектуре mixture-of-experts (MoE) с 128 экспертами и 17 млрд активных параметров на один проход (всего 400 млрд параметров). Она поддерживает многоязычный ввод текста и изображений и генерирует текст и код на 12 языках. Оптимизированная для задач, объединяющих анализ изображений и текста, Maverick дообучена по инструкциям для поведения в роли ассистента, рассуждения над изображениями и универсального мультимодального взаимодействия. Модель обеспечивает нативную мультимодальность благодаря механизму early fusion и окну контекста размером 1 млн токенов. Обучение проводилось на тщательно отобранном наборе открытых, лицензированных и данных с платформ Meta объёмом около 22 трлн токенов, с отсечкой знаний на август 2024 года. Выпущенная 5 апреля 2025 года под лицензией Llama 4 Community License, Maverick подходит для исследовательских и коммерческих приложений, требующих продвинутого мультимодального понимания и высокой пропускной способности.

1.0M контекст|от 55,00 ₽/M вход|от 120,00 ₽/M выход|

Qwen3 8B

Qwen3-8B — плотная каузальная языковая модель с 8,2 млрд параметров из серии Qwen3, разработанная как для задач, требующих глубокого рассуждения, так и для эффективного ведения диалога. Она обеспечивает плавное переключение между «режимом размышления» для работы с математикой, программированием и логическими выводами и «режимом без размышления» для обычного общения. Модель дообучена для следования инструкциям, интеграции с агентами, креативного письма и многоязычного использования (свыше 100 языков и диалектов). Нативно поддерживает окно контекста в 32 000 токенов и может расширяться до 131 000 токенов с помощью масштабирования YaRN.

131.1K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|

Command R+ (08-2024)

command-r-plus-08-2024 — это обновление [Command R+](/models/cohere/command-r-plus), обеспечивающее примерно на 50% более высокую пропускную способность и на 25% меньшую задержку по сравнению с предыдущей версией, при тех же аппаратных ресурсах. Ознакомьтесь с анонсом выпуска [здесь](https://docs.cohere.com/changelog/command-gets-refreshed). Использование этой модели регулируется [Политикой использования](https://docs.cohere.com/docs/usage-policy) Cohere и [Договором SaaS](https://cohere.com/saas-agreement).

128.0K контекст|от 470,00 ₽/M вход|от 1 790,00 ₽/M выход|

R1

DeepSeek R1 уже здесь: по производительности соответствует [OpenAI o1](/openai/o1), но с открытым исходным кодом и открытыми токенами промежуточных рассуждений. Модель насчитывает 671 млрд параметров, из которых при выводе активно 37 млрд. Полностью с открытым исходным кодом — см. [технический отчёт](https://api-docs.deepseek.com/news/news250120). Лицензия MIT: свободно дистиллировать и коммерчески использовать!

163.8K контекст|от 85,00 ₽/M вход|от 230,00 ₽/M выход|

Qwen3 VL 235B A22B Instruct

Qwen3-VL-235B-A22B Instruct — это мультимодальная модель с открытыми весами, объединяющая мощную генерацию текста и понимание визуального контента на изображениях и в видео. Она рассчитана на универсальные задачи vision-language: визуальные вопросы-ответы (VQA), парсинг документов, извлечение данных из диаграмм и таблиц, многоязычный OCR. Серия Qwen3-VL делает упор на надёжное восприятие (распознавание самых разных реальных и искусственных объектов), пространственное понимание (якорение в 2D и 3D) и глубокий анализ визуального контента, демонстрируя конкурентоспособные результаты на публичных мультимодальных бенчмарках как по восприятию, так и по рассуждению. Помимо аналитики, Qwen3-VL поддерживает агентное взаимодействие и работу с внешними инструментами: она способна выполнять сложные инструкции в многоходовых диалогах с несколькими изображениями; синхронизировать текст с таймлайном видео для точных временных запросов; управлять элементами графического интерфейса для автоматизации задач. Модель также облегчает визуальные сценарии кодирования — превращает эскизы и макеты в программный код и помогает отлаживать пользовательские интерфейсы — сохраняя при этом высокую эффективность в чисто текстовых задачах на уровне флагманских языковых моделей Qwen3. Всё это делает Qwen3-VL отличным решением для промышленного применения: Document AI, многоязычного OCR, поддержки разработки ПО и UI, пространственных и встраиваемых задач, а также для исследований агентов vision-language.

262.1K контекст|от 55,00 ₽/M вход|от 170,00 ₽/M выход|

GPT-4O Mini Transcribe

0 контекст|от 700,00 ₽/M вход|от 2 750,00 ₽/M выход|

GPT-3.5 Turbo

GPT-3.5 Turbo — самая быстрая модель OpenAI. Она понимает и генерирует текст на естественном языке и код, оптимизирована для чата и классических задач автодополнения. Обучающие данные актуальны по состоянию на сентябрь 2021 года.

16.4K контекст|от 110,00 ₽/M вход|от 280,00 ₽/M выход|

Qwen3 235B A22B Instruct 2507

Qwen3-235B-A22B-Instruct-2507 — мультиязычная языковая модель со смесью экспертов на базе архитектуры Qwen3-235B, дообученная на инструкциях. Она задействует 22 млрд активных параметров при одном прогоне и оптимизирована для генерации текстов общего назначения: следования инструкциям, логических выводов, решения математических задач, программирования и работы с инструментами. Модель поддерживает нативную длину контекста до 262 тыс. токенов и не реализует «режим размышлений» (<think> блоки). По сравнению с базовой версией модель демонстрирует существенный прирост в покрытии знаний, рассуждениях в длинном контексте, результатах бенчмарков по программированию и эффективности в решении открытых задач. Особенно сильна она в мультиязычном понимании, математических рассуждениях (например, AIME, HMMT) и в alignment-оценках, таких как Arena-Hard и WritingBench.

262.1K контекст|от 42,00 ₽/M вход|от 120,00 ₽/M выход|

Hunyuan A13B Instruct

Hunyuan-A13B — языковая модель Mixture-of-Experts (MoE) с 13 млрд активных параметров, разработанная компанией Tencent. Общее число параметров составляет 80 млрд, модель поддерживает цепочку рассуждений (Chain-of-Thought). Hunyuan-A13B демонстрирует конкурентоспособные результаты на бенчмарках по математике, естественным наукам, программированию и задачам многошагового вывода, при этом обеспечивая высокую эффективность инференса благодаря технологии сгруппированного внимания запросов (Grouped Query Attention, GQA) и поддержке квантизации (FP8, GPTQ и др.).

131.1K контекст|от 42,00 ₽/M вход|от 120,00 ₽/M выход|

GPT-5

GPT-5 — наиболее продвинутая модель OpenAI, обеспечивающая существенные улучшения в области рассуждений, качества кода и пользовательского опыта. Она оптимизирована для выполнения сложных задач, требующих последовательного логического анализа, точного следования инструкциям и высокой достоверности в критически важных сценариях. Модель поддерживает функции динамической маршрутизации во время выполнения и расширенное понимание подсказок, включая учёт пользовательских намерений, таких как «тщательно обдумай это». Среди прочих улучшений — снижение числа галлюцинаций и проявлений подхалимства, а также повышенная эффективность в задачах программирования, написания текстов и здравоохранения.

400.0K контекст|от 230,00 ₽/M вход|от 1 790,00 ₽/M выход|

Gemma 3 27B

Gemma 3 вводит мультимодальность: поддерживает визуально-текстовый ввод и выдаёт текстовые ответы. Она обрабатывает контексты длиной до 128 000 токенов, понимает более 140 языков и предлагает улучшенные возможности в математике, логических рассуждениях и общении, включая структурированный вывод и вызов функций. Gemma 3 27B — новая открытая модель от Google, преемник Gemma 2 (google/gemma-2-27b-it).

131.1K контекст|от 42,00 ₽/M вход|от 55,00 ₽/M выход|

Relace Apply 3

Relace Apply 3 — специализированная LLM для патчинга кода, которая внедряет предлагаемые ИИ правки напрямую в ваши исходные файлы. Она может применять обновления от GPT-4o, Claude и других моделей со скоростью в среднем 10 000 токенов в секунду. Модель ожидает запрос в следующем формате: <instruction>{instruction}</instruction> <code>{initial_code}</code> <update>{edit_snippet}</update> Для Relace включена политика нулевого хранения данных. Подробнее об этой модели — в их документации: https://docs.relace.ai/api-reference/instant-apply/apply

256.0K контекст|от 170,00 ₽/M вход|от 230,00 ₽/M выход|

Skyfall 36B V2

Skyfall 36B v2 — это усовершенствованная версия модели Mistral Small 2501, специально дообученная для повышения креативности, более тонкого стиля письма, ролевых игр и связного повествования.

32.8K контекст|от 110,00 ₽/M вход|от 170,00 ₽/M выход|

Gemini 2.5 Pro Preview 06-05

Gemini 2.5 Pro — передовая модель искусственного интеллекта Google, созданная для продвинутых задач в области рассуждений, программирования, математики и научных исследований. Она оснащена возможностями «мышления», позволяющими строить ответы с повышенной точностью и учитывать тонкие контекстные нюансы. Gemini 2.5 Pro демонстрирует первоклассные результаты на множестве бенчмарков, включая первое место в рейтинге LMArena, что отражает её превосходное соответствие человеческим предпочтениям и способность эффективно решать сложные задачи.

1.0M контекст|от 230,00 ₽/M вход|от 1 790,00 ₽/M выход|

gpt-oss-120b

gpt-oss-120b — языковая модель Mixture-of-Experts (MoE) от OpenAI с открытыми весами и 117 млрд параметров, разработанная для сложных рассуждений, автономного выполнения задач и универсального промышленного применения. При каждом прямом проходе активируется 5,1 млрд параметров. Модель оптимизирована для работы на одном GPU NVIDIA H100 с нативной квантизацией MXFP4. Она поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке рассуждений и встроенное использование инструментов, включая вызов функций, веб-обход и генерацию структурированного вывода.

131.1K контекст|от 32,00 ₽/M вход|от 95,00 ₽/M выход|

Llama 4 Scout

Llama 4 Scout 17B Instruct (16E) — языковая модель с архитектурой mixture-of-experts (MoE), разработанная компанией Meta. За один прямой проход активируется 17 миллиардов параметров из общего числа 109 миллиардов. Модель изначально поддерживает мультимодальный ввод (текст и изображение) и многоязычный вывод (текст и код) на 12 языках. Scout спроектирована для ассистентского взаимодействия и визуального рассуждения: она использует 16 экспертов за один прямой проход и обеспечивает контекст длиной до 10 миллионов токенов. Корпус для её обучения насчитывает примерно 40 триллионов токенов. Созданная для высокой производительности и локального или коммерческого развёртывания, Llama 4 Scout применяет механизм ранней интеграции модальностей (early fusion) для бесшовного объединения текста и изображения. Модель донастроена с помощью instruction tuning для многоязычного чата, генерации подписей к изображениям и понимания визуального контента. Выпускается под лицензией Llama 4 Community License; последнее обучение проводилось на данных до августа 2024 года, а публичный релиз состоялся 5 апреля 2025 года.

10.0M контекст|от 42,00 ₽/M вход|от 85,00 ₽/M выход|

GPT-4o Search Preview

GPT-4o Search Preview — специализированная модель для веб-поиска в Chat Completions. Она обучена понимать и исполнять запросы веб-поиска.

128.0K контекст|от 470,00 ₽/M вход|от 1 790,00 ₽/M выход|

UI-TARS 7B

UI-TARS-1.5 — мультимодальный визуально-языковой агент, оптимизированный для работы в системах с графическим интерфейсом (GUI), включая настольные системы, веб-браузеры, мобильные платформы и игры. Разработанный компанией ByteDance, он основан на фреймворке UI-TARS и использует рассуждения на основе обучения с подкреплением, что обеспечивает надёжное планирование действий и выполнение команд во виртуальных интерфейсах. Модель демонстрирует передовые результаты на множестве интерактивных бенчмарков и задач визуальной привязки (grounding), включая OSworld, WebVoyager, AndroidWorld и ScreenSpot. Она также безупречно выполняет задания в различных играх на платформе Poki и превосходит предыдущие модели в задачах агентов для Minecraft. UI-TARS-1.5 поддерживает декомпозицию рассуждений при выводе и хорошо масштабируется: версия 1.5 заметно превосходит более ранние контрольные точки объёмом 72B и 7B.

128.0K контекст|от 42,00 ₽/M вход|от 55,00 ₽/M выход|

Qwen3 Coder 30B A3B Instruct

Qwen3-Coder-30B-A3B-Instruct — MoE-модель с 30,5 млрд параметров и 128 экспертами (8 активных при каждом прямом проходе), разработанная для расширенной генерации кода, понимания на уровне всего репозитория и использования инструментов в агентном режиме. Построена на архитектуре Qwen3, поддерживает нативную длину контекста 256 тыс. токенов (с возможностью расширения до 1 млн с помощью Yarn) и показывает высокие результаты в задачах, связанных с вызовами функций, работой через браузер и структурированным автодополнением кода. Модель оптимизирована для выполнения инструкций без «thinking mode» и легко интегрируется с OpenAI-совместимыми форматами использования инструментов.

160.0K контекст|от 42,00 ₽/M вход|от 65,00 ₽/M выход|

ERNIE 4.5 VL 28B A3B

Мощная мультимодальная чат-модель Mixture-of-Experts (MoE) с общим числом параметров 28 млрд, из которых при обработке каждого токена активируются 3 млрд. Благодаря инновационной гетерогенной структуре MoE с изолированной маршрутизацией модальностей она обеспечивает выдающееся понимание текста и изображений. Построенная на эффективно масштабируемой инфраструктуре для высокопроизводительного обучения и вывода, модель использует передовые техники послетренировочной настройки — SFT, DPO и UPO — для оптимальной производительности. При этом она поддерживает впечатляющую длину контекста в 131 тыс. токенов и выравнивание RLVR для превосходных возможностей кросс-модального рассуждения и генерации.

131.1K контекст|от 42,00 ₽/M вход|от 120,00 ₽/M выход|

GPT-4o-mini

GPT-4o mini — новая модель OpenAI после GPT-4 Omni, поддерживающая текстовые и визуальные входные данные и выдающая текстовые ответы. Это их самый продвинутый компактный вариант, он во много раз доступнее по цене, чем другие последние передовые модели, и более чем на 60 % дешевле, чем GPT-3.5 Turbo. При этом сохраняется передовой уровень интеллекта (SOTA) при значительно более низкой стоимости. GPT-4o mini набирает 82 % по тесту MMLU и в настоящее время в общедоступных рейтингах предпочтений чат-ботов опережает GPT-4. Подробнее читайте в анонсе запуска. #multimodal

128.0K контекст|от 55,00 ₽/M вход|от 120,00 ₽/M выход|

Granite 4.0 Micro

Granite-4.0-H-Micro — модель с 3 млрд параметров из семейства Granite 4. Эти модели — новейшие в серии, выпущенной компанией IBM. Они дообучены для вызова инструментов с учётом длинного контекста.

131.0K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|

Qwen3 Next 80B A3B Instruct

Qwen3-Next-80B-A3B-Instruct — это модель чат-бота, дообученная на основе инструкций в серии Qwen3-Next, оптимизированная для быстрых и стабильных ответов без видимых следов «мыслительного процесса». Она предназначена для решения сложных задач: логического вывода, генерации кода, ответов на вопросы с опорой на знания и многоязычного взаимодействия, при этом остаётся надёжной в части согласованности и форматирования. В отличие от предыдущих версий Qwen3 Instruct, эта модель ориентирована на более высокую пропускную способность и устойчивость при работе с сверхдлинными входными данными и многоступенчатыми диалогами, что делает её особенно подходящей для RAG, использования внешних инструментов и агентных рабочих процессов, где важен единообразный итоговый ответ без демонстрации цепочек рассуждений. Модель использует эффективные с точки зрения масштабирования методы обучения и декодирования, что улучшает эффективность использования параметров и скорость инференса. Она прошла валидацию на широком наборе публичных бенчмарков, где в ряде категорий достигает или приближается к результатам более крупных систем Qwen3 и при этом превосходит предыдущие среднеразмерные базовые модели. Оптимально её применять в качестве универсального ассистента, помощника при написании кода и решения задач с длинным контекстом в продуктивной среде, где требуются детерминированные ответы, строго следующие инструкциям.

262.1K контекст|от 42,00 ₽/M вход|от 170,00 ₽/M выход|

R1 0528

Обновление от 28 мая для оригинальной DeepSeek R1. Производительность сопоставима с OpenAI o1, при этом модель имеет открытый исходный код и полностью открытые токены рассуждений. Размер модели — 671 млрд параметров, из которых в ходе инференса задействовано 37 млрд. Модель полностью с открытым исходным кодом.

163.8K контекст|от 95,00 ₽/M вход|от 330,00 ₽/M выход|

gpt-oss-safeguard-20b

gpt-oss-safeguard-20b — это модель анализа безопасности от OpenAI, созданная на базе gpt-oss-20b. Эта модель с открытыми весами и 21 млрд параметров, построенная по архитектуре Mixture-of-Experts (MoE), обеспечивает более низкую задержку при решении задач безопасности, таких как классификация контента, фильтрация LLM и маркировка trust & safety. Узнайте больше о модели в руководстве пользователя OpenAI по gpt-oss-safeguard.

131.1K контекст|от 42,00 ₽/M вход|от 85,00 ₽/M выход|

GPT-4O Transcribe with Diarization

0 контекст|от 1 390,00 ₽/M вход|от 5 470,00 ₽/M выход|

Mistral Medium 3

Mistral Medium 3 — высокопроизводительная языковая модель корпоративного уровня, разработанная для предоставления передовых возможностей при существенно сниженных эксплуатационных затратах. Она сочетает современные достижения в области рассуждений и мультимодального функционала, обеспечивая стоимость использования в 8 раз ниже по сравнению с традиционными крупными моделями, что делает её оптимальным решением для масштабируемых внедрений в профессиональных и промышленных сценариях. Модель демонстрирует выдающиеся результаты в таких областях, как программирование, научно-техническое мышление (STEM) и адаптация под корпоративные нужды. Поддерживает гибридное развертывание, локальные инсталляции (on-prem) и размещение внутри виртуальных частных облаков (in-VPC), оптимизирована для интеграции в пользовательские рабочие процессы. Mistral Medium 3 обеспечивает конкурентную точность по сравнению с более крупными моделями, такими как Claude Sonnet 3.5/3.7, Llama 4 Maverick и Command R+, при этом сохраняя широкую совместимость с различными облачными платформами.

131.1K контекст|от 95,00 ₽/M вход|от 370,00 ₽/M выход|

Qwen3 Coder 480B A35B

Qwen3-Coder-480B-A35B-Instruct — это модель генерации кода на основе метода «смесь экспертов» (Mixture-of-Experts, MoE), разработанная командой Qwen. Она оптимизирована для агентных задач программирования, таких как вызов функций, использование сторонних инструментов и анализ длинного контекста в репозиториях. Модель содержит 480 млрд параметров, из которых при каждом прямом проходе активируются 35 млрд (8 из 160 экспертов). Стоимость использования конечных точек Alibaba зависит от длины контекста: если запрос превышает 128 000 входных токенов, применяется повышенный тариф.

1.0M контекст|от 55,00 ₽/M вход|от 190,00 ₽/M выход|

GLM 4 32B

GLM 4 32B — это рентабельная фундаментальная языковая модель. Она эффективно выполняет сложные задачи и обладает значительно расширенными возможностями в работе с инструментами, онлайн-поиске и решении интеллектуальных задач, связанных с программированием. Она разработана той же лабораторией, что и модели THUDM.

128.0K контекст|от 42,00 ₽/M вход|от 42,00 ₽/M выход|

Sonar Pro

Примечание: стоимость Sonar Pro включает цену за поиск Perplexity. Подробнее см. здесь (https://docs.perplexity.ai/guides/pricing#detailed-pricing-breakdown-for-sonar-reasoning-pro-and-sonar-pro) Для корпоративных клиентов, которым нужны более продвинутые возможности, API Sonar Pro способен обрабатывать глубокие многошаговые запросы с расширяемой архитектурой: в среднем он выдает вдвое больше ссылок на источники за поиск по сравнению с Sonar. Кроме того, благодаря увеличенному контекстному окну он справляется с более длинными и нюансированными запросами и последующими уточнениями.

200.0K контекст|от 540,00 ₽/M вход|от 2 680,00 ₽/M выход|

DeepSeek V3.2 Exp

DeepSeek-V3.2-Exp — экспериментальная большая языковая модель от DeepSeek, выступающая промежуточным этапом между версиями V3.1 и будущими архитектурами. В ней реализован механизм тонкозернистого разреженного внимания DeepSeek Sparse Attention (DSA), разработанный для повышения эффективности обучения и вывода при работе с длинными контекстами без потери качества результатов. Пользователи могут управлять режимом рассуждений через булев параметр `reasoning.enabled`. [Узнайте больше в нашей документации](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config) Модель обучалась в условиях, унифицированных с V3.1–Terminus, чтобы обеспечить возможность прямого сравнения. По результатам бенчмарков её производительность примерно сопоставима с V3.1 в задачах рассуждения, программирования и использования инструментов агентами, с незначительными компромиссами и выигрышами в зависимости от области применения. Данный релиз прежде всего призван проверить архитектурные оптимизации для работы с расширенными контекстами, а не добиться максимально возможной точности по задачам, что делает модель главным образом исследовательской платформой для изучения эффективных архитектур трансформеров.

163.8K контекст|от 65,00 ₽/M вход|от 95,00 ₽/M выход|

Qwen3 VL 235B A22B Thinking

Мультимодальная модель Qwen3-VL-235B-A22B Thinking объединяет мощную генерацию текста с глубоким пониманием визуального контента на изображениях и в видео. Модель оптимизирована для мультимодального рассуждения в областях STEM (наука, технологии, инженерия и математика) и математики. Серия делает упор на надёжное восприятие (распознавание разнообразных реальных и синтетических объектов), пространственное понимание (2D/3D-привязка) и комплексный анализ больших объёмов визуальной информации, демонстрируя конкурентоспособные результаты на открытых мультимодальных бенчмарках как по задачам восприятия, так и по задачам рассуждения. Кроме анализа, Qwen3-VL поддерживает агентное взаимодействие и работу с инструментами: она может выполнять сложные инструкции в многоходовых диалогах с несколькими изображениями; синхронизировать текст с временными метками видео для точных временных запросов; и управлять элементами графического интерфейса для автоматизации рутинных задач. Модели также позволяют организовать визуальные рабочие процессы кодирования — превращать эскизы и макеты в код и помогать при отладке пользовательских интерфейсов, при этом сохраняя высокие текстовые возможности на уровне флагманских языковых моделей Qwen3. Это делает Qwen3-VL подходящей для промышленного применения в задачах интеллектуальной обработки документов (Document AI), многоязычного OCR, поддержки разработки ПО и пользовательских интерфейсов, пространственно-воплощённых сценариев, а также исследований агентов на стыке зрения и языка.

131.1K контекст|от 85,00 ₽/M вход|от 230,00 ₽/M выход|

Hermes 3 70B Instruct

Hermes 3 — универсальная языковая модель с множеством улучшений по сравнению с Hermes 2, включая продвинутые агентные возможности, значительно более качественную ролевую игру, улучшенное рассуждение, ведение многоходовых диалогов, сохранение когерентности в длинных контекстах и общее повышение производительности. Hermes 3 70B — конкурентоспособное, а по многим параметрам даже превосходящее дообучение на базовой модели Llama-3.1 70B, ориентированное на выравнивание поведения больших языковых моделей в соответствии с запросами пользователя, с расширенными возможностями управления и передачей контроля конечному пользователю. Серия Hermes 3 развивает и дополняет набор функций Hermes 2, включая более мощный и надёжный вызов функций и генерацию структурированного вывода, универсальные ассистентские возможности и улучшенные навыки генерации кода.

131.1K контекст|от 85,00 ₽/M вход|от 85,00 ₽/M выход|

Llama 3 8B Lunaris

Lunaris 8B — универсальная модель общего назначения и для ролевого взаимодействия на базе Llama 3. Это стратегическое объединение нескольких моделей, разработанное для обеспечения баланса между креативностью и улучшенными логическими способностями и общими знаниями. Создано [Sao10k](https://huggingface.co/Sao10k), модель предлагает более продвинутый опыт по сравнению с Stheno v3.2, с расширенной креативностью и логическим мышлением. Для оптимальных результатов используйте шаблон контекста Llama 3 Instruct, задайте параметры temperature 1.4 и min_p 0.1.

8.2K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|

Nemotron Nano 12B 2 VL (free)

128.0K контекст|0,00 ₽/M вход|0,00 ₽/M выход|

Nemotron Nano 9B V2 (free)

128.0K контекст|0,00 ₽/M вход|0,00 ₽/M выход|

gpt-oss-20b (free)

131.1K контекст|0,00 ₽/M вход|0,00 ₽/M выход|

Magnum v4 72B

Это серия моделей, созданных для воссоздания качества прозы Claude 3, в частности версий Sonnet и Opus. Модель дообучена на базе Qwen2.5 72B.

32.8K контекст|от 540,00 ₽/M вход|от 910,00 ₽/M выход|

GLM 4.5V

GLM-4.5V — мультимодальная базовая модель «зрение + язык» для агентных приложений. Построена на архитектуре Mixture-of-Experts (MoE) с 106 млрд параметров и 12 млрд активируемых параметров. Демонстрирует передовые результаты в анализе видео, вопросах-ответах по изображениям, оптическом распознавании текста (OCR) и разборе документов, а также обеспечивает существенный прирост качества при кодировании фронтенда веб-приложений, grounding и пространственном рассуждении. Поддерживает гибридный режим инференса: «режим размышления» для глубоких рассуждений и «быстрый режим» для оперативных ответов. Переключение режима рассуждений осуществляется через булев параметр reasoning_enabled. [Узнайте больше в документации](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config)

65.5K контекст|от 120,00 ₽/M вход|от 350,00 ₽/M выход|

GPT-3.5 Turbo Instruct

Эта модель является вариантом GPT-3.5 Turbo, оптимизированным для инструкционных запросов и не включающим оптимизаций для чат-режима. Обучающая выборка: до сентября 2021 г.

4.1K контекст|от 280,00 ₽/M вход|от 370,00 ₽/M выход|

o3 Mini

OpenAI o3-mini — экономичная языковая модель, оптимизированная для решения задач в области STEM (науки, технологий, инженерии и математики), особенно хорошо справляющаяся с научными, математическими и программными вопросами. Модель поддерживает параметр `reasoning_effort`, который можно установить в `high`, `medium` или `low` для управления временем «размышления». По умолчанию используется значение `medium`. В OpenRouter также доступен идентификатор модели `openai/o3-mini-high`, автоматически выставляющий `reasoning_effort` в `high`. Модель предлагает три уровня «усилий при рассуждении» и поддерживает ключевые возможности для разработчиков: вызов функций, структурированный вывод и потоковую передачу данных. При этом функциональность компьютерного зрения в ней отсутствует. По сравнению с предшественницей o3-mini демонстрирует значительные улучшения: эксперты предпочитали её ответы в 56% случаев, а число серьёзных ошибок в сложных задачах сократилось на 39%. При средних настройках `reasoning_effort` o3-mini достигает уровня производительности более крупной модели o1 в сложных тестах (таких как AIME и GPQA), сохраняя при этом более низкую задержку и стоимость.

200.0K контекст|от 210,00 ₽/M вход|от 800,00 ₽/M выход|

GPT-4o (2024-08-06)

Версия GPT-4o от 6 августа 2024 года предлагает улучшенную работу со структурированными выводами, включая возможность задавать JSON-схему через параметр response_format. Подробнее здесь: https://openai.com/index/introducing-structured-outputs-in-the-api/ GPT-4o («o» от «omni») — новейшая модель OpenAI, поддерживающая ввод текста и изображений с текстовым выводом. Она сохраняет уровень «интеллекта» GPT-4 Turbo, при этом работает вдвое быстрее и на 50 % экономичнее. GPT-4o также демонстрирует улучшенную производительность при обработке нерусскоязычных текстов и расширенные визуальные возможности. Для сравнительного тестирования с другими моделями она кратковременно именовалась «im-also-a-good-gpt2-chatbot» (https://twitter.com/LiamFedus/status/1790064963966370209)

128.0K контекст|от 470,00 ₽/M вход|от 1 790,00 ₽/M выход|

Gemma 3 12B

Gemma 3 вводит мультимодальность: поддерживает ввод изображений и текста и выдаёт текстовые ответы. Обрабатывает контекстные окна до 128 000 токенов, понимает более 140 языков и обладает улучшенными возможностями в математике, рассуждении и диалоге, включая структурированный вывод и вызов функций. Gemma 3 12B — вторая по величине модель в семействе Gemma 3 после Gemma 3 27B.

131.1K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|

Hermes 3 405B Instruct

Hermes 3 — универсальная языковая модель с множеством улучшений по сравнению с Hermes 2: продвинутые агентные возможности, значительно более качественное ролевое взаимодействие, усиленные способности к рассуждению, поддержка многоходовых диалогов, сохранение когерентности в длинных контекстах и оптимизация во всех остальных аспектах. Hermes 3 405B — передовая модель, полученная путём тонкой настройки всех параметров базовой Llama 3.1 405B, ориентированная на адаптацию больших языковых моделей под нужды пользователя. Она оснащена мощными инструментами управления и предоставляет конечному пользователю широкий контроль. Серия Hermes 3 развивает и расширяет возможности Hermes 2: включает более мощный и надёжный вызов функций и формирование структурированного вывода, универсальные ассистентские функции и улучшенные навыки генерации кода. Hermes 3 соперничает, а во многих случаях и превосходит модели Llama 3.1 Instruct по общим возможностям, при этом у каждой из систем есть свои сильные и слабые стороны.

131.1K контекст|от 200,00 ₽/M вход|от 200,00 ₽/M выход|

Aion-RP 1.0 (8B)

Aion-RP-Llama-3.1-8B занимает первое место в части оценки персонажей бенчмарка RPBench-Auto — специализированного для ролевых игр варианта Arena-Hard-Auto, где большие языковые модели оценивают ответы друг друга. Это донастроенная базовая модель, а не instruct-модель, созданная для генерации более естественных и разнообразных текстов.

32.8K контекст|от 55,00 ₽/M вход|от 55,00 ₽/M выход|

Qwen2.5 7B Instruct

Qwen2.5 7B — последняя версия крупной языковой модели серии Qwen. По сравнению с Qwen2 модель Qwen2.5 получила следующие ключевые улучшения: • Значительно расширенная база знаний и заметно улучшенные возможности в программировании и математике благодаря специализированным экспертным моделям в этих областях. • Существенно улучшено следование инструкциям, генерация длинных текстов (более 8 000 токенов), понимание структурированных данных (например, таблиц) и формирование структурированных выходных данных, особенно в формате JSON. Модель стала более устойчива к разнообразию системных подсказок, что повышает эффективность ролевых сценариев и задания условий для чат-ботов. • Поддержка длительного контекста до 128 000 токенов и генерация до 8 000 токенов за один прогон. • Многоязычная поддержка более 29 языков, включая китайский, английский, французский, испанский, португальский, немецкий, итальянский, русский, японский, корейский, вьетнамский, тайский, арабский и другие. Использование этой модели регулируется Лицензионным соглашением Tongyi Qianwen.

131.1K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|

GPT-4 Turbo Preview

Предварительная версия модели GPT-4 с улучшенным выполнением инструкций, поддержкой режима JSON, воспроизводимыми ответами, параллельным вызовом функций и другими возможностями. Данные для обучения: до декабря 2023 года. Примечание: в режиме предварительного просмотра OpenAI строго ограничивает количество запросов.

128.0K контекст|от 1 790,00 ₽/M вход|от 5 320,00 ₽/M выход|

Switchpoint Router

Маршрутизатор Switchpoint AI мгновенно анализирует ваш запрос и перенаправляет его к оптимальной ИИ-модели из постоянно обновляемой библиотеки. По мере развития больших языковых моделей наш маршрутизатор становится ещё умнее, обеспечивая вам доступ к самым новым моделям отрасли без изменения вашего рабочего процесса. На платформе OpenRouter эта модель доступна по простой фиксированной цене за ответ. Она использует полноценный движок маршрутизации Switchpoint AI.

131.1K контекст|от 170,00 ₽/M вход|от 630,00 ₽/M выход|

Aion-1.0-Mini

Aion-1.0-Mini — дистиллированная версия модели DeepSeek-R1 с 32 млрд параметров, разработанная для высоких результатов в областях, требующих рассуждений, таких как математика, программирование и логика. Это модифицированный вариант модели FuseAI, который превосходит R1-Distill-Qwen-32B и R1-Distill-Llama-70B; результаты его бенчмарков доступны на странице проекта на Hugging Face и были независимо подтверждены.

131.1K контекст|от 140,00 ₽/M вход|от 270,00 ₽/M выход|

o3 Deep Research

o3-deep-research — это продвинутая модель OpenAI для глубоких исследований, созданная для решения сложных, многоэтапных исследовательских задач.

200.0K контекст|от 1 790,00 ₽/M вход|от 7 100,00 ₽/M выход|

GLM 4.5 Air

GLM-4.5-Air – облегчённый вариант нашей последней флагманской линейки моделей, специально разработанный для агент-ориентированных приложений. Как и GLM-4.5, он использует архитектуру Mixture-of-Experts (MoE) с более компактным объёмом параметров. GLM-4.5-Air поддерживает гибридные режимы вывода: «режим рассуждения» для расширенного рассуждения и работы с инструментами и «режим без рассуждений» для интерактивного взаимодействия в реальном времени. Управлять рассуждениями можно с помощью булевого флага reasoning_enabled. Подробнее в нашей документации: https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config

131.1K контекст|от 42,00 ₽/M вход|от 170,00 ₽/M выход|

Nova Micro 1.0

Amazon Nova Micro 1.0 — это текстовая модель, обеспечивающая минимальное время отклика в семействе Amazon Nova при очень низкой стоимости. С длиной контекста до 128 000 токенов и оптимизацией на скорость и экономию, она отлично справляется с задачами суммирования текста, перевода, классификации контента, интерактивных диалогов и генерации идей. Модель также поддерживает простые математические рассуждения и обладает базовыми навыками программирования.

128.0K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|

Aion-1.0

Aion-1.0 — многомодельная система, обеспечивающая высокую производительность в разнообразных задачах, включая рассуждения и программирование. Система построена на базе DeepSeek-R1 и дополнена новыми моделями и методами, такими как Tree of Thoughts (ToT) и Mixture of Experts (MoE). Это самая мощная модель для рассуждений, созданная Aion Lab.

131.1K контекст|от 730,00 ₽/M вход|от 1 430,00 ₽/M выход|

Kimi K2 0711

Kimi K2 Instruct — масштабная языковая модель типа Mixture-of-Experts (MoE), разработанная компанией Moonshot AI. В её архитектуру входят 1 триллион параметров, из которых в каждом прямом проходе активно задействованы 32 миллиарда. Модель оптимизирована для агентных сценариев: продвинутого использования инструментов, логического рассуждения и синтеза кода. Kimi K2 демонстрирует выдающиеся результаты на различных бенчмарках, прежде всего в задачах программирования (LiveCodeBench, SWE-bench), логических рассуждений (ZebraLogic, GPQA) и интерактивного использования инструментов (Tau2, AceBench). Она поддерживает вывод с учётом длительного контекста объёмом до 128 000 токенов и создана с использованием новой тренировочной инфраструктуры, включающей оптимизатор MuonClip для стабильного обучения масштабных MoE-моделей.

131.1K контекст|от 110,00 ₽/M вход|от 430,00 ₽/M выход|

Gemma 3n 4B

Gemma 3n E4B-it оптимизирована для эффективного запуска на мобильных устройствах и устройствах с ограниченными ресурсами — смартфонах, ноутбуках и планшетах. Модель поддерживает мультимодальные входы: текст, изображения и аудио, что позволяет решать разнообразные задачи — генерацию текста, распознавание речи, перевод и анализ изображений. Используя такие инновации, как кэширование встраиваний на уровне каждого слоя (Per-Layer Embedding, PLE) и архитектуру MatFormer, Gemma 3n динамически управляет объёмом памяти и вычислительной нагрузкой за счёт выборочной активации параметров модели, что существенно снижает требования к ресурсам во время работы. Модель обучена более чем на 140 языках и обладает гибким контекстным окном размером до 32 000 токенов. Gemma 3n может выборочно загружать параметры в зависимости от задачи и возможностей устройства, оптимизируя использование памяти и вычислительных мощностей. Это делает её отличным решением для приложений, ориентированных на конфиденциальность и офлайн-режим, а также для встроенных ИИ-решений на устройстве. Подробности в блоге: https://developers.googleblog.com/en/introducing-gemma-3n/

32.8K контекст|от 32,00 ₽/M вход|от 32,00 ₽/M выход|

Llama 3 Euryale 70B v2.1

Euryale 70B v2.1 — модель от Sao10k, созданная для креативных ролевых отыгрышей. - Повышенная точность при выполнении подсказок - Улучшенное понимание анатомии и пространственных отношений - Отличная адаптация к уникальному и пользовательскому форматированию ответов - Максимальная креативность и множество оригинальных приёмов - Отсутствие ограничений во время ролевых игр

8.2K контекст|от 270,00 ₽/M вход|от 270,00 ₽/M выход|

Nano Banana (Gemini 2.5 Flash Image)

Gemini 2.5 Flash Image, также известная как «Nano Banana», теперь доступна всем пользователям. Это передовая модель генерации изображений с контекстным пониманием. Она умеет генерировать изображения, редактировать их и вести многоходовые диалоги.

32.8K контекст|от 85,00 ₽/M вход|от 470,00 ₽/M выход|

o4 Mini High

OpenAI o4-mini-high — это та же модель, что и o4-mini, но с параметром reasoning_effort, установленным на «high». OpenAI o4-mini — компактная модель рассуждения из серии o, оптимизированная для быстрой и экономичной работы при сохранении мощных мультимодальных и агентных возможностей. Она поддерживает использование инструментов и демонстрирует конкурентоспособные результаты в задачах рассуждения и программирования на таких бенчмарках, как AIME (99,5 % при использовании Python) и SWE-bench, превосходя своего предшественника o3-mini и в отдельных областях приближаясь к o3. Несмотря на небольшой размер, o4-mini показывает высокую точность в STEM-задачах, решении визуальных проблем (например, MathVista и MMMU) и редактировании кода. Модель особенно хорошо подходит для сценариев с высокой пропускной способностью, где критичны задержки или затраты. Благодаря эффективной архитектуре и доработанному обучению с подкреплением o4-mini умеет последовательно применять инструменты, генерировать структурированные ответы и решать многошаговые задачи с минимальной задержкой — чаще всего менее чем за минуту.

200.0K контекст|от 210,00 ₽/M вход|от 800,00 ₽/M выход|

Mistral Small 3

Mistral Small 3 — это языковая модель с 24 млрд параметров, оптимизированная для выполнения типовых задач ИИ с минимальной задержкой. Выпущена под лицензией Apache 2.0, доступна в двух вариантах: предварительно обученном и донастроенном под инструкции, оба предназначены для эффективного локального развертывания. Модель достигает 81 % точности на бенчмарке MMLU и по качеству соперничает с более крупными решениями, такими как Llama 3.3 70B и Qwen 32B, при этом на аналогичном «железе» работает втрое быстрее. Подробнее о модели в блоге: https://mistral.ai/news/mistral-small-3/

32.8K контекст|от 42,00 ₽/M вход|от 42,00 ₽/M выход|

Claude 3 Haiku

Claude 3 Haiku — самая быстрая и компактная модель Anthropic, обеспечивающая практически мгновенную отзывчивость. Обеспечивает оперативную и точную работу при решении специализированных задач.

200.0K контекст|от 65,00 ₽/M вход|от 230,00 ₽/M выход|

GLM 4.5

GLM-4.5 — наша новейшая флагманская фундаментальная модель, разработанная специально для приложений с агентами. Она использует архитектуру Mixture-of-Experts (MoE, «смесь экспертов») и поддерживает контекст длиной до 128 000 токенов. GLM-4.5 предоставляет значительно расширенные возможности в области рассуждений, генерации кода и согласования работы агентов. Модель работает в гибридном режиме вывода с двумя вариантами: режим «thinking» для сложных рассуждений и использования инструментов и режим «non-thinking» для мгновенных ответов. Пользователи могут управлять алгоритмом рассуждений с помощью булева параметра reasoning_enabled. Подробнее в нашей документации: https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config

131.1K контекст|от 85,00 ₽/M вход|от 310,00 ₽/M выход|

Qwen3 235B A22B

Qwen3-235B-A22B — это модель смеси экспертов (MoE) с 235 млрд параметров, разработанная компанией Qwen. При каждом прямом проходе активируется 22 млрд параметров. Модель поддерживает бесшовное переключение между «режимом мышления» для решения сложных задач, требующих рассуждений, вычислений и программирования, и «экономным» режимом для повышения эффективности обычного общения. Она демонстрирует высокие способности к рассуждению, поддерживает более 100 языков и диалектов, обладает продвинутыми возможностями следования инструкциям и умеет вызывать инструменты агента. По умолчанию модель работает с контекстом до 32 тыс. токенов и может масштабироваться до 131 тыс. токенов с помощью расширения на основе YaRN.

131.1K контекст|от 55,00 ₽/M вход|от 110,00 ₽/M выход|

Command R (08-2024)

command-r-08-2024 — это обновлённая версия модели [Command R](/models/cohere/command-r) с улучшенной производительностью в задачах мультиязычной Retrieval-Augmented Generation (RAG) и при использовании инструментов. В целом она стала лучше справляться с математическими задачами, программированием и логическими рассуждениями, и по эффективности сопоставима с предыдущей версией более крупной модели Command R+. Подробнее о выпуске читайте в анонсе [здесь](https://docs.cohere.com/changelog/command-gets-refreshed). Использование этой модели регулируется Политикой использования Cohere ([Usage Policy](https://docs.cohere.com/docs/usage-policy)) и SaaS-соглашением ([SaaS Agreement](https://cohere.com/saas-agreement)).

128.0K контекст|от 55,00 ₽/M вход|от 120,00 ₽/M выход|

Qwen2.5 Coder 32B Instruct

Qwen2.5-Coder — это новейшая серия специализированных на коде больших языковых моделей семейства Qwen (ранее известная как CodeQwen). По сравнению с CodeQwen1.5 Qwen2.5-Coder предлагает: - Существенные улучшения в генерации кода, его анализе и исправлении. - Расширенную основу для практических применений, таких как Code Agents: модель не только усиливает возможности программирования, но и сохраняет сильные стороны в математике и общих компетенциях. Чтобы узнать больше об оценочных результатах, посетите блог Qwen 2.5 Coder: https://qwenlm.github.io/blog/qwen2.5-coder-family/

128.0K контекст|от 32,00 ₽/M вход|от 55,00 ₽/M выход|

Claude 3.5 Haiku

Claude 3.5 Haiku предлагает улучшенные показатели по скорости работы, точности генерации кода и использованию инструментов. Спроектированная для эффективной работы в режиме реального времени, модель обеспечивает быстрые отклики, что жизненно важно для динамичных задач, таких как чат-взаимодействие и мгновенные рекомендации по коду. Это делает её идеальным решением для сред, где требуются и скорость, и точность: разработка ПО, чат-боты службы поддержки и системы управления данными. В настоящее время модель соответствует версии Claude 3.5 Haiku от 22 октября 2024 г.

200.0K контекст|от 170,00 ₽/M вход|от 730,00 ₽/M выход|

Codestral 2508

Передовая языковая модель Mistral для программирования, выпущенная в конце июля 2025 года. Codestral специализируется на задачах с низкой задержкой и высокой частотой выполнения, таких как заполнение недостающих фрагментов кода (fill-in-the-middle, FIM), исправление кода и генерация тестов.

256.0K контекст|от 85,00 ₽/M вход|от 190,00 ₽/M выход|

Mistral Small 3.2 24B

Mistral-Small-3.2-24B-Instruct-2506 — обновлённая модель с 24 млрд параметров от Mistral, оптимизированная для выполнения инструкций, сокращения повторов и улучшенного вызова функций. По сравнению с релизом 3.1 версия 3.2 значительно повышает точность на наборах WildBench и Arena Hard, уменьшает число бесконечных генераций и обеспечивает лучшие результаты в задачах, связанных с использованием инструментов и генерацией структурированного вывода. Модель поддерживает обработку изображений и текста с возможностью структурированного вывода и вызова функций/инструментов, а также демонстрирует высокую производительность в задачах программирования (HumanEval+, MBPP), в области STEM (MMLU, MATH, GPQA) и на визуальных бенчмарках (ChartQA, DocVQA).

128.0K контекст|от 42,00 ₽/M вход|от 55,00 ₽/M выход|

Llama 3.1 Euryale 70B v2.2

Euryale L3.1 70B v2.2 — модель, ориентированная на креативные ролевые игры, от [Sao10k](https://ko-fi.com/sao10k). Является преемником [Euryale L3 70B v2.1](/models/sao10k/l3-euryale-70b).

131.1K контекст|от 140,00 ₽/M вход|от 160,00 ₽/M выход|

Claude Sonnet 4

Claude Sonnet 4 существенно расширяет возможности своего предшественника, модели Sonnet 3.7, демонстрируя превосходство как в задачах программирования, так и в задачах логического вывода благодаря повышенной точности и управляемости. Достигнув передовых результатов на бенчмарке SWE-bench (72,7 %), Sonnet 4 удачно балансирует между функциональностью и вычислительной эффективностью, что делает его пригодным для широкого спектра задач — от рутинного программирования до сложных проектов по разработке программного обеспечения. Ключевые улучшения включают оптимизированную автономную навигацию по кодовой базе, снижение частоты ошибок в рабочих процессах, управляемых агентами, и повышенную надёжность при выполнении сложных инструкций. Sonnet 4 оптимизирован для практического повседневного использования, обеспечивая расширенные возможности логического вывода при сохранении высокой эффективности и отзывчивости в самых разных внутренних и внешних сценариях.

1.0M контекст|от 540,00 ₽/M вход|от 2 680,00 ₽/M выход|

Llama 3.1 8B Instruct

Новая линейка моделей компании Meta (Llama 3.1) представлена в разных размерах и конфигурациях. Эта версия с 8 млрд параметров, дообученная на инструкциях, отличается высокой скоростью и эффективностью. В человеческих оценках она продемонстрировала впечатляющие результаты по сравнению с ведущими закрытыми моделями. Подробнее о выпуске модели читайте по ссылке: https://ai.meta.com/blog/meta-llama-3-1/ Использование модели регулируется Политикой приемлемого использования Meta: https://llama.meta.com/llama3/use-policy/

131.1K контекст|от 32,00 ₽/M вход|от 32,00 ₽/M выход|

GPT-4.1 Nano

Для задач, требующих минимальной задержки, GPT-4.1 nano — самая быстрая и недорогая модель в серии GPT-4.1. При небольшом размере и окне контекста в 1 миллион токенов она демонстрирует выдающуюся производительность: 80,1% по MMLU, 50,3% по GPQA и 9,8% по Aider polyglot coding — даже выше, чем у GPT-4o mini. Идеально подходит для задач классификации или автодополнения.

1.0M контекст|от 42,00 ₽/M вход|от 95,00 ₽/M выход|

Llama 3.3 70B Instruct

Многоязычная большая языковая модель Meta Llama 3.3 (LLM) — предварительно обученная и инструкционно донастроенная генеративная модель объёмом 70 млрд параметров (текст на входе/текст на выходе). Модель Llama 3.3, работающая исключительно с текстом, оптимизирована для многоязычных диалоговых сценариев и по распространённым отраслевым бенчмаркам превосходит многие доступные открытые и коммерческие чат-модели. Поддерживаемые языки: английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский.

131.1K контекст|от 42,00 ₽/M вход|от 85,00 ₽/M выход|

ERNIE 4.5 VL 424B A47B

ERNIE-4.5-VL-424B-A47B — мультимодальная модель Mixture-of-Experts (MoE) из серии ERNIE 4.5 компании Baidu. Общее число параметров составляет 424 млрд, из которых на каждый токен задействуется 47 млрд. Модель обучалась одновременно на текстовых и визуальных данных с использованием гетерогенной MoE-архитектуры и изолированной маршрутизации по модальностям, что обеспечивает точное кросс-модальное мышление, понимание изображений и генерацию в длинном контексте (до 131 000 токенов). Для тонкой настройки применялись методы SFT, DPO, UPO и RLVR, при этом модель поддерживает режимы вывода «с мышлением» и «без мышления». Предназначена для задач vision-language на английском и китайском языках, оптимизирована для эффективного масштабирования и может работать при квантизации 4-бит или 8-бит.

131.1K контекст|от 95,00 ₽/M вход|от 230,00 ₽/M выход|

Cydonia 24B V4.1

Модель для креативного письма без цензуры на основе Mistral Small 3.2 24B с хорошей памятью, точным выполнением подсказок и высоким интеллектом.

131.1K контекст|от 85,00 ₽/M вход|от 110,00 ₽/M выход|

Qwen3 VL 8B Instruct

Qwen3-VL-8B-Instruct — это мульти-модальная модель для работы с языком и визуальной информацией из серии Qwen3-VL, созданная для точного понимания и анализа текста, изображений и видео. Она обладает улучшенной мульти-модальной интеграцией с помощью Interleaved-MRoPE для временного анализа на длинных интервалах, DeepStack для детального визуально-текстового согласования и для точной локализации событий по текстовым меткам времени. Модель поддерживает нативное контекстное окно на 256 тысяч токенов, с возможностью расширения до 1 миллиона токенов, и может работать как со статическими, так и с динамическими медиа для выполнения задач, таких как разбор документов, визуальные вопросы и ответы, пространственное мышление и управление графическим интерфейсом. Qwen3-VL-8B-Instruct достигает уровня понимания текста, сопоставимого с передовыми языковыми моделями, расширяя возможности OCR на 32 языка и улучшая устойчивость при различных визуальных условиях.

256.0K контекст|от 42,00 ₽/M вход|от 110,00 ₽/M выход|

o1

Новейшее и наиболее мощное семейство моделей OpenAI, o1 разработано так, чтобы больше времени уделять обдумыванию ответа. Серия o1 обучена с помощью масштабного обучения с подкреплением для рассуждений методом цепочки рассуждений. Модели o1 оптимизированы для задач по математике, естественным наукам, программированию и другим STEM-направлениям. Они последовательно демонстрируют точность на уровне докторской степени в бенчмарках по физике, химии и биологии. Узнайте больше в анонсе запуска.

200.0K контекст|от 2 680,00 ₽/M вход|от 10 650,00 ₽/M выход|

Kimi K2 0905

Kimi K2 0905 – сентябрьское обновление модели Kimi K2 0711 от Moonshot AI. Это масштабная языковая модель с архитектурой Mixture-of-Experts (MoE), содержащая 1 триллион параметров, из которых при каждом прямом проходе активируется 32 млрд. Модель поддерживает работу с контекстом длиной до 256 тыс. токенов (против предыдущих 128 тыс.). В этом обновлении улучшено агентно-ориентированное кодирование: повышена точность и обобщаемость на разных шаблонах, а также усовершенствована генерация фронтенд-кода: более эстетичные и функциональные решения для веба, 3D и смежных задач. Kimi K2 оптимизирована для агентных возможностей, включая продвинутое использование инструментов, логическое рассуждение и синтез кода. Модель демонстрирует выдающиеся результаты в бенчмарках по кодированию (LiveCodeBench, SWE-bench), рассуждению (ZebraLogic, GPQA) и использованию инструментов (Tau2, AceBench). Обучение проводилось с помощью инновационного стека с оптимизатором MuonClip для стабильной и масштабируемой тренировки MoE.

262.1K контекст|от 85,00 ₽/M вход|от 360,00 ₽/M выход|

Qwen3 30B A3B Thinking 2507

Qwen3-30B-A3B-Thinking-2507 — модель типа Mixture-of-Experts с 30 миллиардами параметров, оптимизированная для сложных задач, требующих многоэтапного мышления. Она специально разработана для «режима размышления», при котором внутренние трассировки рассуждений отделены от итоговых ответов. По сравнению с предыдущими версиями Qwen3-30B эта модель демонстрирует улучшенные результаты в логическом мышлении, математике, науке, программировании и мультиязычных бенчмарках. Она также лучше выполняет инструкции, эффективнее использует инструменты и более согласована с человеческими предпочтениями. Благодаря повышенной эффективности рассуждений и расширенным лимитам вывода модель наилучшим образом подходит для продвинутых исследований, соревновательного решения задач и агентных приложений, требующих структурированного рассуждения в длинном контексте.

131.1K контекст|от 42,00 ₽/M вход|от 85,00 ₽/M выход|

Gemini 2.5 Pro

Gemini 2.5 Pro — передовая модель ИИ от Google, разработанная для продвинутого рассуждения, программирования, математических и научных задач. Она использует механизмы «мышления», позволяющие формировать ответы с повышенной точностью и учитывать тонкие нюансы контекста. Gemini 2.5 Pro демонстрирует выдающиеся результаты на различных бенчмарках, включая первое место в рейтинге LMArena, что отражает её высокую степень соответствия человеческим предпочтениям и способность решать сложные задачи.

1.0M контекст|от 230,00 ₽/M вход|от 1 790,00 ₽/M выход|

Nova Premier 1.0

Amazon Nova Premier — самая мощная мультимодальная модель Amazon для решения сложных задач рассуждения и оптимальный учитель при дистилляции пользовательских моделей.

1.0M контекст|от 470,00 ₽/M вход|от 2 240,00 ₽/M выход|

GPT-4o (2024-11-20)

Версия GPT-4o от 20 ноября 2024 года предлагает расширенные возможности творческого письма: более естественные, увлекательные и персонализированные тексты для повышения релевантности и удобочитаемости. Она также стала лучше работать с загруженными файлами, обеспечивая более глубокий анализ и развернутые ответы. GPT-4o («o» от «omni») — новейшая модель искусственного интеллекта от OpenAI, поддерживающая как текстовые, так и графические входные данные и выдающая результат в виде текста. Модель сохраняет уровень интеллектуальных возможностей GPT-4 Turbo, но при этом работает вдвое быстрее и на 50 % экономичнее. Кроме того, GPT-4o демонстрирует улучшенные результаты при обработке текстов на неанглийских языках и обладает расширенными визуальными возможностями.

128.0K контекст|от 470,00 ₽/M вход|от 1 790,00 ₽/M выход|

GPT-4o-mini (2024-07-18)

GPT-4o mini — новейшая модель OpenAI после GPT-4 Omni, поддерживающая как текстовый, так и графический ввод с текстовым выводом. Являясь самой продвинутой компактной моделью компании, она в разы доступнее по цене по сравнению с другими последними флагманскими решениями и более чем на 60 % дешевле, чем GPT-3.5 Turbo. При этом модель сохраняет передовые интеллектуальные возможности (SOTA) и значительно снижает затраты. GPT-4o mini набирает 82 % по тесту MMLU и в текущих общедоступных рейтингах предпочтений в чатах опережает GPT-4. Подробнее о запуске читайте в анонсе.

128.0K контекст|от 55,00 ₽/M вход|от 120,00 ₽/M выход|

Gemini 2.5 Flash

Gemini 2.5 Flash — передовая универсальная модель общего назначения Google, специально разработанная для продвинутых логических рассуждений, программирования, решения математических и научных задач. В неё встроены способности к «мышлению», что позволяет выдавать ответы с большей точностью и более тонко обрабатывать контекст. Кроме того, Gemini 2.5 Flash можно настраивать с помощью параметра max tokens for reasoning («максимальное количество токенов для рассуждений»), как описано в документации (https://openrouter.ai/docs/use-cases/reasoning-tokens#max-tokens-for-reasoning).

1.0M контекст|от 85,00 ₽/M вход|от 470,00 ₽/M выход|

Claude Opus 4

Claude Opus 4 по результатам бенчмарков признана лучшей в мире моделью для программирования на момент релиза, обеспечивая стабильную производительность при выполнении сложных длительных задач и агентных рабочих процессов. Она устанавливает новые стандарты в разработке ПО, достигая ведущих результатов в тестах SWE-bench (72,5%) и Terminal-bench (43,2%). Opus 4 поддерживает расширенные агентные сценарии, обрабатывая тысячи шагов задач подряд в течение нескольких часов без потери качества.

200.0K контекст|от 2 680,00 ₽/M вход|от 13 310,00 ₽/M выход|

GPT-5 Image Mini

GPT-5 Image Mini объединяет передовые языковые возможности OpenAI, обеспеченные [GPT-5 Mini](https://openrouter.ai/openai/gpt-5-mini), с GPT Image 1 Mini для эффективной генерации изображений. Эта изначально мультимодальная модель демонстрирует превосходное следование инструкциям, визуализацию текста и детальное редактирование изображений с пониженной задержкой и затратами. Она отлично справляется с созданием высококачественных визуальных образов, одновременно сохраняя сильное понимание текста, что делает её идеальной для приложений, требующих как эффективной генерации изображений, так и обработки текста в большом масштабе.

400.0K контекст|от 470,00 ₽/M вход|от 1 410,00 ₽/M выход|

Gemini 2.5 Pro Preview 05-06

Gemini 2.5 Pro — передовая модель ИИ от Google, созданная для решения сложных задач в областях логического мышления, программирования, математики и научных исследований. Она оснащена возможностями «мышления», позволяющими формировать продуманные ответы с повышенной точностью и тонкой обработкой контекста. Gemini 2.5 Pro демонстрирует выдающиеся результаты по множеству бенчмарков, в том числе занимает первое место в рейтинге LMArena, что подтверждает её превосходное соответствие человеческим предпочтениям и высокую эффективность при решении сложных задач.

1.0M контекст|от 230,00 ₽/M вход|от 1 790,00 ₽/M выход|

Morph V3 Fast

Morph — самая быстрая модель для применения правок в коде: около 10 500 токенов/с при точности 96% для оперативного преобразования кода. Модель требует, чтобы запрос был оформлен в следующем формате: <instruction>{instruction}</instruction> <code>{initial_code}</code> <update>{edit_snippet}</update> Для Morph включено нулевое хранение данных. Узнайте больше о модели в [документации](https://docs.morphllm.com/quickstart).

81.9K контекст|от 170,00 ₽/M вход|от 230,00 ₽/M выход|

Gemini 2.5 Flash Lite

Gemini 2.5 Flash-Lite — легковесная модель рассуждений из семейства Gemini 2.5, оптимизированная для сверхнизкой задержки и эффективности затрат. Она обеспечивает повышенную пропускную способность, более быструю генерацию токенов и более высокую производительность по распространённым бенчмаркам по сравнению с предыдущими Flash-моделями. По умолчанию «мышление» (многоэтапное рассуждение) отключено в пользу скорости, но разработчики могут включить его через параметр Reasoning API, чтобы при необходимости жертвовать стоимостью ради более сложных рассуждений.

1.0M контекст|от 42,00 ₽/M вход|от 95,00 ₽/M выход|

DeepSeek V3.1

DeepSeek-V3.1 — крупная гибридная модель рассуждений (671 млрд параметров, из них 37 млрд активных), поддерживающая режимы «с рассуждением» и «без рассуждения» через шаблоны подсказок. Она расширяет базу DeepSeek-V3 двухэтапным обучением на длинном контексте (до 128 тыс. токенов) и использует микромасштабирование FP8 для эффективного вывода. Пользователи могут управлять включением режима рассуждений с помощью булева параметра reasoning_enabled. Подробнее в документации: https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config Модель повышает эффективность работы с инструментами, генерации кода и рассуждений, достигая на сложных бенчмарках показателей, сопоставимых с DeepSeek-R1, при более высокой скорости ответа. Она поддерживает структурированный вызов инструментов, кодовых агентов и поисковых агентов, что делает её подходящей для исследований, разработки и агентных рабочих процессов. DeepSeek-V3.1 пришла на смену модели DeepSeek V3-0324 и демонстрирует высокую эффективность в самых разных задачах.

163.8K контекст|от 55,00 ₽/M вход|от 170,00 ₽/M выход|

Qwen3 Coder 480B A35B (free)

1.0M контекст|0,00 ₽/M вход|0,00 ₽/M выход|

GPT-5 Image

GPT-5 Image сочетает самую передовую языковую модель OpenAI с передовыми возможностями генерации изображений. Она предлагает значительные улучшения в области рассуждений, качества кода и пользовательского опыта, при этом наследуя от GPT Image 1 превосходное следование инструкциям, отображение текста и детализированное редактирование изображений.

400.0K контекст|от 1 790,00 ₽/M вход|от 7 030,00 ₽/M выход|

R1 Distill Llama 70B

DeepSeek R1 Distill Llama 70B — дистиллированная большая языковая модель на базе Llama-3.3-70B-Instruct, обученная на выходах DeepSeek R1. Модель сочетает передовые методы дистилляции для достижения высокой производительности по ряду бенчмарков, включая: - AIME 2024 pass@1: 70,0 - MATH-500 pass@1: 94,5 - Рейтинг Codeforces: 1633 Благодаря дообучению на данных DeepSeek R1 модель демонстрирует результаты, сопоставимые с более крупными флагманскими системами.

131.1K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|

Saba

Mistral Saba — это языковая модель с 24 миллиардами параметров, специально разработанная для Ближнего Востока и Южной Азии. Она обеспечивает точные и контекстно релевантные ответы при оптимальной производительности. Обученная на тщательно подобранных региональных датасетах, модель поддерживает несколько языков индийского происхождения — в том числе тамильский и малаялам — а также арабский. Это делает её универсальным решением для различных региональных и мультиязычных задач. Узнать подробнее можно в статье блога по ссылке: https://mistral.ai/en/news/mistral-saba

32.8K контекст|от 55,00 ₽/M вход|от 120,00 ₽/M выход|

Coder Large

Coder-Large — это потомок Qwen 2.5-Instruct с 32 миллиардами параметров, дообученный на репозиториях GitHub с разрешительными лицензиями, корпусах CodeSearchNet и синтетических корпусах исправлений ошибок. Модель поддерживает контекст длиной до 32 тыс. токенов, что позволяет в одном запросе проводить рефакторинг нескольких файлов или анализировать большие диффы, и понимает более 30 языков программирования с особым вниманием к TypeScript, Go и Terraform. Внутренние бенчмарки показывают прирост в 5–8 баллов по сравнению с CodeLlama-34B-Python в тесте HumanEval и сопоставимые результаты в BugFix благодаря дополнительному этапу обучения с подкреплением, при котором модель вознаграждается за компилируемый код. По умолчанию Coder-Large выдаёт структурированные пояснения вместе с блоками кода, что делает её подходящей как для образовательных инструментов, так и для реальных сценариев использования в роли copilot. В стоимостном плане Together AI предлагает её значительно дешевле проприетарных решений, что позволяет командам масштабировать интерактивное программирование без чрезмерных затрат.

32.8K контекст|от 110,00 ₽/M вход|от 170,00 ₽/M выход|

o3

o3 — универсальная и мощная модель, показывающая отличные результаты в различных областях. Она устанавливает новый стандарт для задач по математике, науке, программированию и визуальному рассуждению. Кроме того, она превосходна в техническом письме и следовании инструкциям. Используйте её для решения многоэтапных задач, требующих анализа текста, кода и изображений.

200.0K контекст|от 370,00 ₽/M вход|от 1 430,00 ₽/M выход|

DeepSeek V3

DeepSeek-V3 — новейшая модель команды DeepSeek, развивающая возможности предыдущих версий по выполнению инструкций и написанию кода. Предварительно обучена на почти 15 триллионах токенов: по результатам проведённых оценок она превосходит другие открытые модели и сопоставима с ведущими закрытыми решениями. Подробности о модели можно найти в репозитории DeepSeek-V3 на GitHub и в официальном анонсе запуска.

131.1K контекст|от 85,00 ₽/M вход|от 230,00 ₽/M выход|

Claude Sonnet 4.5

Claude Sonnet 4.5 — самая продвинутая на сегодняшний день модель серии Sonnet от Anthropic, оптимизированная для работы с реальными агентами и задачами разработки кода. Она демонстрирует передовые результаты на бенчмарках по программированию, таких как SWE-bench Verified, благодаря усовершенствованиям в системном дизайне, безопасности кода и соблюдении спецификаций. Модель рассчитана на длительную автономную работу: она сохраняет непрерывность задач между сессиями и предоставляет объективное отслеживание прогресса. Sonnet 4.5 также вводит расширенные агентные возможности: улучшенную оркестрацию инструментов, спекулятивное параллельное выполнение и более эффективное управление контекстом и памятью. Благодаря продвинутому трекингу контекста и учёту использования токенов при вызовах инструментов модель особенно хорошо подходит для многоконтекстных и длительных рабочих процессов. Сценарии применения включают разработку ПО, кибербезопасность, финансовый анализ, исследовательских агентов и другие области, требующие непрерывного рассуждения и активного использования инструментов.

1.0M контекст|от 560,00 ₽/M вход|от 2 640,00 ₽/M выход|

Nova Pro 1.0

Amazon Nova Pro 1.0 – универсальная мультимодальная модель от Amazon, ориентированная на сочетание точности, быстродействия и экономичности при решении широкого круга задач. По состоянию на декабрь 2024 года она демонстрирует передовые результаты по ключевым бенчмаркам, включая Visual Question Answering (TextVQA) и понимание видео (VATEX). Amazon Nova Pro обладает высокими возможностями обработки как визуальной, так и текстовой информации, а также анализа финансовых документов. Примечание: в настоящее время видео на входе не поддерживается.

300.0K контекст|от 170,00 ₽/M вход|от 570,00 ₽/M выход|

GPT-4o

GPT-4o («o» от «omni») — новейшая модель ИИ от OpenAI, поддерживающая ввод текста и изображений с текстовым выводом. Она сохраняет уровень интеллекта GPT-4 Turbo, при этом работает вдвое быстрее и на 50 % экономичнее. GPT-4o также обеспечивает улучшенную работу с неанглоязычными текстами и расширенные визуальные возможности. Для сравнительного тестирования с другими моделями её кратковременно называли «im-also-a-good-gpt2-chatbot». #мультимодальность

128.0K контекст|от 470,00 ₽/M вход|от 1 790,00 ₽/M выход|

Kimi K2 Thinking

Kimi K2 Thinking — самая продвинутая открытая модель рассуждения от Moonshot AI на сегодняшний день, которая расширяет серию K2 в направлении агентного, многошагового мышления на длинных горизонтах. Построенная на триллионной архитектуре смеси экспертов (Mixture-of-Experts, MoE), представленной в Kimi K2, она активирует 32 млрд параметров за один проход и поддерживает контекстное окно объёмом до 256 тыс. токенов. Модель оптимизирована для непрерывного пошагового мышления, динамического вызова инструментов и выполнения сложных рабочих процессов рассуждений, охватывающих сотни шагов. Она чередует пошаговые рассуждения с применением инструментов, что позволяет автономно проводить исследования, программировать и писать тексты на протяжении сотен последовательных операций без дрейфа контекста. Kimi K2 Thinking устанавливает новые открытые бенчмарки на HLE, BrowseComp, SWE-Multilingual и LiveCodeBench, одновременно обеспечивая стабильное мультиагентное поведение при 200–300 вызовах инструментов. Построенная на масштабной MoE-архитектуре с оптимизацией MuonClip, она сочетает глубокие способности к рассуждению с высокой эффективностью вывода для самых требовательных агентных и аналитических задач.

262.1K контекст|от 120,00 ₽/M вход|от 470,00 ₽/M выход|

Sonar Deep Research

Sonar Deep Research — это модель, ориентированная на исследовательские задачи, выполняющая многоступенчатый поиск, синтез и логический анализ сложных тем. Она самостоятельно ищет, изучает и оценивает источники, корректируя методику по мере накопления информации. Это позволяет генерировать подробные отчёты в таких областях, как финансы, технологии, здравоохранение и актуальные события. Примечания по тарифам (Источник: https://docs.perplexity.ai/guides/pricing#detailed-pricing-breakdown-for-sonar-deep-research) - Входные токены включают токены запроса (prompt) и токены цитирования (получаемые при выполнении поисковых запросов). - Deep Research делает несколько поисковых запросов для всестороннего исследования. Стоимость — $5 за 1000 запросов. Например, запрос из 30 поисков обойдётся в $0,15 на этом этапе. - Этап «Reasoning» выделен отдельно, поскольку на нём модель проводит масштабные автоматизированные рассуждения над собранным материалом до генерации итоговых ответов с помощью CoTs. Токены для этапа Reasoning отличаются от токенов CoTs в ответе и тарифицируются по $3 за 1 млн токенов.

128.0K контекст|от 370,00 ₽/M вход|от 1 430,00 ₽/M выход|

Phi 4

Модель Phi-4 от Microsoft Research разработана для эффективного решения задач, требующих сложного рассуждения, а также умеет работать в условиях ограниченной оперативной памяти или когда нужны быстрые ответы. Обладая 14 млрд параметров, она обучена на сочетании высококачественных синтетических наборов данных, информации с отобранных веб-ресурсов и академических материалов. Модель прошла тщательную доработку, чтобы точно следовать инструкциям и соответствовать высоким стандартам безопасности. Лучшие результаты она показывает при вводе запросов на английском языке. Для получения дополнительной информации см. технический отчет Phi-4: https://arxiv.org/pdf/2412.08905

16.4K контекст|от 42,00 ₽/M вход|от 42,00 ₽/M выход|

MiniMax M1

MiniMax-M1 — масштабная модель рассуждения с открытыми весами, созданная для работы с расширенным контекстом и высокоэффективного вывода. Она использует гибридную архитектуру Mixture-of-Experts (MoE) в сочетании с собственным механизмом «lightning attention», что позволяет обрабатывать длинные последовательности — до 1 миллиона токенов — при конкурентной эффективности по FLOP. С общим числом параметров 456 млрд и 45,9 млрд активных параметров на токен эта версия оптимизирована для решения сложных многоэтапных задач рассуждения. Обученная с помощью специализированного конвейера обучения с подкреплением (CISPO), M1 демонстрирует выдающиеся результаты в понимании длинного контекста, программной инженерии, автономном использовании инструментов и математическом мышлении. В бенчмарках FullStackBench, SWE-bench, MATH, GPQA и TAU-Bench она часто превосходит другие открытые модели, такие как DeepSeek R1 и Qwen3-235B.

1.0M контекст|от 95,00 ₽/M вход|от 400,00 ₽/M выход|

Gemma 3 4B

Gemma 3 получила мультимодальную архитектуру: модель способна обрабатывать входящие изображения и текст, выдавая текстовые ответы. Она работает с контекстом до 128 000 токенов, понимает более 140 языков и обладает улучшенными возможностями в решении математических задач, в рассуждениях и ведении диалогов, включая формирование структурированных ответов и вызов функций.

131.1K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|

Llama 3.2 11B Vision Instruct

Llama 3.2 11B Vision — мультимодальная модель с 11 миллиардами параметров, созданная для задач, объединяющих визуальные и текстовые данные. Она превосходно справляется с генерацией подписей к изображениям и ответами на вопросы по содержимому, совмещая языковую генерацию и визуальное рассуждение. Предварительное обучение на огромном наборе пар «изображение–текст» гарантирует высокую точность при сложном анализе изображений. Её способность интегрировать визуальное восприятие и обработку естественного языка делает её оптимальным решением для отраслей, требующих комплексных визуально-лингвистических AI-приложений: создания контента, обслуживания клиентов на базе ИИ и научных исследований. Подробнее об официальной карточке модели: https://github.com/meta-llama/llama-models/blob/main/models/llama3_2/MODEL_CARD_VISION.md Использование модели регулируется Политикой приемлемого использования Meta: https://www.llama.com/llama3/use-policy/

131.1K контекст|от 32,00 ₽/M вход|от 32,00 ₽/M выход|

Llama 3 8B Instruct

Meta представила новую линейку моделей Llama 3, доступную в различных размерах и конфигурациях. Восьмимиллиардная версия, дообученная по инструкции (instruct-tuned), оптимизирована для высококачественных диалоговых сценариев. По итогам человеческих оценок она продемонстрировала впечатляющие результаты по сравнению с ведущими закрытыми моделями. Подробнее о релизе модели: https://ai.meta.com/blog/meta-llama-3/ Использование модели регулируется Политикой приемлемого использования Meta: https://llama.meta.com/llama3/use-policy/

8.2K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|

Maestro Reasoning

Maestro Reasoning — флагманская аналитическая модель Arcee: производная версия Qwen 2.5-32 B с 32 млрд параметров, донастроенная с помощью DPO и обучения с подкреплением по цепочкам рассуждений для пошаговой логики. По сравнению с предварительной 7-млрдной версией, релизная 32-млрдная модель расширяет окно контекста до 128 тыс. токенов и вдвое повышает долю успешно решённых задач в тестах MATH и GSM-8K, а также улучшает точность автодополнения кода. Стиль инструкций поощряет структурированный формат «рассуждение → ответ», причём ход мыслей можно либо отобразить, либо скрыть по желанию пользователя. Такая прозрачность особенно ценна в сферах с повышенными требованиями к аудиту — финансах и здравоохранении, где важно видеть весь процесс принятия решений. В Arcee Conductor Maestro автоматически выбирается для сложных запросов с множеством ограничений, с которыми не справляются более мелкие SLM.

131.1K контекст|от 190,00 ₽/M вход|от 610,00 ₽/M выход|

Qwen2.5 72B Instruct

Qwen2.5 72B — последняя серия больших языковых моделей Qwen. Qwen2.5 по сравнению с Qwen2 предлагает следующие улучшения: - Значительно расширенная база знаний и заметно улучшенные возможности в программировании и математике благодаря специализированным экспертным моделям. - Существенные улучшения в следовании инструкциям, генерации длинных текстов (более 8 000 токенов), понимании структурированных данных (например, таблиц) и формировании структурированных выходных данных, особенно в формате JSON. Модель стала более устойчива к разнообразию системных подсказок, что облегчает реализацию ролевых сценариев и настройку условий для чат-ботов. - Поддержка длинного контекста объёмом до 128 000 токенов и возможность генерации до 8 000 токенов. - Мультиязычная поддержка более чем 29 языков, включая китайский, английский, французский, испанский, португальский, немецкий, итальянский, русский, японский, корейский, вьетнамский, тайский, арабский и другие. Использование модели регулируется Лицензионным соглашением Tongyi Qianwen: https://huggingface.co/Qwen/Qwen1.5-110B-Chat/blob/main/LICENSE

131.1K контекст|от 42,00 ₽/M вход|от 65,00 ₽/M выход|

WizardLM-2 8x22B

WizardLM-2 8×22B — самая продвинутая модель Wizard от Microsoft AI. Она демонстрирует высокую конкурентоспособность по сравнению с ведущими проприетарными моделями и стабильно превосходит все существующие передовые модели с открытым исходным кодом. Модель представляет собой дообучение по инструкциям (instruct fine-tune) на базе Mixtral 8×22B. Подробнее о выпуске модели можно узнать по ссылке: https://wizardlm.github.io/WizardLM2/. #moe

65.5K контекст|от 95,00 ₽/M вход|от 95,00 ₽/M выход|

Mistral Large

Это флагманская модель Mistral AI — Mistral Large 2 (версия «mistral-large-2407»). Веса этой проприетарной модели доступны, и она превосходно справляется с логическим выводом, программированием, обработкой JSON, ведением диалогов и многими другими задачами. Ознакомьтесь с анонсом запуска по ссылке: https://mistral.ai/news/mistral-large-2407/ Модель поддерживает десятки языков, включая французский, немецкий, испанский, итальянский, португальский, арабский, хинди, русский, китайский, японский и корейский, а также более 80 языков программирования — Python, Java, C, C++, JavaScript, Bash и другие. Благодаря большому контекстному окну она позволяет точно извлекать информацию из объёмных документов.

128.0K контекст|от 370,00 ₽/M вход|от 1 080,00 ₽/M выход|

Mixtral 8x22B Instruct

Официальная версия Mixtral 8×22B от Mistral, дообученная по инструкциям. Использует 39 млрд активных параметров из 141 млрд, обеспечивая непревзойденную экономичность для своего размера. Ключевые преимущества: - высокая точность в математике, программировании и рассуждениях - большая длина контекста (64 K) - свободное владение английским, французским, итальянским, немецким и испанским языками См. результаты тестирования в анонсе запуска: https://mistral.ai/news/mixtral-8x22b/ #moe

65.5K контекст|от 370,00 ₽/M вход|от 1 080,00 ₽/M выход|

MythoMax 13B

Одна из самых эффективных и популярных тонко настроенных версий Llama 2 13B с детализированными описаниями и поддержкой ролевых сценариев. #merge

4.1K контекст|от 42,00 ₽/M вход|от 42,00 ₽/M выход|

Llama Guard 4 12B

Llama Guard 4 — мультимодальная предобученная модель на базе Llama 4 Scout, дообученная для классификации безопасности контента. Подобно предыдущим версиям, она позволяет оценивать как входные запросы LLM (классификация запросов), так и ответы модели (классификация ответов). Модель функционирует как LLM: выводит текст, указывающий, безопасен ли запрос или ответ, а при обнаружении небезопасного контента перечисляет нарушенные категории. Llama Guard 4 настроена на соответствие стандартизированной таксономии рисков MLCommons и разработана с учётом мультимодальных возможностей Llama 4. Она объединяет функции предыдущих версий Llama Guard, обеспечивая модерацию контента на английском и ряде других языков, а также расширенную обработку комбинированных текстово-изображенческих запросов, включая несколько изображений. Кроме того, Llama Guard 4 интегрирована в Llama Moderations API, что позволяет надёжно классифицировать безопасность как текстовых данных, так и изображений.

163.8K контекст|от 55,00 ₽/M вход|от 55,00 ₽/M выход|

Gemma 2 27B

Gemma 2 27B от Google — открытая модель, основанная на тех же исследованиях и технологиях, что и семейство моделей Gemini. Модели Gemma отлично подходят для различных задач генерации текста: ответов на вопросы, резюмирования и логических рассуждений. Подробнее см. [сообщение о запуске](https://blog.google/technology/developers/google-gemma-2/). Использование Gemma осуществляется в соответствии с [Условиями использования Gemma](https://ai.google.dev/gemma/terms) от Google.

8.2K контекст|от 140,00 ₽/M вход|от 140,00 ₽/M выход|

GPT-4.1

GPT-4.1 — флагманская модель большого масштаба, оптимизированная для продвинутого выполнения инструкций, решения реальных задач разработки программного обеспечения и работы с длинным контекстом. Модель поддерживает окно контекста объёмом до миллиона токенов и превосходит GPT-4o и GPT-4.5 по задачам кодирования (54,6 % по SWE-bench Verified), соблюдению инструкций (87,4 % по IFEval) и тестам мультимодального понимания. GPT-4.1 настроена на точное отображение изменений в коде, надёжность агентов и высокую полноту при работе с большими документами, что делает её идеальным решением для агентов, инструментов для среды разработки (IDE) и корпоративных систем поиска знаний.

1.0M контекст|от 370,00 ₽/M вход|от 1 430,00 ₽/M выход|

Command R7B (12-2024)

Command R7B (12-2024) — компактное и быстрое обновление модели Command R+, выпущенное в декабре 2024 года. Отлично справляется с RAG, работой со сторонними инструментами, агентами и другими задачами, требующими сложных рассуждений и последовательного выполнения нескольких шагов. Использование модели регулируется Политикой использования и SaaS-договором компании Cohere.

128.0K контекст|от 32,00 ₽/M вход|от 55,00 ₽/M выход|

Inflection 3 Productivity

Inflection 3 Productivity оптимизирована для следования инструкциям. Она лучше справляется с задачами, требующими вывода в формате JSON или строгого соблюдения предоставленных рекомендаций. У модели есть доступ к актуальным новостям. Для эмоционального интеллекта, аналогичного Pi, смотрите [Inflect 3 Pi](/inflection/inflection-3-pi). Подробнее — в [анонсе Inflection](https://inflection.ai/blog/enterprise).

8.0K контекст|от 470,00 ₽/M вход|от 1 790,00 ₽/M выход|

Qwen3 VL 30B A3B Instruct

Qwen3-VL-30B-A3B-Instruct — мультимодальная модель, объединяющая мощную генерацию текста и визуальное понимание изображений и видео. Вариант Instruct оптимизирован для выполнения инструкций в общих мультимодальных задачах. Модель превосходно справляется с распознаванием реальных и синтетических категорий, 2D/3D пространственной привязкой и глубоким пониманием продолжительных визуальных данных, показывая конкурентоспособные результаты на мультимодальных бенчмарках. В агентных сценариях она поддерживает многоходовые инструкции с несколькими изображениями, выравнивание по таймлайну видео, автоматизацию графического интерфейса (GUI) и визуальное кодирование от эскизов до отлаженных пользовательских интерфейсов. Текстовые возможности модели сопоставимы с флагманскими версиями Qwen3, что делает её подходящей для систем обработки документов, OCR, помощи в пользовательских интерфейсах, пространственных задач и исследований агентных систем.

262.1K контекст|от 55,00 ₽/M вход|от 120,00 ₽/M выход|

Sonar Reasoning Pro

Примечание: стоимость Sonar Pro включает тариф поиска Perplexity. Подробности см. здесь: https://docs.perplexity.ai/guides/pricing#detailed-pricing-breakdown-for-sonar-reasoning-pro-and-sonar-pro Sonar Reasoning Pro — это передовая модель рассуждений на базе DeepSeek R1 с механизмом цепочки рассуждений (Chain of Thought, CoT). Предназначенная для сложных сценариев использования, она поддерживает глубокие многоэтапные запросы с расширенным окном контекста и может предоставлять больше ссылок на источники за один поиск, что обеспечивает более полные и расширяемые ответы.

128.0K контекст|от 370,00 ₽/M вход|от 1 430,00 ₽/M выход|

o3 Pro

Модели серии o обучены с помощью обучения с подкреплением: они сначала обдумывают ответы и способны вести сложные рассуждения. Модель o3-pro задействует больше вычислительных ресурсов, чтобы тщательнее анализировать запрос и стабильно выдавать более качественные ответы. Обратите внимание, что для работы этой модели требуется BYOK. Настройка доступна здесь: https://openrouter.ai/settings/integrations

200.0K контекст|от 3 560,00 ₽/M вход|от 14 190,00 ₽/M выход|

UnslopNemo 12B

UnslopNemo v4.1 — новейшая разработка от создателя модели Rocinante, созданная для написания приключенческих историй и ролевых сценариев.

32.8K контекст|от 95,00 ₽/M вход|от 95,00 ₽/M выход|

Voxtral Small 24B 2507

Voxtral Small — это усовершенствованная версия Mistral Small 3 с передовыми возможностями аудиоввода при сохранении лучшей в своём классе текстовой производительности. Она превосходно справляется с транскрипцией речи, переводом и анализом аудио. Стоимость обработки входного аудио составляет 100 долларов США за миллион секунд.

32.0K контекст|от 42,00 ₽/M вход|от 85,00 ₽/M выход|

GPT-3.5 Turbo 16k

Эта модель обеспечивает в четыре раза больший контекст, чем gpt-3.5-turbo, позволяя в одном запросе обрабатывать около 20 страниц текста, однако по более высокой цене. Данные для обучения: по состоянию на сентябрь 2021 года.

16.4K контекст|от 540,00 ₽/M вход|от 730,00 ₽/M выход|

Jamba Large 1.7

Jamba Large 1.7 — это новейшая модель из открытого семейства Jamba, предлагающая улучшенное обоснование ответов, повышенную способность следовать инструкциям и оптимизированную производительность. Построенная на гибридной архитектуре SSM-Transformer с окном контекста в 256 000 токенов, она генерирует более точные, контекстно обоснованные ответы и обладает лучшей управляемостью по сравнению с предыдущими версиями.

256.0K контекст|от 370,00 ₽/M вход|от 1 430,00 ₽/M выход|

GPT-5 Mini

GPT-5 Mini — компактная версия GPT-5, разработанная для выполнения менее ресурсоёмких задач, требующих рассуждений. Она сохраняет все преимущества GPT-5 в выполнении инструкций и тонкой настройке безопасности, при этом обеспечивает более низкую задержку и стоимость. GPT-5 Mini является преемником модели o4-mini от OpenAI.

400.0K контекст|от 65,00 ₽/M вход|от 370,00 ₽/M выход|

Rocinante 12B

Rocinante 12B разработана для увлекательного повествования и богатой прозы. Ранние тестировщики отмечают: - расширенный словарный запас с уникальными и выразительными словами - повышенную креативность для ярких повествований - захватывающие истории, полные приключений

32.8K контекст|от 55,00 ₽/M вход|от 95,00 ₽/M выход|

Qwen3 32B

Qwen3-32B — плотная авторегрессионная языковая модель серии Qwen3 с 32,8 млрд параметров, оптимизированная для сложных рассуждений и эффективного диалога. Модель обеспечивает бесшовное переключение между «режимом размышления» для задач, таких как решение математических задач, программирование и логический вывод, и «режимом без размышлений» для более оперативного и универсального общения. Qwen3-32B демонстрирует высокую эффективность при выполнении инструкций, работе с инструментами агентов, творческом письме и решении многоязычных задач на более чем 100 языках и диалектах. Из коробки модель поддерживает контекст до 32 тыс. токенов и может расширять его до 131 тыс. токенов за счёт масштабирования на основе YaRN.

131.1K контекст|от 42,00 ₽/M вход|от 55,00 ₽/M выход|

GPT-3.5 Turbo (older v0613)

GPT-3.5 Turbo — самая быстрая модель OpenAI. Она может понимать и генерировать текст на естественном языке и код, а также оптимизирована для чата и традиционных задач завершения текста. Данные для обучения актуальны на сентябрь 2021 года.

4.1K контекст|от 200,00 ₽/M вход|от 370,00 ₽/M выход|

Llama 3.1 70B Instruct

Meta выпустила линейку моделей LLaMA 3.1 различных размеров и конфигураций. Эта версия на 70 млрд параметров, дообученная для выполнения инструкций, оптимизирована для высококачественных диалоговых сценариев. В человеческих оценках она продемонстрировала высокую производительность по сравнению с ведущими закрытыми моделями. Подробнее о выпуске модели: https://ai.meta.com/blog/meta-llama-3-1/. Использование этой модели регулируется Политикой приемлемого использования Meta: https://llama.meta.com/llama3/use-policy/

131.1K контекст|от 95,00 ₽/M вход|от 95,00 ₽/M выход|

o1-pro

Модели серии o1 обучены с помощью обучения с подкреплением, что позволяет им тщательно обдумывать ответы и выполнять сложные рассуждения. Модель o1-pro использует больше вычислительных ресурсов для более глубокой проработки и обеспечивает стабильно более качественные ответы.

200.0K контекст|от 26 600,00 ₽/M вход|от 106 310,00 ₽/M выход|

GLM 4.6

По сравнению с GLM-4.5, в этом обновлении представлено несколько ключевых улучшений: • Расширенное окно контекста: объём обрабатываемой истории увеличен с 128 K до 200 K токенов, что позволяет модели решать более сложные агентные задачи. • Повышенная производительность в кодировании: модель демонстрирует более высокие результаты на бенчмарках по коду и лучше проявляет себя в прикладных решениях—Claude Code, Cline, Roo Code и Kilo Code, включая улучшенную генерацию визуально проработанных фронтенд-страниц. • Усиленное рассуждение: GLM-4.6 показывает заметный прогресс в логическом мышлении и поддерживает использование внешних инструментов во время инференса, что повышает её общую эффективность. • Более продвинутые агенты: модель лучше справляется с агентами, основанными на поиске и работе с инструментами, и эффективнее интегрируется в агентные фреймворки. • Совершенствование стиля: генерируемый текст лучше соответствует человеческим ожиданиям по стилю и читаемости и звучит естественнее в ролевых сценариях.

202.8K контекст|от 95,00 ₽/M вход|от 330,00 ₽/M выход|

R1 Distill Qwen 32B

DeepSeek R1 Distill Qwen 32B — это дистиллированная большая языковая модель на основе Qwen 2.5 32B, дообученная на выходных данных DeepSeek R1. По ряду бенчмарков она превосходит модель o1-mini от OpenAI, устанавливая новые рекордные показатели среди плотных моделей. Результаты на других тестовых наборах: - AIME 2024 pass@1: 72.6 - MATH-500 pass@1: 94.3 - Рейтинг CodeForces: 1691 Модель использует дообучение на примерах из DeepSeek R1, что обеспечивает ей конкурентоспособную производительность, сопоставимую с более крупными передовыми моделями.

128.0K контекст|от 65,00 ₽/M вход|от 65,00 ₽/M выход|

Llama 3.3 70B Instruct (free)

131.1K контекст|0,00 ₽/M вход|0,00 ₽/M выход|

Qwen3 30B A3B

Qwen3 — последнее поколение больших языковых моделей серии Qwen. Она сочетает полносвязную архитектуру (dense) и архитектуру смеси экспертов (Mixture-of-Experts, MoE), что позволяет ей превосходно справляться с задачами рассуждения, обеспечивать многоязычную поддержку и выполнять продвинутые агентные задачи. Уникальная способность мгновенно переключаться между режимом глубокой аналитической обработки для комплексных рассуждений и экономным режимом для эффективного диалога обеспечивает универсальность и высокое качество работы. Значительно опережая предыдущие модели, такие как QwQ и Qwen2.5, Qwen3 демонстрирует выдающиеся результаты в решении математических задач, программировании, рассуждениях на основе здравого смысла, креативном письме и интерактивном общении. Вариант Qwen3-30B-A3B включает 30,5 миллиарда параметров (из них задействованы 3,3 миллиарда), состоит из 48 слоёв и 128 экспертов (по 8 активных на задачу) и поддерживает контекст длиной до 131 тысячи токенов с помощью YaRN, устанавливая новый стандарт среди моделей с открытым исходным кодом.

131.1K контекст|от 42,00 ₽/M вход|от 55,00 ₽/M выход|

GPT-4o-mini Search Preview

GPT-4o mini Search Preview — специализированная модель веб-поиска в Chat Completions. Она обучена понимать и выполнять поисковые запросы в интернете.

128.0K контекст|от 55,00 ₽/M вход|от 120,00 ₽/M выход|

Gemini 2.5 Flash Lite Preview 09-2025

Gemini 2.5 Flash-Lite — легковесная модель рассуждений из семейства Gemini 2.5, оптимизированная для сверхнизкой задержки и высокой экономичности. Она обеспечивает повышенную пропускную способность, более быструю генерацию токенов и лучшие показатели в стандартных бенчмарках по сравнению с предыдущими Flash-моделями. По умолчанию «мышление» (многошаговое рассуждение) отключено ради максимальной скорости, но разработчики могут включить его через параметр Reasoning API (https://openrouter.ai/docs/use-cases/reasoning-tokens), чтобы при необходимости пожертвовать стоимостью ради более сложных рассуждений.

1.0M контекст|от 42,00 ₽/M вход|от 95,00 ₽/M выход|

Weaver (alpha)

Попытка воссоздать многословность в стиле Claude, но не стоит ожидать такого же уровня связности и памяти. Предназначена для использования в ролевых играх и нарративных сценариях.

8.0K контекст|от 210,00 ₽/M вход|от 210,00 ₽/M выход|

Mistral Nemo

Модель на 12 млрд параметров с контекстным окном до 128 000 токенов, разработанная Mistral совместно с NVIDIA. Многоязычная: поддерживает английский, французский, немецкий, испанский, итальянский, португальский, китайский, японский, корейский, арабский и хинди. Поддерживает вызов функций и распространяется под лицензией Apache 2.0.

131.1K контекст|от 32,00 ₽/M вход|от 32,00 ₽/M выход|

Llama 3.2 1B Instruct

Llama 3.2 1B — языковая модель с 1 млрд параметров, оптимизированная для эффективного решения задач обработки естественного языка: суммирования, ведения диалога и многоязычного анализа текстов. Благодаря компактному размеру она может работать в условиях ограниченных вычислительных ресурсов, сохраняя при этом высокую производительность. Поддерживая восемь основных языков и допускающая донастройку под другие, Llama 1.3B идеально подходит бизнесу и разработчикам, которым требуются лёгкие, но мощные ИИ-решения для многоязычных сценариев без высоких требований к оборудованию.

131.1K контекст|от 32,00 ₽/M вход|от 32,00 ₽/M выход|

Command A

Command A — это модель с открытыми весами, 111 миллиардами параметров и контекстным окном на 256 тысяч токенов, ориентированная на выдающуюся производительность в агентных, мультиязычных и задачах программирования. По сравнению с другими ведущими моделями — как проприетарными, так и с открытыми весами — Command A обеспечивает максимальную производительность при минимальных затратах на оборудование, особенно преуспевая в критически важных для бизнеса агентных и мультиязычных задачах.

256.0K контекст|от 470,00 ₽/M вход|от 1 790,00 ₽/M выход|

Mistral Large 2407

Это флагманская модель Mistral AI — Mistral Large 2 (версия mistral-large-2407). Это проприетарная модель с доступными весами, которая отлично справляется в задачах рассуждения, программирования, работе с JSON, общении в чате и многом другом. Прочитать анонс запуска можно здесь: https://mistral.ai/news/mistral-large-2407/. Она поддерживает десятки языков, включая французский, немецкий, испанский, итальянский, португальский, арабский, хинди, русский, китайский, японский и корейский, а также более 80 языков программирования, среди которых Python, Java, C, C++, JavaScript и Bash. Благодаря расширенному контекстному окну модель способна точно извлекать информацию из объёмных документов.

131.1K контекст|от 370,00 ₽/M вход|от 1 080,00 ₽/M выход|

GPT-5 Pro

GPT-5 Pro — самая передовая модель OpenAI, обеспечивающая значительные улучшения в области рассуждений, качества кода и удобства использования. Она оптимизирована для сложных задач, требующих пошагового рассуждения, строгого следования инструкциям и высокой точности в критически важных сценариях. Модель поддерживает функции маршрутизации на этапе инференса и продвинутое понимание подсказок, включая учёт намерений пользователя, например «тщательно обдумай это». Среди ключевых улучшений — снижение количества галлюцинаций и подхалимства, а также повышение производительности в программировании, создании текстов и медицинских задачах.

400.0K контекст|от 2 680,00 ₽/M вход|от 21 260,00 ₽/M выход|

Nova Lite 1.0

Amazon Nova Lite 1.0 — это очень бюджетная мультимодальная модель от Amazon, оптимизированная для быстрой обработки изображений, видео и текста с генерацией текстовых ответов. Nova Lite обеспечивает высокую точность при обслуживании клиентов в режиме реального времени, анализе документов и ответах на вопросы по изображениям. При контексте до 300 000 токенов модель способна в одном запросе проанализировать сразу несколько изображений или до 30 минут видеозаписи.

300.0K контекст|от 42,00 ₽/M вход|от 55,00 ₽/M выход|

Hermes 2 Pro - Llama-3 8B

Hermes 2 Pro — это усовершенствованная и дообученная версия Nous Hermes 2, включающая обновлённую и очищенную версию датасета OpenHermes 2.5, а также новый, разработанный внутри компании набор данных для вызова функций и работы в режиме JSON.

8.2K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|

Mistral Small 3.1 24B

Mistral Small 3.1 24B Instruct — это усовершенствованная версия Mistral Small 3 (2501) с 24 млрд параметров и расширенными мультимодальными возможностями. Модель показывает передовые результаты в текстовом рассуждении и задачах компьютерного зрения, включая анализ изображений, программирование, математическое рассуждение и многоязычную поддержку на нескольких десятках языков. Оснащена расширенным контекстным окном на 128 тыс. токенов и оптимизирована для эффективного локального вывода, что позволяет использовать её в чат-ботах, при вызове функций, для работы с длинными документами и в сценариях с повышенными требованиями к конфиденциальности. Обновлённая версия — Mistral Small 3.2 (mistralai/mistral-small-3.2-24b-instruct)

128.0K контекст|от 42,00 ₽/M вход|от 55,00 ₽/M выход|

GPT-4.1 Mini

GPT-4.1 Mini — это модель среднего размера, демонстрирующая производительность, сопоставимую с GPT-4o, при значительно меньшей задержке и стоимости. Она поддерживает окно контекста размером в один миллион токенов и показывает результаты: 45,1% по сложным инструкциям, 35,8% на MultiChallenge и 84,1% на IFEval. Mini также обладает сильными навыками программирования (например, 31,6% на многоязычном бенчмарке polyglot diff от Aider) и пониманием визуальной информации, что делает её подходящей для интерактивных приложений с жёсткими требованиями к производительности.

1.0M контекст|от 95,00 ₽/M вход|от 310,00 ₽/M выход|

GPT-4O Transcribe

0 контекст|от 1 390,00 ₽/M вход|от 5 470,00 ₽/M выход|

Llama 3.3 Nemotron Super 49B V1.5

Llama-3.3-Nemotron-Super-49B-v1.5 — это модель для рассуждений и чата с 49 млрд параметров, ориентированная на английский язык, созданная на базе Llama-3.3-70B-Instruct от Meta и поддерживающая контекст до 128 000 токенов. Модель дообучена под агентные сценарии (RAG, вызов инструментов) с помощью SFT на задачах по математике, программированию, естественным наукам и многоходовым диалогам, а затем прошла несколько этапов обучения с подкреплением: • Reward-aware Preference Optimization (RPO) для выравнивания поведения • RL с проверяемыми наградами (RLVR) для пошагового рассуждения • итеративный DPO для улучшения использования инструментов Поиск архитектуры, управляемый дистилляцией («Puzzle»), заменяет часть блоков внимания и варьирует ширину FFN, что снижает потребление памяти и повышает пропускную способность, позволяя запускать модель на одном GPU (H100/H200) без потери качества исполнения инструкций и цепочки рассуждений (CoT). Во внутренних тестах (NeMo-Skills, до 16 прогонов, temp=0,6, top_p=0,95) модель демонстрирует высокие результаты в задачах рассуждения и программирования: MATH500 pass@1 = 97,4; AIME-2024 = 87,5; AIME-2025 = 82,71; GPQA = 71,97; LiveCodeBench (24.10–25.02) = 73,58; MMLU-Pro (CoT) = 79,53. Модель оптимизирована для практической эффективности при выводе (высокая скорость токенов в секунду, сниженное потребление видеопамяти), поддерживает Transformers и vLLM, а также предлагает явные режимы «рассуждение вкл./выкл.» (по умолчанию chat-first, при выключенном рассуждении рекомендуется greedy). Подходит для создания интеллектуальных агентов, виртуальных ассистентов и систем поиска с длинным контекстом, где важен баланс между точностью и затратами, а также надёжное использование инструментов.

131.1K контекст|от 42,00 ₽/M вход|от 95,00 ₽/M выход|

Virtuoso Large

Virtuoso-Large — флагманская универсальная языковая модель (LLM) компании Arcee с 72 млрд параметров, оптимизированная для междоменного рассуждения, создания креативного текста и корпоративных систем вопросов-ответов. В отличие от многих аналогичных ~70 млрд-параметричных моделей, она сохраняет контекстную длину 128 тыс. токенов, унаследованную от Qwen 2.5, что позволяет ей целиком обрабатывать книги, репозитории кода и финансовые отчёты. Процесс обучения включает дистилляцию DeepSeek R1, многократную (мульти-эпоховую) донастройку с учителем и финальный этап выравнивания DPO/RLHF, что обеспечивает высокие результаты на наборах BIG-Bench-Hard, GSM-8K и длинноконтекстных тестах «needle-in-haystack». В корпоративных конвейерах Conductor Virtuoso-Large используется в качестве резервного (fallback) «мозга», когда другие специализированные языковые модели (SLM) сигнализируют о низкой уверенности. Несмотря на внушительный размер, благодаря агрессивным оптимизациям KV-кэша задержка генерации первого токена остаётся на уровне нескольких секунд при запуске на 8× H100, что делает модель мощным решением промышленного класса.

131.1K контекст|от 160,00 ₽/M вход|от 230,00 ₽/M выход|

Llama 3 70B Instruct

Новая линейка моделей Meta (Llama 3) выпущена в нескольких вариантах по размерам и конфигурациям. Эта версия с 70 млрд параметров, дообученная с использованием инструкций (instruct-tuned), оптимизирована для высококачественных диалоговых сценариев. В человеко-ориентированных оценках она продемонстрировала высокую эффективность по сравнению с ведущими закрытыми моделями. Подробнее о выпуске модели: https://ai.meta.com/blog/meta-llama-3/ Использование этой модели регулируется Политикой приемлемого использования Meta: https://llama.meta.com/llama3/use-policy/

8.2K контекст|от 85,00 ₽/M вход|от 95,00 ₽/M выход|

Nemotron Nano 9B V2

NVIDIA-Nemotron-Nano-9B-v2 — это большая языковая модель (LLM) компании NVIDIA, обученная «с нуля» и разработанная как единая модель для задач с рассуждениями и без них. При обработке пользовательских запросов она сначала генерирует цепочку рассуждений, а затем выдаёт окончательный ответ. Параметры вывода промежуточных рассуждений можно регулировать через системную подсказку: если пользователь предпочитает сразу получать только итоговый ответ, модель легко сконфигурировать соответствующим образом.

131.1K контекст|от 32,00 ₽/M вход|от 55,00 ₽/M выход|

o4 Mini

OpenAI o4-mini — компактная модель рассуждений из серии o, оптимизированная для быстрой и экономичной работы при сохранении мощных мультимодальных и агентных возможностей. Она поддерживает использование внешних инструментов и демонстрирует конкурентоспособные результаты в задачах логического вывода и программирования по таким бенчмаркам, как AIME (99,5 % при работе с Python) и SWE-bench, превосходя своего предшественника o3-mini и в ряде областей приближаясь к уровню o3. Несмотря на небольшой размер, o4-mini показывает высокую точность в STEM-задачах, решении визуальных головоломок (например, MathVista, MMMU) и редактировании кода. Модель особенно хорошо подходит для сценариев с высокой нагрузкой, где критичны задержки или стоимость. Благодаря эффективной архитектуре и отточенному обучению с подкреплением o4-mini умеет последовательно использовать инструменты, генерировать структурированные ответы и решать многоэтапные задачи с минимальной задержкой — зачастую менее чем за минуту.

200.0K контекст|от 210,00 ₽/M вход|от 800,00 ₽/M выход|

Llama 3.1 70B Hanami x1

Это эксперимент [Sao10K](/sao10k) на основе [Euryale v2.2](/sao10k/l3.1-euryale-70b).

16.0K контекст|от 540,00 ₽/M вход|от 540,00 ₽/M выход|

ReMM SLERP 13B

Эксперимент по воссозданию оригинальной модели MythoMax-L2-B13 с обновлёнными моделями. #merge

6.1K контекст|от 95,00 ₽/M вход|от 140,00 ₽/M выход|

DeepSeek V3.1 Terminus

DeepSeek-V3.1 Terminus — это обновление DeepSeek V3.1, сохраняющее исходные возможности модели и устраняющее замеченные пользователями проблемы (в том числе несогласованность языка и ограничения в возможностях агентов), а также дополнительно оптимизирующее производительность в задачах кодирования и поисковых агентов. Модель представляет собой крупную гибридную систему рассуждений (671 млрд параметров, из них 37 млрд активных), поддерживающую режимы с включённым и выключенным рассуждением. Она основана на DeepSeek-V3 и доработана двухэтапным обучением на длинных контекстах (до 128 K токенов), а для эффективного вывода использует микромасштабирование FP8. Пользователи могут управлять поведением рассуждений через булев параметр reasoning.enabled. Подробнее — в нашей документации. Модель улучшает работу с внешними инструментами, генерацию кода и эффективность рассуждений, демонстрируя сопоставимые с DeepSeek-R1 результаты на сложных бенчмарках при более быстрой реакции. Поддерживается структурированный вызов инструментов, кодовые агенты и поисковые агенты, что делает её подходящей для исследований, разработки ПО и агентно-ориентированных сценариев.

163.8K контекст|от 55,00 ₽/M вход|от 190,00 ₽/M выход|

Claude Haiku 4.5

Claude Haiku 4.5 — самая быстрая и эффективная модель Anthropic, обеспечивающая практически передовой интеллект при значительно меньших затратах и задержках по сравнению с более крупными моделями Claude. При уровне производительности, сопоставимом с Claude Sonnet 4 в задачах рассуждения, программирования и работы с компьютером, Haiku 4.5 приносит передовые возможности в приложения реального времени и для обработки большого объёма запросов. Модель внедряет «расширенное мышление» в семейство Haiku: регулируемую глубину рассуждений, вывод кратких сводок или поэтапных рассуждений, а также рабочие процессы с поддержкой инструментов — полный цикл программирования, Bash, веб-поиск и утилиты для работы с компьютером. Набрав более 73 % на тесте SWE-bench Verified, Haiku 4.5 входит в число лучших в мире моделей для программирования, при этом обеспечивая высокую отзывчивость для субагентов, параллельное выполнение задач и масштабируемое развертывание.

200.0K контекст|от 200,00 ₽/M вход|от 910,00 ₽/M выход|

Qwen3 14B

Qwen3-14B — плотная авторегрессионная языковая модель с 14,8 млрд параметров из серии Qwen3, созданная для сложных рассуждений и эффективного диалога. Модель позволяет бесшовно переключаться между «режимом размышления» для задач вроде математики, программирования и логического вывода и «обычным режимом» для повседневного общения. Она дообучена для выполнения инструкций, работы с инструментами агентов, креативного письма и выполнения мультилингвальных задач более чем на 100 языках и диалектах. Нативно обрабатывает контексты до 32 тыс. токенов и может расширяться до 131 тыс. токенов благодаря масштабированию на основе YaRN.

131.7K контекст|от 42,00 ₽/M вход|от 55,00 ₽/M выход|

Hermes 4 405B

Hermes 4 — масштабная модель рассуждений на основе Meta-Llama-3.1-405B, выпущенная компанией Nous Research. Она вводит гибридный режим рассуждений: модель может либо «думать» внутренне, оставляя метки <think>…</think>, либо сразу выдавать ответ, что позволяет балансировать между глубиной анализа и скоростью отклика. Пользователи могут включать или отключать этот режим с помощью булева параметра reasoning_enabled. Модель прошла инструкционное дообучение на расширенном пост-тренировочном корпусе (около 60 млрд токенов) с акцентом на следы рассуждений. Это улучшает её работу в математике, программировании, STEM (наука, технологии, инженерия и математика) и логических рассуждениях, сохраняя при этом универсальность помощника. Поддерживаются структурированные выходные данные: режим JSON, соответствие заданной схеме, вызов функций и использование внешних инструментов. Hermes 4 оптимизирована для управляемости, характеризуется низким процентом отказов и ориентирована на нейтральное, пользовательско-ориентированное поведение.

131.1K контекст|от 85,00 ₽/M вход|от 230,00 ₽/M выход|

Morph V3 Large

Модель Morph, обеспечивающая высокую точность при применении сложных правок кода. Производительность: примерно 4500 токенов в секунду при 98% точности для точных преобразований кода. Для работы модели запрос должен быть оформлен в следующем формате: <instruction>{instruction}</instruction> <code>{initial_code}</code> <update>{edit_snippet}</update> В Morph включена функция Zero Data Retention (нулевое хранение данных). Узнайте больше об этой модели в их [документации](https://docs.morphllm.com/quickstart).

262.1K контекст|от 190,00 ₽/M вход|от 360,00 ₽/M выход|

Qwen2.5 VL 72B Instruct

Модель Qwen2.5-VL умеет распознавать такие распространённые объекты, как цветы, птицы, рыбы и насекомые. Она также отлично справляется с анализом текстов, диаграмм, иконок, графики и макетов изображений.

131.1K контекст|от 42,00 ₽/M вход|от 85,00 ₽/M выход|

Inflection 3 Pi

Inflection 3 Pi лежит в основе чат-бота Pi от Inflection: он обладает проработанной предысторией, развитым эмоциональным интеллектом, инструментами для повышения продуктивности и встроенными механизмами безопасности. Модель имеет доступ к свежим новостям и особенно эффективна в сценариях службы поддержки клиентов и ролевых игр. Pi обучена имитировать ваш тон и стиль: если вы используете больше эмодзи, Pi будет отвечать ими активнее! Экспериментируйте с разными запросами и стилями общения.

8.0K контекст|от 470,00 ₽/M вход|от 1 790,00 ₽/M выход|

GPT-5 Nano

GPT-5-Nano — самая компактная и быстрая версия системы GPT-5, оптимизированная для инструментов разработчиков, мгновенных взаимодействий и работы в средах с ультранизкой задержкой. Хотя она уступает более крупным моделям в глубине рассуждений, GPT-5-Nano сохраняет ключевые возможности исполнения инструкций и обеспечения безопасности. Преемник GPT-4.1-nano, она предлагает лёгкое и экономичное решение для приложений с ограниченным бюджетом или требующих работы в реальном времени.

400.0K контекст|от 42,00 ₽/M вход|от 95,00 ₽/M выход|

Llama 3.2 3B Instruct

Llama 3.2 3B — это многоязычная большая языковая модель с 3 млрд параметров, оптимизированная для продвинутых задач обработки естественного языка: генерации диалогов, рассуждения и суммирования. Созданная на базе новейшей архитектуры трансформеров, она поддерживает восемь языков, включая английский, испанский и хинди, и может быть адаптирована под другие языки. Обученная на 9 трлн токенов, модель Llama 3.2 3B демонстрирует выдающиеся результаты во выполнении инструкций, сложном рассуждении и использовании внешних инструментов. Сбалансированная производительность делает её идеальным решением для приложений, где требуются точность и эффективность генерации текста в многоязычной среде. Оригинальная карточка модели: https://github.com/meta-llama/llama-models/blob/main/models/llama3_2/MODEL_CARD.md Использование модели регулируется Политикой приемлемого использования Meta: https://www.llama.com/llama3/use-policy/

131.1K контекст|от 32,00 ₽/M вход|от 32,00 ₽/M выход|

GPT-4 Turbo

Последняя модель GPT-4 Turbo с возможностями компьютерного зрения. Запросы с изображениями теперь могут использовать JSON-режим и вызов функций. Данные для обучения: до декабря 2023 года.

128.0K контекст|от 1 790,00 ₽/M вход|от 5 320,00 ₽/M выход|

Mistral Medium 3.1

Mistral Medium 3.1 — обновлённая версия Mistral Medium 3, высокопроизводительной корпоративной языковой модели, разработанной для предоставления передовых возможностей при значительно сниженных эксплуатационных расходах. Модель сочетает в себе передовое рассуждение и мультимодальную производительность при затратах в восемь раз ниже по сравнению с традиционными крупными моделями, что делает её идеальным решением для масштабируемых внедрений в профессиональных и промышленных сценариях. Mistral Medium 3.1 демонстрирует выдающиеся результаты в областях программирования, STEM-анализа и корпоративной адаптации. Она поддерживает гибридные, локальные (on-premise) и развёртывания в виртуальном частном облаке (VPC) и оптимизирована для интеграции в кастомные рабочие процессы. При этом модель обеспечивает конкурентную точность по сравнению с более крупными решениями, такими как Claude Sonnet 3.5/3.7, Llama 4 Maverick и Command R+, сохраняя широкую совместимость с различными облачными средами.

131.1K контекст|от 95,00 ₽/M вход|от 370,00 ₽/M выход|

Qwen3 Next 80B A3B Thinking

Qwen3-Next-80B-A3B-Thinking — это чат-модель из линейки Qwen3-Next, ориентированная на рассуждения и по умолчанию выдающая структурированные «следы мышления». Она создана для сложных многошаговых задач: математических доказательств, синтеза и отладки кода, логических рассуждений и агентного планирования, и демонстрирует высокие результаты в областях знаний, логики, программирования, выравнивания и мультилингвальных тестов. По сравнению с предыдущими версиями Qwen3 модель обеспечивает стабильность при длинных цепочках рассуждений и эффективное масштабирование на этапе вывода, а также настроена на выполнение сложных инструкций с минимизацией повторений и ухода от темы. Модель подходит для фреймворков агентов и работы с инструментами (вызов функций), сценариев с интенсивным поиском информации и стандартизированных бенчмарков, где требуются пошаговые решения. Она поддерживает длинные, детализированные ответы и использует приёмы, ориентированные на пропускную способность (например, предсказание нескольких токенов сразу) для ускоренной генерации. Обратите внимание: модель работает в режиме только рассуждений.

262.1K контекст|от 55,00 ₽/M вход|от 230,00 ₽/M выход|

Sonar Pro Search

Эксклюзивно доступный через OpenRouter API, новый режим Pro Search в Sonar Pro — самая продвинутая агентная поисковая система Perplexity. Он создан для глубинных рассуждений и анализа. Стоимость использования рассчитывается на основе токенов плюс 18 $ за каждую тысячу запросов. Именно эта модель обеспечивает работу режима Pro Search на платформе Perplexity. Sonar Pro Search добавляет в Sonar Pro автономное многоэтапное рассуждение. Вместо простого «запрос + синтез» система планирует и выполняет целые исследовательские рабочие процессы с использованием инструментов.

200.0K контекст|от 540,00 ₽/M вход|от 2 680,00 ₽/M выход|

Qwen3 235B A22B Thinking 2507

Qwen3-235B-A22B-Thinking-2507 — это высокопроизводительная открытая модель со «смесью экспертов» (Mixture-of-Experts, MoE), оптимизированная для сложных задач рассуждения. При каждом прогоне она активирует 22 млрд из 235 млрд параметров и изначально поддерживает до 262 144 токенов контекста. Этот «только для размышлений» вариант усиливает структурированный логический вывод, решение математических и научных задач, а также генерацию развернутых текстов, демонстрируя впечатляющие результаты на бенчмарках AIME, SuperGPQA, LiveCodeBench и MMLU-Redux. Модель задаёт специальный режим рассуждений (</think>) и рассчитана на генерацию длинных ответов — до 81 920 токенов — в самых сложных областях. Модель дообучена по инструкциям и превосходно справляется с пошаговым рассуждением, использованием инструментов, агентными рабочими процессами и многоязычными задачами. Этот релиз — самый мощный открытый вариант серии Qwen3-235B, превосходящий многие закрытые модели в сценариях, требующих структурированного вывода.

262.1K контекст|от 42,00 ₽/M вход|от 120,00 ₽/M выход|

gpt-oss-20b

gpt-oss-20b — это модель с открытыми весами и 21 млрд параметров, выпущенная компанией OpenAI под лицензией Apache 2.0. Она основана на архитектуре Mixture-of-Experts (MoE, «смесь экспертов») и активирует 3,6 млрд параметров при каждом прямом проходе, что обеспечивает низкую задержку инференса и позволяет разворачивать её на потребительском оборудовании или одной видеокарте. Модель обучена в формате ответов Harmony от OpenAI и поддерживает настройку уровня рассуждений, дообучение, а также агентные возможности: вызов функций, использование инструментов и генерацию структурированных выводов.

131.1K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|

o4 Mini Deep Research

o4-mini-deep-research — более быстрая и доступная модель от OpenAI для проведения углублённых исследований, идеально подходящая для решения сложных многоэтапных исследовательских задач. Примечание: эта модель всегда использует инструмент «web_search», что влечёт дополнительные расходы.

200.0K контекст|от 370,00 ₽/M вход|от 1 430,00 ₽/M выход|

o3 Mini High

OpenAI o3-mini-high — та же модель, что и o3-mini, но с параметром reasoning_effort, установленным на высокий уровень. o3-mini — это экономичная языковая модель, оптимизированная для решения задач в области STEM, особенно сильная в естественных науках, математике и программировании. Модель поддерживает три настраиваемых уровня reasoning_effort и ключевые возможности для разработчиков: вызов функций, структурированный вывод и потоковый вывод, однако не включает обработку визуальных данных. Модель демонстрирует заметные улучшения по сравнению с предшественницей: в 56 % случаев эксперты предпочитают её ответы, а число серьёзных ошибок при решении сложных вопросов сократилось на 39 %. При средних настройках reasoning_effort o3-mini сопоставима по результатам с более крупной моделью o1 в сложных тестах на проверку рассуждений, таких как AIME и GPQA, при этом показывая меньшую задержку и более низкие затраты.

200.0K контекст|от 210,00 ₽/M вход|от 800,00 ₽/M выход|

GPT-5 Chat

GPT-5 Chat предназначен для ведения продвинутых, естественных, мультимодальных диалогов с учётом контекста в корпоративных приложениях.

128.0K контекст|от 230,00 ₽/M вход|от 1 790,00 ₽/M выход|

Sonar

Sonar — лёгковесное, недорогое, быстрое и простое в использовании решение, теперь с поддержкой цитирования и возможностью настройки источников. Предназначено для компаний, которые хотят интегрировать лёгковесные функции «вопрос-ответ», оптимизированные по скорости.

127.1K контекст|от 200,00 ₽/M вход|от 200,00 ₽/M выход|

GPT-4o (2024-05-13)

GPT-4o («o» от «omni») — новейшая модель ИИ от OpenAI, поддерживающая как текстовый, так и графический ввод с текстовым выводом. Она сохранила уровень интеллекта GPT-4 Turbo, при этом работает вдвое быстрее и на 50 % дешевле. Кроме того, GPT-4o демонстрирует улучшенную обработку неанглоязычных текстов и расширенные визуальные возможности. Для сравнения с другими моделями её кратковременно называли «im-also-a-good-gpt2-chatbot» #мультимодальная

128.0K контекст|от 910,00 ₽/M вход|от 2 680,00 ₽/M выход|

Spotlight

Spotlight — это визуально-языковая модель с семью миллиардами параметров, основанная на Qwen 2.5-VL и донастроенная Arcee AI для задач точного связывания изображений и текста. Она поддерживает окно контекста до 32 000 токенов, что позволяет вести насыщенные мультимодальные диалоги с объёмными документами и одним или несколькими изображениями. При обучении акцент был сделан на быстром выводе на потребительских видеокартах при сохранении высокой точности в генерации подписей, визуальных вопросах-ответах и анализе диаграмм. В итоге Spotlight легко интегрируется в рабочие процессы агентов, где требуется моментальная интерпретация скриншотов, графиков или макетов интерфейса. По результатам первых бенчмарков она сравнима или превосходит более крупные визуально-языковые модели, такие как LLaVA-1.6 13 B, в популярных тестах VQA и POPE на выравнивание.

131.1K контекст|от 55,00 ₽/M вход|от 55,00 ₽/M выход|

GPT-5 Codex

GPT-5-Codex — специализированная версия GPT-5, оптимизированная под процессы разработки ПО и написания кода. Она подходит как для интерактивных сессий разработки, так и для длительного автономного выполнения сложных инженерных задач. Модель поддерживает создание проектов с нуля, разработку новых функций, отладку, масштабный рефакторинг и ревью кода. По сравнению с GPT-5 Codex более управляемый, точнее следует инструкциям разработчика и генерирует более чистый, высококачественный код. Интенсивность рассуждений (reasoning effort) регулируется параметром `reasoning.effort`. Подробнее в документации: https://openrouter.ai/docs/use-cases/reasoning-tokens#reasoning-effort-level Codex интегрируется в среду разработчика: командную строку (CLI), расширения для IDE, GitHub и задачи в облаке. Он динамически настраивает интенсивность рассуждений — обеспечивает быстрые ответы на небольшие запросы и при этом способен работать в течение нескольких часов над крупными проектами. Модель обучена проводить структурированные ревью кода, выявляя критические ошибки через анализ зависимостей и проверяя корректность работы на основе тестов. Она также поддерживает мультимодальный ввод, включая изображения и скриншоты интерфейсов, и умеет взаимодействовать с инструментами для поиска, установки зависимостей и настройки окружения. Codex ориентирован на применение в агентных сценариях программирования.

400.0K контекст|от 230,00 ₽/M вход|от 1 790,00 ₽/M выход|

MiniMax-01

MiniMax-01 объединяет MiniMax-Text-01 для генерации текста и MiniMax-VL-01 для понимания изображений. Модель содержит 456 млрд параметров, из которых при каждом инференсе задействуется 45,9 млрд, а объём поддерживаемого контекста достигает 4 млн токенов. Текстовая часть построена на гибридной архитектуре, сочетающей Lightning Attention, Softmax Attention и механизм смеси экспертов (Mixture-of-Experts, MoE). Модель для обработки изображений использует фреймворк «ViT-MLP-LLM» и обучена поверх текстовой модели. Подробнее о релизе можно узнать по ссылке: https://www.minimaxi.com/en/news/minimax-01-series-2

1.0M контекст|от 55,00 ₽/M вход|от 210,00 ₽/M выход|

Claude Opus 4.1

Claude Opus 4.1 — обновлённая версия флагманской модели Anthropic, демонстрирующая улучшенные показатели в программировании, рассуждениях и агентских задачах. Модель набирает 74,5 % по набору тестов SWE-bench Verified и показывает значительные улучшения в рефакторинге кода по нескольким файлам, точности отладки и детализированных рассуждениях. Поддерживает контекст объёмом до 64 000 токенов и оптимизирована для задач, связанных с исследованиями, анализом данных и рассуждениями с помощью инструментов.

200.0K контекст|от 2 680,00 ₽/M вход|от 13 310,00 ₽/M выход|

DeepSeek V3 0324

DeepSeek V3 — это модель со 685 миллиардами параметров и архитектурой «смесь экспертов», представляющая собой новейшую версию флагманской линейки моделей для чата команды DeepSeek. Она пришла на смену предыдущей версии DeepSeek V3 и демонстрирует отличные результаты в самых разных задачах.

163.8K контекст|от 55,00 ₽/M вход|от 170,00 ₽/M выход|

GPT-4 Turbo (older v1106)

Новейшая модель GPT-4 Turbo с возможностями компьютерного зрения. Теперь запросы с изображениями поддерживают режим JSON и вызов функций. Данные для обучения: актуальны на апрель 2023 г.

128.0K контекст|от 1 790,00 ₽/M вход|от 5 320,00 ₽/M выход|

Qwen3 30B A3B Instruct 2507

Qwen3-30B-A3B-Instruct-2507 — языковая модель «смесь экспертов» с 30,5 млрд параметров от Qwen, из которых 3,3 млрд активны при выводе. Модель работает в режиме без вывода цепочек рассуждений и предназначена для точного следования инструкциям, мультиязычного понимания и агентного использования инструментов. После дополнительного обучения на данных с инструкциями она демонстрирует конкурентоспособные результаты в бенчмарках по рассуждению (AIME, ZebraLogic), программированию (MultiPL-E, LiveCodeBench) и выравниванию (IFEval, WritingBench). Модель превосходит свою неинструированную версию в субъективных и открытых задачах, сохраняя при этом высокие показатели по фактическим знаниям и программированию.

131.1K контекст|от 42,00 ₽/M вход|от 85,00 ₽/M выход|

GPT-4

GPT-4 — флагманская крупномасштабная мультимодальная языковая модель от OpenAI, способная решать сложные задачи с более высокой точностью, чем предыдущие версии, благодаря более обширным общим знаниям и продвинутым возможностям рассуждения. Тренировочные данные: до сентября 2021 г.

8.2K контекст|от 5 320,00 ₽/M вход|от 10 650,00 ₽/M выход|

Llama Guard 3 8B

Llama Guard 3 — предварительно обученная модель Llama-3.1-8B, дообученная для классификации безопасности контента. Как и предыдущие версии, она позволяет анализировать как входные данные LLM (классификация запросов), так и её ответы (классификация ответов). Модель функционирует как LLM: в своём выводе она указывает, является ли заданный запрос или ответ «безопасным» или «небезопасным», а при обнаружении небезопасного контента перечисляет нарушенные категории. Llama Guard 3 приведена в соответствие со стандартизованной таксономией угроз MLCommons и разработана с учётом возможностей Llama 3.1. В частности, она обеспечивает модерацию контента на восьми языках и оптимизирована для повышения безопасности при поисковых запросах и вызове инструмента интерпретатора кода.

131.1K контекст|от 32,00 ₽/M вход|от 42,00 ₽/M выход|