API

Audio Transcriptions

Эндпоинт POST /v1/audio/transcriptions принимает multipart/form-data и возвращает транскрипцию речи в текст. Streaming для транскрипции не поддерживается.

Примеры запросов

curl -X POST "https://api.zveno.ai/v1/audio/transcriptions" \
  -H "Authorization: Bearer $ZVENOAI_API_KEY" \
  -F "file=@audio.wav" \
  -F "model=openai/gpt-4o-transcribe" \
  -F "language=ru" \
  -F "response_format=json"

Параметры

Поле	Тип	Описание
file	file	Аудиофайл (до 25MB).
model	string	Slug модели (например, openai/gpt-4o-transcribe).
response_format	string	json, text, srt, verbose_json, vtt, diarized_json.
include[]	string[]	Доп. данные, например logprobs.
known_speaker_names[]	string[]	Известные имена спикеров (для диаризации).
known_speaker_references[]	string[]	Референсные аудио‑сэмплы спикеров (для диаризации).

Пример ответа

{
  "text": "Полный транскрибированный текст",
  "language": "ru",
  "duration": 45.2,
  "segments": [
    { "id": "0", "start": 0.0, "end": 5.0, "text": "Привет!", "speaker": "Speaker 1" }
  ],
  "usage": {
    "type": "audio",
    "input_tokens": 150,
    "input_token_details": { "audio_tokens": 140, "text_tokens": 10 },
    "output_tokens": 50,
    "total_tokens": 200,
    "seconds": 45
  },
  "logprobs": [{ "token": "Привет", "logprob": -0.01 }]
}

Связанные ресурсы

Models API

Список моделей транскрипции находится в /v1/models (model_type=audio_transcription).

Обработка ошибок

Формат ошибок и рекомендации по ретраям.

API