API
Audio Transcriptions
Эндпоинт POST /v1/audio/transcriptions принимает multipart/form-data и возвращает транскрипцию речи в текст. Streaming для транскрипции не поддерживается.
Примеры запросов
curl -X POST "https://api.zveno.ai/v1/audio/transcriptions" \
-H "Authorization: Bearer $ZVENOAI_API_KEY" \
-F "file=@audio.wav" \
-F "model=openai/gpt-4o-transcribe" \
-F "language=ru" \
-F "response_format=json"Параметры
| Поле | Тип | Описание |
|---|---|---|
| file | file | Аудиофайл (до 25MB). |
| model | string | Slug модели (например, openai/gpt-4o-transcribe). |
| response_format | string | json, text, srt, verbose_json, vtt, diarized_json. |
| include[] | string[] | Доп. данные, например logprobs. |
| known_speaker_names[] | string[] | Известные имена спикеров (для диаризации). |
| known_speaker_references[] | string[] | Референсные аудио‑сэмплы спикеров (для диаризации). |
Пример ответа
{
"text": "Полный транскрибированный текст",
"language": "ru",
"duration": 45.2,
"segments": [
{ "id": "0", "start": 0.0, "end": 5.0, "text": "Привет!", "speaker": "Speaker 1" }
],
"usage": {
"type": "audio",
"input_tokens": 150,
"input_token_details": { "audio_tokens": 140, "text_tokens": 10 },
"output_tokens": 50,
"total_tokens": 200,
"seconds": 45
},
"logprobs": [{ "token": "Привет", "logprob": -0.01 }]
}