Audio Transcriptions

Транскрибирует аудиофайл в текст. Совместим с OpenAI Audio Transcriptions API — можно использовать любой OpenAI SDK, указав base_url: "https://api.zveno.ai/v1".

Ограничение на размер файла: 25 MB.

Поддерживаемые форматы входного аудио: mp3, mp4, mpeg, mpga, m4a, wav, webm.

Формат ответа (response_format) зависит от модели:

openai/whisper-1 — json, text, srt, verbose_json, vtt
openai/gpt-4o-transcribe, openai/gpt-4o-mini-transcribe — json, text
openai/gpt-4o-transcribe-diarize — json, text, diarized_json (с сегментами по говорящим)

Референсные аудио-сэмплы говорящих (known_speaker_references) передаются как data URLs и принимают те же форматы, что и входной файл.

Модель указывается в формате vendor/model (например, openai/whisper-1).

Аутентификация: Authorization: Bearer <api-key>.

Authorization

BearerAuth

AuthorizationBearer <token>

In: header

Request Body

multipart/form-data

TypeScript Definitions

Use the request body type in TypeScript.

Response Body

`application/json`

curl -X POST "http://localhost:8080/v1/audio/transcriptions" \  -F file="string" \  -F model="string"

{
  "duration": 0.1,
  "language": "string",
  "logprobs": [
    {
      "bytes": [
        0
      ],
      "logprob": 0.1,
      "token": "string"
    }
  ],
  "segments": [
    {
      "avg_logprob": 0.1,
      "compression_ratio": 0.1,
      "end": 0.1,
      "id": "string",
      "no_speech_prob": 0.1,
      "seek": 0,
      "speaker": "string",
      "start": 0.1,
      "temperature": 0.1,
      "text": "string",
      "tokens": [
        0
      ],
      "type": "string"
    }
  ],
  "task": "string",
  "text": "string",
  "usage": {
    "input_token_details": {
      "audio_tokens": 0,
      "text_tokens": 0
    },
    "input_tokens": 0,
    "output_tokens": 0,
    "seconds": 0,
    "total_tokens": 0,
    "type": "string"
  },
  "words": [
    {
      "end": 0.1,
      "start": 0.1,
      "word": "string"
    }
  ]
}

Ограничение на размер файла: 25 MB.

Поддерживаемые форматы входного аудио: mp3, mp4, mpeg, mpga, m4a, wav, webm.

Формат ответа (response_format) зависит от модели:

openai/whisper-1 — json, text, srt, verbose_json, vtt
openai/gpt-4o-transcribe, openai/gpt-4o-mini-transcribe — json, text
openai/gpt-4o-transcribe-diarize — json, text, diarized_json (с сегментами по говорящим)

Модель указывается в формате vendor/model (например, openai/whisper-1).

Аутентификация: Authorization: Bearer <api-key>.

Authorization

BearerAuth

AuthorizationBearer <token>

In: header

Request Body

multipart/form-data

TypeScript Definitions

Use the request body type in TypeScript.

file*string

Аудио файл (max 25MB, форматы: mp3, mp4, mpeg, mpga, m4a, wav, webm)

model*string

Модель для транскрипции (например, openai/gpt-4o-transcribe)

language?string

Язык аудио (ISO 639-1)

prompt?string

Подсказка для направления транскрипции

response_format?string

Формат ответа. Набор допустимых значений зависит от модели:

openai/whisper-1 — json, text, srt, verbose_json, vtt
openai/gpt-4o-transcribe, openai/gpt-4o-mini-transcribe — json, text
openai/gpt-4o-transcribe-diarize — json, text, diarized_json

temperature?string

Температура сэмплирования (0-1)

timestamp_granularities?string

Гранулярность временных меток (segment, word)

include?string

Дополнительные данные в ответе (например, logprobs)

known_speaker_names?string

Известные имена говорящих (для диаризации)

known_speaker_references?string

Референсные аудио-сэмплы говорящих (для диаризации), передаются как data URLs. Принимают те же форматы, что и входной файл: mp3, mp4, mpeg, mpga, m4a, wav, webm.

chunking_strategy?string

Стратегия разбиения на части (auto или JSON объект)

Response Body

`application/json`

curl -X POST "http://localhost:8080/v1/audio/transcriptions" \  -F file="string" \  -F model="string"

{
  "duration": 0.1,
  "language": "string",
  "logprobs": [
    {
      "bytes": [
        0
      ],
      "logprob": 0.1,
      "token": "string"
    }
  ],
  "segments": [
    {
      "avg_logprob": 0.1,
      "compression_ratio": 0.1,
      "end": 0.1,
      "id": "string",
      "no_speech_prob": 0.1,
      "seek": 0,
      "speaker": "string",
      "start": 0.1,
      "temperature": 0.1,
      "text": "string",
      "tokens": [
        0
      ],
      "type": "string"
    }
  ],
  "task": "string",
  "text": "string",
  "usage": {
    "input_token_details": {
      "audio_tokens": 0,
      "text_tokens": 0
    },
    "input_tokens": 0,
    "output_tokens": 0,
    "seconds": 0,
    "total_tokens": 0,
    "type": "string"
  },
  "words": [
    {
      "end": 0.1,
      "start": 0.1,
      "word": "string"
    }
  ]
}

Authorization

Request Body

Response Body

200application/json

Audio Transcriptions

Authorization

Request Body

Response Body

200application/json

`application/json`

`application/json`