Главная / Блог / Whisper API от OpenAI vs локальный Whisper: что выбрать в 20…

Whisper API от OpenAI vs локальный Whisper: что выбрать в 2026

Сравнение Whisper API и self-hosted Whisper для транскрибации. Цены, скорость, приватность, инфраструктура. Расчёт для типичного use-case.

Начать бесплатно Попробовать облачный сервис

Два пути использовать Whisper

OpenAI Whisper доступен в двух формах:

  1. Whisper API — OpenAI хостит модель у себя, вы отправляете файлы через API и получаете текст. Модель whisper-1.
  2. Локальный Whisper — open-source модель, которую можно запустить на своём сервере или компьютере. GitHub: openai/whisper, faster-whisper, WhisperX.

Разбираем плюсы, минусы и цены каждого пути.

Whisper API от OpenAI

Что это и как работает

API-эндпоинт https://api.openai.com/v1/audio/transcriptions. Отправляете файл через multipart POST, получаете JSON с транскриптом. Требуется OpenAI API-ключ и привязанная карта.

Плюсы

  • Нет инфраструктурных забот — не надо покупать GPU
  • Быстрая обработка — часовое аудио за 30-60 секунд
  • Масштабируется автоматически — можете отправлять 100 файлов параллельно
  • Качество — та же large-v2 от OpenAI (они пока не выкатили large-v3 в API)

Минусы

  • Цена: $0.006 за минуту аудио. Часовая запись = $0.36 = ~32 ₽
  • Лимит файла: 25 МБ (это ~25 минут MP3 128 кбит/с, хватает не всегда)
  • Нет диаризации — только plain текст, без разделения по спикерам
  • Модель устаревшая — whisper-1 это large-v2 (2022), a не large-v3-turbo (2024)
  • Приватность — ваше аудио уходит на серверы OpenAI в США. Для чувствительных данных (медицина, право, бизнес-встречи) это проблема
  • Нет RU compliance — для российских пользовательских данных нарушение 152-ФЗ

Локальный Whisper

Что это и как работает

Установка open-source модели на свой сервер (или компьютер с GPU). Библиотеки:

  • openai/whisper — референсная реализация, Python
  • faster-whisper — в 4-10 раз быстрее, использует CTranslate2. Стандарт индустрии
  • WhisperX — faster-whisper + форсированное выравнивание на уровне слов + диаризация через pyannote

Установка: pip install faster-whisper. Запуск: скрипт на Python.

Плюсы

  • Бесплатно без лимитов после покупки железа
  • Любая модель — large-v3, large-v3-turbo, medium — что угодно
  • Полный контроль — можно подкрутить параметры VAD, beam_size, patience для вашего домена
  • Приватность — данные не уходят наружу. Важно для медицины, юристов
  • Dual-use — тот же сервер может делать fine-tuning (дообучение на своих данных)

Минусы

  • Нужен GPU — для large-v3-turbo минимум NVIDIA с 6 ГБ VRAM (RTX 3060, A10, T4). Стоит от $400-500 за карту
  • Настройка часов 8-20 — установить CUDA, разобраться с окружением, написать пайплайн
  • Нет диаризации из коробки — нужно отдельно ставить pyannote
  • Нет постобработки — пунктуация, коррекция, экспорт — всё руками
  • Нужно поддерживать — обновлять модели, чинить сервер, мониторить

Сравнение цен

Расчёт для 100 часов аудио в месяц (типичный use-case среднего бизнеса).

Whisper API

  • 100 часов × 60 мин × $0.006 = $36/мес ≈ 3300 ₽/мес
  • Плюс нулевые инфра-затраты

Локальный Whisper

  • GPU-сервер с RTX 3060 12 ГБ: аренда в облаке ~8000-12000 ₽/мес (Selectel, Cloud.ru)
  • Или покупка: ~30000-40000 ₽ за карту, окупается за 3-4 месяца при интенсивном использовании
  • Время на настройку (8-20 часов разработчика): 30000-50000 ₽ разово
  • Электричество если локально: ~500 ₽/мес

WonderScribe (облачный сервис)

  • 100 часов × 60 мин × 2 ₽ = 12 000 ₽/мес
  • С подпиской «Профи» цена падает до 1.50 ₽/мин → 9000 ₽/мес
  • Корпоративный «Pro» — фиксированные 1449 ₽/мес + поминутно для команды 20 человек
  • Бонус: включена диаризация, очистка шума, LLM-коррекция, экспорт в Word/SRT, серверы в РФ (152-ФЗ)

Таблица решения

ПараметрWhisper APIЛокальныйWonderScribe
Настройка1 час8-20 часов0
Цена/час32 ₽~10-15 ₽ (с учётом GPU)90-120 ₽
Модельlarge-v2 (устар.)Любаяlarge-v3-turbo
ДиаризацияСтавится отдельно✅ pyannote
ПунктуацияБазоваяСтавится отдельно✅ RUPunct + LLM
ЭкспортJSON/текстЧто напишете✅ Word/SRT/VTT
Приватность RU❌ (США)✅ (свой сервер)✅ (серверы в РФ)
МасштабированиеАвтоматРучноеАвтомат
Лимит файла25 МБЛюбой2 ГБ

Что выбрать

Whisper API — берите если

  • Нужно транскрибировать 10-50 часов аудио в месяц, разово
  • Нет инженера, который настроит локальную инфраструктуру
  • Вам не важна диаризация, только plain-текст
  • Данные англоязычные или не чувствительные

Локальный Whisper — берите если

  • Обрабатываете 500+ часов в месяц — экономия существенна
  • У вас чувствительные данные (медицина, юрист, военные), нужна строгая приватность
  • Есть инженер DevOps/ML, готовый потратить 1-2 недели на настройку
  • Хотите сами дообучать модель под свой домен

WonderScribe — берите если

  • Нужен полный пайплайн сразу (диаризация, пунктуация, экспорт)
  • Данные российские — важен 152-ФЗ
  • Хотите тратить время на продукт, а не на ML-инфраструктуру
  • Нужен UI для редактирования, не только API

Попробовать WonderScribe — 30 минут бесплатно, сравните результат с собственным Whisper или OpenAI API. Для русского языка разница в качестве сильно заметна.

Попробуйте WonderScribe

30 минут бесплатно, без карты. Экспорт в Word, SRT, VTT и PDF.

Начать бесплатно Тарифы

Читайте также

Все статьи
Ссылка скопирована