Содержание
Два пути использовать Whisper
OpenAI Whisper доступен в двух формах:
- Whisper API — OpenAI хостит модель у себя, вы отправляете файлы через API и получаете текст. Модель
whisper-1. - Локальный Whisper — open-source модель, которую можно запустить на своём сервере или компьютере. GitHub: openai/whisper, faster-whisper, WhisperX.
Разбираем плюсы, минусы и цены каждого пути.
Whisper API от OpenAI
Что это и как работает
API-эндпоинт https://api.openai.com/v1/audio/transcriptions. Отправляете файл через multipart POST, получаете JSON с транскриптом. Требуется OpenAI API-ключ и привязанная карта.
Плюсы
- Нет инфраструктурных забот — не надо покупать GPU
- Быстрая обработка — часовое аудио за 30-60 секунд
- Масштабируется автоматически — можете отправлять 100 файлов параллельно
- Качество — та же large-v2 от OpenAI (они пока не выкатили large-v3 в API)
Минусы
- Цена: $0.006 за минуту аудио. Часовая запись = $0.36 = ~32 ₽
- Лимит файла: 25 МБ (это ~25 минут MP3 128 кбит/с, хватает не всегда)
- Нет диаризации — только plain текст, без разделения по спикерам
- Модель устаревшая — whisper-1 это large-v2 (2022), a не large-v3-turbo (2024)
- Приватность — ваше аудио уходит на серверы OpenAI в США. Для чувствительных данных (медицина, право, бизнес-встречи) это проблема
- Нет RU compliance — для российских пользовательских данных нарушение 152-ФЗ
Локальный Whisper
Что это и как работает
Установка open-source модели на свой сервер (или компьютер с GPU). Библиотеки:
- openai/whisper — референсная реализация, Python
- faster-whisper — в 4-10 раз быстрее, использует CTranslate2. Стандарт индустрии
- WhisperX — faster-whisper + форсированное выравнивание на уровне слов + диаризация через pyannote
Установка: pip install faster-whisper. Запуск: скрипт на Python.
Плюсы
- Бесплатно без лимитов после покупки железа
- Любая модель — large-v3, large-v3-turbo, medium — что угодно
- Полный контроль — можно подкрутить параметры VAD, beam_size, patience для вашего домена
- Приватность — данные не уходят наружу. Важно для медицины, юристов
- Dual-use — тот же сервер может делать fine-tuning (дообучение на своих данных)
Минусы
- Нужен GPU — для large-v3-turbo минимум NVIDIA с 6 ГБ VRAM (RTX 3060, A10, T4). Стоит от $400-500 за карту
- Настройка часов 8-20 — установить CUDA, разобраться с окружением, написать пайплайн
- Нет диаризации из коробки — нужно отдельно ставить pyannote
- Нет постобработки — пунктуация, коррекция, экспорт — всё руками
- Нужно поддерживать — обновлять модели, чинить сервер, мониторить
Сравнение цен
Расчёт для 100 часов аудио в месяц (типичный use-case среднего бизнеса).
Whisper API
- 100 часов × 60 мин × $0.006 = $36/мес ≈ 3300 ₽/мес
- Плюс нулевые инфра-затраты
Локальный Whisper
- GPU-сервер с RTX 3060 12 ГБ: аренда в облаке ~8000-12000 ₽/мес (Selectel, Cloud.ru)
- Или покупка: ~30000-40000 ₽ за карту, окупается за 3-4 месяца при интенсивном использовании
- Время на настройку (8-20 часов разработчика): 30000-50000 ₽ разово
- Электричество если локально: ~500 ₽/мес
WonderScribe (облачный сервис)
- 100 часов × 60 мин × 2 ₽ = 12 000 ₽/мес
- С подпиской «Профи» цена падает до 1.50 ₽/мин → 9000 ₽/мес
- Корпоративный «Pro» — фиксированные 1449 ₽/мес + поминутно для команды 20 человек
- Бонус: включена диаризация, очистка шума, LLM-коррекция, экспорт в Word/SRT, серверы в РФ (152-ФЗ)
Таблица решения
| Параметр | Whisper API | Локальный | WonderScribe |
|---|---|---|---|
| Настройка | 1 час | 8-20 часов | 0 |
| Цена/час | 32 ₽ | ~10-15 ₽ (с учётом GPU) | 90-120 ₽ |
| Модель | large-v2 (устар.) | Любая | large-v3-turbo |
| Диаризация | ❌ | Ставится отдельно | ✅ pyannote |
| Пунктуация | Базовая | Ставится отдельно | ✅ RUPunct + LLM |
| Экспорт | JSON/текст | Что напишете | ✅ Word/SRT/VTT |
| Приватность RU | ❌ (США) | ✅ (свой сервер) | ✅ (серверы в РФ) |
| Масштабирование | Автомат | Ручное | Автомат |
| Лимит файла | 25 МБ | Любой | 2 ГБ |
Что выбрать
Whisper API — берите если
- Нужно транскрибировать 10-50 часов аудио в месяц, разово
- Нет инженера, который настроит локальную инфраструктуру
- Вам не важна диаризация, только plain-текст
- Данные англоязычные или не чувствительные
Локальный Whisper — берите если
- Обрабатываете 500+ часов в месяц — экономия существенна
- У вас чувствительные данные (медицина, юрист, военные), нужна строгая приватность
- Есть инженер DevOps/ML, готовый потратить 1-2 недели на настройку
- Хотите сами дообучать модель под свой домен
WonderScribe — берите если
- Нужен полный пайплайн сразу (диаризация, пунктуация, экспорт)
- Данные российские — важен 152-ФЗ
- Хотите тратить время на продукт, а не на ML-инфраструктуру
- Нужен UI для редактирования, не только API
Попробовать WonderScribe — 30 минут бесплатно, сравните результат с собственным Whisper или OpenAI API. Для русского языка разница в качестве сильно заметна.
Попробуйте WonderScribe
30 минут бесплатно, без карты. Экспорт в Word, SRT, VTT и PDF.