Содержание
Как Whisper работает с русским языком
OpenAI Whisper — мультиязычная нейросеть распознавания речи, обученная на 680 000 часов аудио из 100+ языков. По внутренней статистике OpenAI, русский входит в десятку языков с самой низкой WER (word error rate) у Whisper large-v3 — около 5.2%. Для сравнения:
- Английский: 3.8%
- Испанский: 4.1%
- Немецкий: 4.7%
- Русский: 5.2%
- Китайский: 8.9%
Но это — среднее по чистым записям из научного датасета Common Voice. На реальных данных (интервью в кафе, лекции, голосовые из мессенджера) WER может вырасти до 15-25%. Разбираем, как его снизить.
Фактор 1: выбор модели
У Whisper шесть размеров моделей — от крошечной tiny до огромной large-v3. На русском разница критическая:
| Модель | Параметры | VRAM | WER рус | Скорость |
|---|---|---|---|---|
| tiny | 39M | ~1 GB | 18-22% | Очень быстро |
| base | 74M | ~1 GB | 14-17% | Быстро |
| small | 244M | ~2 GB | 9-12% | Средне |
| medium | 769M | ~5 GB | 6-8% | Средне |
| large-v3 | 1.55B | ~10 GB | 5.2% | Медленно |
| large-v3-turbo | 809M | ~6 GB | 5.9% | Быстро |
Вывод: для серьёзных задач с русским используйте только large-v3 или turbo. Модели меньше medium дают неприемлемую точность. В WonderScribe стоит large-v3-turbo — оптимум скорость/качество.
Фактор 2: предобработка аудио
Whisper на 15-20% точнее на предобработанном аудио. Что делает WonderScribe перед распознаванием:
- Конвертация в моно 16 кГц — Whisper обучен на этом формате, всё остальное ухудшает точность
- Loudnorm EBU R128 — нормализация громкости по стандарту, чтобы Whisper не путался на тихих фрагментах
- Demucs source separation — если в записи есть музыка или сильный шум, отдельная нейросеть «вырезает» голос
- Voice Activity Detection (VAD) — удаляем длинные паузы, чтобы Whisper не галлюцинировал на тишине
Если используете Whisper напрямую через Python, добавьте эти шаги — точность заметно улучшится.
Фактор 3: initial prompt (подсказка)
Whisper поддерживает initial_prompt — короткую подсказку, задающую контекст. Это помогает модели правильно распознавать специфические термины и имена собственные.
Пример без prompt:
Иван Петрович сказал, что КПЭ для Q3 нужно поднять до 85 процентов.
Whisper может распознать как: Иван Петрович сказал, что капэ для ку3 нужно поднять до 85 процентов.
С prompt «бизнес-встреча, KPI, Q1-Q4, отчёты»:
Иван Петрович сказал, что KPI для Q3 нужно поднять до 85 процентов.
В WonderScribe это реализовано как «Словарь терминов» — добавьте перед загрузкой специфические слова (имена, компании, аббревиатуры), и они войдут в prompt.
Фактор 4: диаризация (разделение спикеров)
Если в записи несколько спикеров и Whisper слышит их наложение, точность падает. Решение — сначала сделать диаризацию (определить, кто когда говорит), потом запустить Whisper на каждом сегменте отдельно.
В WonderScribe это делает pyannote/speaker-diarization-community-1 перед вызовом Whisper. На 2-спикерных записях это даёт прирост точности +3-5%.
Фактор 5: постобработка текста
Raw-вывод Whisper — это текст без пунктуации и с мелкими ошибками. Для финального качества нужно пост-пайплайн:
- RUPunct — нейросеть, добавляющая пунктуацию (точки, запятые, вопросы) к русскому тексту
- Intonation punctuation — анализ высоты голоса (F0) через Parselmouth: если интонация повышается в конце — ставим вопрос
- LLM-коррекция — Ollama qwen2.5 или OpenAI gpt-4o-mini исправляют смысловые ошибки по контексту (имена, термины)
- Удаление галлюцинаций — Whisper иногда «домысливает» слова на шумных фрагментах, фильтруем по energy + nsp
Всё это встроено в WonderScribe — итоговый текст ближе к ручной расшифровке, чем raw Whisper.
Практические советы для записывающих
- Используйте headset, а не встроенный микрофон ноутбука — это может дать +5-10% точности просто за счёт чистой записи
- Закройте окна, выключите кондиционер — фон снижает точность
- Говорите в 30-50 см от микрофона — не слишком близко (перегруз), не слишком далеко (эхо)
- Не перебивайте друг друга — одновременная речь = путаница для диаризации
- В длинных интервью делайте паузы 2-3 секунды между репликами — помогает VAD правильно разбивать сегменты
- Используйте словарь для нестандартных терминов — особенно важно для медицины, права, IT
Fine-tuning для ещё большей точности
Если у вас специфический домен (медицинские термины, юридический язык, инженерия), можно дообучить Whisper на своих данных. В WonderScribe это делается через LoRA fine-tuning — добавляются адаптеры на основе ваших данных.
Результат: WER падает ещё на 2-4% на вашем домене. Для обычных пользователей это не нужно, но корпоративным клиентам может дать существенную выгоду.
Итого: чек-лист для максимальной точности
- ✅ Модель: Whisper large-v3-turbo (или large-v3 если есть мощный GPU)
- ✅ Предобработка: mono 16 кГц, loudnorm, Demucs на шумных записях
- ✅ Initial prompt со специфическими терминами вашей ниши
- ✅ Диаризация перед распознаванием, если спикеров больше одного
- ✅ Постобработка: RUPunct + LLM correction
- ✅ Хорошая запись: headset, тихое помещение, чёткая речь
Если всё это делать вручную — уйдёт неделя настройки и хороший GPU. В WonderScribe всё это уже настроено и работает out-of-the-box. 30 минут бесплатно — проверьте на своей самой сложной записи.
Попробуйте WonderScribe
30 минут бесплатно, без карты. Экспорт в Word, SRT, VTT и PDF.