Русский язык в Whisper: как повысить точность транскрибации на 15%

Как Whisper работает с русским языком

OpenAI Whisper — мультиязычная нейросеть распознавания речи, обученная на 680 000 часов аудио из 100+ языков. По внутренней статистике OpenAI, русский входит в десятку языков с самой низкой WER (word error rate) у Whisper large-v3 — около 5.2%. Для сравнения:

Английский: 3.8%
Испанский: 4.1%
Немецкий: 4.7%
Русский: 5.2%
Китайский: 8.9%

Но это — среднее по чистым записям из научного датасета Common Voice. На реальных данных (интервью в кафе, лекции, голосовые из мессенджера) WER может вырасти до 15-25%. Разбираем, как его снизить.

Фактор 1: выбор модели

У Whisper шесть размеров моделей — от крошечной tiny до огромной large-v3. На русском разница критическая:

Модель	Параметры	VRAM	WER рус	Скорость
tiny	39M	~1 GB	18-22%	Очень быстро
base	74M	~1 GB	14-17%	Быстро
small	244M	~2 GB	9-12%	Средне
medium	769M	~5 GB	6-8%	Средне
large-v3	1.55B	~10 GB	5.2%	Медленно
large-v3-turbo	809M	~6 GB	5.9%	Быстро

Вывод: для серьёзных задач с русским используйте только large-v3 или turbo. Модели меньше medium дают неприемлемую точность. В WonderScribe стоит large-v3-turbo — оптимум скорость/качество.

Фактор 2: предобработка аудио

Whisper на 15-20% точнее на предобработанном аудио. Что делает WonderScribe перед распознаванием:

Конвертация в моно 16 кГц — Whisper обучен на этом формате, всё остальное ухудшает точность
Loudnorm EBU R128 — нормализация громкости по стандарту, чтобы Whisper не путался на тихих фрагментах
Demucs source separation — если в записи есть музыка или сильный шум, отдельная нейросеть «вырезает» голос
Voice Activity Detection (VAD) — удаляем длинные паузы, чтобы Whisper не галлюцинировал на тишине

Если используете Whisper напрямую через Python, добавьте эти шаги — точность заметно улучшится.

Фактор 3: initial prompt (подсказка)

Whisper поддерживает initial_prompt — короткую подсказку, задающую контекст. Это помогает модели правильно распознавать специфические термины и имена собственные.

Пример без prompt:

Иван Петрович сказал, что КПЭ для Q3 нужно поднять до 85 процентов.

Whisper может распознать как: Иван Петрович сказал, что капэ для ку3 нужно поднять до 85 процентов.

С prompt «бизнес-встреча, KPI, Q1-Q4, отчёты»:

Иван Петрович сказал, что KPI для Q3 нужно поднять до 85 процентов.

В WonderScribe это реализовано как «Словарь терминов» — добавьте перед загрузкой специфические слова (имена, компании, аббревиатуры), и они войдут в prompt.

Фактор 4: диаризация (разделение спикеров)

Если в записи несколько спикеров и Whisper слышит их наложение, точность падает. Решение — сначала сделать диаризацию (определить, кто когда говорит), потом запустить Whisper на каждом сегменте отдельно.

В WonderScribe это делает pyannote/speaker-diarization-community-1 перед вызовом Whisper. На 2-спикерных записях это даёт прирост точности +3-5%.

Фактор 5: постобработка текста

Raw-вывод Whisper — это текст без пунктуации и с мелкими ошибками. Для финального качества нужно пост-пайплайн:

RUPunct — нейросеть, добавляющая пунктуацию (точки, запятые, вопросы) к русскому тексту
Intonation punctuation — анализ высоты голоса (F0) через Parselmouth: если интонация повышается в конце — ставим вопрос
LLM-коррекция — Ollama qwen2.5 или OpenAI gpt-4o-mini исправляют смысловые ошибки по контексту (имена, термины)
Удаление галлюцинаций — Whisper иногда «домысливает» слова на шумных фрагментах, фильтруем по energy + nsp

Всё это встроено в WonderScribe — итоговый текст ближе к ручной расшифровке, чем raw Whisper.

Практические советы для записывающих

Используйте headset, а не встроенный микрофон ноутбука — это может дать +5-10% точности просто за счёт чистой записи
Закройте окна, выключите кондиционер — фон снижает точность
Говорите в 30-50 см от микрофона — не слишком близко (перегруз), не слишком далеко (эхо)
Не перебивайте друг друга — одновременная речь = путаница для диаризации
В длинных интервью делайте паузы 2-3 секунды между репликами — помогает VAD правильно разбивать сегменты
Используйте словарь для нестандартных терминов — особенно важно для медицины, права, IT

Fine-tuning для ещё большей точности

Если у вас специфический домен (медицинские термины, юридический язык, инженерия), можно дообучить Whisper на своих данных. В WonderScribe это делается через LoRA fine-tuning — добавляются адаптеры на основе ваших данных.

Результат: WER падает ещё на 2-4% на вашем домене. Для обычных пользователей это не нужно, но корпоративным клиентам может дать существенную выгоду.

Итого: чек-лист для максимальной точности

✅ Модель: Whisper large-v3-turbo (или large-v3 если есть мощный GPU)
✅ Предобработка: mono 16 кГц, loudnorm, Demucs на шумных записях
✅ Initial prompt со специфическими терминами вашей ниши
✅ Диаризация перед распознаванием, если спикеров больше одного
✅ Постобработка: RUPunct + LLM correction
✅ Хорошая запись: headset, тихое помещение, чёткая речь

Если всё это делать вручную — уйдёт неделя настройки и хороший GPU. В WonderScribe всё это уже настроено и работает out-of-the-box. 30 минут бесплатно — проверьте на своей самой сложной записи.

Попробуйте WonderScribe

30 минут бесплатно, без карты. Экспорт в Word, SRT, VTT и PDF.

Начать бесплатно Тарифы

Расшифровка Zoom онлайн: запись совещания в текст и протокол

Таймкоды в тексте автоматически: 3 способа расставить метки в расшифровке

Русский язык в Whisper: как повысить точность транскрибации на 15%

Как Whisper работает с русским языком

Фактор 1: выбор модели

Фактор 2: предобработка аудио

Фактор 3: initial prompt (подсказка)

Фактор 4: диаризация (разделение спикеров)

Фактор 5: постобработка текста

Практические советы для записывающих

Fine-tuning для ещё большей точности

Итого: чек-лист для максимальной точности

Попробуйте WonderScribe

Читайте также

Поддержка

Русский язык в Whisper: как повысить точность транскрибации на 15%

Как Whisper работает с русским языком

Фактор 1: выбор модели

Фактор 2: предобработка аудио

Фактор 3: initial prompt (подсказка)

Фактор 4: диаризация (разделение спикеров)

Фактор 5: постобработка текста

Практические советы для записывающих

Fine-tuning для ещё большей точности

Итого: чек-лист для максимальной точности

Попробуйте WonderScribe

Читайте также

Транскрибатор: что это такое и какой выбрать в 2026

Расшифровка аудио онлайн без регистрации: 3 бесплатных способа

Как перевести аудио в текст: пошаговая инструкция для начинающих

Поддержка