Главная / Блог / Русский язык в Whisper: как повысить точность транскрибации …

Русский язык в Whisper: как повысить точность транскрибации на 15%

Почему Whisper иногда ошибается на русском и как это исправить: выбор модели, словарь терминов, предобработка. Советы для разработчиков и пользователей.

Начать бесплатно Попробовать бесплатно

Как Whisper работает с русским языком

OpenAI Whisper — мультиязычная нейросеть распознавания речи, обученная на 680 000 часов аудио из 100+ языков. По внутренней статистике OpenAI, русский входит в десятку языков с самой низкой WER (word error rate) у Whisper large-v3 — около 5.2%. Для сравнения:

  • Английский: 3.8%
  • Испанский: 4.1%
  • Немецкий: 4.7%
  • Русский: 5.2%
  • Китайский: 8.9%

Но это — среднее по чистым записям из научного датасета Common Voice. На реальных данных (интервью в кафе, лекции, голосовые из мессенджера) WER может вырасти до 15-25%. Разбираем, как его снизить.

Фактор 1: выбор модели

У Whisper шесть размеров моделей — от крошечной tiny до огромной large-v3. На русском разница критическая:

МодельПараметрыVRAMWER русСкорость
tiny39M~1 GB18-22%Очень быстро
base74M~1 GB14-17%Быстро
small244M~2 GB9-12%Средне
medium769M~5 GB6-8%Средне
large-v31.55B~10 GB5.2%Медленно
large-v3-turbo809M~6 GB5.9%Быстро

Вывод: для серьёзных задач с русским используйте только large-v3 или turbo. Модели меньше medium дают неприемлемую точность. В WonderScribe стоит large-v3-turbo — оптимум скорость/качество.

Фактор 2: предобработка аудио

Whisper на 15-20% точнее на предобработанном аудио. Что делает WonderScribe перед распознаванием:

  1. Конвертация в моно 16 кГц — Whisper обучен на этом формате, всё остальное ухудшает точность
  2. Loudnorm EBU R128 — нормализация громкости по стандарту, чтобы Whisper не путался на тихих фрагментах
  3. Demucs source separation — если в записи есть музыка или сильный шум, отдельная нейросеть «вырезает» голос
  4. Voice Activity Detection (VAD) — удаляем длинные паузы, чтобы Whisper не галлюцинировал на тишине

Если используете Whisper напрямую через Python, добавьте эти шаги — точность заметно улучшится.

Фактор 3: initial prompt (подсказка)

Whisper поддерживает initial_prompt — короткую подсказку, задающую контекст. Это помогает модели правильно распознавать специфические термины и имена собственные.

Пример без prompt:

Иван Петрович сказал, что КПЭ для Q3 нужно поднять до 85 процентов.

Whisper может распознать как: Иван Петрович сказал, что капэ для ку3 нужно поднять до 85 процентов.

С prompt «бизнес-встреча, KPI, Q1-Q4, отчёты»:

Иван Петрович сказал, что KPI для Q3 нужно поднять до 85 процентов.

В WonderScribe это реализовано как «Словарь терминов» — добавьте перед загрузкой специфические слова (имена, компании, аббревиатуры), и они войдут в prompt.

Фактор 4: диаризация (разделение спикеров)

Если в записи несколько спикеров и Whisper слышит их наложение, точность падает. Решение — сначала сделать диаризацию (определить, кто когда говорит), потом запустить Whisper на каждом сегменте отдельно.

В WonderScribe это делает pyannote/speaker-diarization-community-1 перед вызовом Whisper. На 2-спикерных записях это даёт прирост точности +3-5%.

Фактор 5: постобработка текста

Raw-вывод Whisper — это текст без пунктуации и с мелкими ошибками. Для финального качества нужно пост-пайплайн:

  1. RUPunct — нейросеть, добавляющая пунктуацию (точки, запятые, вопросы) к русскому тексту
  2. Intonation punctuation — анализ высоты голоса (F0) через Parselmouth: если интонация повышается в конце — ставим вопрос
  3. LLM-коррекция — Ollama qwen2.5 или OpenAI gpt-4o-mini исправляют смысловые ошибки по контексту (имена, термины)
  4. Удаление галлюцинаций — Whisper иногда «домысливает» слова на шумных фрагментах, фильтруем по energy + nsp

Всё это встроено в WonderScribe — итоговый текст ближе к ручной расшифровке, чем raw Whisper.

Практические советы для записывающих

  1. Используйте headset, а не встроенный микрофон ноутбука — это может дать +5-10% точности просто за счёт чистой записи
  2. Закройте окна, выключите кондиционер — фон снижает точность
  3. Говорите в 30-50 см от микрофона — не слишком близко (перегруз), не слишком далеко (эхо)
  4. Не перебивайте друг друга — одновременная речь = путаница для диаризации
  5. В длинных интервью делайте паузы 2-3 секунды между репликами — помогает VAD правильно разбивать сегменты
  6. Используйте словарь для нестандартных терминов — особенно важно для медицины, права, IT

Fine-tuning для ещё большей точности

Если у вас специфический домен (медицинские термины, юридический язык, инженерия), можно дообучить Whisper на своих данных. В WonderScribe это делается через LoRA fine-tuning — добавляются адаптеры на основе ваших данных.

Результат: WER падает ещё на 2-4% на вашем домене. Для обычных пользователей это не нужно, но корпоративным клиентам может дать существенную выгоду.

Итого: чек-лист для максимальной точности

  • ✅ Модель: Whisper large-v3-turbo (или large-v3 если есть мощный GPU)
  • ✅ Предобработка: mono 16 кГц, loudnorm, Demucs на шумных записях
  • ✅ Initial prompt со специфическими терминами вашей ниши
  • ✅ Диаризация перед распознаванием, если спикеров больше одного
  • ✅ Постобработка: RUPunct + LLM correction
  • ✅ Хорошая запись: headset, тихое помещение, чёткая речь

Если всё это делать вручную — уйдёт неделя настройки и хороший GPU. В WonderScribe всё это уже настроено и работает out-of-the-box. 30 минут бесплатно — проверьте на своей самой сложной записи.

Попробуйте WonderScribe

30 минут бесплатно, без карты. Экспорт в Word, SRT, VTT и PDF.

Начать бесплатно Тарифы

Читайте также

Все статьи
Ссылка скопирована