Содержание
Влияет ли формат аудио на точность распознавания
Короткий ответ: важнее качество записи, чем формат. Но некоторые нюансы есть. Разберём все популярные форматы — в каком случае какой лучше.
WAV — несжатый эталон
Что это: контейнер для несжатого аудио PCM. Файл хранит каждый сэмпл «как есть», без потерь.
Характеристики:
- Размер: ~10 МБ за минуту (44.1 кГц стерео 16 бит)
- Качество: 100%, эталон
- Совместимость: везде
Когда использовать: профессиональная студийная запись, архивные цели, когда размер файла не важен.
Минусы: большой размер. Часовая запись — 600 МБ. Грузить в мессенджеры и облака неудобно.
MP3 — самый распространённый
Что это: формат сжатия с потерями (lossy). Убирает частоты, которые ухо плохо слышит, и сильно уменьшает размер файла.
Характеристики:
- Размер: зависит от битрейта. 128 кбит/с ≈ 1 МБ/мин, 320 кбит/с ≈ 2.5 МБ/мин
- Качество для речи: 128+ кбит/с достаточно, 192 кбит/с отлично
- Совместимость: везде
Когда использовать: диктофонные записи, подкасты, когда нужно переслать файл по email/мессенджеру. Для транскрибации — идеальный компромисс.
Важно: битрейт ниже 64 кбит/с режет высокие частоты и снижает точность Whisper на 5-10%. Избегайте.
M4A (AAC) — формат Apple
Что это: контейнер MP4 с кодеком AAC. Лучшее качество при том же размере, что и MP3.
Характеристики:
- Размер: ~1 МБ/мин (AAC 128 кбит/с)
- Качество: на 20-30% лучше MP3 при том же битрейте
- Совместимость: почти везде (кроме старых проигрывателей)
Когда использовать: диктофон iPhone/iPad, Apple Music, голосовые сообщения WhatsApp. Для транскрибации — одинаково хорошо с MP3.
OGG / OPUS — современный открытый формат
Что это: OGG — контейнер, OPUS — новый кодек. Используется в голосовых Telegram и WhatsApp для оптимизации мобильного трафика.
Характеристики:
- Размер: самый маленький при сохранении качества (на 20% лучше AAC)
- Качество для речи: отличное даже на 24 кбит/с
- Совместимость: современные плееры и устройства. Старые (до 2018) могут не понимать
Когда использовать: голосовые из мессенджеров (вы получаете их в OGG OPUS автоматически), IP-телефония.
FLAC — сжатие без потерь
Что это: сжатый формат БЕЗ потерь качества (как ZIP для аудио).
Характеристики:
- Размер: ~5 МБ/мин (в 2 раза меньше WAV)
- Качество: 100%, идентично WAV
- Совместимость: все современные плееры
Когда использовать: музыкальные архивы, студийные записи. Для транскрибации избыточно — размер большой, качество то же что у MP3 320.
WMA — устаревший Microsoft
Проприетарный формат от Microsoft. Сейчас используется крайне редко (диктофонные записи старых Windows Phone). Не рекомендуется, но WonderScribe его поддерживает.
Сравнительная таблица
| Формат | Размер/мин | Качество речи | Рекомендация для Whisper |
|---|---|---|---|
| WAV 16-bit | 10 МБ | 100% | ⭐⭐⭐⭐⭐ Эталон |
| FLAC | 5 МБ | 100% | ⭐⭐⭐⭐⭐ Так же как WAV |
| MP3 320 | 2.5 МБ | 99% | ⭐⭐⭐⭐⭐ Отлично |
| MP3 192 | 1.5 МБ | 98% | ⭐⭐⭐⭐⭐ Отлично |
| M4A AAC 128 | 1 МБ | 98% | ⭐⭐⭐⭐⭐ Отлично |
| MP3 128 | 1 МБ | 95% | ⭐⭐⭐⭐ Хорошо |
| OGG OPUS 64 | 0.5 МБ | 95% | ⭐⭐⭐⭐ Хорошо |
| MP3 64 | 0.5 МБ | 88% | ⭐⭐⭐ Приемлемо |
| MP3 32 | 0.25 МБ | 75% | ⭐ Плохо, избегайте |
Практические рекомендации
- Записываете сами → MP3 192 кбит/с — оптимум качество/размер
- Получили голосовое → оставьте как есть (OGG/M4A) — конвертация не улучшит качество, только потеряет время
- Профессиональная запись → WAV или FLAC — для архива
- Микрофон при записи важнее формата — даже WAV со встроенного микрофона даст WER 15%, а MP3 128 с petличного микрофона — 3%
Что делает WonderScribe с файлом
При загрузке в WonderScribe любой формат (MP3, M4A, WAV, OGG, FLAC, WMA, AAC, AMR и др.) автоматически:
- Конвертируется в mono 16 кГц WAV (формат, на котором обучен Whisper)
- Нормализуется по громкости (EBU R128)
- Очищается от шума если нужно (Demucs)
- Передаётся в Whisper large-v3-turbo для распознавания
То есть формат исходника не влияет на итоговый результат — все приводятся к одному. Важно лишь чтобы исходник не был низкобитрейтным (32-64 кбит/с MP3 дают потерю качества ещё на входе).
Попробуйте на любом формате — 30 минут бесплатно. Сравните результат с MP3 128 и 320 — разница минимальна.
Попробуйте WonderScribe
30 минут бесплатно, без карты. Экспорт в Word, SRT, VTT и PDF.