Содержание
Распознавание речи (англ. ASR — Automatic Speech Recognition) — технология, которая превращает устную речь в текст. Сегодня она работает в голосовых помощниках, субтитрах, сервисах транскрибации и колл-центрах. Разберём простыми словами, как именно компьютер «понимает» речь.
Что такое распознавание речи
Задача системы распознавания речи — взять звуковой сигнал (волну) и выдать последовательность слов, которую человек в нём произнёс. Это сложно, потому что одно и то же слово звучит по-разному у разных людей, в разном темпе, с акцентом и на фоне шума. Не путайте распознавание речи с синтезом речи: распознавание — это «звук → текст», а синтез (TTS) — «текст → голос».
Как работает распознавание речи: этапы
Классический конвейер ASR состоит из нескольких шагов:
- 1. Захват и предобработка. Аудио оцифровывается, очищается от шума, нормализуется по громкости и разбивается на короткие кадры (обычно по 10–25 мс).
- 2. Извлечение признаков. Из каждого кадра вычисляются характеристики звука (например, MFCC или мел-спектрограмма) — компактное представление, которое отражает, как распределена энергия по частотам.
- 3. Акустическая модель. Нейросеть сопоставляет признаки звука с фонемами — элементарными единицами речи. Она отвечает на вопрос «какие звуки здесь произнесены».
- 4. Языковая модель. Определяет, какая последовательность слов наиболее вероятна. Именно она помогает выбрать «класс» вместо «клас» и расставить слова грамматически верно.
- 5. Декодирование. Система объединяет подсказки акустической и языковой моделей и выдаёт финальный текст с пунктуацией.
От скрытых марковских моделей к нейросетям
Технология прошла большой путь:
- HMM + GMM (до ~2010). Скрытые марковские модели — работали, но требовали ручной настройки и плохо справлялись с шумом и спонтанной речью.
- Глубокие нейросети (2010-е). Рекуррентные и свёрточные сети резко подняли точность — компьютер научился учитывать контекст.
- End-to-end модели (сейчас). Современные системы (трансформеры, RNN-T) переводят звук сразу в текст без отдельных ручных этапов. Они обучены на тысячах часов речи и сами выучивают и акустику, и язык. Именно такие модели обеспечивают точность до 99%.
Что влияет на точность распознавания
- Качество записи. Внешний микрофон и тихое помещение дают заметно лучший результат, чем встроенный микрофон ноутбука.
- Фоновый шум и музыка снижают точность — современные системы частично его компенсируют фильтрами.
- Несколько говорящих одновременно. Перекрывающаяся речь — самый сложный случай; помогает диаризация (разделение по спикерам).
- Акценты и терминология. Редкие имена и узкоспециальные термины распознаются хуже — их можно подсказать системе через словарь.
Где применяется распознавание речи
- Транскрибация интервью, лекций, совещаний и подкастов в текст
- Субтитры для видео и доступность для слабослышащих
- Голосовые помощники и управление голосом
- Колл-центры — анализ разговоров и контроль качества
- Медицина и право — диктовка документов и протоколов
Распознавание речи в WonderScribe
WonderScribe использует современные end-to-end модели, обученные в том числе на русской речи. Система автоматически расставляет пунктуацию, определяет, кто из спикеров говорит, и обрабатывает часовую запись за несколько минут. Попробовать можно на странице распознавание речи онлайн — первые 30 минут бесплатно, без карты, серверы в России.
Частые вопросы
Что такое распознавание речи?
Чем распознавание речи отличается от синтеза речи?
Какая точность у современного распознавания речи?
Работает ли распознавание речи на русском языке?
Попробуйте WonderScribe
30 минут бесплатно, без карты. Экспорт в Word, SRT, VTT и PDF.