ПоставщикамБлог

Распознавание речи

Распознавание речи

Распознавание речи – это междисциплинарная подполе вычислительной лингвистики, которая разрабатывает методологии и технологии, которые позволяют распознавать и переводить разговорный язык в текст компьютерами. Он также известен как автоматическое распознавание речи (ASR), распознавание речи в компьютере или речь в тексте (STT). Он включает знания и исследования в области лингвистики, информатики и электротехники.

Некоторые системы распознавания речи требуют «обучения» (также называемого «зачислением»), когда отдельный оратор читает текст или изолированный словарь в системе. Система анализирует конкретный голос человека и использует его для точной настройки распознавания речи этого человека, что приводит к повышенной точности. Системы, которые не используют обучение, называются «независимыми от динамиков» системами. Системы, которые используют обучение, называются «зависимыми от громкоговорителей».

Приложения распознавания речи включают голосовые пользовательские интерфейсы, такие как голосовой набор (например, «Домашний звонок»), маршрутизация звонков (например, «Я хотел бы сделать вызов для сбора»), управление домашним устройством, поиск (например, найти подкаст, где были произнесены конкретные слова ), простой ввод данных (например, ввод номера кредитной карты), подготовка структурированных документов (например, радиологический отчет), обработка речи в текст (например, текстовые процессоры или электронные письма) и самолеты (обычно называемые прямым голосовым вводом).

Термин распознавание голоса или идентификация громкоговорителя относится к идентификации говорящего, а не к тому, что они говорят. Признание динамика может упростить задачу перевода речи в системах, которые были обучены на голосе конкретного человека или они могут использоваться для аутентификации или проверки личности говорящего как части процесса безопасности.

Наиболее популярные продукты категории Распознавание речи Все продукты категории

Adobe Voco
13
4
eepNLUStudio® - Developer Tools
5
0
DiaManT® Sentiment Analysis - Business Insights
11
17
Anti-Fraud - DiaManT®
1
16
Голосовая биометрия DiaManT®
5
20
DNN Speech Recognition - deepASR®
1
6

F.A.Q. Распознавание речи

Какова классификация систем распознавания речи?

Системы распознавания речи классифицируются:

  • по размеру словаря (ограниченный набор слов, словарь большого размера);
  • по зависимости от диктора (дикторозависимые системы);
  • по типу речи (слитная или раздельная речь);
  • по назначению (системы диктовки, командные системы);
  • по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);
  • по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
  • по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).

Какова структура систем распознавания речи?

Системы распознавания речи впервые появились в 1952 году. С тех пор методы распознавания не раз менялись. Ранее использовались такие методы и алгоритмы, как:

  • Динамическое программирование (Dynamic Time Warping) - временные динамические алгоритмы, выполняющие классификацию на основе сравнения с эталоном.
  • Методы дискриминантного анализа, основанные на Байесовской дискриминации (Bayesian discrimination).
  • Скрытые Марковские Модели (Hidden Markov Model).
  • Нейронные сети (Neural Networks).

В настоящее время, перечисленные выше методы как правило комбинируются. Их сочетание позволяет получить более высокое качество распознавания, чем использование каждой модели отдельно.

Системы распознавания речи имеют следующие основные модули:

  • Акустическая модель
  • Языковая модель
  • Декодер

Что такое акустическая модель?

Акустическая модель — это функция, принимающая на вход небольшой участок акустического сигнала (кадр или frame) и выдающая распределение вероятностей различных фонем на этом кадре. Таким образом, акустическая модель дает нам возможность по звуку восстановить, что было произнесено — с той или иной степенью уверенности.

Фонема - элементарная единица человеческой речи.

Что такое языковая модель?

Языковая модель - позволяет узнать, какие последовательности слов в языке более вероятны, а какие менее. Здесь в самом простом случае требуется предсказать следующее слово по известным предыдущим словам. В традиционных системах применялись модели типа N-грамм, в которых на основе большого количества текстов оценивались распределения вероятности появления слова в зависимости от N предшествующих слов. Для получения надежных оценок распределений параметр N должен быть достаточно мал: одно, два или три слова — модели униграмм, биграмм или триграмм соответственно. Внедрение языковой модели в систему распознавания речи позволило значительно повысить качество распознавания за счет учета контекста.

Какова область применения у систем распознавания речи?

Системы распознавания речи начали развиваться как специальные сервисы для людей с ограниченными возможностями, но также нашли применение в различных сферах бизнеса, таких как:

  • Телефония: системы голосового самообслуживания;
  • "Умный дом": голосовой интерфейс управления;
  • Роботы: голосовой интерфейс электронных роботов;
  • РС, ноутбуки, телефоны: голосовой ввод команд, диктовка текста;
  • Автомобили: голосовое управление в салоне автомобиля.

Основные отрасли применения:

  • Голосовое управление
  • Голосовые команды
  • Голосовой ввод текста
  • Голосовой поиск
Материалы