Распознавание речи

Распознавание речи – это междисциплинарная подполе вычислительной лингвистики, которая разрабатывает методологии и технологии, которые позволяют распознавать и переводить разговорный язык в текст компьютерами. Он также известен как автоматическое распознавание речи (ASR), распознавание речи в компьютере или речь в тексте (STT). Он включает знания и исследования в области лингвистики, информатики и электротехники.

Некоторые системы распознавания речи требуют «обучения» (также называемого «зачислением»), когда отдельный оратор читает текст или изолированный словарь в системе. Система анализирует конкретный голос человека и использует его для точной настройки распознавания речи этого человека, что приводит к повышенной точности. Системы, которые не используют обучение, называются «независимыми от динамиков» системами. Системы, которые используют обучение, называются «зависимыми от громкоговорителей».

Приложения распознавания речи включают голосовые пользовательские интерфейсы, такие как голосовой набор (например, «Домашний звонок»), маршрутизация звонков (например, «Я хотел бы сделать вызов для сбора»), управление домашним устройством, поиск (например, найти подкаст, где были произнесены конкретные слова ), простой ввод данных (например, ввод номера кредитной карты), подготовка структурированных документов (например, радиологический отчет), обработка речи в текст (например, текстовые процессоры или электронные письма) и самолеты (обычно называемые прямым голосовым вводом).

Термин распознавание голоса или идентификация громкоговорителя относится к идентификации говорящего, а не к тому, что они говорят. Признание динамика может упростить задачу перевода речи в системах, которые были обучены на голосе конкретного человека или они могут использоваться для аутентификации или проверки личности говорящего как части процесса безопасности.

Наиболее популярные продукты категории Распознавание речи Все продукты категории

Adobe Voco

Adobe