Направления развития технологии

Направления развития технологии

Несколько тенденций технологии разжигают интерес к голосовым порталам. Наиболее интересной является голосовая технология, развившаяся с головокружительной скоростью за последние несколько лет. Большинство аналитиков прогнозируют ее дальнейшее развития со скоростью 31% в год, который уже наблюдается с 1999 по 2004.

Программы автоматического распознавания речи (ASR)

Автоматическое распознавание речи (ASR) быстро становится одним из основных направлений. Ранние голосовые приложения распознавали лишь небольшой набор из 20-30 слов, но точность и размер словаря механизмов ASR сейчас серьезно увеличились, чему способствовали улучшенные алгоритмы, серьезное увеличение вычислительных мощностей и уменьшение затрат. Сегодняшние речевые системы поддерживают общеупотребительные фразы и не требуют предварительного обучения.

Ведущими поставщиками ПО распознавания речи являются IBM, Nuance, Philips Electronics NV, а также SpeechWorks International. В США популярны поддерживающие несколько языков программы от Nuance и SpeechWorks.

Обработка связной речи (CSP)

Технология CSP из семейства продукции Dialogic не требует специфических аппаратных средств для работы с речью. CSP оптимизирует производительность централизованных механизмов распознавания речи путем разделения обрабатываемых данных на два потока - телефонных плат (аналоговых, T1, E1) и ЦП центрального компьютера. Из-за того, что CSP поддерживает аппаратные средства из семейства продуктов Dialogic, она используется при препроцессорной обработке данных; для распознавания речи лучше подходит централизованная система.

Системы, созданные на основе CSP, обеспечивают большую мощность, так как разгружают ЦП благодаря модулям обработки цифрового сигнала (DSP) - таких как высококачественный гаситель эха, детектор голосовой активности (VAD), преречевая буферизация. Это позволяет освободить процессор от бесполезной продолжительной обработки бесполезных данных, например, тишины.

Поддерживая до 120 портов на плату, программное обеспечение CSP обладает унифицированным программным интерфейсом (API) для расширенных возможностей по масштабированию системы. Разработчики могут добавлять сотни портов для речи, при этом все равно функции распознавания речи будут выполняться эффективно и качественно. Положительным моментом также является огромная экономия на инфраструктуре и развертывании системы.

Преобразование текста в речь

Как только информация получена, ее нужно передать пользователю. Одним из способов является преобразование текста в речь (TTS). TTS все больше и больше используется для воспроизведения по телефону текстов электронных писем и содержания страниц, а в будущем он будет играть еще более важную роль. Реальное использование TTS, как, например, чтение электронной почты по телефону, возможно с использованием препроцессорных средств, поддерживающих так называемые "грязные" данные - акронимы, контрактуры, изменения интонации. Lernout & Hauspie является ведущим производителем TTS с мультиязыковой поддержкой.

VoiceXML

Так же, как при росте Интернета возникла необходимость в разработке стандарта HTML, при продвижении голосовых услуг необходимо принятие для них своего универсального стандарта.

Voice eXtensible Markup Language (VoiceXML) является главным стандартом для голосовых услуг. Он позволит провайдерам предлагать пользователям в сети услуги, имеющие голосовой интерфейс. Он поддерживает синтезированную речь для TTS, голосовой ввод, распознавание двухтонального многочастотного набора (DTMF), запись голосового ввода, управление с телефона. Предприятия могут создавать автоматизированные голосовые сервисы с помощью той же технологии, которую они используют для создания визуальных Веб-узлов, серьезно снижая затраты на разработку и информирование пользователей телефонов о новых услугах. Так как используются устоявшиеся Веб-технологии, интеграция с серверными базами данных проходит аналогично приложениям HTML.

VoiceXML, работы над которым начались в AT&T Bell Laboratories, совмещает в себе языки разметки Lucent и AT&T Markup, а также SpeechML от IBM и VoxML™ от Motorola. Большинство ведущих разработчиков в сфере голосовых языков являются участниками форума VoiceXML.

Новые способы тестирования

Успех голосовых приложений зависит от таких факторов, как голосовые подсказки или других интерактивных моментов. Поэтому важно уметь своевременно применять усвоенные уроки в новых версиях приложений.

Провайдеры голосовых технологий создали мощные инструменты для ускорения развертывания. Один высокоуровневый апплет, к примеру, содержит множество данных о методе работы приложения, наиболее часто используемых функциях. Это может ускорить процесс создания конечного приложения с 30 человек-лет до месяцев и даже недель.

[Назад ][Содержание ][Вперед ]