КАК ЭТО ДЕЛАЕТСЯ

Основным аппаратным элементом всех прикладных систем компьютерной телефонии являются многоканальные голосовые платы, которые оцифровывают, сжимают и воспроизводят речь, обеспечивают телефонное соединение (набирают номер, распознают состояние соединения и обеспечивают разъединение линии), а также распознают сигналы тонового набора. С их помощью оказывается возможным организовывать голосовые меню, представляющие собой основной структурный элемент диалога с пользователем. Голосовое меню работает следующим образом: абонент прослушивает сообщение о возможных на данный момент действиях и выбирает необходимое действие из прослушанного списка, набирая определенную цифру или комбинацию цифр на своем телефонном аппарате. Например, голосовое меню для сервисной службы авиакомпании может иметь следующий вид: "Благодарим за звонок в компанию Ортоавиа. Если вам нужна информация о вылете рейсов, наберите "1"; если вам нужна информация о прибытии рейсов, наберите "2"; если вы желаете заказать билеты, наберите "3"; если вы хотите побеседовать с оператором, наберите "0". Из таких меню можно строить иерархические системы, поэтому в целом набор осуществляемых действий может оказаться достаточно мощным - и это несмотря на то, что одно голосовое меню, по возможности, не должно содержать более трех опций.

Для реализации самых простых телефонно-компьютерных приложений ничего, кроме голосовых плат, и не требуется. Более того, в простых ситуациях, при малой нагрузке на систему, голосовые платы не обязаны быть многоканальными. Благодаря удешевлению аппаратных средств DSP и повышению их доступности, в последнее время появилось что-то вроде компьютерно-телефонного ширпотреба - дешевые одноканальные голосовые платы, которые позволяют "маленьким организациям выглядеть как большие". Набор возможностей таких плат весьма ограничен как на аппаратном уровне, так и на программном уровне. По причине отсутствия универсального программного обеспечения пользователь вынужден применять ту программу, которая поставляется вместе с платой, а в ней, как легко понять, реализованы далеко не все возможные приложения, а только те, которые представляются необходимыми компании-производителю.

Рисунок 3.
Центр обслуживания телефонных вызовов.

Другие аппаратные элементы систем компьютерной телефонии - это платы для коммутации ресурсов, различные интерфейсные платы для работы с цифровыми телефонными каналами высокой пропускной способности, платы-преобразователи текст-речь, факсимильные платы, преобразователи пульс-тон и схемы для распознавания речи. Аппаратные конфигурации с использованием этих плат изображены на рис. 3 и рис. 4. В случае конфигурации, указанной на рис.3, телефонные агенты обращаются к базе данных со своих рабочих станций.

Рисунок 4.
Система диалогового голосового взаимодействия.

Система, конфигурация которой представлена на рис. 4, автоматически обращается к базе данных без участия оператора. Голосовой ответ абоненту формируется либо из заранее записанных речевых фрагментов, либо синтезируется с использованием преобразования текст-речь.

Все голосовые платы рассчитаны на распознавание сигналов тонового набора - каждая цифра кодируется звуковым сигналом, представляющим собой сочетание двух сигналов определенных частот. В России же принят пульсовой набор, при котором каждая цифра кодируется серией разрывов цепи между абонентским телефонным аппаратом и телефонной станцией. Понятно, что через коммутационную аппаратуру эти сигналы не проходят, и на противоположном конце телефонного соединения прослушиваются только характерные щелчки, не распознаваемые стандартными голосовыми платами. Из этой ситуации возможны два выхода.

Во-первых, можно вообще отказаться от использования набора цифр, и подавать вес необходимые команды просто голосом. При этом используется технология распознавания речи. Несмотря на то, что в общем случае эта проблема не решена, существуют два частных случая, когда распознавание речи работает достаточно устойчиво. Первый случай - это работа с настройкой на голос конкретного пользователя. Современная техника позволяет распознавать при этом несколько тысяч, если не десятков тысяч слов, что вполне достаточно в большинстве мыслимых ситуаций. При этом, однако, система не в состоянии распознавать голос другого человека вообще. Такая техника полезна для приложений, имеющих конкретного хозяина, который может отдавать голосом достаточно сложные команды.

Для систем публичного пользования более полезна методика распознавания голоса без настройки на конкретного человека. Словарь такой системы может содержать около десятка или нескольких десятков слов (как правило, это числительные и слова типа "да" - "нет", реже - названия всех букв алфавита), но зато допускается распознавание речи любого абонента. Создание словаря - дело сложное и дорогое, поскольку требуется проанализировать и обобщить характерные черты речи по репрезентативной выборке из нескольких тысяч носителей языка. Это может показаться удивительным, однако системы распознавания речи без настройки на конкретного человека созданы к настоящему моменту для нескольких десятков языков. Насколько мы можем судить по русскому словарю, работают эти системы достаточно устойчиво.

Другим способом решения проблемы пульсового набора является использование преобразователей пульс-тон. Их работа основана на распознавании характерных щелчков в линии, в которые превращаются сигналы пульсового набора, пройдя через коммутационную аппаратуру телефонной станции. Эта задача, бесспорно, проще распознавания речи, но тем не менее весьма сложна, особенно для младших цифр (передаваемых малым числом щелчков). Простейшие преобразователи пульс-тон просто включаются в линию перед голосовыми платами; они пропускают через себя все сигналы, кроме щелчков пульсового набора, заменяя последние на соответствующие тональные сигналы. Более сложные преобразователи обмениваются информацией с голосовыми платами в цифровом виде. Для работы многих преобразователей требуется так называемая "тренировка" - перед началом работы с голосовым меню абонент должен набрать на своем аппарате цифру "9". Получающиеся щелчки используются для настройки преобразователя на параметры конкретного соединения, что облегчает дальнейшее распознавание сигналов. Для лучших преобразователей уровень распознаваемости сигналов пульсового набора при использовании тренировки близок к 100%.

Лидером рынка и законодателем мод в области компьютерное телефонии является американская корпорация Dialogic, которая контролирует около 70% рынка, а ее технические решения часто становятся чем-то вроде отраслевого стандарта. Слова "Dialogic-совместимая плата" для специалиста по компьютерной телефонии звучат так же, как "IBM-совместимый компьютер". Другим производителем является компания Natural MicroSystems, которая также разработала ряд отраслевых стандартов, поддерживаемых многими поставщиками. Кроме этих двух компаний, аппаратные средства для компьютерной телефонии выпускают фирмы Pika, Linkon, Brooktrout (известная в первую очередь благодаря своим аппаратным средства поддержки обмена факсимильными сообщениями), Aerotel (Голон, Израиль - эта компания выпускает преобразователи пульс-тон).

Компьютерная Телефония получила настолько широкое признание в мире, что без нее стало невозможно себе представить дальнейшее развитие современных телекоммуникаций. Это неизбежно привлекло внимание крупнейших мировых производителей оборудования IT. В 1999 г. компания Dialogic была приобретена корпорацией Intel, что с одной стороны еще раз свидетельствует о качестве и лидерстве Dialogic, а с другой - обещает еще более интенсивное развитие технологии.

Таким образом, сегодня Intel предлагает самый широкий спектр оборудования КТ: от простейших двухканальных плат с аналоговым интерфейсом до мощнейших плат формата CompactPCI с 4-мя интерфейсам E1 и оборудования сопряжения с ОКС7.

ГДЕ ЭТО ИСПОЛЬЗУЕТСЯ

Оборудование, описанное в предыдущем разделе, по существу, представляет собой аппаратный конструктор, из которого можно набирать конфигурации для определенных приложений. Такая аппаратная гибкость и открытость влечет за собой гибкость и открытость программного обеспечения для разработки приложений. Действительно, в настоящее время существует большое количество генераторов приложений самой разной степени сложности - от генераторов приложений до гибких процедурных языков. Первые используют графические интерфейсы с пользователем, которые представляют собой набор стандартных блоков, отображаемых на экране в виде иконок. Пользователь просто рисует блок-схему, а программа-генератор создает приложение по этой схеме. Вторые позволяют создавать эффективно работающие приложения, в которых учитываются все тонкости работы аппаратуры. Помимо "спецсредств", для создания приложений можно пользоваться и просто языками высокого уровня, поскольку изготовители приложений, как правило, поставляют вместе со своими изделиями библиотеки процедур для всех основных операционных систем (например, Dialogic поддерживает MS-DOS, OS/2, Windows NT, Windows 95, UNIX, NetWare).

Простое перечисление разнообразных приложений компьютерной телефонии может занять несколько страниц. К рассмотрению конкретных примеров приложений, имеющих отношение к российской действительности, а также интересных пока лишь с теоретической точки зрения мы перейдем чуть позже, а сейчас обратимся к основным функциям компьютерно-телефонных систем. Конкретные приложения, даже самые сложные, можно рассматривать как комбинацию этих функций в применении к конкретной ситуации.

 

Hosted by uCoz