Модульные системы компьютерной телефонии были разработаны и впервые применены в США чуть больше пяти лет назад. С тех пор в этой стране начался настоящий бум компьютерной телефонии, которая спользуется почти во всех средних и крупных компаниях. В европейских странах распространенность компьютерной телефонии существенно меньше - оборудование разрабатывалось под американский стандарт, отличный от используемого в Европе. Тем не менее все ведущие производители аппаратных средств для компьютерной телефонии стали проявлять сейчас заинтересованность в европейском рынке - появились платы, которые можно настраивать на систему сигналов, принятую в телефонной сети конкретной страны. Интерес к компьютерной телефонии в России сегодня весьма велик, однако часто высказываются опасения относительно совместимости аппаратных средств с местными телефонными сетями. Бесспорно, определенные проблемы здесь имеются, однако положение не является безнадежным. В России появились первые коммерческие компьютерно-телефонные приложения, и можно сказать, что отечественная компьютерная телефония делает в этом направлении хотя и первые, но уверенные шаги.
Как известно, в США и ряде других стран принята система набора DTMF, а в Японии, странах Западной Европы и России - система импульсного набора номера. Учитывая, что основные компании-производители работали для американского рынка, все платы для компьютерной телефонии распознают набор DTMF, а с импульсным набором дело обстоит несколько сложнее. Тем не менее абсолютное большинство телефонных аппаратов во всем мире используют импульсный набор, поэтому, по мере насыщения внутриамериканского рынка, производителей начинает беспокоить проблема взаимодействия телефонов импульсного набора с голосовыми платами. Эта проблема может быть решена двумя способами: путем использования преобразователей пульс-тон либо преобразования речи. В первом случае абонент набирает все необходимые цифры на своем телефонном аппарате, как если бы это был телефон с тоновым набором, во втором - произносит все цифры голосом, а система их распознает и осуществляет соответствующие действия.
Разрывы в цепи между телефонным аппаратом и станцией коммутационным оборудованием не передаются, поэтому на противоположном конце линии прослушиваются только отдельные щелчки, распознавание которых связано с решением целого ряда проблем. Во-первых, следует выделять "полезные" щелчки на фоне помех в линии, во-вторых, поскольку набор одной цифры в импульсной системе может занимать относительно продолжительное время, это необходимо учитывать при организации обработки ответа абонента в процессе озвучивания голосового меню. В-третьих, для плат-преобразователей импульс-тон так же, как и для голосовых плат, характерна проблема ложного распознавания (talk-off). Дело в том, что некоторые звуки человеческого голоса могут быть восприняты как сигналы набора-тона DTMF или щелчки импульсного набора, а оборудование, в этом случае, начнет выполнять действия, отнюдь не затребованные абонентом. Кроме этого, во многих телефонных сетях сигнал, генерируемый микрофоном и передаваемый по линиям на телефонную станцию, возвращается обратно и прослушивается в наушнике телефонной трубки. В результате может возникнуть ситуация, когда talk-off возникает в процессе озвучивания сообщения. Проблемы ложного распознавания и выделения полезного сигнала на фоне помех в линии особенно заметно проявляются при работе с маленькими цифрами - единицей и двойкой.
Качество распознавания существенно повышается при работе с так называемой "тренировкой", когда перед началом работы с голосовым меню абонент набирает цифру "0" на своем телефонном аппарате. Эта цифра кодируется десятью разрывами, получающимися в результате десяти щелчков, а этого оказывается вполне достаточно для самонастройки преобразователя на параметры данной линии.
Большинство преобразователей пульс-тон выпускается в виде отдельных плат, среди производителей которых компании Aerotel, Pika, Rhetorex и Brooktrout. Преобразователи можно включать в систему разными способами, например четырехканальный преобразователь Aerotel можно подключать к телефонной сети перед голосовой платой. Данная плата преобразует щелчки импульсного набора в сигналы DTMF, а вся остальная информация передается на вход голосовой платы без изменений. Удобство такой системы в том, что для перенастройки приложения к работе с преобразователями не требуется каких-то серьезных усилий по программированию - достаточно только увеличить тайм-ауты ожидания очередной цифры, поскольку импульсный набор занимает существенно больше времени, чем DTMF, и предусмотреть игнорирование тренировочной цифры в приложении. Другой способ включения преобразователя в систему - это использование цифровой шины PEB для передачи информации о набранных пользователем цифрах. По этому принципу работает восьмиканальная плата Aerotel.
Использование отдельной платы для распознавания импульсного набора связано с некоторыми дополнительными расходами и не всегда удобно. Гораздо более заманчивой является перспектива включения программного обеспечения распознавания импульсного набора в состав загружаемого программного обеспечения голосовых плат. В этом случае разработчик вообще не заботиться о том, какой телефонный аппарат имеется у абонента - надо только предусмотреть набор тренировочной цифры в начале диалога. Компания Dialogic недавно объявила о появлении такого программного обеспечения, и, возможно, скоро все ее голосовые платы будут способны распознавать импульсный набор. Преобразователи, протестированные при работе с российскими линиями связи, дали практически стопроцентный уровень правильности распознавания импульсного набора (при условии, что щелчки набора поступали на вход преобразователя) как по внутригородским, так и по междугородным звонкам. Попутно выяснилось, что оборудование московской городской телефонной сети не всегда передает щелчки импульсного набора. Данное обстоятельство вывело на первый план технологию распознавания речи.
Словарь распознавания речи для русского языка допускает пока только распознавание всех цифр и простейших голосовых команд типа "да", "нет" и "стоп". Произносить цифры следует ровным, спокойным голосом только после получения звукового сигнала. Словари для распознавания речи делятся на подсловари, чтобы исключить необходимость разделения близких по звучанию слов. В одном голосовом меню можно использовать только слова из одного подсловаря.
В качестве примера аппаратной базы для распознавания речи можно привести плату Dialogic VR/160, обеспечивающую распознавание речи по 16 каналам. Конкретное число обрабатываемых каналом определяется количеством установленных на плате плат-приставок, каждая из которых обеспечивает работу с четырьмя каналами. Распознанные цифры передаются по шине PEB.
На рис. 32 приведен пример конфигурации прикладной системы на базе платы распознавания речи. Входные звонки поступают на 24-канальную голосовую плату D/240SC. Данная плата выполняет озвучивание сообщений для пользователя и воспринимает ответы пользователя, оцифровывая их. В тот момент, когда приложение ожидает ответа от пользователя, оцифрованная речь перенаправляется на вход платы распознавания речи VR/160 при помощи шины PEB. При этом любой временной слот PEB может быть подключен к любому входному каналу платы, поэтому число каналов распознавания речи может быть существенно меньше числа входных голосовых каналов.
Рисунок 32.
Пример конфигурации
компьютерно-телефонной системы на 24 входные линии с использованием
распознавания речи.
Использование специальных плат распознавания речи сопряжено с дополнительными расходами, однако позволяет выполнять все необходимые операции без использования центрального процессора компьютера, а в результате система компьютерной телефонии может быть установлена уже на ПК класса 386. Избежать расходов на приобретение дополнительной платы можно, переложив задачу распознавания речи на центральный процессор компьютера. В частности, недавно компания Voice Control Systems (VCS) представила программу распознавания речи для компьютерной телефонии, где используется именно такой подход. Стоимость такой программы существенно меньше дополнительной платы, однако при ее применении значительно возрастают требования к системным ресурсам компьютера. Кроме того, данная программа обеспечивает распознавание не более четырех голосовых каналов одновременно.
Несмотря на то что компьютерная телефония появилась в России совсем недавно, интерес к ней проявляет большое число отечественных компаний. Имеются и первые коммерческие прикладные системы, большинство из которых написано на языке Си, однако разработчики начинают осознавать необходимость перехода на процедурные языки, поэтому не исключено, что в ближайшем будущем появятся и более сложные, разветвленные системы.
Наиболее популярны сейчас банковские и офисные системы. Старейшим представителем банковских систем на российском рынке является система LanHello компании Ланит. Данная система позволяет получить информацию о текущем курсе валюты, выяснить остаток средств на своем счете и получить соответствующую информацию по факсу. Система работает только с тоновым набором, поэтому для входа в нее необходим либо соответствующий телефонный аппарат, либо специальное устройство-бипер, позволяющее передавать сигналы тонового набора с обычного дискового телефона.
Похожая система разработана и компанией Светец, которая помимо банковской системы предлагает систему голосовой почты для офиса, позволяющей абоненту оставлять сообщения для сотрудника, отсутствующего в данный момент на рабочем месте. Набрав номер сотрудника, абонент получает соединение либо со своим адресатом, либо с его почтовым ящиком. В последнем случае абонент может "наговорить" сообщение, а сотрудник, вернувшись на свое место, прослушивает послание, набрав соответствующий код на своем телефонном аппарате.
Появилась в России и первая система, рассчитанная на работу с распознаванием голоса. Компания Империя предлагает приложение для быстрого голосового набора номера на мобильном телефоне. Проблема тут в следующем - владельцу мобильного телефона часто бывает необходимо позвонить кому-либо, не слишком отвлекаясь, например, от ведения автомобиля. При этом удобно набирать номер, не глядя на наборную панель телефона - проще всего было бы просто поочередно произнести цифры необходимого номера. Именно это и позволяет сделать данная система.
СКТБ "Омега" полностью закончило разработку и предлагает покупателям систему обеспечения безопасности "Диалог", рассчитанную в первую очередь на различные опасные производства. Данная система позволяет записывать телефонные переговоры с указанием даты, времени и номера, с которого велись переговоры. Максимальное количество каналов на одном компьютере - 32, переговоры записываются на диск, а при возникновении аварийной ситуации, записи переговоров могут использоваться для расследования причин происшествия.
Компания "Новые системы коммуникаций" предлагает систему отсылки факсов по требованию. Компания организовала центр факсимильной информации, абонент которой может получить широкий спектр информации рекламно-коммерческого характера. Система обеспечивает поиск по разделам. Кроме того, в планах компании разработка банковских систем, системы электронного офиса, использующие электронных секретарей и голосовую почту.
Компания "Форкоп" объявила о намерении разработать коммерческий продукт для организации центра телефонного обслуживания на платформе Windows NT. Предполагается, что первая версия этой разработки будет готова осенью 1996 года. Данный продукт будет обеспечивать организацию очереди входных звонков и прочие функции, характерные для центров телефонного обслуживания.
Компания "Орасофт" анонсировала начало работ над системой компьютерной телефонии для сотовой телефонной компании. Система будет осуществлять следующие функции: выполнение справочно-информационных задач, коммутация входящих звонков, выполнение маркетинговых функций (обзвон потенциальных клиентов, проведение опросов, регистрация пожеланий клиентов), оформление счетов с их доставкой по факсу, обзвон абонентов по заданному списку, а также выполнение ряда других вспомогательных задач.
В целом можно сказать, что интерес к компьютерной телефонии в России, как среди разработчиков, так и среди конечных пользователей, растет просто на глазах. Сегодня можно выделить две основные проблемы: необходимость обработки импульсного набора или распознавания речи и недостаточное распространение современных средств разработки приложений.