На рынке речевых технологий - новые потрясения. Только-только началась широкая разработка приложений распознавания речи на базе VoiceXML, как появляется потенциально конкурирующий стандарт, поддерживаемый - кем вы думаете? - корпорацией Microsoft.
С тех пор как World Wide Web Consortium примерно пару лет назад утвердил стандарт VoiceXML 1.0, он используется разработчиками для интеграции речевых технологий в разнообразные приложения, включая ПО управления взаимодействием с клиентами.
Однако интерес к многомодальным приложениям, сочетающим распознавание речи с другими формами ввода информации (при помощи клавиатуры, пера или набора цифровых кнопок) побудил ряд компаний, в том числе Microsoft, поддержать проект SALT Forum (Speech Application Language Tags - теги языка речевых приложений). И теперь вокруг SALT и VoiceXML консорциума W3С формируются два разных лагеря.
По одну сторону находится группа во главе с IBM, Motorola и Opera Software, представившая в органы стандартизации W3C предложение объединить VoiceXML с XHTML (eXtensible HTML - расширяемый HTML). Она призывает разработчиков создавать многомодальные приложения, размечая одну и ту же страницу посредством VoiceXML для речи и XHTML для текста и графики.
Данное предложение закладывает фундамент для эффективного объединения протоколов, и, по-видимому, W3C скоро сформирует рабочую группу для обсуждения этого проекта.
По другую сторону находятся приверженцы SALT: Microsoft, Cisco Systems, Comverse, Intel, Philips Electronics и SpeechWorks International.
"С позиций пользователей технологии мы считаем, что лучший вариант, - открытые стандарты. И, похоже, VoiceXML и XHTML развиваются в этом направлении", - сказал Джоан Мэдден, менеджер проекта из United Parcel Service of America (Махуа, шт. Нью-Джерси).
UPS использует ПО распознавания речи, разработанное фирмой Nuance Communications. Эта технология позволяет компании обрабатывать до 80% клиентских заявок, не прибегая к прямым контактам между клиентами и операторами.
Мнение специалистов UPS разделяют и в других организациях. "Нам выгодно утверждение стандарта, - заявил Рой Пробус, аналитик корпорации WebMD (Нэшвил, шт. Теннеси). - Тогда мы сможем свободно менять поставщиков технологий, зная, что это не потребует переработки системы".
WebMD использует технологию распознавания речи корпорации Edify для автоматизации обслуживания клиентов в центре обработки телефонных вызовов. Сегодня клиент отдает голосовую команду и система переключает линию на соответствующего оператора. В будущем же WebMD планирует построить полностью автоматизированную систему, умеющую отвечать на вопросы при помощи базы знаний.
Edify (Санта-Клара, шт. Калифорния) относится к числу 18 компаний, разрабатывающих речевые приложения и недавно заявивших о поддержке SALT Forum. Однако она, как и многие другие фирмы, пристально следит за тем, что происходит в лагере VoiceXML.
"Принцип или-или здесь не уместен, - отметил технологический руководитель Edify Кен Уолн. - Мы считаем SALT более перспективным вариантом, чем VoiceXML, но если приживутся оба стандарта, то оба и будем поддерживать". По словам Уолна, эти стандарты пытаются решить одну и ту же проблему: органично задействовать голосовые функции при минимальных усилиях по доучиванию разработчиков. Стандарт, за который ратуют IBM, Motorola и Opera, объединяет на одной странице разметку VoiceXML и XHTML. А SALT предполагает добавление к существующим языкам Web-разметки - HTML и XML - специальных речевых тегов.
"VoiceXML ближе к речевому миру; SALT ближе к миру многомодальных приложений, - считает Уолн. - Но оба подхода имеют одну цель - интеграцию Web и голоса, и они со временем сблизятся и превратятся в один стандарт".
Даже компания SpeechWorks (Бостон) - разработчик ПО распознавания речи и один из учредителей SALT Forum - поддерживает в речевых системах VoiceXML.
"Если мыслить философски, то оба стандарта двигаются в одном направлении", - сказал Роб Кассел, менеджер SpeechWorks по продуктам для новых технологий. По его информации, SpeechWorks переключилась на поддержку SALT, будучи не удовлетворена ранними попытками скомбинировать VoiceXML с HTML для многомодальных приложений. Однако он еще не пришел к окончательному мнению относительно нынешнего предложения в W3C по объединению VoiceXML и XHTML.
Хотя VXML и SALT проектировались для двух различных платформ, конкуренция между ними неизбежна. Microsoft заранее обвиняют в том, что SALT помешает дальнейшему развитию технологического направления, которое и так встречает на своем пути много препятствий.
"С появлением SALT мы получаем еще одну концепцию решения определенных задач, - отметил начальник подразделения голосовых систем IBM и член VXML Forum Найджел Бек. - Нам же требуется единый унифицированный подход".
Директор подразделения мультимедийных (телефонных) серверов Intel и член SALT Forum Глен Шайрс полагает, что оба языка имеют свои сильные стороны. VXML лучше подходит для телефонии, а SALT - для мультимодальных устройств. Однако на вопрос о том, придется ли разработчикам изучать две различные среды для создания полнофункционального голосового приложения, он ответил: "Все, что вам необходимо, можно сделать при помощи SALT".
Эту точку зрения разделяет и сотрудник подразделения Microsoft .NET Speech Technologies Джеймс Мастан. Он отмечает, что спецификации VXML создавались для служб на базе IVR. Поэтому неизвестно, подойдет ли VXML для карманных устройств.
"Технически очень сложно обеспечить поддержку мультимодального оборудования, отталкиваясь от функций обработки голосовой информации (VXML), - подчеркнул Мастан. - Гораздо проще взять уже существующий язык разметки HTML и добавить туда несколько несложных элементов".
Найджел Бек тем не менее полагает, что консорциуму W3C удастся создать мультимодальные расширения VXLM.
На начальном этапе авторы стратегии, построенной на основе инициативы VXML, отталкивались от того простого факта, что по темпам развития отрасль сотовых телефонов значительно опережает все остальные сегменты беспроводного рынка. Таким образом, задача VXML заключается в том, чтобы обеспечить доступ Web-служб к этому высокоприбыльному каналу сбыта. Но что если сторонники SALT также замахнутся на этот высокодоходный рынок?
"На самом деле окончательный выбор компаний, специализирующихся на высоких технологиях, будет определяться наличием реальных предложений, - заметил президент компании TMA Associates Билл Мейсел. - Поскольку рынок компактных устройств продолжает развиваться, корпорация Microsoft может позволить себе подождать три-четыре года, пока SALT не выйдет на более высокий качественный уровень. Но для большинства тех, кто занят в телефонном бизнесе, подобный подход неприемлем".
"SALT Forum планирует представить свой стандарт в международный орган стандартизации. Если это будет W3C, то часть вопросов, наверное, найдет решение", - надеется Кассел.
По словам Дейва Раггетта, члена консорциума W3C и его главного эксперта по речевым и многомодальным приложениям, он убежден, что если SALT Forum представит предложения в W3C, то любые расхождения между SALT и спецификацией VoiceXML/XHTML удастся уладить.
"Вокруг этого вопроса поднялось много шума, но все это, по существу, только политика", - заверил Раггетт, помогавший в проведении разгоревшихся в 1995 г. дебатов по стандартам между Microsoft и Netscape Communications и в итоге приведших к утверждению универсальных норм HTML.
"Этим компаниям надо спросить самих себя, хотят ли они иметь четкие стандарты или нет? - продолжает Раггетт, ныне старший архитектор фирмы Openwave Systems (Гертс, Великобритания). - Все же думаю, что они в этом заинтересованы, и тогда W3C - самое подходящее место для такой работы".
Однако этот оптимизм разделяют не все.
"W3C можно было бы взять полезные элементы обоих подходов, и тогда появится перспектива движения вперед на основе общего стандарта", - сказал Мэтт Коллан, директор по корпоративному маркетингу фирмы Nuance (Менло-Парк, шт. Калифорния). Nuance решила поддерживать группу VoiceXML/ XHTML. По словам Коллана, у SALT, возможно, есть достоинства в плане технологии, но группа во главе с IBM выбрала более правильный подход, сразу обратившись в W3C. "Именно там надо решать подобные вопросы, а SALT Forum - это не тот путь", - заявил он.
С ним согласен Фрэн Рабук, руководитель по практическим решениям группы мобильных систем фирмы Alliance Consulting (Филадельфия): "Я бы предпочел то, что исходит от W3C, поскольку так уж исторически сложилось, что это нейтральная территория. Мы меньше всего заинтересованы в новой войне стандартов".
К тому же большинство организаций считают технологию
многомодальных приложений далекой от зрелости, над ней еще
много придется поработать, тогда как технология распознавания
речи уже достигла совершеннолетия.
"Самое скверное, что споры вокруг многомодальных стандартов создают неразбериху на рынке VoiceXML, - отметил Рабук. - У голосовых технологий сегодня имеются вполне реальные возможности, и это позволяет создавать системы, где в многомодальных функциях пока нет нужды".
Берн Эллиот, аналитик фирмы Gartner (Стамфорд, шт. Коннектикут), уверен, что многомодальные приложения выйдут на широкую дорогу лишь через пару лет и поэтому инициатива SALT понапрасну отвлекает внимание некоторых организаций, заинтересованных в безотлагательном развертывании речевых приложений. По его мнению, позиция SALT Forum является контрпродуктивной.
"В нынешних условиях предложение SALT вряд ли поможет корпоративным пользователям внедрять речевые технологии, - сказал Эллиот. - Оно может замедлить прогресс. Как правило, ранние этапы разработки стандартов протекают в тиши кабинетов, без большой огласки. А мы являемся свидетелями политизации чисто технического исследования. Самый конструктивный вариант - если бы группы SALT и XML начали совместную продуктивную работу в рамках W3C".
Однако нынешние речи светил из IBM и Microsoft не оставляют сомнений в том, что склока лишь усиливается.
"На рынке вполне достаточно места для сосуществования многих стандартов, - заявляет Джемс Мастон, менеджер по продуктам из группы речевых технологий для .Net корпорации Microsoft (Редмонд, шт. Вашингтон). - VoiceXML сыграл важную роль в своей изначальной области применения - телефонии, а нашей конечной целью являются будущие интересы пользователей".
SALT, по словам Мастона, сможет превратить шесть миллионов нынешних Web-разработчиков в создателей приложений с речевыми функциями, так как этот проект построен на уже известных им технологиях Web-разработок. И он справится с этим гораздо быстрее, чем VoiceXML вкупе с XHTML.
Как сказал Мастон, SALT является одной из частей стратегии Microsoft, стимулирующей внедрение технологий "говорящего" Интернета. Другая часть - создание платформы для развертывания таких технологий на базе .Net.
В лагере же IBM гневно заявляют, что все это - нечестная игра и Microsoft лишь хочет заиметь еще одну монопольную платформу. "По-моему, вопрос достаточно ясен, об этом свидетельствует вся их история," - сказал Уильям Осборн, главный управляющий группы IBM Voice Systems (Бока-Рейтон, шт. Флорида).
По словам Осборна, IBM поддерживает не новый стандарт, а только комбинацию уже действующих стандартов - VoiceXML и XHTML. Поданный в W3C документ предлагает, как их лучше всего объединить. "Поскольку оба стандарта, VoiceXML и XHTML, все время совершенствуются, люди могут продолжать ими пользоваться, - заявил Осборн. - Новый стандарт нам не нужен. Добавляя голосовые теги, вы фактически расширяете синтаксис, а сегодня уже есть готовый стандарт для изменения синтаксиса. Тогда как SALT Forum хочет все это выбросить в мусорную корзину и начать заново".
Место SALT, считает Осборн, на столе для разработки
многомодальных стандартов при условии, что его сторонники
будут работать вместе с W3C. "Мы не хотим затевать дискуссию,
кто лучше. Нам не нужны два стандарта и не надо, чтобы люди
под них разрабатывали разные программы, - пояснил он. -
Давайте все это направим в рабочую группу W3C по многомодальным
приложениям и займемся созданием единого стандарта".