4.1.2. Базовая архитектура стандарта H.323
4.1.4. Мультимедиа шлюз (Gateway) H.323
4.1.5. Контроллер зоны (Gatekeeper, Привратник, Конференц-менеджер)
4.2. Речевые кодеки для IP-телефонии
Стандарты являются критическим фактором для мира IP-телефонии. Одна из наиболее важных областей стандартизации - протокол обмена сообщениями в IP-телефонии.
Ранние решения IP-телефонии использовали для связи друг с другом закрытые протоколы. Оба участника беседы должны были иметь аналогичные продукты. Intel и Microsoft возглавили направление на разработку стандартов на основе H.323, рекомендованного International Telecommunications Union (ITU). Этот стандарт формулирует технические требования для передачи аудио- и видеоданных по сетям передачи данных.
H.323 включает в себя:
Стандарты на видео кодеки не требуются для обработки телефонных звонков, но существуют внутри той же системы стандартов.
Технические требования к голосовым кодерам включают требования, такие как:
При передаче в режиме реального времени до 30% пакетов могут потеряться или опоздать (что в режиме реального времени одно и то же). Хорошее приложение IP-телефонии должно возместить нехватку пакетов, восстановив потерянные данные. Сам алгоритм кодировки также оказывает влияние на восстановление данных. Сложные алгоритмы увеличивают стоимость необходимого оборудования. Наиболее популярным алгоритмом кодирования является G.723.1.
Еще одна особенность состоит в том, что системы IP-телефонии должны иметь возможность поддерживать разные кодеры и добавлять новые по необходимости. H.323 был первоначально разработан для локальных вычислительных сетей, так что переменная ширина полосы частот и время задержки Интернет уменьшают полезность некоторых элементов H.323. По умолчанию голосовым кодеком в стандарте H.323 является G.711. Однако ширина полосы частот в 64 kbps, требуемая в G.711, неприемлема при использовании в Интернет, т.к. большинство пользователей Интернета имеет канал заведомо меньшей ширины. Но даже в этом случае многое из стандарта является полезным.
Кроме G.711 стандарт H.323 определяет звуковые кодеки G.722, G.723,G.723.1, MPEG1, G.728, и G.729. Кодеры с низкой шириной полосы частот - G.729 в 8 kbps и G.723 в 5.3/6.3 kbps - вполне подходят для использования в Интернет. В частности, G.723 является одним из нескольких "стандартных" кодеров для IP-телефонии, особенно после того, как Intel, Microsoft и Netscape объявили о поддержке этого кодера. Основной недостаток G.723 состоит в том, что он требует весьма больших ресурсов процессора. Intel, например, определяет 100 MHz Pentium-процессор как минимальный для использования в Интернет-телефонии.
[ наверх ]
4.1. Стандарт H.323 и его архитектура
Рассмотрим более подробно стандарт
H.323, а именно, краткую историю его создания, архитектуру и некоторые особенности.[ наверх ]
В 1990 году был одобрен первый международный стандарт в области видеоконференцсвязи - спецификация
H.320 для поддержки видеоконференций по ISDN. Затем ITU одобрил еще целую серию рекомендаций, относящихся к видеоконференцсвязи. Эта серия рекомендаций, часто называемая H.32x, помимо H.320, включает в себя стандарты H.321 — H.324, которые предназначены для различных типов сетей.Во второй половине 90-х годов интенсивное развитие получили IP сети и Интернет. Они превратились в экономичную среду передачи данных и стали практически повсеместными. Однако, в отличие от ISDN, IP сети плохо приспособлены для передачи аудио и видеопотоков. Стремление использовать сложившуюся структуру IP сетей привело к появлению в 1996 году стандарта H.323 (Visual Telephone Systems and Terminal Equipment for Loc
al Area Networks which Provide a Non-Guaranteed Quality of Service, Видеотелефоны и терминальное оборудование для локальных сетей с негарантированным качеством обслуживания). В 1998 году была одобрена вторая версия этого стандарта — H.323v.2 (Packet-based multimedia communication systems, Мультимедийные системы связи для сетей с коммутаций пакетов). 30 сентября 1999 года была одобрена третья версия рекомендаций, в конце 2000 года ожидается принятие четвертой версии. Сейчас H.323 — один из важнейших стандартов из этой серии. H.323 — это рекомендации ITU-T для мультимедийных приложений в вычислительных сетях, не обеспечивающих гарантированное качество обслуживания (QoS). Такие сети включают в себя сети пакетной коммутации IP и IPX на базе Ethernet, Fast Ethernet и Token Ring.Рекомендации H.323 предусматривают:
Передача аудио- и видеоинформации весьма интенсивно нагружает каналы связи, и, если не следить за ростом этой нагрузки, работоспособность критически важных сетевых сервисов может быть нарушена. Поэтому рекомендации H.323 предусматривают управление полосой пропускания. Можно ограничить как число одновременных соединений, так и суммарную полосу пропускания для всех приложений H.323. Эти ограничения помогают сохранить необходимые ресурсы для работы других сетевых приложений. Каждый терминал H.323 может управлять своей полосой пропускания в конкретной сессии конференции.
Поддержка межсетевых конференций включает в себя средство соединения участников видеоконференции в разнородных сетях (например, IP и ISDN, IP и PSTN).
Платформенная независимость в H.323 подразумевает отсутствие привязки к любым технологическим решениям, связанным с оборудованием или программным обеспечением. Взаимодействующие между собой приложения могут создаваться на основе разных платформ, с разными операционными системами
.Рекомендации H.323 позволяют организовывать конференцию с тремя или более участниками. Многоточечные конференции могут проводиться как с использованием центрального MCU (устройства многоточечной конференции), так и без него.
H.323 поддерживает многоадресную передачу в многоточечной конференции, если сеть поддерживает протокол управления групповой адресацией (такой, как IGMP). При многоадресной передаче один пакет информации отравляется всем необходимым адресатам без лишнего дублирования. Многоадресная передача использует полосу пропускания гораздо более эффективно, поскольку всем адресатам - участникам списка рассылки отправляется ровно один поток.
Стандарты для кодеков аудио- и видеопотоков устанавливаются в H.323 с целью обеспечения совместимости оборудования разных производителей. Вместе с тем стандарт достаточно гибок. Существуют требования, выполнение которых обязательно, и существуют опциональные возможности, в случае использвания которых также необходимо строго следовать стандарту. Помимо этого, производитель может включать в мультимедийные продукты и приложения дополнительные возможности, если они не противоречат обязательным и опциональным требованиям стандарта.
Участники конференции хотят общаться друг с другом, не заботясь о вопросах совместимости между собой. Рекомендации H.323 поддерживают выяснение общих возможностей оборудования конечных пользователей и устанавливают наилучшие из общих для участников конференции протоколов кодирования, вызова и управления.
H.323 конференция может включать участников, конечное оборудование которых обладает различными возможностями. Например, один из участников может использовать терминал лишь только с аудио- возможностями, в то время как остальные участники конференции могут обладать возможностями передачи/приема также видео и данных.
[ наверх ]
4.1.2. Базовая архитектура стандарта H.323
В число "объектов" H.323, как они названы в стандарте, включаются терминалы, мультимедиа шлюзы, устройства управления многоточечными конференциями и контроллеры зоны.(Рис. 4.1)
Рис. 4.1. Базовая архитектура H.323
Терминал (Terminal) оконечное мультимедийное (голос, видео, данные) устройство, предназначенное для участия в конференции.
Мультимедиа шлюз (Gateway) устройство, предназначенное для преобразвания мультимедийной и управляющей информации при сопряжении разнородных сетей.
Устройство управления многоточечными конференциями (Multipoint Control Unit - MCU) — предназначено для организации конференций с участием трех и более участников.
Контроллер зоны (Gatekeeper, Привратник, Конференц-менеджер) — рекомендуемое, но не обязательное устройство, обеспечивающее сетевое управление и исполняющее роль виртуальной телефонной станции.
[ наверх ]
Под терминалом стандарт понимает оборудование конечных точек сети, которое позволяет пользователям общаться друг с другом в реальном времени (Рис. 4.2).
Рис. 4.2. Структура терминала H.323
Терминалы должны поддерживать протоколы H.245 — согласование параметров соединения, Q.931 - для установления соединения и согласования параметров этого соединения, канал RAS (Registration/Admission/Status) взаимодействия с контроллером зоны (Gatekeeper), протокол RTP/RTCP для работы с потоками аудио и видео пакетов, протокол
G.711 для сжатия аудиопотока. Согласно рекомендациям, для терминала H.323 опциональной является поддержка видеокодеков, протокола T.120, и возможностей MCU.Несмотря на то, что стандарт считает функции видео необязательными, все терминалы с видеовозможностями должны поддерживать кодек
H.261, опционально возможна поддержка H.263. H.263 является развитием кодека H.261, видеокартинка, полученная с помощью кодека H.263 обладает лучшим качеством, поскольку используется полупиксельная технология предсказания движения. Кроме того, используемое кодирование по Хаффману оптимизировано для работы с более низкими скоростями передачи. Определено пять стандартных форматов кадров (Табл. 4.1)Формат кадра | Размер в пикселях | H.261 | H.263 |
sub-QCIF | 128x96 | не определено | обязательно |
QCIF | 176x44 | обязательно | обязательно |
CIF | 352x288 | возможно | возможно |
4CIF | 702x576 | не определено | возможно |
16CIF | 1408x1152 | не определено | возможно |
Табл. 4.1 Форматы кадров H.261 и H.263.
[ наверх ]
4.1.4. Мультимедиа шлюз (Gateway) H.323
Согласно H.323, мультимедиа шлюз — это опциональный элемент в конференции H.323. Он может выполнять много различных функций. Типичной его функцией являются задача преобразования форматов протоколов передачи (например, H.225.0 и H.221). Обычно мультимедиа шлюзы используются для поддержки взаимодействия между разнородными сетями.
[ наверх ]
4.1.5. Контроллер зоны (Gatekeeper, Привратник, Конференц-менеджер)
Это рекомендуемое, но не обязательное устройство, обеспечивающее сетевое управление и исполняющее роль виртуальной телефонной станции.
Основными функциями контроллера зоны являются:
Несмотря на то, что Рекомендации H.323 определяют контроллер зоны как необязательный компонент, без него невозможно воспользоваться мощным и разнообразным спектром услуг, предусмотренных создателями стандарта H.323 для приложений IP-телефонии и мультимедийных телеконференций.
[ наверх ]
4.1.6. Устройство управления многоточечной конференцией
Устройство MCU предназначено для поддержки конференции между тремя и более участниками. В этом устройстве должен присутствовать контроллер Multipoint Controller (MC), и, возможно, процессоры Multipoint Processors (MP). Контроллер MC поддерживает протокол Н.245 и предназначен для согласования параметров обработки аудио- и видеопотоков между терминалами. Процессоры занимаются коммутированием, микшированием и обработкой этих потоков.
Конфигурация многоточечной конференции может быть централизованной, децентрализованной, гибридной и смешанной.
Централизованная многоточечная конференция требует наличия устройства MCU. Каждый терминал обменивается с MCU потоками аудио, видео, данными и командами управления по схеме "точка-точка". Контроллер MC, используя протокол H.245, определяет возможности каждого терминала. Процессор MP формирует необходимые для каждого терминала мультимедийные потоки и рассылает их. Кроме того, процессор может обеспечивать преобразования потоков от различных кодеков с различными скоростями данных.
Децентрализованная многоточечная конференция использует технологию групповой адресации. Участвующие в конференции H.323 терминалы осуществляют многоадресную передачу мультимедиа потока остальным участникам без посылки на MCU. Передача контрольной и управляющей информации осуществляется по схеме "точка-точка" между терминалами и MCU. В этом случае контроль многоточечной рассылки осуществляется контроллером MC.
Гибридная схема организации конференцсвязи является комбинацией двух предыдущих. Участвующие в конференции H.323 терминалы осуществляют многоадресную передачу только аудио- или только видеопотока остальным участникам без посылки на MCU. Передача остальных потоков осуществляется по схеме "точка-точка" между терминалами и MCU. В этом случае задействуются как контроллер, так и процессор MCU.
В смешанной схеме организации конференцсвязи одна группа терминалов может работать по централизованной схеме, а другая группа — по децентрализованной.
[ наверх ]
4.1.7. Тенденции развития рекомендаций H.323
Во второй версии H.323 v.2 рекомендаций были устранены недостатки предыдущей версии. Были усовершенствованы существующие протоколы: Q.931, H.245 и H.225, а также введен ряд новых. Основные преимущества новой версии стандарта заключаются в добавлении функций безопасности, установки быстрого вызова, некоторых дополнительных сервисов и интеграции протоколов H.323 и T.120.
В третьей версии H.323 v.3 рекомендаций было введено несколько новых возможностей. Прежде всего они касаются дополнений к основному документу и рекомендациям H.225.0, внося усовершенствования в архитектуру стандарта. Среди них можно выделить:
Четвертая версия рекомендаций H.323 v.4 в настоящее время находится в процессе разработки. Предполагается, что она будет принята 17 ноября 2000 года. Планируется, что туда будет внесено много изменений с целью повышения надежности, мобильности и гибкости систем видеоконференций. Новые возможности, касающиеся мультимедиа шлюзов и устройств многоточечной конференции, направлены на повышение качества организации и проведения конференции с большим числом участников. Перечислим некоторые из предполагаемых нововведений:
[ наверх ]
4.2. Речевые кодеки для IP-телефонии
Особенности функционирования каналов для передачи речевых данных, и прежде всего сети Интернет, а также возможные варианты построения систем телефонной связи на базе сети Интернет предъявляют ряд специфических требований к речевым кодекам (вокодерам). В силу пакетного принципа передачи и коммутации речевых данных отпадает необходимость кодирования и синхронной передачи одинаковых по длительности фрагментов речи. Наиболее целесообразным и естественным для систем IP-телефонии является применение кодеков с переменной скоростью кодирования речевого сигнала. В основе кодека речи с переменной скоростью лежит классификатор входного сигнала, определяющий степень его информативности и, таким образом, задающий метод кодирования и скорость передачи речевых данных. Наиболее простым классификатором речевого сигнала является Voice Activity Detector (VAD), который выделяет во входном речевом сигнале активную речь и паузы. При этом, фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов
(как правило на базе метода Code Excited Linear Prediction - CELP) с типичной скоростью 4 - 8 Кбит/с. Фрагменты, классифицированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0.1 - 0.2 Кбит/с), либо не передаются вообще. Передача минимальной информации о паузных фрагментах предпочтительна.Каковы же перспективы создания вокодеров для IP-телефонии? Что имеется сегодня и ожидается в ближайшее время? Насколько можно судить по литературным данным специальных разработок для Интернет-телефонии, рекомендованных ITU-T (сектор стандартизации в области телекоммуникаций международного союза телекоммуникаций) пока не существует. Среди международных стандартов, рекомендуемых для подобных систем, чаще других упоминается G.723.1, обеспечивающий передачу речи со скоростью 5.3 и 6.3 Кбит/с, а также G.729 для скорости передачи 8 Кбит/с.
[ наверх ]
Исходя из вышеизложенного, реализовывать функции IP-телефонии будет устройство (или устройства) - шлюз, которое с сетевой точки зрения осуществляет преобразование управляющей информации и данных, поступающих из одной сети (например, PSTN) в пакеты глобальной сети Интернет и обратно. Причем такое преобразование не должно значительно исказить исходный речевой сигнал, а режим передачи обязан
сохранить обмен информацией между абонентами в реальном масштабе времени.Более полно основные функции, выполняемые шлюзом при соединении типа "точка-точка" состоят в следующем.
Большая часть функций шлюза в рамках архитектуры TCP/IP реализуются в процессах прикладного уровня.
Наличие разноплановых с вычислительной точки зрения функций, выполняемых системой, порождает проблему ее программной и аппаратной реализации. Рациональное решение этой проблемы основано на использовании распределенной системы, в которой управленческие задачи и связь с сетью осуществляется с помощью универсального процессора, а решения задач сигнальной обработки и телефонного интерфейса выполняются на цифровом процессоре обработки сигналов.
[ наверх ]
4.4. Обработка сигнала в шлюзе
Схема обработки сигналов в шлюзе при подключении аналогового 2-х проводного телефонного канала PSTN показана на рис. 4.3.
Рис. 4.3. Схема обработки сигналов в шлюзе.
Телефонный сигнал с 2-х проводной линии поступает на дифференциальную систему, которая разделяет приемную и передающую часть канала. Далее сигнал передачи вместе с "просочившейся" частью сигнала приема подается на аналого-цифровой преобразователь и превращается в цифровой сигнал. В устройстве эхо-компенсации из сигнала передачи удаляются остатки принимаемого сигнала. Для обнаружения и определения сигналов внутриполосной телефонной сигнализации (MF сигналов), сигналов DTMF либо импульсного наборов используются детекторы соответствующих типов. В режиме сессии дальнейшая обработка входного сигнала происходит в речевом кодере. В анализаторе кодера сигнал сегментируется на отдельные фрагменты длительностью 30 мс и каждому входному блоку, состоящему из 240 отсчетов, сопоставляется информационный кадр длиной 137 бит.
Часть параметров, вычисленная в анализаторе, используется в блоке определения голосовой активности (VAD - voice activity detector), который решает является ли текущий анализируемый фрагмент сигнала речью или паузой. При наличии паузы информационный кадр может не передаваться в службу виртуального канала. Режим передачи паузных кадров следующий. На сеансовый уровень передается лишь каждый пятый кадр такого типа. Кроме того, при отсутствии речи для кодировки используется только 27 бит. На приемной стороне из виртуального канала в логический поступает либо информационный кадр (длиной 137 или 27 бит) либо флаг наличия паузы. На паузных кадрах вместо речевого синтезатора включается генератор комфортного шума, который восстанавливает спектральный состав паузного сигнала. Параметры генератора обновляются при получении паузного информационного кадра. Наличие информационного кадра длиной 137 бит включает речевой декодер, на выходе которого формируется 12-ти разрядный речевой сигнал. Для эхокомпенсатора этот сигнал является сигналом дальнего абонента, фильтрация которого дает составляющую электрического эха в передаваемом сигнале. Анализ схемы сигнальной обработки и опыт разработки позволяют выделить следующие основные проблемы цифровой обработки сигналов в шлюзе.
При использовании двухпроводных абонентских линий актуальной остаётся задача эхокомпенсации, особенность которой состоит в том, что компенсировать необходимо два различных класса сигналов - речи и телефонной сигнализации. Очень важной является задача обнаружения и детектирования телефонной сигнализации. Её сложность состоит в том, что служебные сигналы могут перемешиваться с сигналами речи.
С построением кодеков тесно связана задача синтеза VAD. Основная трудность состоит в правильном детектировании пауз речи на фоне достаточно интенсивного акустического шума (шум офиса, улицы, автомобиля и т.д.)
[ наверх ]
4.5. Используемые сетевые протоколы
При организации телефонных переговоров по вычислительным сетям необходимо передавать два типа информации: командную и речевую. К командной информации относятся сигналы вызова, разъединения, а также другие служебные сообщения.
Краеугольный камень сети Интернет — Internet Protocol (IP). Это протокол сетевого уровня, который обеспечивает маршрутизацию пакетов в сети. Он, однако, не гарантирует надежную доставку пакетов. Таким образом, пакеты могут искажаться, задерживаться, передаваться по различным маршрутам (а значит иметь различное время передачи) и т.д. На основе IP работают протоколы транспортного уровня Transport Control Protocol (TCP) и User Datagram Protocol (UDP).
Основное требование к передаче командной информации - отсутствие ошибок передачи. В результате необходимо использовать достоверный протокол доставки сообщений. Обычно, в качестве такого протокола используется протокол TCP, обеспечивающий гарантированную доставку сообщений. Время доставки сообщений также играет немаловажную роль в этом случае. К сожалению, этот параметр является нестабильным, т. к. при появлении ошибок передачи сообщение передается повторно. Передача повторяется до тех пор, пока сообщение не будет доставлено успешно. Таким образом, длительность служебных процедур может бесконтрольно увеличиваться, что недопустимо, например, для этапа установления соединения, а также некоторых процедур связанных с передачей по сети телефонной сигнализации. Открытой проблемой в этой области является создание достоверного механизма передачи, который не только гарантирует безошибочную доставку информации, но также минимизирует время доставки при появлении ошибок передачи.
При передаче речевой информации проблема времени доставки пакетов по сети становится основной. Это вызвано необходимостью поддерживать общение абонентов в реальном масштабе времени, для чего задержки не должны превышать 250 - 300 мс. В таком режиме использование повторных передач недопустимо, и следовательно, для передачи речевых пакетов приходится использовать недостоверные транспортные протоколы, например, UDP. При обнаружении ошибки передачи факт ошибки фиксируется, но повторной передачи для ее устранения не производится. Пакеты, передаваемые по протоколу UDP, могут теряться. В одних случаях это может быть связано со сбоями оборудования. В других - с тем, что "время жизни" пакета истекло, и он был уничтожен на одном из маршрутизаторов. При потерях пакетов повторные передачи также не организуются. В процессе передачи возможны перестановки пакетов в потоке, а также искажения речевых пакетов. Последнее, однако, происходит крайне редко.
Перед поступлением речевого потока на декодер он должен быть восстановлен. Для этого используется протокол реального времени. В заголовке данного протокола передаются, в частности, временная метка и номер пакета. Эти параметры позволяют определить не только порядок пакетов в потоке, но и момент декодирования каждого пакета, т. е. позволяют восстановить поток. Наиболее распространенный протокол реального времени — Real Time Protocol (RTP), рекомендованный к использованию в стандарте на построение систем реального времени H.323.
Искажения потока пакетов связаны с загруженностью сети. При отсутствии перегрузок искажения минимальны, а часто отсутствуют. Поток речевых пакетов может значительно загружать сеть, особенно, в случае многоканальных систем. Это происходит из-за высокой интенсивности потока (кадры небольшого
размера передаются через малые промежутки времени 20 байт/ 30 мс) и большого объема передаваемой служебной информации. Зная размеры заголовков сетевых протоколов (IP - 20 байт, UDP - 8 байт, RTP - 12 байт), легко вычислить общий объем заголовка речевого пакета - 40 байт. Это в 2 раза превышает размер самого пакета. Передача такого объема служебной информации неприемлема, особенно, при построении многоканальных систем. Таким образом, необходимо искать способы уменьшения количества служебной информации, передаваемой по сети. Существует два возможных варианта решения этой проблемы. Первый предполагает создание специальных транспортных протоколов для IP-телефонии, которые могли бы уменьшить заголовок протокола транспортного уровня. Второй вариант — мультиплексирование каналов в многоканальных системах. В этом случае речевые пакеты от разных каналов передаются под одним сетевым заголовком. Такое решение не только уменьшает количество передаваемой служебной информации, но и снижает интенсивность потока.
[ наверх ]
[ назад ] [ оглавление ] [ вперед ]