Речевые кодеки для IP-телефонии

Особенности функционирования каналов для передачи речевых данных, и прежде всего сети Интернет, а также возможные варианты построения систем телефонной связи на базе сети Интернет предъявляют ряд специфических требований к речевым кодекам (вокодерам). В силу пакетного принципа передачи и коммутации речевых данных отпадает необходимость кодирования и синхронной передачи одинаковых по длительности фрагментов речи, Как было отмечено выше, наиболее целесообразным и естественным для систем IP-телефонии является применение кодеков с переменной скоростью кодирования речевого сигнала. В основе кодека речи с переменной скоростью лежит классификатор входного сигнала, определяющий степень его информативности и, таким образом, задающий метод кодирования и скорость передачи речевых данных. Наиболее простым классификатором речевого сигнала является Voice Activity Detector (VAD), который выделяет во входном речевом сигнале активную речь и паузы. При этом, фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов (как правило на базе метода Code Excited Linear Prediction - CELP) с типичной скоростью 4 - 8 Кбит/с. Фрагменты, классифицированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0.1 - 0.2 Кбит/с), либо не передаются вообще. Передача минимальной информации о паузных фрагментах предпочтительна.

Схемы более эффективных классификаторов входного сигнала детальнее осуществляют классификацию фрагментов, соответствующих активной речи. Это позволяет оптимизировать выбор стратегии кодирования (скорости передачи данных), выделяя для особо ответственных за качество речи участков речевого сигнала большее число бит (сответственно большую скорость), для менее ответственных - меньше бит (меньшую скорость). При таком построении кодеков могут быть достигнуты низкие средние скорости (2 - 4 Кбит/с) при высоком качестве синтезируемой речи.

Необходимо отметить, что для рассматриваемых приложений традиционная для вокодеров проблема снижения задержки при обработке сигнала в кодеке не является актуальной, так как величина суммарной задержки при передаче речи в системах IP-телефонии главным образом определяется задержками вносимыми каналами сети Интернет. Тем не менее, решения, позволяющие снизить задержку в вокодере, представляют практический интерес.

Проведенный в различных исследовательских группах анализ качества синтезированной речи при передачи речевых данных через сеть Интернет показывает, что основным источником возникновения искажений, снижения качества и разборчивости синтезированной речи является прерывание потока речевых данных, вызванное потерями при передачи по сети либо превышением предельно допустимого времени доставки пакета с речевыми данными. Гистограммы распределения числа последовательно потерянных пакетов, приведенные на рис. 4, показывают, что вероятность одиночных потерь выше вероятности потерь нескольких кадров подряд. Можно ожидать, что с развитием сети Интернет при дальнейшем увеличении ее пропускной способности, оптимизации маршрутизаторов и протоколов преобладающую роль будут играть потери одиночных пакетов. Следует заметить, что в случае прихода пакета данные, как правило, доставляются без ошибок. В таких условиях помехоустойчивое кодирование речевых данных нецелесообразно.

Таким образом, одной из важнейших задач при построении вокодеров для IP-телефонии является создание алгоритмов компрессии речи толерантных к потерям пакетов.

Для обслуживания широкой сети абонентов система IP телефонной
связи с использованием шлюзов должна включать абонентские линии связи с аналоговыми окончаниями. Это означает, что синтезированный в шлюзе аналоговый речевой сигнал по соединительной линии будет поступать на телефонный аппарат абонента. Точно также сигнал с выхода микрофона телефонного аппарата абонента по аналоговой линии будет поступать на вход вокодера, размещенного в шлюзе. Хорошо известно, что классические алгоритмы низкоскоростной компрессии речи чувствительны к амплитудно-частотным искажениям, возможным в соединительных линиях и акустических трактах. При создании алгоритмов низкоскоростных вокодеров это обстоятельство должно приниматься во внимание.

Каковы же перспективы создания вокодеров для IP-телефонии? Что имеется сегодня и ожидается в ближайшее время? Насколько можно судить по литературным данным специальных разработок для Интернет-телефонии, рекомендованных ITU-T (сектор стандартизации в области телекоммуникаций международного союза телекоммуникаций) пока не существует. Среди международных стандартов, рекомендуемых для подобных систем, чаще других упоминается G.723.1, обеспечивающий передачу речи со скоростью 5.3 и 6.3 Кбит/с, а так же G.729 для скорости передачи 8 Кбит/с.

Гарантируя достаточно высокое качество речи в идеальных условиях
передачи, упомянутые стандарты были разработаны для использования в каналах, отличных от Интернет и уже позже частично адаптировались для условий потерь пакетов. Развития этих стандартов включают в себя Voice Activity Detector и элементы, ответственные за синтез речевого сигнала на фрагментах, соответствующих потерянным речевым данным. В настоящее время ведущие в области телекоммуникаций фирмы и университеты проводят разработки алгоритмов вокодеров для Интернет-телефонии. Ориентируясь на рекламные публикации и собственные исследования, можно ожидать появления в ближайшие годы алгоритмов компрессии со средними скоростями 2 - 4 Кбит/с и ниже с качеством синтезированной речи, близким к коммерческому, при допустимых искажениях в условиях 20% потерь пакетов с речевыми данными.

ГЛАВНАЯ СТРАНИЦА

ВПЕРЕД