Речь по СПД

1. Анализ общей модели передачи речи по сетям передачи данных с пакетной коммутацией

1.1. Способы организации речевой связи по сетям передачи данных с пакетной коммутацией

Перед изложением материала есть смысл определиться с некоторыми основополагающими понятиями, с тем чтобы в дальнейшем не возникло разночтений и дополнительных вопросов.

В теории связи существует фундаментальное понятие - сообщение, т.е. форма представления информации, имеющая признаки начала и конца и предназначенная для передачи через сеть связи. В частности, сообщением является и телефонный разговор. Как любое другое сообщение, телефонный разговор характеризуется шириной занимаемого канала, временем передачи, категорийностью, адресами источника и приемника, формой представления информации - аналоговой или дискретной.

Под сетью передачи данных с пакетной коммутацией (в дальнейшем пакетной сетью) будем понимать совокупность средств для передачи данных между ЭВМ, где информационная связь между абонентами устанавливается коммутацией пакетов. Коммутация пакетов производится путем разбивки сообщения на пакеты - элементы сообщения, снабженные заголовком, имеющие фиксированную максимальную длину, и последующей передачи пакетов по маршруту, определяемому узлами сети.

Вызов - требование источника на установление соединения, поступившее в сеть связи.

Основными моментами при передачи речи по пакетной сети являются: преобразование аналогового речевого сигнала в цифровой вид, формирование пакетов, передача пакетов по пакетной сети, восстановлении речевого сигнала на приемном конце. Таким образом, для организации телефонной связи на передающем и приемном концах необходимо иметь набор аппаратно-программных средств, осуществляющих оцифровку/восстановление речи, формирование пакетов и ввод этих пакетов вместе с пакетами данных в пакетную сеть.

При организации телефонной (речевой) связи по пакетной сети важную роль играют некоторые характеристики телефонного разговора, которые могут накладывают существенные ограничения на выбор той или иной модели передачи.

В самом общем виде схема организации телефонной связи по сети передачи данных с пакетной коммутацией представлена на Рис.1.1. Для наглядности этой схемы, вводится понятие УСПРД (устройство совместной передачи речи и данных), включающее весь набор аппаратно-программных средств, реализующих возможность совместной передачи речи и данных по пакетной сети.

Рис.1.1. Схема организации телефонной связи по пакетной сети.

Могут быть предложены и другие сетевые решения, однако они будут представлять собой частные случаи приведенной схемы.

1.2. Структура ПО для реализации возможности передачи речи по сетям передачи данных с пакетной коммутацией

Для организации телефонной связи по пакетной сети необходим набор аппаратно-программных средств, функциями которого является:

1. Преобразование речевого аналогового сигнала и сигналов телефонной сигнализации в информационные единицы протоколов (пакеты или кадры).
2. Объединение речевого трафика и трафика данных.

Для частичной реализации первой функции используется ЦПОС (цифровой процессор обработки сигналов), который необходим для преобразования речевого сигнала в цифровой вид и формирования речевых кадров. Остальные преобразования реализуются программными средствами с использованием обычных универсальных процессоров.

На Рис. 1.2. изображена структура программного обеспечения (ПО) для реализации возможности передачи речи по пакетной сети.

Рис.1.2. Структура ПО организации телефонной связи по СПД с пакетной коммутацией.

Данное ПО организует интерфейсы для речевых сигналов и сигналов сигнализации, исходящих из телефона или УПАТС и преобразует их в единый информационный поток для передачи по сети. ПО разделено на четыре части, с тем чтобы обеспечить четкий интерфейс между программным обеспечением ЦПОС и остальным ПО для возможности использования различных протоколов пакетной передачи речи. ПО для реализации возможности передачи речи по сети с пакетной коммутацией состоит из следующих частей:

1. ПО пакетирования речи. Это ПО запускается на ЦПОС и используется для подготовки речевых элементов для последующей передачи их по СПД. В состав ПО входят: вокодер, алгоритм эхоподавления, алгоритм обнаружения активности речи и алгоритм удаления джиттера.

2. ПО шлюза телефонной сигнализации. Данное ПО взаимодействует с телефонным оборудованием, преобразуя сигналы телефонной сигнализации в так называемые изменяемые состояния (установление соединения, отбой и т.п.), которые используются в модуле сетевых протоколов для установления соединений.

3. ПО сетевых протоколов. Это ПО обрабатывает информацию о сигнализации и преобразует ее из формата телефонных протоколов сигнализации в конкретный протокол передачи сигнальной информации по сетям с коммутацией пакетов. Кроме того, это ПО выполняет упаковку речевых кадров и сигнальной информации в информационные единицы сетевых протоколов, используемых в пакетной сети.

4. ПО управления сетью. Это ПО предоставляет интерфейс управления передачей речи для конфигурации и обслуживания модулей системы пакетной передачи речи. Вся управляющая информация определяется в соответствии с ASN.1 и имеет синтаксис SNMP.

1.2.1. ПО пакетирования речи

Программное обеспечение пакетирования речи выполняет подготовку речевого сигнала для дальнейшей передачи по пакетной сети. В связи с этим, в его основные функции входит: преобразование речевого сигнала методом ИКМ, кодирование речевого сигнала, эхоподавление, обнаружение активности речи и адаптация воспроизведения. Кроме того, для нужд системы сигнализации вырабатываются специальные тоны сигнализации.

Определение активности речи заключается в том, что полученный сигнал проверяется на наличие в нем речевой информации. Если в течение определенного времени активность не обнаружена, то ПО информирует об этом протокол пакетной передачи речи. Данная функция позволяет избежать передачу речевых пауз, что может существенно влиять на эффективность использования полосы пропускания. Экономия может достигать 60%.

Адаптация воспроизведения заключается в буферизации речевых кадров для их равномерного воспроизведения. Реализация этой функции имеет следующие особенности: организуется буфер FIFO, предназначенный для хранения речевых элементов перед воспроизведением и компенсации задержек при передачи речевых пакетов; выбирается время измерения джиттера, которое позволяет осуществлять адаптивный контроль задержки FIFO.

Структура модуля пакетирования речи представлена на Рис. 1.3.

Рис.1.3. Модуль пакетирования речи

1.2.2. ПО шлюза телефонной сигнализации

Данное ПО осуществляет телефонную сигнализацию для обнаружения нового вызова и собирает адресную информацию (номер вызываемого абонента), которая используется системой для передачи вызова в порт получателя. ПО взаимодействует с ЦПОС для детектирования и генерации тонов сигнализации, а также для управления режимами работы, основанное на наблюдении состояния телефонной линии. Кроме того, ПО взаимодействует с телефонным интерфейсом для обеспечения функций сигнализации.

Структура программного обеспечения шлюза телефонной сигнализации представлена на Рис.1.4.

Рис.1.4. Структура ПО шлюза телефонной сигнализации

Функционирование ПО телефонной сигнализации происходит следующим образом: модуль телефонного интерфейса (цифровой вход) осуществляет периодический контроль интерфейсов сигнализации и в случае обнаружения вызова подключает модуль обработки вызовов, который поддерживает различные стандарты телефонной сигнализации. В модуле трансляции адресов телефонные номера преобразуются в сетевые адреса для передачи вызова по пакетной сети. На приемном конце модуль преобразования протоколов сигнализации переведет сообщения телефонной сигнализации, принятые в конкретной пакетной сети, в формат, совместимый с протоколом сигнализации инициатора сеанса связи.

Драйвер интерфейса ЦПОС занимается распределением управляющей информации между основным микропроцессором и одним или несколькими ЦПОС.

1.3. Основные характеристики наиболее известных типов вокодеров

Одним из основных узлов ПО пакетирования речи является вокодер.
Вокодер (от англ. voice - голос и coder - кодировщик) представляет собой устройство (или алгоритм), осуществляющее параметрическое компандирование речевого сигнала.
Компандирование - способ преобразования речевого сигнала, при котором на передающем конце тракта происходит сжатие по одному или нескольким измерениям (частотный диапазон, динамический диапазон, временной интервал), а на приёмном - восстановление первоначального объёма сигнала путём соответствующего расширения. Компандирование включает преобразования: компрессию (сжатие) и декомпрессию (восстановление) речевого сигнала.

Преобразование аналогового речевого сигнала в цифровой вид обычно осуществляется методом импульсно-кодовой модуляции (ИКМ). После такой обработки речевой сигнал уже пригоден для передачи по цифровым каналам. Однако для передачи такого цифрового потока необходимо выделение полосы пропускания 64 кбит/с (рекомендация ITU G.711), что является явно избыточным.

Существует еще одно преобразование речевого сигнала - адаптивная дифференциальная импульсно-кодовая модуляция (АДИКМ). Этот алгоритм дает практически такое же качество воспроизведения речи, как и ИКМ, однако для передачи информации при его использовании требуется полоса всего в 16—32 кбит/с (стандарт ITU G.726). Метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности. Поэтому если кодировать не саму амплитуду сигнала, а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов.

АДИКМ является основой стандарта ITU G.727, который определяет преобразование речи методом EADPCM - Embedded Adaptive Differential Pulse Code Modulation (вложенная адаптивная дифференциальная импульсно-кодовая модуляция). Согласно данному стандарту, речевой сигнал преобразуется в цифровой вид методом АДИКМ. Затем формируется речевой кадр, состоящий из блоков бит, причем первый блок содержит старшие биты всех закодированных отсчетов, второй блок - следующие по убыванию старшинства биты и т.д. В пределах блока, биты упорядочиваются согласно номеру отсчета, который они определяют. Особенность этого метода заключается в том, что некритичная к удалению информация расположена в позициях, где она может быть легко отвергнута (в конце кадра).

Например, в случае преобразования EADPCM (4,2) в речевом кадре будет содержаться четыре блока, и наименее значимые блоки - два последних (блоки расширения), могут отвергаться в случае перегрузки. Эта особенность используется в рекомендации FRF.11, регламентирующей передачу речи по сети Frame Relay. Согласно Приложению G этой рекомендации сформированный методом EADPCM речевой кадр передается в двух кадрах Frame Relay: основная информация - в кадрах с битом DE=0 (Discard Eligibility - Разрешение Сброса), и информация расширения - в кадрах с установленным битом (DE=1). Это означает что в случае перегрузки, кадры с установленным битом DE могут быть уничтожены.

Все методы кодирования, основанные на определенных предположениях о форме сигнала, не подходят при передаче сигнала с резкими скачками амплитуды. Именно такой вид имеет сигнал, генерируемый модемами или факсимильными аппаратами, поэтому аппаратура, поддерживающая сжатие, должна автоматически распознавать такие сигналы и обрабатывать их иначе, чем речевой трафик.
Преобразование речевого сигнала методом АДИКМ дает хорошее качество воспроизведения речи на скоростях до 32 кбит/c. Уменьшение скорости ведет к существенному ухудшению качества речи.

Наиболее эффективными являются вокодеры на основе метода линейного предсказания речи. Вокодеры данного типа работают уже с целыми блоками подготовленных отсчетов. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Затем из значений этих параметров формируется речевой кадр, готовый для передачи. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям ЦПОС, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере (см. Рис. 1.5).

Рис.1.5. Схема функционирования вокодера на основе метода линейного предсказания речи.

Более сложные методы сжатия речи основаны на применении метода линейного предсказания речи в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сравнивает результат с исходным сигналом, после чего начинает варьировать параметры кодирования, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи. На противоположном конце происходит восстановление речевого сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности.

Одной из самых распространенных разновидностей описанного метода кодирования является метод LD-CELP - Low-Delay Code-Excited Linear Prediction (метод линейного предсказания с кодовым возбуждением и низкой задержкой). Он позволяет достичь удовлетворительного качества воспроизведения при пропускной способности 16 кбит/с. Этот метод был стандартизован ITU в 1992 г. как алгоритм кодирования речи G.728. Алгоритм применяется к цифровой последовательности, получаемой в результате аналого-цифрового преобразования речевого сигнала с 16-разрядным разрешением.

В марте 1995 г. ITU принял новый стандарт - G.723. Основой G.723 являются методы сжатия речи MP-MLQ (Multipulse Maximum Likelihood Quantization) и ACELP. Они позволяет добиться весьма существенного сжатия речи при сохранении достаточно высокого качества воспроизведения.

Характеристики некоторых основных алгоритмов кодирования речи приведены в Табл.1.1.

Табл.1.1.Основные характеристики наиболее известных типов вокодеров

Название алгоритма	Рекомендация	Скорость алгоритма (кбит/с)	Размер речевого кадра (октетов)	Задержка накопления (мс)
CS-ACELP	ITU G.729	8	10	10
PCM	ITU G.711	64	40	5
		56	35	5
		48	30	5
ADPCM	ITU G.726	40	25	5
		32	20	5
		24	15	5
		16	10	5
LD-CELP	ITU G.728	16	10	5
MP-MLQ	ITU G.723.1	6.3	24	30
ACELP	ITU G.723.1	5.3	20	30

Важной характеристикой любого вокодера является качество воспроизводимой речи. Для того, чтобы оценить это качество, было введено понятие средней субъективной оценки (MOS - mean opinion score) или психологической реакции человека на воспроизводимую речь.

Оценка по шкале MOS определяется путем обработки оценок, даваемых группами слушателей. В Табл. 1.2 приведены оценки MOS для различных методов кодирования.

Табл.1.2. Показатели MOS основных алгоритмов кодирования речи

Название алгоритма	MOS
G.711 (PCM; 64 кбит/c)	4,1
G.726 (ADPCM; 32 кбит/c)	3,8
G.728 (LD-CELP; 16 кбит/c)	3,6
G.723.1 (ACELP; 5,3 кбит/c)	3,7
G.723.1 (MP-MLQ; 6,3 кбит/c)	3,9

Наиболее предпочтительным среди приведенных методов кодирования с точки зрения соотношения качество речи / скорость потока является алгоритм G.723.1.

<< НАЗАД ] [ ОГЛАВЛЕНИЕ ] [ ВПЕРЕД >>