В рубрику "Оборудование и технологии" | К списку рубрик | К списку авторов | К списку публикаций

DRM — современный стандарт цифрового радиовещания

Часть 3

Анатолий Иванчин, Начальник ЩУРС ФГУП РТРС
Сергей Рихтер, Доцент МТУСИ

Рассмотрим вопрос компактного представления звуковых сигналов в стандарте DRM , основой которого является стандарт с индексом ISO / IES 14496 (стандарт MPEG -4). В третьей части данного стандарта ("Звук") описывается кодированное представление натуральных и синтетических звуковых фрагментов. Такое разграничение позволяет выделить из передаваемых звуковых композиций основную часть, являющуюся индивидуальной характеристикой данного сигнала, и ту часть, которая может быть синтезирована в компьютере. При передаче звукового сигнала необходимо транслировать его основную часть и описание части сигнала, которая может быть синтезирована на приемном конце. Передача описания сигнала вместо его самого позволяет на низких скоростях транспортного потока в режиме реального времени воссоздать на приемной стороне точный аналог исходного звукового фрагмента.
Это являлось одной из проблем, которую сообщество DRM решило на базе стандарта MPEG -4

В системе DRM использовано улучшенное звуковое кодирование (ААС) и кодирование речи с линейным предсказанием и при помощи гармонических векторов (CELP и HVXC). Для ощутимого улучшения качества звука (особенно при ААС) может быть использован специальный метод повышения эффективности (высокочастотной реконструкции) звукового кодирования (SBR).

Закодированный звуковой вещательный сигнал представлен в виде суперкадров (суперфреймов) постоянной длины. В суперкадрах предусмотрена функция неравной защиты (UEP) информационных (то есть чисто речевых) услуг. Специальная информация по конфигурированию потока звуковых данных передается в канале SDC. Заметим, что если не принимаются специальные меры, то при кодировании канала все информационные биты одинаково защищаются от канальных ошибок (алгоритм ЕЕР), то есть защита осуществляется с одинаковой степенью избыточности. В то же время известно, что восприятие звука человеком характеризуется неравной чувствительностью к ошибкам, возникающим в цифровом информационном потоке на выходе кодера. Поэтому совершенно естественно желание обеспечить неравную защиту от ошибок, то есть распространить более высокую степень защиты той части информационных бит, которая оказывает значительное влияние на качество выходного звукового сигнала.

MPEG-4 AAC

Для универсального кодирования звука используется алгоритм MPEG-4 ААС — лучший среди аналогичных алгоритмов, пригодных для применения в системе DRM. При стандартном применении монофонического кодера ААС в коротковолновом (KB) канале предусматривается скорость цифрового потока 20 кбит/с. Из возможных расширений стандарта допускается применение только SBR-тех-нологии.

Звуковой стандарт кодирования MPEG-4 ААС — часть аудиостандарта MPEG-4 (ISO/IEC 14496-3+ISO/IEC 14496-3/Amd1). AAC-цифровой поток в DRM-системе — это цифровой поток аудиостандарта MPEG-4, версия 2 (предназначена для использования в каналах с высоким уровнем помех). Из числа возможных типов звуковых кодеров (объектов стандарта ISO/IEC) только вариант помехоустойчивого (ER) ААС-кодера низкой сложности (LC) принадлежит к числу высококачественных алгоритмов кодирования — он и используется в системе DRM. Среди существующих способов организации цифрового потока MPEG-4 ААС, версия 2 выбран помехоустойчивый вариант HCR (Huffman Codeword Reordering), характеризующийся низкой чувствительностью аудиоданных к ошибкам в канале передачи и минимальной цифровой скоростью потока.

Особенности формирования цифрового потока на выходе кодера ААС в системе DRM состоят в следующем:

скорость цифрового потока может быть произвольной, однако она должна меняться с шагом 20 бит/с, чтобы обеспечить выравнивание 400-миллисекундного звукового с уперфрейма;
значения частоты дискретизации (f_д) — 12 и 24 кГц;
длина преобразования — 960 отсчетов, чему соответствует, в зависимости от частоты дискретизации, продолжительность одного звукового фрейма 80 или 40 мс. Такой выбор обеспечивает согласованиепродолжительности звуковых фреймов с логическим фреймом в канале MSC;
помехоустойчивость. Кодер MPEG-4 обладает средствами для защиты ААС - цифрового потока в каналах с высоким уровнем помех;
звуковое суперкадрирование (framing): 5 (f_д=12 кГц) или 10 (f_д=24 кГц) звуковых фреймов составляют один суперфрейм. Звуковой суперфрейм имеет постоянную длину (400 мс), что определяет возможность его комплектации некоторым количеством (5 или 10) простейших звуковых фреймов, каждый из которых также должен состоять из двух частей. Один звуковой суперфрейм всегда передается в одном логическом фрейме (см. часть 2, ВС № 8). Благодаря этому при звуковом кодировании нет необходимости в организации дополнительной синхронизации. Структура звукового суперфрейма предусматривает также реализацию функции неравной защиты;
функция неравной защиты (UEP),реализованная в цифровом потоке ААС, гарантирует лучшие результаты по снижению коэффициента ошибок (BER). Неравная защита от ошибок обеспечивается процедурами мультиплексирования и кодирования канала, а именно: скорость цифрового потока на выходе кодера канала останется постоянной, если будет постоянной длина звукового фрейма и неизменным UEP-профиль, то есть алгоритм неравной защиты. ААС-кодер характеризуется переменной длиной фрейма, поэтому несколько таких фреймов должны группироваться вместе, чтобы образовать один звуковой суперфрейм с постоянной цифровой скоростью передачи, состоящий из двух частей: высокозащищенной и низкозащищенной.

Стандарт MPEG-4 определяет структуру (синтаксис) АСС — звукового суперфрейма. При определении структуры, то есть при распределении бит в звуковом фрейме, учитывается уровень их чувствительности к ошибкам в канале. Этими же соображениями руководствуются также при включении в состав звукового фрейма 8-битового слова избыточного циклического кода CRC (Cyclic Redundancy Check). Количество и расположение защищаемых разрядов в рамках одного кодированного звукового фрейма DRM в общем случае зависит от режима и скорости цифрового потока.

В качестве примера на рис. 1 представлена структура ААС — звукового суперфрейма с частотой дискретизации 24 кГц.

Концепция SBR

Чтобы поддерживать должное качество звуковоспроизведения при низких цифровых скоростях передачи, классический звуковой или речевой алгоритмы кодирования должны ограничивать полосу звуковых частот и работать с низкой частотой дискретизации. Обеспечить расширенную полосу звуковых частот при низкой цифровой скорости передачи позволяет SBR-кодирование. Необходимый результат достигается за счет расщепления полосы частот звукового сигнала.

Человеческий голос и большинство музыкальных инструментов генерируют квазистационарные сигналы возбуждения, порождаемые колебательными системами. Шрокополосный спектр возбуждения создается, например, голосовыми связками человека или струнами, и его частотные составляющие представляют собой гармонический (частотный) ряд. Последний фильтруется резонаторами типа голосового тракта, корпуса скрипки и т.д., придавая речи или музыкальному инструменту характерный тембр звучания. Ограничение ширины полосы такого сигнала эквивалентно усечению (ограничению) гармонического ряда (рис. 2). Такое ограничение спектра изменяет воспринимаемый тембр и "приглушает" звуки сигнала, что может сделать речь неразборчивой.

В основе концепции SBR лежит постулат, что усеченный гармонический ряд может быть расширен на основе известного соотношения между низкочастотными (НЧ) и высокочастотными (ВЧ) спектральными компонентами. Необходимо, чтобы описание ВЧ-части спектра точно отражало соответствующую часть спектра исходного сигнала, и эта информация должна уверенно передаваться от кодера до декодирующего устройства в очень низкоскоростном потоке данных (около 2 кбит/с). При этом важно сохранить исходные пропорции между гармоническими и шумоподобными компонентами в скопированной ВЧ-части спектра и при необходимости выборочно прибавить к скопированному сигналу эти шумовые компоненты.

Таким образом, разделение полосы спектра (SBR) — это новый звуковой инструмент, позволяющий расширить возможности кодирования источника и с низкоскоростными кодеками реализовать полосу до 15 кГц.

Возможности алгоритма SBR показаны на рис. 3.

Поскольку большинство речевых кодеков являются узкополосными, SBR-кодирование важно для повышения разборчивости и понимания речи.

SBR-кодирование позволяет восстановить высокочастотную часть полосы звуковых частот, которая теряется при кодировании из-за ограниченности номинала частоты дискретизации. Чтобы реализовать эту задачу, необходимо передать на приемную сторону определенный объем дополнительной информации, используя малую долю общего цифрового потока кодера источника.

Существует две версии алгоритма SBR-кодирования:

SBR-LC - кодирование низкой сложности, обеспечивающее среднее качество звуковоспроизведения;
SBR-HQ - кодирование, которое обеспечивает нормальное качество звука при более высокой сложности реализации.

SBR может использоваться совместно с алгоритмами кодирования ААС и CELP, способствуя получению широкополосного звукового сигнала на выходе. В технологии SBR для характеристики цифрового потока реализуются два протокола: один для использования с ААС, другой - с CELP.

Частота дискретизации при SBR-преобразовании должна быть равной 48 кГц, а при ААС-кодирова-нии — 24 кГц. Поэтому общий AAC+SBR-фрейм содержит независимые ААС- и SBR-части. ААС- и SBR-объемы данных изменяются от фрейма к фрейму. Полный размер отдельных фреймов, включая SBR-данные, может быть получен из описания начальных (головных) частей ААС-аудиосуперфрейма (см. рис. 1). Поэтому нет необходимости в передаче какой-либо дополнительной информации об изменении цифровой скорости при использовании алгоритма SBR.

AAC+SBR фреймы вводятся в структуру ААС-аудиосуперфрейматаким же образом, что и в случае, когда алгоритм SBR вообще не используется. В устройстве источника, кодирующем звуковой сигнал с цифровой скоростью 20 кбит/с и более, алгоритм SBR должен использоваться всегда.

Как отмечалось в начале статьи, компактное представление речевых сигналов в стандарте DRM осуществляется с использованием двух типов кодеров: MPEG-4 CELP и MPEG-4 HVXC.

MPEG-4 CELP

Стандарт кодирования речи MPEG-4 CELP является частью аудиостандарта MPEG-4. Цифровой поток на выходе CELP-кодера в системе DRM по своим характеристикам соответствует потоку кодера MPEG-4, версия 2. Указанная версия предназначена для использования в каналах с высоким уровнем помех. В системе DRM найдет применение только помехоустойчивый алгоритм ER CELP, относящийся к разряду высококачественных кодеров источника.

Стандарт кодирования речи MPEG-4 CELP включает принципы сжатия и расшифровки естественного звука речи с цифровыми скоростями передачи данных от 4 до 24 кбит/с. Это известный алгоритм кодирования с новыми функциональными возможностями, оптимизированными для различных прикладных программ. Сжатие звукового сигнала -одна из функциональных возможностей кодека речи MPEG-4 CELP, но допускается также использование базового кодирующего устройства. Это обеспечивает возможность модульного наращивания скорости передачи данных и ширины полосы (кодируемого звукового сигнала), а также позволяет создавать цифровой поток с произвольной скоростью. Кодирующее устройство CELP работает с двумя номиналами частоты дискретизации: 8 и 16 кГц, обеспечивая полосы кодируемого сигнала соответственно 100-3800 и 50-7000 Гц.

В основе алгоритма работы CELP-кодера — линейное предсказание (LPC) с кодовым возбуждением. В CELP-кодере, с помощью процедуры анализа через синтез, из адаптивной кодовой книги выбирается наиболее подходящий вектор (сигнал) возбуждения, фильтруется с помощью фильтра-синтезатора (предиктора) и сравнивается с оригинальным сигналом. Эта процедура повторяется с целью минимизации ошибки предсказания. Параметры возбуждения вместе с параметрами предиктора составляют выходную информацию кодера, с помощью которой после декодирования в приемнике синтезируется речевой сигнал.

MPEG-4 CELP-кодер характеризуется следующими функциональными возможностями:

множественные скорости передачи данных;
модульное наращивание скорости передачи данных;
модульное наращивание ширины полосы (кодируемого сигнала);
плавное регулирование скорости.

Из вышеуказанных возможностей в системе DRM будет использоваться только одна - множественность цифровых скоростей передачи аудиоданных.

К числу важнейших характеристик CELP-кодера также относится алгоритмическая задержка сигнала, зависящая от длины звукового фрейма и коэффициента (длины) предсказания. Длина фрейма, в свою очередь, зависит от моды кодирования и цифровой скорости передачи данных.

В табл. 1 и 2 указаны значения цифровой скорости передачи данных и приведены сведения по величинам задержки и длительности фрейма у CELP-кодеров для двух номиналов частоты дискретизации.

Звуковые фреймы CELP-кодера имеют фиксированную длину. Онигруппируются так, чтобы образовать звуковой суперфрейм длиной 400 мс. Кроме того, в структуре звуковых фреймов при CELP-кодировании используется алгоритм неравной защиты бит (функция UEP). В соответствии с этим алгоритмом начальная (головная) часть каждого звукового фрейма имеет высокую степень кодо-защиты, остальная часть - более низкую. В стандарте для каждого возможного значения цифровой скорости кодера таблично заданы длина звукового фрейма и число бит с высокой и низкой степенью защиты. Индекс цифровой скорости CELP-кодера передается в канале SDC. Итак, CELP-кодирование речи предусматривается в системе DRM с целью обеспечения необходимого качества речи при цифровых скоростях передачи, которые существенно ниже утвержденной нормы (например, когда используются получастота дискретизации и скорость 8 кбит/с). Возможны следующие сценарии использования такого кодера речи:

двойные/тройные применения речевого кодирования, когда вместо одной звуковой программы со скоростью 20-24 кбит/с в канале организуется передача двух или трех речевых сигналов со скоростью 8-10 кбит/с каждый, что обеспечивает одновременную передачу речевых программ (например, двуязычную передачу);
услуги речи в дополнение к аудио сервису;
одновременная передача: случай одновременной (и аналоговой, и цифровой) передачи в одном радиовещательном канале может быть реализован только при цифровой скорости передачи 8 кбит/с;
высокозащищенные приложения речевого кодирования. Природа кодека MPEG4-CELP обеспечивает повышенную помехозащищенность передачи речи в каналах с высоким уровнем помех. Поэтому скорость кодирования речи 8 кбит/с может использоваться в каналах с грубыми внешними воздействиями.

MPEG-4 HVXC

Этот речевой кодек определен в стандарте ISO / IEC 14496-3, а его характеристики помехоустойчивости соответствуют стандарту ISO / IEC 14496-3/ Amd 1. Он охватывает кодирование и декодирование первичного речевого сигнала с цифровой скоростью 2 и 4 кбит/с. HVXC-кодер осуществляет кодирование звонких (вокализованных) звуков речи методом линейного предсказания (LPC) и кодирование с векторным возбуждением (VXC) глухих (невокализованных) звуков речи. HVXC обеспечивает стандартное качество речи (близкое к качеству междугородной телефонной связи)с полосой частот 100-3800 Гц и частотой дискретизации 8 кГц.

Алгоритм кодирования HVXC характеризуется высокой помехоустойчивостью, что позволяет применять его в каналах с высоким уровнем помех. Для этого кодер имеет несложный алгоритм маскировки ошибок (CRC-код и внутрикадровое перемежение), определенный в спецификации системы DRM. В соответствии с различной чувствительностью бит звукового фрейма к ошибкам в канале кодируемые биты классифицируются по нескольким категориям — показателям ESC. Число бит в каждом фрейме, подпадающих под ту или иную категорию ESC, оговорено в стандарте для цифровых скоростей информационного сигнала (соответственно 2 и 4 кбит/с). При этом категория ESC0 соответствует битам, характеризующимся наибольшей чувствительностью к ошибкам в канале, а категория ESC4 — битам с минимальной чувствительностью к ошибкам. Полная скорость цифрового потока в канале с CRC-кодированием составляет 2,4 кбит/с при скорости кодера источника, равной 2 кбит/с, и 4,66 кбит/с при скорости кодера источника 4 кбит/с. В целях повышения устойчивости цифрового потока к канальным ошибкам биты перемежают внутри каждого фрейма данных. Перемежение осуществляется после окончательного формирования результирующего цифрового потока, включающего биты CRC.

Как отмечалось выше, код CRC при декодировании лишь обнаруживает ошибки в защищаемых разрядах звуковых фреймов. Поэтому при обнаружении CRC-декодером пораженного фрейма в HVXC-декодере осуществляется его маскировка с использованием стандартизованного алгоритма, учитывающего значение показателя ESC.

Структура звукового суперфрейма идентична для всех мод (то есть разновидностей) HVXC-алгоритма. Так как HVXC не поддерживает функцию UEP, длина фрейма всегда составляет 20 мс, причем композиция целого числа из 20 HVXC-фреймов вписывается в один звуковой суперфрейм. Биты, содержащиеся в одном звуковом фрейме, передаются в канале SDC (информационные биты и биты кода CRC). В звуковых суперфреймах HVXC должны использоваться только принятые значения цифровых скоростей потока - 2 и 4 кбит/с. Применение переменных значений цифровых скоростей будет возможно только после определения стандарта передачи данных для конкретных приложений; в рамках этого пакета могут быть определены переменные значения цифровых скоростей для этих приложений.

Итак, применение кодера речи MPEG-4 HVXC в системе DRM предусматривается с целью обеспечения достаточно хорошего качества речи при очень низких значениях цифровой скорости передачи (около 2 кбит/с). Применение такого способа кодирования речи открывает новые возможности системы DRM, а именно:

услуги речи в дополнение к аудио сервису;
многоязычные применения;
реализация блока твердотельной памяти для хранения многочисленных программ, баз данных для радиовещания (например, для хранения радиопрограмм общим объемом до 4,5 асов можно использовать память на 4 Мбайта);
изменение шкалы времени для ускоренного воспроизведения и анализа записанных в памяти программ;
помехозащищенная передача или отказ от многопозиционной схемы модуляции.

Опубликовано: Журнал "Broadcasting. Телевидение и радиовещание" #1, 2003
Посещений: 22349

Статьи по теме

Автор