Никитин Д.А. Обзор методов аналого-цифрового преобразования речевых сигналов (главы из дипломной работы) - файл n1.doc

Никитин Д.А. Обзор методов аналого-цифрового преобразования речевых сигналов (главы из дипломной работы)
Скачать все файлы (257.5 kb.)

Доступные файлы (1):
n1.doc258kb.01.02.2014 07:42скачать

n1.doc



Никитин Д. А.
Обзор методов
аналого-цифрового преобразования
речевых сигналов

(Главы из дипломной работы)

Содержание

1 Обзор методов временного и частотного кодирования речи 3

1.1 Классификация методов аналого-цифрового преобразования речевых сигналов 3

1.2 Импульсно-кодовая модуляция с равномерной шкалой квантова­ния 5

1.3 Импульсно-кодовая модуляция с неравномерной шкалой кванто­вания. Рекомендация G.711 6

1.4 Дифференциальная импульсно-кодовая модуляция. Дельта-модуляция 8

1.5 Адаптивная дифференциальная импульсно-кодовая модуляция Рекомендация G.726 9

1.6 Кодирование с разбиением на поддиапазоны 11

1.7 Кодирование с преобразованием 12

1.8 Методы гармонического анализа-синтеза 14

2 Обзор методов параметрического кодирования речи 16

2.1 Канальные и формантные вокодеры 16

2.2 Гомоморфные вокодеры 18

2.3 Вокодеры с линейным предсказанием 18

2.4 Вокодеры «анализ через синтез» 23

Список использованных источников 28



1Обзор методов временного и частотного кодирования речи

1.1Классификация методов аналого-цифрового преобразования речевых сигналов


В настоящее время разработано достаточно большое количество речевых кодеков, и работы в этом направлении ведутся постоянно. Все кодеки существенно различаются по принципам, лежащим в их основе, и по своим характеристикам. Однако все существующие методы кодирования речи можно разделить на три обширные категории:

Классификация речевых кодеков приведена на рис. 1.1.


Рисунок 1.1 –Классификация методов кодирования речи

Методы временного кодирования (кодирования формы сигнала) направ­лены на наиболее точное описание и вос­произведение формы колебаний во временной области. Наи­большее рас­про­стра­не­ние получили следующие ме­тоды:

При частотном аналого-цифровом преобразовании кодируются спек­тральные характеристики речевого сигнала.

Методы параметрического кодирования рассматривают речь как отклик голосового тракта на возбуждающий сигнал голосовых связок. Голосовой тракт обычно моделируется линейной системой. Возбуждающий сигнал является импульсным для вокализованных звуков и шумоподобным для невокализованных звуков.

Параметрическое кодирование речи сводится к решению следующих задач:

Устройства параметрического кодирования речи известны также под названием «вокодеры». В настоящее время известны следующие типы вокодеров:

В данном разделе приведен обзор временных и частотных методов кодирования речи.

1.2Импульсно-кодовая модуляция с равномерной шкалой квантова­ния


Простейшим способом аналого-цифрового преобразования является им­пульсно-кодовая модуляция (ИКМ) с равномерной шкалой квантования. При этом весь диапазон входных сигналов разбивается на некоторое число уровней квантования, равномерно отстоящих друг от друга. Каждый раз при передаче очередного отсчёта его значение округляется до ближайшего уровня квантова­ния, номер уровня кодируется двоичным числом.

При данном методе аналого-цифрового преобразования средняя мощ­ность шума квантования не зависит от уровня входного сигнала и определяется только величиной шага квантования. Помехозащищённость от шума квантова­ния находится в линейной зависимости от уровня входного сигнала [3].

В соответствии с рекомендациями МСЭ-Т помехозащищённость сигнала на выходе канала тональной частоты должна быть не менее 32,5 дБ. Можно по­казать [3], что при равномерной ИКМ для выполнения требований к помехоза­щищённости сигнала необходимо около 12 бит на один отсчёт. При частоте дискретизации 8 кГц этому соответствует скорость передачи 96 кбит/с.

Такая скорость передачи неоправданно высока, поэтому, несмотря на простоту, ИКМ с равномерной шкалой квантования для цифровой передачи речи практически не применяется. Однако преобразование в равномерную ИКМ является первым этапом обработки практически во всех кодерах.

1.3Импульсно-кодовая модуляция с неравномерной шкалой кванто­вания. Рекомендация G.711


Несколько уменьшить скорость передачи позволяет ИКМ с неравномер­ной шкалой квантования. Возможны следующие варианты [4]:

Наиболее широкое практическое применение получил метод квантования с компрессией динамического диапазона. В соответствии с этим методом величина шага квантования растёт с увеличением уровня сигнала так, чтобы помехозащищённость от шумов квантования оставалась примерно постоянной. Можно показать [3], что в этом случае характеристика квантования должна иметь логарифмический характер.

В Рекомендации МСЭ-Т G.711 определены характеристики квантования с компрессией динамического диапазона по A- и ?-законам. Вид положительной ветви характеристики квантования по A-закону приведён на рис. 1.2.


Рисунок 1.1 –Характеристика квантования по A-закону (положительная ветвь)

Как видно из рисунка, при квантовании по A-закону весь диапазон делится на восемь сегментов, в каждом из которых осуществляется равномерное квантование. Один отсчёт входного сигнала кодируется восемью битами, старший из которых содержит знак, следующие три – номер сегмента, а оставшиеся четыре – номер уровня квантования в пределах сегмента. Таким образом, характеристика квантования по A-закону имеет квазилогарифмический характер.

Расчёты показывают [3], что при использовании компрессии динамического диапазона восьми бит оказывается достаточно для выполнения требований к помехозащищённости. Скорость передачи в этом случае составляет 64 кбит/с.

При оптимальном квантовании уровни квантования устанавливаются в зависимости от функции распределения сигнала так, чтобы максимизировать отношение сигнал/шум квантования. При адаптивном квантовании характери­стики квантователя или коэффициент усиления изменяются таким образом, чтобы соответствовать изменяющейся дисперсии входного сигнала. Широкого распространения для цифровой передачи речи эти методы не получили.

1.4Дифференциальная импульсно-кодовая модуляция. Дельта-модуляция


Известно [3,4], что между отсчётами речевого сигнала существует сильная корреляция. Следовательно, значение следующего отсчёта может быть достаточно точно предсказано по некоторому числу предыдущих отсчётов. Разность между истинным и предсказанным значениями отсчёта называется ошибкой предсказания. Метод дифференциальной импульсно-кодовой модуляции (ДИКМ) состоит в том, что квантованию и последующей передаче по каналу связи подвергается не само значение отсчёта, а ошибка предсказания. Дисперсия ошибки предсказания значительно меньше, чем дисперсия исходного сигнала, поэтому для её квантования может быть использовано меньшее количество бит [4].

В зависимости от того, является предсказание линейной или нелинейной функцией ранее переданных отсчётов, ДИКМ может быть соответственно с линейным или нелинейным предсказанием [5]. Наибольшее распространение получила ДИКМ с линейным предсказанием.

На рис. 1.3. приведена типичная схема ДИКМ. Сигнал d(n), представляющий собой разность между истинным x(n) и предсказанным значениями входного сигнала подвергается квантованию, кодируется и передаётся в канал. Предсказатель Р вычисляет предсказанное значение как линейную комбинацию предшествующих отсчётов восстановленного сигнала .

На приёмной стороне восстановленный сигнал формируется как сумма предсказанного сигнала и принятого квантованного разностного сигнала .

Основной проблемой при реализации ДИКМ-кодеков является нахождение параметров предсказателя (структуры, порядка, коэффициентов), минимизирующих средний квадрат ошибки предсказания. Оптимальные коэффициенты предсказания зависят от параметров речевого сигнала, поэтому один и тот же предсказатель не может быть оптимальным для разных дикторов.

Применение ДИКМ позволяет снизить скорость передачи до 32-48 кбит/с.



Рисунок 1.1 –Схема ДИКМ
а) – кодер, б) – декодер

Существует разновидность ДИКМ, называемая дельта-модуляцией, при которой разностный сигнал кодируется только одним битом. В этом случае разностный сигнал выбирается много меньше интервала Котельникова, используется простейший предсказатель первого порядка и двухуровневый квантователь. Скорости цифрового потока при дельта-модуляции составляют 32-64 кбит/с [3].

1.5Адаптивная дифференциальная импульсно-кодовая модуляция Рекомендация G.726


Дальнейшим развитием идеи дифференциального кодирования явилась адаптивная дифференциальная импульсно-кодовая модуляция (АДИКМ). При АДИКМ квантователь и предсказатель адаптируются к меняющейся статистике входного сигнала.

Рекомендация МСЭ-Т G.726 описывает кодек АДИКМ для скоростей 40, 32, 24 и 16 кбит/с. Укрупненная схема кодера и декодера приведена на рис. 1.4 [6].

После преобразования входного ИКМ-сигнала, сформированного по А- или ?-закону, в ИКМ с равномерной шкалой квантования, вычисляется разностный сигнал путём вычитания из входного сигнала его оценки. Для кодирования разностного сигнала используется адаптивный квантователь с 31, 15, 7 или 4 уровнями, кодирующий каждый отсчёт разностного сигнала, соответственно, пятью, четырьмя, тремя или двумя битами, в зависимости от скорости. Обратный квантователь формирует из этих пяти, четырёх, трёх или двух бит квантованный разностный сигнал. Оценка сигнала прибавляется к этому квантованному разностному сигналу, в результате чего получается восстановленный входной сигнал. Восстановленный сигнал вместе с квантованным разностным сигналом обрабатываются адаптивным предсказателем, который формирует оценку входного сигнала, и петля обратной связи замыкается.


а)



б)

Рисунок 1.1 –Укрупненная схема кодека АДИКМ по Рекомендации G.726
а) – кодер, б) – декодер

В состав декодера входит схема, идентичная цепи обратной связи кодера, а также преобразователь в ИКМ с компандированием по А- или ?-закону и схема регулировки синхронного кодирования. Регулировка синхронного кодирования предотвращает накопление искажений, возникающих при тандемном соединении (например, АДИКМ-ИКМ-АДИКМ) в некоторых случаях. Это достигается подстройкой выходных ИКМ-комбинаций таким образом, чтобы попытаться исключить деградацию сигнала за счет квантования при следующем АДИКМ-кодировании.

1.6Кодирование с разбиением на поддиапазоны


В кодере с разбиением на поддиапазоны (Sub-band Coder, SBC) полоса сигнала делится на части с помощью набора полосовых фильтров (см. рис. 1.5) [1,2,7]. Выходной сигнал каждого из фильтров кодируется отдельно, и цифровые потоки объединяются в мультиплексоре. На приёмной стороне сигналы демультиплексируются, декодируются и суммируются, образуя восстановленный сигнал.


Рисунок 1.1 –Схема кодека SBC

Сигналы каждого поддиапазона кодируются с использованием различного числа бит в зависимости от уровня мощности в поддиапазоне и от важности воздействия данного поддиапазона на восприятие. Благодаря этому достигается уменьшение скорости по сравнению с более простыми алгоритмами (например, по сравнению с АДИКМ). Для кодирования сигналов поддиапазонов используются различные методы – адаптивная ИКМ, АДИКМ, векторное квантование.

Принцип кодирования с разбиением на поддиапазоны использован в Рекомендации МСЭ-Т G.722, которая описывает кодек для аудиоданных в полосе 7 кГц для использования в сетях ISDN для телеконференций. Скорость цифрового потока кодека G.722 составляет 64 кбит/с.

1.7Кодирование с преобразованием


В кодерах с преобразованием (Transform Coders) вектор из N отсчётов речевого сигнала s = [s(0) s(1) … s(N-1)]T подвергается некоторому преобразованию

S = T s, (1.1)

где S – вектор коэффициентов преобразования, T – матрица преобразования. Коэффициенты преобразования квантуются, кодируются и передаются в канал (см. рис. 1.6) [2].


Рисунок 1.1 –Схема кодирования с преобразованием

На приёмной стороне исходный сигнал может быть восстановлен путём обратного преобразования


s = T-1 S. (1.2)

Выигрыш в скорости достигается за счёт того, что коэффициенты преобразования практически некоррелированы, и их можно кодировать независимо. Более того, эти коэффициенты зачастую медленно меняются со временем, и можно устранить избыточность за счёт дифференциального кодирования.

Существует несколько преобразований, которые могут быть использованы в данном методе кодирования. Важнейшие из них:

KLT является наилучшем в том смысле, что его коэффициенты максимально декоррелированы для любого входного сигнала. Однако KLT зависит от входного сигнала, и для нахождения его коэффициентов требуется большой объём вычислений, поэтому на практике чаще всего используется DCT, которое весьма близко к оптимальному [2].

Описанный принцип используется в адаптивном кодере с преобразованием (Adaptive Transform Coder, ATC). Коэффициенты DCT разбиваются на 8-16 групп и кодируются с использованием адаптивного квантования и распределения бит. Для того, чтобы снабдить приёмник информацией о текущем шаблоне распределения бит, на приёмную сторону также передаются среднеквадратические отклонения для каждого поддиапазона, которые участвуют в процессе адаптации [1].

Выигрыш в отношении сигнал/шум у кодера ATC по сравнению с логарифмической ИКМ при скоростях 16-32 кбит/с составляет 17-23 дБ, а по сравнению с АДИКМ при скорости 16 кбит/с – около 6 дБ. Ухудшение качества остаётся незначительным при понижении скорости вплоть до 12 кбит/с [2].

1.8Методы гармонического анализа-синтеза


Методы частотного кодирования, в отличие от методов кодирования формы, направлены на описание спектра речевого сигнала в частотной области. Центральным является понятие кратковременного спектра, который определяется как [1,2,4]


, (1.3)

,

где f – частота, T – период дискретизации, h(n) – скользящая оконная функция.

Обратное преобразование имеет вид


. (1.4)

Известно, что речь можно синтезировать с хорошим качеством, если использовать синусоиды с амплитудами, частотами и фазами, соответствующими пикам кратковременного спектра. Скорость цифрового потока можно уменьшить, если для вокализованных звуков частоты синусоид задать кратными частоте основного тона, а для невокализованных звуков – достаточно близкими друг к другу, расположенными равномерно, но не кратными нижней частоте [2].

На рис. 1.7 приведена схема кодера STC (Sinusoidal Transform Coder) [2]. На передающей стороне происходит вычисление кратковременного преобразования Фурье сегмента речи. Огибающая спектра определяется линейной интерполяцией между пиками кратковременного спектра, которые ищутся с помощью специального алгоритма. На основании кратковременного спектра вычисляется частота основного тона и вероятность того, что звук вокализованный. Эти параметры, вместе с информацией о спектральной огибающей, передаются в канал.


Рисунок 1.1 –Структурная схема кодека STC

На приёмной стороне происходит синтез речевого сигнала. Вычисляется частота среза, зависящая от вероятности вокализованности. Сигнал синтезируется из гармонических составляющих, причём в поддиапазоне, лежащем ниже частоты среза, частоты синусоид кратны частоте основного тона, а в остальной полосе частоты располагаются равномерно через фиксированный промежуток и не кратны частоте основного тона.

2Обзор методов параметрического кодирования речи


Данный раздел посвящен методам параметрического кодирования речевых сигналов. Рассмотрены канальные и формантные вокодеры, гомоморфные вокодеры и вокодеры с линейным предсказанием. Особое внимание уделено методам анализа через синтез.

2.1Канальные и формантные вокодеры


В канальном вокодере (см. рис. 2.1) спектр речевого сигнала разделяется на поддиапазоны полосовыми фильтрами. В каждом частотном канале происходит детектирование огибающей, которая изменяется медленно. Специальное устройство определяет, вокализованный или невокализованный звук передаётся. Также определяется частота основного тона [1-3].


Рисунок 1.1 –Структурная схема канального вокодера

На приёмной стороне сигналы огибающих модулируют, в зависимости от вокализованности звука, сигнал генератора тона или генератора шума. Выходные сигналы объединяются, образуя синтезированный речевой сигнал.

В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина полосы частот [1].

Типичная схема синтезатора формантного вокодера приведена на рис. 2.2.


Рисунок 1.2 –Формантный вокодер

Передаточная функция ЛДС для синтеза вокализованных звуков состоит из трёх (в общем случае из L) каскадно соединенных звеньев второго порядка полюсного типа, т. е.
,

где

,
?ii-я частота форманты, ?B(i) – ширина полосы i-й форманты.

Для синтеза невокализованных звуков используется ЛДС с передаточной функцией Hu(z), которая состоит из звена второго порядка полюсного типа и звена второго порядка нулевого типа. Фиксированная функция спектральной компенсации имитирует эффекты импульсов голосовой щели и соединения губ с открытым пространством.

Основной трудностью в формантных вокодерах является вычисление частот формант и ширин их полос.

2.2Гомоморфные вокодеры


Если реакция системы на свёртку воздействий является свёрткой реакций на каждое из воздействий, то такая система называется гомоморфной относительно свёртки [4]. Применительно к обработке речи это означает возможность разделить генераторную и фильтровую функции, то есть определить параметры возбуждения и голосового тракта. Гомоморфные относительно свёртки системы широко применяются в речевых технологиях.

На рис. 2.3 изображена структурная схема гомоморфного вокодера [2,4]. Обратное преобразование Фурье логарифма спектра образует кепстральную последовательность, из которой можно выделить информацию о голосовом тракте и определить период основного тона.


Рисунок 1.1 –Структурная схема гомоморфного вокодера

На приёмной стороне вычисляется БПФ кепстра и производится потенцирование результата. ОДПФ получившегося сигнала даёт импульсную характеристику голосового тракта. Свёртка полученной импульсной характеристики с сигналом возбуждения даёт синтезированный речевой сигнал.

2.3Вокодеры с линейным предсказанием


Линейное предсказание – это вычислительная процедура, позволяющая по некоторой линейной комбинации предшествующих взвешенных отсчётов недетерминированного сигнала предсказать (с некоторой точностью) будущее значение отсчета. В частотной области линейное предсказание позволяет оценить коэффициенты передаточной функции тракта, если известен её вид [8].

Речь является нестационарным случайным процессом, однако всегда можно выделить интервал квазистационарности, на котором изменениями параметров речи можно пренебречь. Таким образом, на интервале квазистационарности речевой сигнал можно представить как отклик линейной системы (формирующего фильтра) с постоянными параметрами на определённый возбуждающий сигнал. Формирующий фильтр является моделью голосового тракта, а возбуждающий сигнал – моделью колебаний голосовых связок.

В общем случае формирующий фильтр содержит как нули, так и полюсы, однако на практике чаще всего используется модель полюсного типа. На передаче определяются коэффициенты формирующего фильтра и параметры возбуждающего сигнала, и эта информация передаётся в декодер. На приёмной стороне по полученной информации создаётся фильтр, на вход которого подаётся возбуждающий сигнал необходимого вида.

Вокодеры с линейным предсказанием отличаются способами генерирования возбуждающего воздействия и выбора параметров моделирующего фильтра. Существуют вокодеры

Среди многочисленных вариантов вокодеров «анализ через синтез» наибольшее распространение получили вокодеры с многоимпульсным возбуждением (MPLP), с возбуждением регулярной последовательностью (RPLP) и разнообразные модификации вокодеров с кодовым возбуждением (CELP) [1,2].

2.3.1Классическая модель возбуждения. Стандарт LPC-10


Классическая модель возбуждения предполагает наличие только двух видов возбуждающего сигнала. Для вокализованных звуков возбуждающий сигнал представляет собой периодическую последовательность импульсов, повторяющихся с частотой основного тона, а для невокализованных – шумовой сигнал.

Одним из наиболее ранних стандартов сжатия речи, использующих линейное предсказание, стал стандарт LPC-10 (FS-1015). Схема кодека LPC-10 изображена на рис. 2.4.


Рисунок 1.1 –Структурная схема кодека LPC-10
а) – кодер, б) – декодер

Чтобы уменьшить эффекты арифметики с фиксированной точкой, речевой сигнал предварительно фильтруется с использованием КИХ-фильтра верхних частот первого порядка. Разбиение на сегменты и обработка кадров зависит от вокализованности. Для вокализованных фрагментов расстояние между последовательными интервалами анализа кратно периоду основного тона, а для невокализованных фрагментов используются сегменты длительностью 22,5 мс. Вокализованность и период основного тона оцениваются по речевому сигналу, пропущенному через фильтр нижних частот с частотой среза 800 Гц. Для того, чтобы оцениватель основного тона мог работать с входными сигналами, у которых составляющие на частотах ниже 300 Гц малы, используется инверсный фильтр второго порядка. В канал передаётся период основного тона, признак вокал/невокал, коэффициент усиления и параметры, эквивалентные коэффициентам линейного предсказания.

В декодере происходит синтез речевого сигнала. В зависимости от параметра вокал/невокал и от периода основного тона на вход синтезирующего фильтра подаётся периодическая последовательность импульсов либо шумовой сигнал. Выходной сигнал фильтра усиливается, и проходит через фильтр, устраняющий предыскажения, внесённые на передаче.

Кодек LPC-10 работает на скорости 2,4 кбит/с, при этом качество по шкале DRT составило 90, а по шкале DAM – 68. Хотя разборчивость данного кодека приемлема, синтетический характер речи всё же заметен на слух [2].

2.3.2Вокодеры со смешанным возбуждением


В вокодерах со смешанным возбуждением (MELP) в качестве возбуждающего сигнала используется комбинация импульсного и шумового сигналов. Один из вариантов RELP-вокодера приведён на рис. 2.5.


Рисунок 2.1 –Схема формирования возбуждающего сигнала в кодеке MELP

Формирование спектра возбуждающего сигнала осуществляется КИХ-фильтрами первого порядка (H1(z) и H2(z)) с переменными параметрами. Также возможно смещение позиций импульсов для синтеза сигналов со слабой периодичностью или непериодических вокализованных сигналов. Адаптивный фильтр полюсно-нулевого типа используется для усиления частот формант. После синтезирующего фильтра включается дисперсионный фильтр для улучшения соответствия натуральной и синтезированной речи на участках спектра, удалённых от формантных областей [2,7].

2.3.3Вокодеры с возбуждением от остаточного сигнала


Принцип работы вокодеров с возбуждением от остаточного сигнала (RELP) схож с принципом работы АДИКМ, за исключением способа кодирования разностного сигнала. Кодеры с RELP не кодируют остаточный сигнал напрямую, а предварительно обрабатывают его для передачи с более низкой скоростью кодирования. Такая предварительная обработка обоснована тем, что спектр остаточного сигнала состоит из основной частоты и многочисленных гармоник, и кодеры с RELP кодируют только основную составляющую. В декодере реконструируется остаточный сигнал (в частотной области) декодированием основной составляющей и добавлением к ней гармоник [7].

На рис. 2.6 изображена схема вокодера RELP, работающего на скорости 6…9,6 кбит/с [2]. В этом вокодере полоса частот разностного сигнала сокращается до 800 Гц и кодируется со скоростью 5 кбит/с. Разностный сигнал подвергается децимации и кодируется методом адаптивной дельта-модуляции. На приемной стороне разностный сигнал обрабатывается нелинейным выравнивателем спектра, который восстанавливает высокочастотные гармоники. Сигнал возбуждения синтезирующего фильтра получается путем комбинирования выровненного разностного сигнала с белым шумом определённой мощности.


Рисунок 3.1 –Схема вокодера RELP

2.4Вокодеры «анализ через синтез»


Все ранее рассмотренные методы кодирования речи с линейным предсказанием относились к классу методов «анализ и синтез» (Analysis and Synthesis, AaS). В них сигнал возбуждения формируется без учёта результата синтеза речи на приёме. В отличие от AaS, при кодировании методом «анализ через синтез» (Analysis by Synthesis, AbS) сигнал возбуждения выбирается по некоторому критерию, исходя из результатов синтеза, для чего в цепи обратной связи кодера присутствует декодер.

Обобщённая схема кодирования «анализ через синтез» приведена на рис. 2.7 [2]. Система состоит из




Рисунок 1.1 –Обобщённая схема вокодера «анализ через синтез»

2.4.2Вокодеры с многоимпульсным возбуждением


Вокодеры с многоимпульсным возбуждением (Multi-Pulse Linear Prediction, MPLP) формируют возбуждающую последовательность, состоящую из неравномерно расположенных импульсов. В ходе анализа последовательно определяются как амплитуды, так и положения импульсов исходя из минимизации СКО [2].

Схема кодека MPLP приведена на рис. 2.8.


Рисунок 2.1 –Структурная схема кодека с многоимпульсным возбуждением
а) – кодер, б) – декодер

Технология MPLP используется компанией Skyphone Aeronautical Telephone для обслуживания каналов на скорости 9,6 кбит/с. Качество передачи речи по шкале MOS для данного кодека составляет около 3,4, а задержка в одном направлении – менее 40 мс. Дополнительные исследования показали, что кодер может передавать сигналы DTMF и низкоскоростные сигналы передачи данных [2].

2.4.3Вокодеры с возбуждением регулярной импульсной после­дова­тель­ностью


Вокодеры с возбуждением регулярной импульсной последовательностью (Regular Pulse Excitation, RPE) также, как и вокодеры с многоимпульсным возбуждением, используют возбуждающую последовательность, состоящую из большого числа импульсов. Основное отличие алгоритма RPE от алгоритма MPLP состоит в том, что импульсы в кодере RPE расположены равномерно, поэтому для определения возбуждающего сигнала достаточно задать положение первого импульса и расстояние между импульсами. Число импульсов обычно около 10-13, а их амплитуды определяются путем решения системы линейных уравнений [2].

Кодек RPE со скоростью 13 кбит/с используется в системе мобильной связи GSM. Оценка качества передачи речи по шкале MOS составляет 3,47…3,9, а вычислительная сложность – около 5…6 MIPS.

2.4.4Вокодеры с кодовым возбуждением


Рассмотренные выше кодеки MPLP и RPE обеспечивают хорошее качество речи на средних скоростях. Для низкоскоростного кодирования речи с приемлемым качеством используется более эффективный способ кодирования возбуждающего сигнала.

На рис. 2.9 изображена обобщённая схема вокодера с кодовым возбуждением (Code-Excited Linear Prediction, CELP) [2]. В кодовой книге содержатся векторы отсчётов возбуждающего сигнала. При кодировании находится вектор, обеспечивающий минимум СКО, и в канал передаётся номер этого вектора в кодовой книге. На приёмной стороне из кодовой книги выбирается нужная последовательность и подаётся на вход синтезирующего фильтра.

Наилучшее качество речи обеспечивается путём последовательного перебора всех возможных векторов возбуждения, однако это требует больших вычислительных затрат. Поэтому разработаны структурированные кодовые книги и быстрые алгоритмы поиска.


Рисунок 4.1 –Структурная схема кодера CELP

Метод CELP в настоящее время широко используется и имеет множество модификаций (например, ACELP, VSELP, CS-CELP, QCELP и т. д.) Этот метод лежит в основе кодеков по Рекомендациям G.723.1 (5,3 кбит/с), G.728 (LD-CELP), G.729. Данные некоторых CELP-кодеков приведены в таблице 1 [1,2,7,9].
Таблица 1 – Характеристики кодеков CELP

Наименование

Скорость, кбит/с

Вычислительная сложность, MIPS

Задержка, мс

MOS

FS-1016 CELP

4,8

16-20



3,2

VSELP

8

20



3,5…3,9

LD-CELP (G.728)

16

20

2…2,5

3,45…3,9

ACELP (G.723.1)

5,3

23

30



QCELP-13

14,4





4,2

QCELP

9,6





3,4

CS-CELP

8

20…25

10…15




Список использованных источников

  1. Шелухин О. И., Лукьянцев Н. Ф. Цифровая обработка и передача речи. – М.: Радио и связь, 2000.

  2. Spanias A. Speech Coding: A Tutorial Review. – 1994. (www.eas.asu.edu/~spanias)

  3. Курицын С. А. Основы построения телекоммуникационных систем передачи: Учебное пособие. – СПб.: Информационный центр «Выбор», 2004.

  4. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ./Под ред. М. В. Назарова и Ю. Н. Прохорова. – М.: Радио и связь, 1981.

  5. Харатишвили Н. Г. Дифференциальная импульсно-кодовая модуляция в системах связи . М.: Радио и связь, 1982.

  6. ITU Recommendation G.726. 40, 32, 24, 16 kbit/s Adaptive Differential Pulse Code Modulation (ADPCM). – Geneva, 1990.

  7. Беллами Дж. Цифровая телефония: Пер. с англ. / Под ред. А. Н. Берлина, Ю. Н. Чернышова. – М.: Эко-Трендз, 2004.

  8. Основы цифровой обработки сигналов: Курс лекций / Авторы: А. И. Солонина, Д. А. Улахович и др. – СПб.: БХВ-Петербург, 2003.

  9. Ланнэ А. А., Арбузов С. М., Таланов А. О. Исследование моего голоса: методические рекомендации к курсовому проектированию (спец. 210404, 210405, 210402, 210312) / СПбГУТ. СПб, 2005.

  10. ITU Recommendation G.711. Pulse Code Mode Modulation of Voice Frequencies. – Geneva, 1993.

  11. ITU Recommendation V.32bis. A Duplex Modem Operating at Data Signalling Rates of up to 14 400 bit/s for Use on the General Switched Telephone Network and on Leased Point-to-Point 2-wire Telephone-Type Circuits. – Geneva, 1991.

  12. Курицын С. А. Адаптивные методы обработки сигналов в цифровых и аналоговых системах передачи: Учебное пособие / СПбГУТ. СПб, 2004.

  13. Кунегин С. В. Анализ возможности использования алгоритмов пакетной передачи речи в сетях передачи данных IP и Frame Relay (kunegin.narod.ru)

  14. Цифровые речевые ВЧ-каналы IV (www.etl500.ru)

  15. Муханов М. Качество голоса в мультисервисных сетях // КомпьютерПресс. 2001. № 5. (www.compress.ru)

  16. Барков И. Некоторые аспекты технологий IP-телефонии // iXBT (www.ixbt.com)

  17. Симонов О. Передача голоса по сетям IP (framerelay.nm.ru)

  18. Росляков А. В., Самсонов М. Ю., Шибаева И. В. IP-телефония. – М.: Эко-трендз, 2003.

Учебный текст
© perviydoc.ru
При копировании укажите ссылку.
обратиться к администрации