Сжатие речевого сигнала на основе линейного предсказания

20662
знака
0
таблиц
22
изображения

Введение

Одной из задач такого обширного раздела как «Цифровая обработка речевых сигналов», входящего в состав науки, занимающейся цифровой обработкой сигналов или просто обработкой сигналов является сжатие или кодирование речевого сигнала (РС). Сжатие РС может быть как без потерь (архивация), так и с потерями. Причем в последнем случае это кодирование можно подразделить на три вида:

1.       кодирование непосредственно реализации РС (Wave Form Codec);

2.       измерение, кодирование и передача на приемную сторону параметров РС, по которым уже на приемной стороне производится синтез этого (искусственного) РС. Такие системы называют вокодерными (Source Codec);

3.       гибридные способы кодирования, т.е. сочетание первого и второго способов кодирования. В задачу данной работы входит рассмотрение первого способа кодирования.

Под кодированием подразумевается преобразование РС в некоторый «другой» сигнал, который можно представить с меньшим числом разрядов, что в итоге повысит скорость передачи данных. Одним из видов такого кодирования является дифференциальная импульсно-кодовая модуляция (ДИКМ), о которой и пойдет речь в дальнейшем.

Дифференциальная импульсно-кодовая модуляция

В обычной импульсно-кодовой модуляции каждый отсчет кодируется независимо от других. Однако у многих источников сигнала при стробировании с частотой Найквиста или быстрее проявляется значительная корреляция между последовательными отсчетами [1] (в частности, источник РС является квазистационарным источником и может относиться к рассматриваемым видам источников). Другими словами, изменение амплитуды между последовательными отсчетами в среднем относительно малы. Следовательно, схема кодирования, которая учитывает избыточность отсчетов, будет требовать более низкой битовой скорости.

Суть ДИКМ заключается в следующем. Предсказывается текущее значение отсчета на основе предыдущих M отсчетов. Для конкретности предположим, что  означает текущий отсчет источника, и пусть  обозначает предсказанное значение (оценку) для , определяемое как

.

Таким образом,  является взвешенной линейной комбинацией M отсчетов, а  являются коэффициентами предсказания. Величины  выбираются так, чтобы минимизировать некоторую функцию ошибки между  и . Проиллюстрируем вышесказанное на отрезке РС:

Прежде чем идти дальше, рассмотрим виды предсказания. «Линейное» предсказание означает, что  является линейной функцией предыдущих отсчетов; при «нелинейном» предсказании – это нелинейная функция. Порядок предсказания определяется количеством используемых предыдущих отсчетов. То есть, предсказание нулевого и первого порядка является линейным, а второго и более высокого порядка - нелинейным. При линейном предсказании восстановить сигнал значительно проще, чем при нелинейном предсказании. Будем рассматривать только линейное предсказание.

Виды линейных предсказаний

1.                       Предсказание нулевого порядка.

В этом случае для предсказания текущего отсчета используется только предыдущий отсчет РС, т.е.

 =>

2.                       Предсказание первого порядка (линейная экстраполяция).

В этом случае для предсказания текущего отсчета используется не только предыдущий отсчет, но и разница между предпоследним и последним отсчетами, которая суммируется к общему результату:

 =>

 

Коэффициенты линейного предсказания (получение и расчет)

Формирование сигнала ошибки при использовании линейного предсказания эквивалентно прохождению исходного сигнала через линейный цифровой фильтр. Этот фильтр называется фильтром сигнала ошибки (ФСО) или обратным фильтром.

Обозначим передаточную функцию такого фильтра как А(z):

,

где E(z) и X(z) – прямое z - преобразование от сигнала ошибки и входного сигнала соответственно.

На приемной стороне при прохождении сигнала ошибки через формирующий фильтр (ФФ) мы в идеале получим исходный сигнал. Обозначим передаточную функцию формирующего фильтра как K(z).

Т.е. передаточная функция K(z) связана с A(z) следующим соотношением:

.

Рассмотрим последовательно соединенные кодер и декодер:

При условии, что A(z)K(z) = 1, будет обеспечено абсолютно точное восстановление сигнала, т.е. . Но это в идеале, на самом деле такого быть не может по причинам, о которых скажем ниже.

Для примера, найдем передаточные функции ФСО и ФФ для разных типов линейного предсказания.

а) предсказание нулевого порядка;

; ;

Получили, что такой фильтр неустойчив (граница устойчивости), так как полюс находится на единичной окружности.

б) предсказание первого порядка;

;;

Получили, что и такой фильтр тоже неустойчив (граница устойчивости).

в) общая форма предсказания;

Было получено, что => .

; ;

На основании рассмотренных примеров можно сделать следующие выводы.

Фильтр сигнала ошибки всегда является КИХ фильтром, а формирующий фильтр – БИХ фильтром. Коэффициенты передаточной функции ФФ, которые, как уже было сказано выше, являются коэффициентами линейного предсказания (LPC: Linear Prediction Coefficients), должны быть такими, чтобы:


Информация о работе «Сжатие речевого сигнала на основе линейного предсказания»
Раздел: Радиоэлектроника
Количество знаков с пробелами: 20662
Количество таблиц: 0
Количество изображений: 22

Похожие работы

Скачать
26992
2
10

... для которого входной вектор  оказался ближайшим. Выражение (2.5) соответствует правилу обучения состязательных нейронных сетей, в частности, правилу Кохонена. Подробнее см. в [2]. Существует различные схемы сжатия речи c помощью алгоритмов векторного квантования. Большинство из них основано на схеме “анализ-синтез”. Применяют два варианта таких схем – без обратной связи и с обратной связью [1]. ...

Скачать
126444
13
5

...  – для каждого из четырех подсегментов. В табл. 5.2 приведено содержание выходной информации кодера с указа­нием числа бит, используемых для ко­дирования. Таблица 5.2 Кодирование выходной информации кодера речи стандарта D-AMPS Передаваемые параметры Число бит Примечание Параметры кратковременного предсказания (коэффициенты частичной корреляции , ) 38  – 6 бит;  – по 5 бит; ...

Скачать
158991
11
10

... на другом или утверждения о реализации идеи человеко-машинного общения. Поэтому исследования в этой области являются весьма актуальными. 3. Разработка программного обеспечения для распознавания команд управления промышленным роботом 3.1 Реализация интерфейса записи и воспроизведения звукового сигнала в операционной системе Microsoft Windows 3.1.1 Основные сведения Звуковые данные хранятся ...

Скачать
10948
0
2

... создаются по правилам речеобразования или берутся из памяти декодера. Фонемные вокодеры предназначены для получения предельной компрессии речевых сигналов. Область применения фонемных вокодеров - линии командной связи, управление и говорящие автоматы информационно-справочной службы. В таких вокодерах происходит автоматическое распознавание слуховых образов, а не определение параметров речи и, ...

0 комментариев


Наверх