3 ОПИСАНИЕ ВЫБРАННОГО МЕТОДА СЖАТИЯ
Разработанные за последние 20 лет методы кодирования обеспечивают хорошее качество (разборчивость, натуральность звучания, повышенную возможность опознавания говорящего) при передаче речи в цифровой форме по узкополосным каналам связи. На практике широкое применение нашли кодеры с линейным предсказанием при многоимпульсном возбуждении и при возбуждении от кода.
Наиболее совершенным алгоритмом (с точки зрения качества) является алгоритм с векторным квантованием.
Рисунок 3.1 – Структурная схема кодирования
Речевой сигнал S разделяется на кадры длительностью в 20 мс. В каждом кадре с использованием алгоритма линейного предсказания (LPC) определяются параметры синтезирующего фильтра 1/А(z), после чего методом анализа через синтез находятся параметры сигнала возбуждения, минимизирующие взвешенный сигнал ошибки. Сигнал возбуждения представляется наборами индексов векторов извлекаемых из стохастической и адаптивной кодовых книг а также наборами соответствующих им коэффициентов усиления. При кодировании сигнала возбуждения кадр разбивается на 4 подкадра по 5 миллисекунд. В каждом подкадре кодируются и передаются индексы (9 бит на индекс), коэффициенты усиления. В целом кадр кодируется 144 битами из которых 40 бит отводятся на кодирование коэффициентов усиления с использованием скалярного квантования.
При использовании векторного квантования для каждого из двух коэффициентов усиления производилось объединение четырех значений, полученных для подкадров одного кадра, в один четырехмерный вектор. В результате этого для каждого кадра формировались два вектора коэффициентов усиления для квантования которых использовались различные кодовые книги. Формирование кодовых книг выполнялось на основе обучающей выборки размером 16 000 векторов, с использованием которой для каждого из векторов были построены по две кодовые книги размером 64 и 128 эталонных векторов (длина кодового слова 6 и 7 бит соответственно). При таких размерах кодовых книг количество бит, отводимых на кодирование коэффициентов усиления, сокращается соответственно на 28 и 26 бит на кадр.
Обучающая выборка формировалась в результате обработки речевого материала от двенадцати дикторов (5 женщин и 7 мужчин) общей продолжительностью 8 минут. Для построения кодовых книг использовался алгоритм К средних с начальными условиями, полученными использованием Диагностической Меры Приемлемости (DAM) путем прослушивания 12 фонетически сбалансированных 6-слоговых предложений, произносимых дикторами, не участвовавшими в формировании обучающей выборки. Качестов звучания оценивалось бригадой из 10 слушателей. По результатам оценки вычислялась средняя оценка мнений (процент предпочтений).
Таким образом, использование векторного квантования коэффициента усиления позволяет без ущерба качества звучания понизить скорость до 2,4 Кбит/сек.
Входные файлы должны быть 16-разрядные .WAV файлы, с частотой дискретизации в 8 кГц. Программное обеспечение большинства звуковых плат поддерживает этот формат файла.
Описание некоторых функций.
1) Функция Speech_process - моделирование вокодера, включая анализ, передачу, синтез, и графический интерфейс пользователя (GUI).
2) Функция COR - вычисление автокорреляции задержки.
Вычисление коэффициентов автокорреляции последовательности данных:
idim
C(i) = SUM rar(k) * rar(k-i) , где i = 0, ..., n
k=i+1
c0 = C(0)
3) Функция LSPDECOD - независимый LSP декодер;
4) Функция DECODHAM - расшифровывает кодируемое ключевое слово в получателе. Исправляет одиночные ошибки или обнаруживает многократные ошибки (проверка по чету).
5) Функция VDECODE - создает стохастический вектор возбуждения по индексу кодовой книги. Формирует LPC возбуждение.
6) Функция WAVHDR - создает заголовок файла для 16-разрядного, 8 кГц, моно 7) Функция ZEROFILT - нерекурсивный фильтр. Фильтр осуществлен в прямой реализации.
N -i
H (z) = SUM b (i) z
I=0
X (t) - > --- (z0) ----- b0 > ------ + ----- > y (t)
| |
Z1 ------ b1 > ------ +
| |
Z2 ------ b2 > ------ +
| |
::
| |
ZN ------ bN > ------ +
5 Тестирование программы на MATLAB
Кодовое представление параметров каждого из сегментов в шестнадцатеричном
виде:
ASCII hex-encoded representation of each set of frame parameters:
855C146BF548AD8EFE03BD2CD2ED0EE6B0A2
291C111D51673E41CD5BF56406582BCC3821
FF5046DBCDE6CE54DE5E67008A20498CAD30
575C908A636E8ED3AF0B46CC023EE29CB0BB
41BE7B8ADC0F9E5758DCDEC0C4C4C3A58CF4
193C70ECF504840F281C5E44082AB4EFB477
442088F484200F070AD21D60DEE9AF841D0E
A8CE80DF01A626049FE934A8C66735331CDD
0F863600A412234C603D33C5C2F632221F94
...
43F33E5F0B5F004800B70A4A5ADB9310067E
Рисунок 5.1 – амплитудная характеристика звукового файла Five.Wav
Рисунок 5.2 – частотная характеристика звукового файла Five.Wav
(после окна Хэмминга)
СИСТЕМНЫЕ ТРЕБОВАНИЯ
· 486DX4-100 или лучше;
· 16 (рекомендуется) Мбайт;
· 512 Кб минимум свободного места жесткого диска;
· Microsoft Windows v3.1 или выше;
· MATLAB для Windows v4.0 или лучше
· программное обеспечение также запускается в UNIX и других средах рабочей станции.
В данном курсовом проекте с помощью пакета MATLAB был разработан ряд функций, осуществляющих сжатие речи по алгоритму векторного квантования, обеспечивающих сжатие речи до уровня 2400 бит/с и ниже. Предусмотрено несколько ступеней сжатия. Обеспечена работа системы в двух режимах: дикторо-зависимом и дикторо-независимом.
Библиографический список
1. Бондарев В.Н. Цифровая обработка сигналов: методы и средства/ В.Н. Бондарев, Г. Трестер, В.Н. Чернега.- Харьков: Изд-во Конус, 2001.-398 с.
2. Бондарев В.Н. Искусственный интеллект/ В.Н. Бондарев, Ф.Г. Аде.- Севастополь: Изд-во СевНТУ, 2002.-616 с.
3. Рабинер Л.Р Цифровая обработка речевых сигналов/ Л.Р. Рабинер, Р.В. Шафер.- М.: Радио и Связь. 1981.-495 с.
4. Ратынский М.В. Основы сотовой связи/ М.В. Ратынский; Под ред. Д.Б. Зимина.- М.: Радио и Связь, 1998.- 248 с.
5. Makhoul J. Vector Qvantization // Speech Coding Proceedings of the IEEE, 1985.- Vol. 73. - N 11.- P.1551-1588.
... – для каждого из четырех подсегментов. В табл. 5.2 приведено содержание выходной информации кодера с указанием числа бит, используемых для кодирования. Таблица 5.2 Кодирование выходной информации кодера речи стандарта D-AMPS Передаваемые параметры Число бит Примечание Параметры кратковременного предсказания (коэффициенты частичной корреляции , ) 38 – 6 бит; – по 5 бит; ...
... за которым следует устройство дискретизации (рисунок 4.2), подастся известный сигнал s(t) плюс шум AWGN n(t). 4.4 Межсимвольная интерференция На рисунке 4.3 а) представлены фильтрующие элементы типичной системы цифровой связи. В системе - передатчике, приемнике и канале - используется множество разнообразных фильтров (и реактивных элементов, таких как емкость и индуктивность). В передатчике ...
... , работавших в области электротехники, заинтересовалась возможностью создания технологии хранения данных, обеспечивающей более экономное расходование пространства. Одним из них был Клод Элвуд Шеннон, основоположник современной теории информации. Из разработок того времени позже практическое применение нашли алгоритмы сжатия Хаффмана и Шеннона-Фано. А в 1977 г. математики Якоб Зив и Абрахам Лемпел ...
... необходимо загрузить весь файл целиком. Другим, не принципиальным, но существенным ограничением формата является большой объем полученных файлов. Таким образом, на телефонах появился формат видео, способный обеспечить высокое качество изображения при практически кинематографической частоте кадров. Качество воспроизведения зависит лишь от объема доступной памяти. Видеоролик проигрывается на полный ...
0 комментариев