Министерство образования и науки Украины


Пояснительная записка

к курсовому проекту

по дисциплине «Цифровая обработка сигналов»

на тему: «сжатие речи на основе алгоритма векторного квантования»

2006


Аннотация

 

В данной курсовой работе представлена разработка алгоритма функционирования системы, обеспечивающей сжатие речи с помощью векторного квантования, и программная реализация алгоритма в системе MATLAB и на языке С.

Приводится исследование влияния на работоспособность системы аддитивных шумов, разработка и исследование программной реализации системы на основе ЦПОС. Разработана система сжатия речи, обеспечивающая сжатие речи до уровня 2400 бит/с и ниже и и подсистема декодирования в реальном времени с помощью алгоритма векторного квантования. Предусмотрены несколько ступеней сжатия. Обеспечена работа системы в двух режимах: дикторо-зависимом и дикторо-независимом. Система реализована в пакете MATLAB и на языке С.


СОДЕРЖАНИЕ

Введение

1. Постановка задачи

2. Описание существующих методов сжатия речи

3. Описание выбранного метода сжатия

4. Разработка программы на MATLab

5. Тестирование на MATLab

6. Системные требования

Заключение

Библиографический список

Приложение А. Текст программы на MATLab

Приложение Б. Текст программы на С


ВВЕДЕНИЕ

При передаче речи по цифровым каналам связи, будь то сотовая или Интернет-телефония, самый важный вопрос - это сколько информации (число бит в единицу времени) придется передавать по каналам, чтобы снабдить пользователя качественной голосовой связью. Ответ на него в каком-то смысле определяет все - стоимость и качество предоставляемых пользователям услуг и аппаратуры, емкость и масштабируемость сети передачи данных и многое другое.

Сжатие речи при ее передаче сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги и привлекать новых пользователей. Именно поэтому рынок цифровой телефонии развивается под непосредственным технологическим диктатом ученых и разработчиков кодеков речи.

Очевидно, что, начиная с каких-то пороговых значений соотношения скорости передачи и доступной емкости каналов, операторы связи имеют достаточную (для развития и своего, и рынка) прибыль. В настоящее время можно сказать, что этот порог уже превышен. Это привело к тому, что расценки на цифровую связь стали более чем конкурентны по сравнению с проводной аналоговой, а благодаря скорому переходу к кодекам речи на скорости порядка 2,4 кбит/с и ниже, цена минуты междугородного разговора может в ближайшие годы снизиться до нескольких центов за минуту.

Сказав про успехи, нельзя не сказать хотя бы пару слов и о недостатках. Качество звучания сжатой речи, что в сотовой, что в Интернет-телефонии оставляет желать лучшего. Некоторые (из тех, кто имеет такой выбор) до сих пор предпочитают аналоговые сотовые сети цифровым, поскольку в последних речь часто звучит механически, случаются посторонние звуки и т. п. - и все из-за сжимающих кодеков речи, так как в остальном цифровые протоколы передачи обеспечивают лучшее качество звучания. В компьютерной телефонии снижению качества, помимо кодеков речи, способствует заметное запаздывание сигнала и ошибки при сборке пакетов. Впрочем, понятно, что если с кодеком на 2,4 кбит/с "узкий" канал справляется с трудом, то на скорости 1,2 кбит/с проблем будет меньше. Да и пропускная способность компьютерных сетей возрастает настолько быстро, что в ближайшей перспективе сетевая задержка снизится в несколько раз. И тогда и у пользователей, и у операторов на первое место могут встать высокие требования именно к низкоскоростным кодекам речи.

Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Спектр речи весьма широк (примерно от 50 до 10000 Гц), но для передачи речи в аналоговой телефонии когда-то отказались от составляющих, лежащих вне полосы 0,3-3,4 кГц, что ухудшило восприятие ряда звуков (например, шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также ухудшает восприятие из-за потерь низкочастотных гармоник основного тона. А в цифровой телефонии к влиянию ограничения спектра добавляются еще шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь.

Решающими в выборе полосы 0,3-3,4 кГц были экономические соображения и нехватка телефонных каналов. Потребности пользователей в каналах сделали тогда вопросы качества речи второстепенными.

Для совместимости по полосе с распространенными аналоговыми сетями в цифровой телефонии отсчеты аналоговой речи приходится брать согласно теореме Котельникова с частотой 8 кГц - не меньше двух отсчетов на 1 Гц полосы. Правда, в цифровой телефонии существует принципиальная возможность использовать спектр речи за пределами полосы 0,3-3,4 кГц и тем самым повысить качество, но эти методы не реализуются, так как они вычислительно пока еще очень сложны. Впрочем, кое-что появляется: уже разработаны универсальные кодеки для компьютерной телефонии и мультимедиа, способные передавать не только речь, но и музыку. При полосе исходного сигнала до 6 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигнал требует для передачи канал в 12 кбит/с.

Озвученная речь, представляющая большую трудность для сжатия, образуется с помощью звуковых связок человека. Скорость их периодических колебаний задает так называемую частоту основного тона (ОТ) - энергию голосового тракта человека, который представляет собой объемный резонатор. Голосовой тракт формирует спектральную окраску речи или, другими словами, ее формантную структуру. Другое название голосового тракта - синтезирующий фильтр - нам более удобно, так как математическое описание речеобразования обычно ведется в терминах линейной фильтрации. Тогда, условно, речевой сигнал можно разделить на две составляющие, отвечающие за (1) ОТ (возбуждение фильтра) и (2) голосовой тракт (формантная структура сигнала). Соответственно, большинство на сегодня используемых алгоритмов, так или иначе, решают один вопрос - как наиболее эффективно выделить и сокращенно описать обе составляющие.



Информация о работе «Сжатие речи на основе алгоритма векторного квантования»
Раздел: Информатика, программирование
Количество знаков с пробелами: 26992
Количество таблиц: 2
Количество изображений: 10

Похожие работы

Скачать
126444
13
5

...  – для каждого из четырех подсегментов. В табл. 5.2 приведено содержание выходной информации кодера с указа­нием числа бит, используемых для ко­дирования. Таблица 5.2 Кодирование выходной информации кодера речи стандарта D-AMPS Передаваемые параметры Число бит Примечание Параметры кратковременного предсказания (коэффициенты частичной корреляции , ) 38  – 6 бит;  – по 5 бит; ...

Скачать
119269
7
35

... за которым следует устройство дискретизации (рисунок 4.2), подастся известный сигнал s(t) плюс шум AWGN n(t). 4.4 Межсимвольная интерференция На рисунке 4.3 а) представлены фильтрующие элементы типичной системы цифровой связи. В системе - передатчике, приемнике и канале - используется множество разнообразных фильтров (и реактивных элементов, таких как емкость и индуктивность). В передатчике ...

Скачать
229704
44
52

... , работавших в области электротехники, заинтересовалась возможностью создания технологии хранения данных, обеспечивающей более экономное расходование пространства. Одним из них был Клод Элвуд Шеннон, основоположник современной теории информации. Из разработок того времени позже практическое применение нашли алгоритмы сжатия Хаффмана и Шеннона-Фано. А в 1977 г. математики Якоб Зив и Абрахам Лемпел ...

Скачать
158538
1
8

... необходимо загрузить весь файл целиком. Другим, не принципиальным, но существенным ограничением формата является большой объем полученных файлов. Таким образом, на телефонах появился формат видео, способный обеспечить высокое качество изображения при практически кинематографической частоте кадров. Качество воспроизведения зависит лишь от объема доступной памяти. Видеоролик проигрывается на полный ...

0 комментариев


Наверх