2 Принцип работы и характеристики речеэлементных вокодеров.
При ИКМ
с А- и мю-законами,
ДИКМ, АДИКМ,
АДМ, клиппировании
сжатие речи
и других звукоданных
достигается
за счет компактного
описания формы
звукового
сигнала. При
этом не учитываетс
природа речеобразования.
Если же при
анализе и синтезе
речи ее учесть,
то речь можно
сжать значительно
сильнее.
В русском языке
42 фонемы: 6 гласных
звуков, остальные
- согласные.
Чтобы закодировать
их номера нужно
6 бит. Человек
произносит
в секунду около
10 звуков. То есть
от центральной
нервной системы
к речевому
аппарату сигналы
управления
передаются
со скоростью
10 [log 2 42] = 60 бит/с.
Близкую к этой скорость способны обеспечить речеэлементные вокодеры (при этом при хорошей разборчивости теряются индивидуальные особенности речи но часто это и не столь важно) . В их основе лежит запоминание отдельных фраз, речевых оборотов. Благодаря этому запоминанию на воспроизводящий элемент передается не сама речь, а ее элементный номер. Это широко применялось и применяется в системах управления голосом, а также чтения текста с преобразованием в звук. В качестве простого примера можно привести звуковые схемы Windows, интерактивно реагирующие на то или иное событие. Если эти звуковые сигналы заменить на человеческую речь, то мы получим самый легкий пример речеэлементного вокодера. Системе сообщается не сам звук, а имя файла, который надо воспроизводить. На передающем конце В то же время в цифровой телефонии используется скорость 64 кбит/c (8 бит на отсчет, частота дискретизации 8 кГц). По сути дела любой речеэлементный вокодер собирает например произносимое слово из слогов (или фразу из слов) при этом многого не скажешь а уж выразить вряд ли выразишь.
Параметрические вокодеры
Полосовые вокодеры
Полосовой вокодер синтезирует речь используя определенные ичистые тона.
Рассмотрим
некоторые
реализацию
полосового
вокодера.
Это например
метод
синтеза речи
с помощью ряда
Фурье - в виде
суммы элементарных
спектральных
составляющих,
в музыкальной
акустике получивших
название "чистые
тона". Имеется
Банк "чистых
тонов" со 144 чистыми
тонами. Как
происходил
синтез звука
показано на
рис. 2.
Рис.
2.
Функционально-оптическая
схема синтезатора
АНС.
Свет
от источника
(1) пропускался
через вращающийся
диск фотооптического
генератора
(2) и модулировался
по интенсивности
звуковыми
дорожками
(банком чистых
тонов). Между
диском и читающим
фотоэлементом
(4) устанавливалась
маска (информация
о синтезе)(3) с
отверстиями
для отбора
лучей только
от нужных дорожек.
После фотоэлемента
следовал обычный
для кинопроектора
тракт звукоусиления
(5).
Первой
электрической
и одновременно
последней
аналоговой
моделью речевого
тракта стал
прибор водер
(на рис. 4 подробно
описано его
устройство),
разработанный
Дадли, Ришем
и Уоткинсом.
Рис.
4.
Структурная
схема водера.
Водер управлялся
от ручной клавиатуры
и синтезировал
сигналы с заданным
спектром. Десять
параллельно
соединенных
полосовых
фильтров составляли
блок управления
резонансами.
Переключение
источника
возбуждения
- шумового или
импульсного
генератора
- осуществлялось
браслетом на
запястье оператора,
а управление
частотой импульсов
- ножной педалью.
На выходе фильтров
стояли потенциометры,
управлявшиеся
десятью пальцами
и изменявшие
напряжение
сигнала каждого
фильтра.
Формантные вокодеры
Вокодеры с линейным предсказанием ( липредеры )
Вокодеры с линейным предсказанием – липредеры (linear prediction) создают отсчеты звукового сигнала на основе предыдущего отсчета сигнала и вычисленных в передающей части коэффициентов линейного предсказания (КЛП).Если мы правильно вычислим КЛП то сохраним у восстановленной речи ее индивидуальные особенности,что очень важно например в криминалистике да нелишне и при телефонных переговорах.
Для прогноза текущего отсчета речевого сигнала можно использовать линейно взвешенную сумму предшествующих отсчетов, то есть предсказываемый отсчет
где ak
- коэффициенты
предсказания
(k = 1, 2,..., P).
Ошибка
предсказания
e (n) = s (n) - s (n).
Kоэффициенты
предсказания
должны быть
такими, чтобы
для временного
окна длиной
N отсчетов сумма
была минимальна. Задача минимизации приводит к системе линейных уравнений относительно ak . Коэффициенты уравнения оказываются равными значениям автокорреляционной функции отрезка речи. В липредерах сначала для каждого кадра длиной 10 - 20 мс вычисляются коэффициенты корреляции, а по ним находят коэффициенты предсказания (или коэффициенты частной корреляции, или коэффициенты отражения), которые передаются на приемную сторону вместе с информацией о функции возбуждения. Коэффициенты линейного предсказания (КЛП) обретают простой смысл. Передаточная функция фильтра, который имеет только полюсы
где p - порядок фильтра.
Алгоритмы, которые используют коэффициенты частной корреляции (PARtial CORrelation), называются PARCOR.
2
Министерство образования Российской Федерации
ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ
(ТУСУР)
Кафедра радиоэлектроники и защиты информации (РЗИ)
Вокодеры и их применение
Реферат
По дисциплине ”Аудиотехника”
Студент гр.178
_______Вайвод Д.А.
“__”_________2002 г.
Руководитель
Аспирант каф. РЗИ
______Худяков С.В
“__”_________2002 г.
... – для каждого из четырех подсегментов. В табл. 5.2 приведено содержание выходной информации кодера с указанием числа бит, используемых для кодирования. Таблица 5.2 Кодирование выходной информации кодера речи стандарта D-AMPS Передаваемые параметры Число бит Примечание Параметры кратковременного предсказания (коэффициенты частичной корреляции , ) 38 – 6 бит; – по 5 бит; ...
... и в устройствах запоминания речи, криптографии речевых сигналов, в устройствах автоматического распознавания речи и т. п. Повысить приблизительно в 2 раза эффективность использования каналов связи в многоканальных системах, по которым передаются сигналы речи, возможно и более простыми методами, без применения в каждом канале вокодеров. Этого можно достичь, используя то обстоятельство, что каждый ...
... октав, содержащая схему пpеобpазования воздействий в MIDI-сообщения и адаптеp с выходом MIDI Out. MIDI-клавиатура не способна звучать самостоятельно, она использует в качестве синтезатора звуковую карту компьютера. Иногда на MIDI-клавиатуре размещены некоторые дополнительные переключатели, например, глиссандо или вибрато. Большинство MIDI-клавиатур производится фирмой Fatar (под своей маркой их ...
... основного тона и значении периода, для вынесения окончательного решения можно привлечь дополнительную информацию о виде функции среднего числа переходов через нуль, энергии сигнала. 4. Гомоморфный вокодер Гомоморфная обработка речевого сигнала приводит к весьма удобному описанию, где основные параметры сигнала отделены друг от друга, т. е. информация о сигнале возбуждения расположена в ...
0 комментариев