Машины, которые говорят и слушают

15496
знаков
0
таблиц
0
изображений

УДК 621.391

Рассмотрены современныэ тенденции развития систем автоматического распознавания и синтеза речевых сигналов. Освещены проблемы построения алгоритмов распознавания в неадаптивных системах речевого управления. Описаны эксперименты по созданию систем автоматического речевого запроса экономической информации с элементами автоматического обучения.

Книга рассчитана на научных работников, инженеров и студентов, специализирующихся по технической кибернетике и теории информации.

Работу рецензировали и рекомендовали к изданию:

академик АН СССР А.А.Дородницын кандидат физико-математических наук М.Н.Маричук© Издательство "Штиинца",1985 г.

О I5Q3000000 - 62 39-85 M755(I2) - 85

ВВЕДЕНИЕ

Проблема реализации речевого диалога человека и технических средств - актуальная задача современной кибернетики. В настоящее время пользователями вычислительных машин и средств, оснащенных вычислительными машинами, становятся люди, не являющиеся специалистами в области программирования. Особенно актуальной стала задача общения человека и ЭВМ с появлением микропроцессоров и больших интегральных схем. Новая технология оказала прогрессивное влияние на психологию как разработчиков современных многопроцессорных ЭВМ .так и неспециалистов-пользователей,не подготовленных к тому, чтобы пользоваться сложной функциональной клавиатурой, языком программирования, комплексными средствами управления техникой. Проблема речевого управления возникла, кроме того,в связи с тем, что в некоторых областях применения речь стада единственно возможным средством оощения с техникой (в условиях перегрузок, темноты или резкого изменения освещенности,при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, и т.д.).

Массовое внедрение различных бытовых технических средств, содержащих микропроцессоры и другие большие интегральные схемы, в частности, сложных микрокалькуляторов, пег-зональных ЭВМ, также требует упрощения, "демократизации" систем управления такими средствами. Мы должны пользоваться новой сложной техникой так же, как пользуемся часами, радиоприемником, стиральной машиной.Приближается время, когда будут созданы "механические слуги" человека - роботы, помогающие в быту, выполняющие работу по уборке помещения, оказывающие помощь в сельскохозяйственных и строительных работах и т.д. Безусловно, человек будет заинтересован в голосовом управлении сложной бытовой техникой и в конечном счете такими роботами.

Ближайшие перспективы развития вычислительной техники, создание высокопроизводительных ЭВМ пятого поколения, надеденных способностью анализировать зрительные и звуковые образы, также

3

требуют того, чтобы задачи автоматического распознавания и синтеза речевых сигналов не оставались без внимания. Невозможно предположить, чтобы вычислительные системы обладали производительностью в десятки и сотни миллионов операций в секунду и в качестве вводных устройств использовали традиционную клавиатуру дисплея, перфоленты или перфокарты.

В первой главе рассматривается современное состояние автоматического распознавания и синтеза речевых сигналов (по публикациям до 1981 г. включительно). Отмечается возрастающий поток публикаций по этим проблемам, причем многие работы посвящены вопросам практического построения систем распознавания и синтеза речи на специализированных микроЭВМ. В настоящей монографии не нашли отражение работы, опубликованные после 1981 г., так как материалы к публикации готовились в основном до бтого времени. (южно лишь отметить, что за 1982 и 1983 гг. практическое направление работ в области автоматического распознавания и синтеза речи интенсифицировалось. В нашей стране появились первые промышленные системы автоматического ввода/вывода речевой информации - "ИКАР", разработанная в НИИСчетмаше (г.Москва), СРД-1,изготовленная в ОКБ Института кибернетики АН УССР им. В.М.Глушко-ва, и Марс, созданная Минским отделением ЦНИИС. Эти системы,широко демонстрировавшиеся на ВДНХ и других промышленных выставках, обладают примерно сходными техническими характеристиками -они обучаются, настраиваются на голос конкретного пользователя и словарь, достигающий йОО слов, и обеспечивают точность распознавания около 95& и реальное время распознавания. В качестве метода, обеспечивающего нелинейное сравнение входных реализации и эталонов, используется динамическое программирование. Большие успехи в области создания систем такого рода достигнуты также в QUA и Японии. В США с 1982 г. начал выходить специальный журнал Speech Technology (Речевая технология), в котором описываются области применения промыиленных систем распознавания и синтеза речи, их тестирование, технические характеристики и технологические особенности.

В монографии основное внимание уделяется описанию систем распознавания речи, работающих без предварительной настройки на диктора. Авторы в течение ряда лет совместно работали над этой проблемой в Вычислительном центре Академии наук СССР.Идеология неадаптивных систем распознавания сложилась еще в 60-е гг.-в совместных разработках Вычислительного центра и Института проблем передачи информации АН СССР. Но основные результаты, описанные в книге, получены авторами в конце 70-х - начале 80-х гг.

Глава 1

СОВРЕМЕННЫЕ ТЕНДЕНЦИИ РАЗВИТИЯ ПРОБЛЕМЫ РЕЧЕВОГО ВЗАИМОДЕЙСТВИЯ «ЧЕЛС ВЕК - ЭВМ»

§ I.I. Некоторые аспекты исследования речевых сигналов на современном этапе

В 70-х гг. повысился интерес к проблемам исследования речи. Это связано с возросшими успехами дискретной обработки сигналов на современной микроэлектронной технике и широким распространением микроЭВМ и мультимикроцессорньк систем, появление которых означало революцию в информатике. Научные достижения в области автоматического распознавания и синтеза речи поставили вопрос о практическом общении человека с миром мощных по своей производительности и возможностям микроЭВМ на языке, близком к естественному. Сложнейшая техника приблизилась к пользователю-неспециалисту, и пользователь "потребовал", чтобы общение о ЭВМ (в частности, с информационными и управляющими ЭВМ) производилось на более привычном ему естественном языке.

В связи с этим привлекли внимание работы по созданию первых промышленных устройств ограниченного речевого ввода и вывода информации, а также достаточно широко разрекламированных систем автоматического понимания естественной, слитной речи, над которыми работали в ОДА в течение I972-I976 гг. по проекту айра.

Следует отметить, что автоматическое распознавание и синтез речи - не единственное в речевых исследованиях, что привлекает внимание специалистов и возможных потребителей.

Наряду с автоматическим распознаванием смысла сообщения и синтезом речи (проблемами, которым в основном и посвящена настоящая монография), исследователи речевых сигналов успешно решают задачи: автоматического распознавания личности говорящего (т.е. решают задачу, кто это сказал), автоматической верификации говорящего (подтверждение, тот ли конкретный человек произнес эту фразу), оценки по голосу эмоционального состояния оператора,распознавания речи, произносимой в другой воздушной среде (гелиевая речь), определения по речевому сигналу патологии органов речеобразования, разработки более совершенных методов преподавания иностранных языков (выработка правильного акцента и интонации по картине "эталонных" параметров речевого сигнала ), помощи лицам

с дефектами органов слуха и речеобразования, очистки и анализа затупленной речи, создания систем узкополосной помехоустойчивой связи, а также ряд других задач. Рассмотрение всех этих проблем не входило в планы авторов, которые ограничиваются здесь простым их перечислением.

В данной главе кратко рассматриваются основные публикации по проблемам автоматического распознавания и синтеза речи, появившиеся в I976-I98I гг. Сведения о более ранних работах в этой области можно получить из [58,79,8б].

В СЮ9] приводятся основные лаборатории США, Великобритании, Франции и Западной Германии, тематика которых связана с автоматическим распознаванием и синтезом речи. В [127] сообщается, что проблема построения машин, способных воспринимать речь человека (желательно с использованием пра' л естественного языка), остается главным направлением речевых исследований, одной из ключевых проблем кибернетики. В [144] отмечается возрастающий интерес к этой проблеме, связанный с увеличением спроса на малые устройства распознавания слов и появлением новых компаний, активно участвующих в создании промышленных систем автоматического распознавания речи на новой технологической базе.

В нашей стране наблюдается широкий интерес к проблеме исследования речевых сигналов. Регулярно проводятся всесоюзные школы-семинары по проблеме автоматического распознавания слуховых образов (APGO). В каждой союзной республике существуют лаборатории или группы, решающие эти задачи.

Стало традиционным классифицировать системы автоматического распознавания речи на адаптивные, работающие с подстройкой под диктора и словарь, и неадаптивные, обеспечивающие работу с произвольным диктором-носителем нормы произношения данного языка. К практическим системам первого типа относятся vip- юо, WRS и ИКАР, СРД-1, МАРС, к неадаптивным - экспериментальные системы лаборатории Bell, ВЦ и ИППИ АН СССР, устройство фирмы Dialog Systems . Следует отметить, что системы автоматического распознавания речи пока не получили широкого распространения, хотя и выпускаются с 1973 г. серийно.

Более доведенными до уровня коммерческих образцов являются системы автоматического речевого ответа, т.е. системы, основанные на автоматическом синтезе речи. Промышленность США и Японии выпускает большими партиями синтезаторы речи, ориэнтированные на самое разнообразное применение, - от детских игрушек,оснащенных голосовым выводом, до мощных информационных систем, отвечающих голосом по речевому запросу пользователя. В основе современных

б

коммерческих систем речевого ответа лежат три основных способа синтеза - непосредственное кодирование речевой волны (дискретизация и сжатие), формантный синтез и синтез, основанный на линейном предсказании [5]. (Подробное описание достижений науки и промышленности в области автоматического синтеза речи дано

в § 1.4).

В пятой главе подробно рассматриваются особенности разработанной авторами экспериментальной запросной системы речевого ввода, работающей с проблемно-ориентированным языком, словарный запас которого составляет 120 слов. Система базируется на аппаратурно-программном методе распознавания, использующем информативные признаки речевых отрезков ^23,13,9?].

§ I.1 кГц) диапазонах. Эти параметры выделяются в реальном масштабе времени из сигнале, поступающего с АЦП в мини-ЭВМ, которая обладает средним быстродействием 600 тыс. операций в I с. Параметры (число нулевых пересечений и амплитудное значение сигнала на интервале анализа для каждого из диапазонов) формируются программно, и их значения дают возможность грубо классифицировать сегменты на 10 различных типов - пауэы (глухая смычка), наличие звонкой смычки, характеризующие звонкие взрывные б, д,г, сонорный согласный, глухой фрикативный (переднеязычный или заднеязычный), носовой, свистящий, гласный высокого иди низкого подъема. В дальнейшем производится пере классификация сегментов на 59 классов, некоторые из них пересекаются в пространстве признаков.

На второй стадии к среднему участку сегментов применяют сравнение с эталонами (этих эталонов для каждого класса сегментов может быть до 100). При сравнении средний участок сегмента по-ступившей на вход реализации сравнивается с множеством эталонов, которые подучены от специально обученных дикторов. Использование сегментации I уровня позволяет, как отмечается в [l79], ускорить общую сегментацию в пять раз по сравнению с унифицированной, основанной .исключительно на коэффициентах линейного предсказания.

Как уже отмечалось, ключевой проблемой систем понимания Речи является верификация сдоврсиьк гипотез.подожданных различ-иыми источниками знаний. Блок словесной верификации должен оце-нвдь, насколько акустические данные входной реализации соответствуют фонетической транскрипции гипотезируеного слова.

2S

В соответствии с оценкой, словесный верификатор отбрасывает большее числе гипотезированных слов, сохраняя возможные пра~ вильные, чтобы впоследствии отобрать единственное с помощью инфор~ мации высших уровней.

В Hearsay -П слова порождаются либо словесным гипотезато-ром снизу вверх (блоком POMOW), либо преде называются сверху вниз семантико-синтаксическим блоком sass . Блок словесной верификации wizard обрабатывает гипотезы о словах снизу вверх, используя акустическую информацию и результаты автоматической сегментации. Каждый сегмент высказывания представлен вектором фонемных вероятностей (т.е. с каждым отрезком высказывания связываются определенные звуки, которым присваиваются некие веса), Каждое слово словаря записывается эталонным графом возможных фонетических произнесений, учитывающим все альтернативные варианты произнесений. Однородная модель, используемая блоком словесной верификации, дает возможность найти оптимальное совпадение одного из эталонов (соответствующее пути на одном из эталонных графов) и участка входной реализации, соответствующего слову.

В системе Hearsay-П при словесной верификации стыки между словами не рассматриваются, делается лишь их внутренняя обработка. wizard пытается верифицировать слова, как будто они находятся в изоляции.

При верификации слова обрабатываются снизу вверх следующим образом: предсказанные моменты начала и конца слова связываются с соответствующими сегментами высказывания bseg и eseg. Исследуются все пути в эталонных графах возможных слов, которые совпадают с отрезками и входной реализацией. Сравниваются с эталонами отрезки, которые начинаются в (baeg-I: beeg +I ) и заканчиваются в jeseg -I I eeeg +I(, т.е. параллельно рассматриваются девять возможных участков высказывания, что приводит к девяти оптимальным путям на эталонных графах, из которых выбирается тот. оценки которого наибольшие, или наиболее соответствуют рассматриваемому участку. Сдвиг на один сегмент вправо или влево позволяет избегать ошибок при представлении входного, высказывания (акустических данных) различными источниками знаний. В результате блок словесной верификации может изменять время словесных гипотез, а также их оценки. Следует отметить, что если в проектах ВШ (Speechlis и HWIM) идет непосредственный переход от фонетического описания к словесному, то в Hearsay-П используется еще промежуточный, слоговый уровень между словами и звуковыми сегментами. Для поддержки словесных гипотез используются так называемые типовые слоги, слоготипы (syltypes).

Ццея слоготипов сводится к тому, что слоги, имеющие похожие сегменты (например "та", " па"), относятся к одному типу. Никаких попыток различать слова с одинаковыми слогами в Нвагвау-П не делается. Каждый слоготип характеризуется слоговым ядром, определяемым эвристически присвоенными сегментными метками и положением максимума энергии на отрезке. Для каждого слоготипа гипотези-руются слова, в которых встречается данный слог; многосложные слова отбрасываются, если плохо согласовываются о последовательностью слоготипов. Подробное описание слогового гипотезатора pokow содержится в С 1783.

В Неагаау-П содержится еще один гипотезатор - гипотеза-тор словесных последовательностей wozeq. В сравнении со стратегией однословных "островков надежности" многословная последовательность желательна по двум причинам:

1) доверие к гипотезе о последовательности сдов более высоко, чем в однословной гипотезе;

к=0'Л


Информация о работе «Машины, которые говорят и слушают»
Раздел: Кибернетика
Количество знаков с пробелами: 15496
Количество таблиц: 0
Количество изображений: 0

Похожие работы

Скачать
165772
0
0

... , как и лесопильная лебедка, водяным колесом – явление, надо отметить, весьма прогрессивное для техники XVIII века. Архивные документы второй половины XVIII века единодушно рисуют Нижнетагильский «железный завод» гигантом, крупнейшим предприятием замкнутого, полного горно-металлургического цикла. Так, уже в 1767 году на этом заводе помимо четырех доменных печей, дававших в год свыше 400 тысяч ...

Скачать
523998
12
0

... свой домашний, настольный или теневой театр и предлагайте ребенку участвовать в этих театрализованных играх (обязательно приготовьте для этого театрализованные костюмы). Раздел IV Методическое обеспечение психолого-педагогической диагностики развития детей третьего года жизни   4.1 Общая характеристика психофизического развития ребенка третьего года жизни   На третьем году жизни укрепляется ...

Скачать
531423
2
1

... новую песню?) Yes, I will (да, приду, да, буду, да сделаю). Не то чтобы will сдавал позиции. Просто come и gonna отвоевывают позиции под лучами англоязычного солнца. Конечно, об активном разговорном American English — языке общаг, кухонь, "Макдональдсов", спортивных площадок, колледжей и казарм — можно говорить еще и еще, но, как выражаются американцы: next time — как-нибудь в следующий раз. ...

Скачать
700885
0
0

... двадцати томов. Гегель — последний философ, попытавшийся обобщить в собственной философии все знания, все науки, существовавшие в его эпоху. Он построил грандиозную философскую систему, которая включала в себя логику, этику, эстетику, философию природы, философию духа, философию истории, философию права, философию религии, историю философии. Сущностью мира для Гегеля является мировой разум, ...

0 комментариев


Наверх