Харківський національний університет радіоелектроніки

Главная страница
Контакты

    Главная страница



Харківський національний університет радіоелектроніки



страница1/19
Дата16.07.2017
Размер2.88 Mb.
ТипПояснювальна записка


  1   2   3   4   5   6   7   8   9   ...   19

Міністерство освіти і науки України


Харківський національний університет радіоелектроніки




Факультет






(повна назва)




Кафедра

Електронних обчислювальних машин




(повна назва)


ДИПЛОМНИЙ ПРОЕКТ

ПОЯСНЮВАЛЬНА ЗАПИСКА


ГЮІК.50XXXX.009 ПЗ

Програмне забезпечення нейромережевої

системи розпізнавання мови.

Модель ШНМ




(тема проекту)



Студент гр.
СПс-13-1










Новіков Р.О.

(шифр групи)

(підпис)




(прізвище, ініціали)

Керівник проекту







проф. Хажмурадов М.А.



Допускається до захисту



Зав. кафедри ЕОМ







Руденко О.Г.




(підпис)




(прізвище, ініціали)

2014 р.

Харківський національний університет радіоелектроніки





Факультет

КІУ


Кафедра

ЕОМ





Спеціальність

7.05010202– системне програмування




(номер, назва)

ЗАТВЕРДЖУЮ:







Зав. кафедри













(підпис)










____”__________________ 2014 р.




ЗАВДАННЯ
НА ДИПЛОМНИЙ ПРОЕКТ (РОБОТУ)

студентові Новікову Роману Олександровичу

(прізвище, ім’я, по батькові)

1. Тема проекту (роботи)

Програмне забезпечення нейромережевої системи розпізнавання мови.

розпізнавання мови.Модель ШНМ (комплексна тема)

     

затверджена наказом по університету від



28



березня

2014 р.



402 Ст

2. Термін здачі студентом закінченого проекту (роботи)

31.05.2014

3. Вихідні дані до проекту

     

Мережа прямого розповсюдження

Моделювання нейромережі в системі Trajan 2.1

     

     

     

     

     

     

     

     

     




4. Зміст пояснювальної записки (перелік питань, які належить розробити)

Аналіз сучасного стану досліджень

Основні характеристики сучасних систем розпізнавання мови

Характеристики сучасних нейропакетів

Модель нейромережі для розпізнавання мови

Моделювання нейромережі в системі Trajan 2.1

Охорона праці та безпека в надзвичайних ситуаціях

Економічна частина

Висновки

     

     

     




5. Перелік графічного матеріалу (з зазначенням креслеників та/або плакатів)

Демонстраційні матеріали. Плакати - №13 арк. ф. А4

     

     

     

     

     

     

     

6. Консультанти з проекту (роботи), із зазначенням розділів проекту, що їх стосуються




Найменування розділу

Консультант

(посада, прізвище, ім’я, по батькові)



Позначка консультанта
про виконання розділу

(підпис)

(дата)

Основна частина

проф. Хажмурадов М.А.







ОПБНС

ас. Сердюк Н.М.







Економічна частина

проф. Тімофєєв В.О.


















7. Дата видачі завдання



Керівник проекту (роботи)







проф. Хажмурадов М.А.




(підпис)




(посада, прізвище, ім'я, по батькові)

Завдання прийняв до виконання










(підпис студента-дипломника)





КАЛЕНДАРНИЙ ПЛАН


п./п.

Назва етапів дипломного проекту (роботи)

Термін


виконання етапів проекту (роботи)


Примітка

1

Отримання завдання у керівника

29.03.14

     

2

Підбір та вивчення літератури по темі

30.03.14-10.04.14

     

3

Вибір та обґрунтування підходу

11.04.14-17.05.14

     

4

Аналіз програм для розпізнавання мови

18.04.14-11.05.14

     

5

Розробка ПЗ та моделювання

25.04.14-15.05.14

     

6

Підготовка розділу ОПБНС

10.04.14-30.04.14

     

7

Підготовка розділу ЕЧ

20.04.14-15.05.14

     

8

Оформлення пояснювальної записки

20.05.14-28.05.14

     

9

Підготовка до захисту

28.05.14-31.05.14

     

10

     

     

     

11

     

     

     

  

     

     

     



Студент










(підпис)




Керівник проекту (роботи)







(підпис)

РЕФЕРАТ


Записка пояснювальна: 99 с., 28 рисунків, 12 таблиць, 13 джерел.

Метою роботи є розробка комплексного підходу з використанням нейромережевої технології, який спрямовано на підвищення надійності системи розпізнавання мови.

Розглянуто методи та програмні засоби обробки та аналізу мовного сигналу, зокрема з використанням нейронних мереж Кохонена та Гросберга. Проведено їх моделювання в системі Trajan 2.1
РОЗПІЗНАВАННЯ, МОВНИЙ СИГНАЛ, ШТУЧНА НЕЙРОННА МЕРЕЖА, ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ, МЕРЕЖА КОХОНЕНА, МЕРЕЖА ГРОСБЕРГА

ABSTRACT


Explanatory note: 99 pages,28 figures,12 tables,13 sources.

The purpose of is the development of complex approach, with the use of neural network technology, directed on the increase of reliability of the system of speech recognition.

Some methods and software of analysis and speech recognition are considered in particular with the use of Kohonen’s and Grossberg’s neural networks. Modeling of these networks in system Trajan 2.1 is described.
RECOGNITION, VOCAL SIGNAL, ARTIFICIAL NEURAL NETWORK, SOFTWARE, KOHONEN’S NETWORK, GROSSBERG’S NETWORK

СОДЕРЖАНИЕ





ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ, СИМВОЛОВ, ЕДИНИЦ, СОКРАЩЕНИЙ И ТЕРМИНОВ 8

ВВЕДЕНИЕ 9

1 АНАЛИЗ СОВРЕМЕННОГО СОСТОЯНИЯ ИССЛЕДОВАНИЙ ПО СИСТЕМАМ РАСПОЗНАВАНИЯ РЕЧИ 11

1.1 Основные характеристики современных систем автоматического распознавания речи 11

1.1.1 Структурная схема системы распознавания слитной речи 13

1.1.2 Акустический уровень 15

1.1.3 Локальное распознавание речи 16

1.1.4 Выбор фонетического алфавита, транскриптор 19

1.1.5 Текстовые и речевые базы данных 21

1.2 Современные системы распознавания речи 22

1.2.1 Программные ядра для аппаратных реализаций 22

1.2.2 Наборы библиотек для разработки приложений 24

1.2.3 Независимые пользовательские приложения 25

1.2.4 Специализированные приложения 26

1.2.5 Устройства, выполняющие распознавание на аппаратном уровне 27

1.3 Сравнительный анализ современных систем распознавания речи 28

1.4 Характеристики современных нейропакетов 33

2 НЕЙРОСЕТЕВАЯ СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ 38

2.1 Возможность использования нейросетей для построения системы распознавания речи 38

2.2 Двухканальная нейросетевая система распознавания речевых команд 41

2.3 Описание нейросетевой модели распознавания и синтеза речи 47

2.3.1. Ввод звука 47

2.3.2 Наложение первичных признаков на вход нейросети 51

2.3.3 Модель синтеза речи 52

2.4 Модель нейросети для распознавания речи 54

2.4.1 Структура нейросетевой модели 54

2.4.2 Описание слоя Кохонена 55

2.4.3 Описание слоя Гроссберга 64

2.5 Обучение нейросетевой модели распознавания речи 66

2.6 Моделирование сети Кохонена в системе Trajan 2.1 69

2.6.1 Создание сети Кохонена 69

2.6.2 Обучение сети Кохонена 71

2.6.3 Работа с сетью Кохонена 73

3 ОХРАНА ТРУДА И БЕЗОПАСНОСТЬ В ЧРЕЗВЫЧАЙНЫХ СИТУАЦИЯХ 77

3.1 Анализ условий труда 77

3.2 Техника безопасности 81

3.3 Производственная санитария и гигиена труда 85

3.4 Пожарная профилактика 86

3.5 Защита окружающей среды 87

3.6 Гражданская оборона 88

4 ЭКОНОМИЧЕСКАЯ ЧАСТЬ 88

ВЫВОДЫ 97

ПЕРЕЧЕНЬ ССЫЛОК 98

ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ, СИМВОЛОВ, ЕДИНИЦ, СОКРАЩЕНИЙ И ТЕРМИНОВ

СММ – скрытое марковское моделирование

БПФ – быстрое преобразование Фурье

MFCC (mel-frequency-scaled cepstral coefficients) – коэффициенты кепстра

ДДВ – динамическая деформация времени

СГС – система голосового самообслуживания

ИНС искусственная нейронная сеть

СВО – спектральный временной образ


ВВЕДЕНИЕ

Важнейшим этапом обработки речи в процессе распознавания, является выделение информативных признаков, однозначно характеризующих речевой сигнал. Существует некоторое число математических методов, анализирующих речевой спектр. Здесь самым широко используемым является преобразование Фурье, известное из теории цифровой обработки сигналов. Данный математический аппарат хорошо себя зарекомендовал в данной области, имеется множество методик обработки сигналов, использующих в своей основе преобразование Фурье. Несмотря на это, постоянно ведутся работы по поиску иных путей параметризации речи. Одним из таких новых направлений, является вейвлет анализ, который стал применяться для исследования речевых сигналов сравнительно недавно. Теория данного метода сейчас развивается учеными всего мира, и многие исследователи возлагают большие надежды на использование инструмента вейвлет анализа для распознавания речи.

Если рассмотреть речевые распознаватели с позиции классификации по механизму функционирования, то подавляющая их часть относится к системам с вероятностно-сетевыми методами принятия решения о соответствии входного сигнала эталонному – это метод скрытого Марковского моделирования (СММ), метод динамического программирования и нейросетевой метод.

Объем информации, которую может хранить система, не безграничен. Для запоминания практически бесконечное число вариаций речевых сигналов необходима какая-либо форма статистического усреднения.

Ещё одна проблема – это скорость поиска в базе данных. Чем больше её размер, тем медленнее будет производиться поиск – это утверждение верно, но только для обычных последовательных вычислительных машин. Очевидно, компьютеры, построенные на основе нейросетей, смогут решить все вышеперечисленные проблемы.

Например, нейронные сети могут быть использованы для классификации характеристик речевого сигнала и принятия решения о принадлежности к той или иной группе эталонов. Нейросеть обладает способностью к статистическому усреднению, т.е. решается проблема с вариативностью речи. Многие нейросетевые алгоритмы осуществляют параллельную обработку информации, т.е. одновременно работают все нейроны. Тем самым решается проблема со скоростью распознавания – обычно время работы нейросети составляет несколько итераций. Сейчас многие разработчики используют апарат нейронных сетей для построения распознавателей.

Разработчики мобильной операционной системы Android использовали технологию искусственных нейронных сетей, которые не просто определяют содержание сказанных фраз, но и учатся с каждым новым распознаванием.


За счет внедрения нейронных сетей в Android 4.1 разработчикам удалось повысить точность распознавания речи на целых 25% по сравнению с предыдущими версиями. Эта цифра имеет и прямое практическое значение – Android-аппараты сегодня на самом деле предлагают самое точное распознавание голосового ввода, причем качество все время растет.

Целью дипломного проекта является исследование эффективности программных средств, реализующих нейросетевое распознавание речевого сигнала.

1 АНАЛИЗ СОВРЕМЕННОГО СОСТОЯНИЯ ИССЛЕДОВАНИЙ ПО СИСТЕМАМ РАСПОЗНАВАНИЯ РЕЧИ

1.1 Основные характеристики современных систем автоматического распознавания речи


Главная особенность речевого сигнала в том, что он очень сильно варьируется по многим параметрам: длительность, темп, высота голоса, искажения, вносимые большой изменчивостью голосового тракта человека, различными эмоциональными состояниями диктора, сильным различием голосов разных людей. Два временных представление звука речи даже для одного и того же человека, записанные в один и тот же момент времени, не будут совпадать. Необходимо искать такие параметры речевого сигнала, которые полностью описывали бы его (т.е. позволяли бы отличить один звук речи от другого), но были бы в какой-то мере инвариантны относительно описанных выше вариаций речи. Полученные таким образом параметры должны затем сравниваться с образцами, причем это должно быть не простое сравнение на совпадение, а поиск наибольшего соответствия. Это вынуждает искать нужную форму расстояния в найденном параметрическом пространстве.

На рисунке 1.1 приведена классификация систем распознавания речи.



Задача автоматического распознавания речи в полной постановке заключается в распознавании слитной речи произвольного словаря, произвольного диктора, произвольного стиля произнесения и произвольного канала взаимодействия. Обобщением этой задачи является понимание речи (в том числе содержащей ошибки). Более слабыми постановками являются, соответственно, распознавание слитной речи и распознавание изолированно произносимых команд, в дикторозависимом и дикторонезависимом режимах, ограниченного и неограниченного словаря и т.д. Рассмотрим основные особенности задачи распознавания речи.

Первая особенность обусловлена высокой вариативностью речевого сигнала, вызванной огромным количеством дополнительной (не языковой) информацией, присутствующей в сигнале. Прежде всего, это информация, характеризующая индивидуальные особенности голоса диктора и стиля произнесения. Кроме того, в сигнале содержится информация о текущих акустических параметрах среды, в которой распространяется речевой сигнал.

Вторая особенность заключается в том, что распознавание отдельных речевых единиц (аллофонов, фонем, морфем, слогов и слов) с высокой точностью невозможно на основе информации, извлекаемой только из звукового сигнала. Задача распознавания речи требует привлечения всей доступной информации, позволяющей разделить близкие образы. Кроме того, необходима организация процедуры по восстановлению той информации, которой нет в исходном речевом сигнале. Это связано, прежде всего, с редуцированным произнесением отдельных частей слов, а также с потерей информации из-за помех в каналах связи. Как показали многочисленные эксперименты, некоторые участки речи могут быть правильно распознаны человеком только в контексте, образующем некоторый образ, наделенный семантической нагрузкой [1].

Третья особенность задачи касается динамической природы речевого сигнала. Большинство методов распознавания образов ориентированы на работу в пространстве признаков без учета времени. Процесс распознавания речи должен быть организован так, чтобы учитывать порядок следования во времени единиц речи, сохраняя при этом инвариантность по отношению к разной длительности произнесения одного и того же элемента речи.

Основными характеристиками современных систем автоматического распознавания речи являются следующие:



  • словари размером в десятки и сотни тысяч слов;

  • распознавание слитной речи;

  • работа в реальном времени;

  • возможность работы как с предварительной настройкой на голос диктора, так и без настройки;

  • надежность работы 95–98% для грамматически правильных текстов.

1.1.1 Структурная схема системы распознавания слитной речи


Структурная схема работы типичной современной системы распознавания слитной речи изображена на рисунке 1.1.

Рисунок 1.1 – Структурная схема системы распознавания слитной речи


Функционирование системы происходит следующим образом

Оцифрованный речевой сигнал поступает на вход компьютера.Затем сигнал с некоторым постоянным шагом разбивается на окна, и для каждого окна в блоке акустического анализа считается вектор значений некоторых спектральных параметров, чаще всего кепстральных коэффициентов, а также их первой и второй дискретных производных.

Векторы параметров последовательно поступают на вход блока локального распознавания, обычно имеющий в своей основе универсальный монотонный вероятностный автомат [2,3], объединяющий эталонные вероятностные автоматы всех слов естественного языка, с которыми работает распознающая система. При поступлении на вход этого блока каждого нового окна анализа модифицируется ориентированный нагруженный граф гипотез распознавания – в него добавляются новые гипотезы о произнесенной последовательности словязыка и удаляются существующие гипотезы, вероятность которых становится меньше некоторого фиксированного порога. Когда поступает последний вектор значений параметров, в графе оставляются только те гипотезы, которые заканчиваются на целое (законченное) слово языка. Для эффективного функционирования блока локального распознавания существенную роль играет выбор фонетического алфавита, что является отдельной исследовательской задачей.

Для выделения из графа гипотез распознавания единственного предложения естественного языка, как результата распознавания, используются наши знания о структуре естественного языка. Модель языка (чаще всего основанная на статистическом подходе) позволяет выбрать среди всего множества путей в графе гипотез один, имеющий максимальную итоговую вероятность. Найденная гипотеза и считается результатом распознавания.

Следует отметить, что функционирование описанной распознающей системы является эффективным только после обучения на основе текстовых и акустических баз данных (корпусов), обладающих достаточно большим объемом и представительностью. Текстовые базы данных необходимы для обучения и проверки эффективности языковых моделей, а речевые – для настройки параметров алгоритмов локального распознавания, чаще всего основанных на применении монотонных вероятностных автоматов. Сбор и обработка таких баз данных является, пожалуй, одним из самых трудоемких этапов в построении систем распознавания речи и требует, помимо всего прочего, наличия достаточного полного словаря естественного языка, систем

морфологического анализа, системы автоматического транскрибирования текстов.


1.1.2 Акустический уровень
На этапе первичной обработки сигнала основной задачей является извлечение из речи набора признаков, от которых обычно требуется выполнение следующих свойств:

1) Минимизация объема, то есть максимальное сжатие информации и статистическая некоррелированность параметров;

2) Независимость от диктора, то есть максимально возможное удаление информации, связанной с индивидуальными особенностями говорящего;

3) Однородность, то есть параметры должны в среднем иметь одинаковую дисперсию;

4) Возможность применения простых метрик типа евклидовой для определения близости между наборами признаков, при этом близость участков звука на слух должна быть согласована с близостью в смысле этой метрики.

Наиболее распространенными наборами параметров, используемыми в системах распознавания речи, являются коэффициенты преобразования Фурье (БПФ) [1], коэффициенты линейного предсказания и основанный на них спектр линейного предсказания (сглаженный спектр), а также кепстральные коэффициенты [4].

Коэффициенты кепстра (MFCC – mel-frequency-scaled cepstral coefficients), получающиеся путем последовательного применения к анализируемому отрезку сигнала дискретного преобразования Фурье, спектрального сглаживания, приведения к логарифмической шкале и, наконец, применения действительной части прямого преобразования Фурье, являются наиболее эффективными с точки зрения описанных выше свойств 1–4. Для одной и той же подробности анализа их число (обычно 10–15) значительно меньше числа коэффициентов спектра БПФ, дикторозависимая информация удалена с помощью сглаживания спектра, а информация сжата за счет приведения спектра к логарифмической шкале частот. С целью учета изменения параметров во времени обычно вместе с коэффициентами кепстра рассматривают также их первую и вторую дискретные производные.

Аппарат акустического анализа достаточно развит и переносим с одного языка на другой, что позволяет эффективно применять все наработанные в этой области приемы и подходы при создании распознавателя русской речи. В частности, практически все описанные выше способы расчета акустических параметров речевого сигнала реализованы в известных общедоступных математических компьютерных пакетах обработки сигналов, например, в пакетах SPL и IPPS фирмы Intel [5].


1.1.3 Локальное распознавание речи
Методы локального распознавания речи [1,2] можно условно разделить на две большие группы: непараметрические – с использованием непараметрических мер близости к эталонам (к ним можно отнести методы на основе формальных грамматик и методы на основе метрик на множестве речевых сигналов) – и параметрические (вероятностные – на основе метода скрытых марковских процессов, нейросетевые).

Первые устройства автоматического распознавания речи были аналоговыми и использовали пороговую логику, поэтому они не обладали высокой надежностью и были узкоспециализированными. После появления лингвистической теории речи, представляющей речь как производную фонетической транскрипции текста произносимого слова, для распознавания стал использоваться метод фонетической сегментации [1,6], однако впоследствии выяснилось, что эта задача трудно поддается точному автоматическому решению.


Каталог: bitstream -> document
bitstream -> Глава I. Организация электросвязи Гражданской авиации России §
bitstream -> Программа дисциплины " История воздухоплавания и авиации в России"
bitstream -> Л. И. Карпова история воздухоплавания
document -> Магістерська атестаційна робота
document -> Дослідження методів моніторингу при використанні розподілених систем менеджменту комп'ютерних мереж
document -> Тамара Грищенко, директор Ирина Аврамова, заведующая научно-библиографическим отделом Наталья Этенко
document -> № гос регистрации 0114U002699
  1   2   3   4   5   6   7   8   9   ...   19

  • ДИПЛОМНИЙ ПРОЕКТ
  • СПс-13-1
  • Допускається до захисту
  • Харківський національний університет радіоелектроніки
  • НА ДИПЛОМНИЙ ПРОЕКТ (РОБОТУ)
  • Назва етапів дипломного проекту (роботи)