Інтеграція нейромереж в системи розпізнавання мови для покращення точності та швидкості

Хльобас, Денис Володимирович (2025) Інтеграція нейромереж в системи розпізнавання мови для покращення точності та швидкості [Кваліфікаційні роботи здобувачів] Другий (магістерський). Шифр академічної групи: ІАСм-1-24-1.4д. Дата захисту: 20.12.2025, Київський столичний університет імені Бориса Грінченка.

Текст
D_Khlobas_FITM_2025.pdf
Download (4MB)

Анотація

Актуальність: Актуальність теми дипломної роботи обумовлена необхідністю підвищення ефективності роботи з аудіо файлами. Станом на сьогодні, існуючі методи поліпшення аудіо файлів мають певні обмеження. Літературні джерела та досвід провідних медичних установ свідчать про потенціал нейромереж у покращенні аудіо файлів. Удосконалення цих технологій сприятиме зручному та якісному використанню спотворених аудіо файлів. Об’єкт дослідження: процес автоматичного розпізнавання мовлення у зашумлених акустичних умовах. Предмет дослідження: методи попередньої обробки аудіосигналів та нейромережеві підходи до шумозаглушення, що впливають на точність роботи систем розпізнавання мовлення. Мета роботи: підвищення точності автоматичного розпізнавання мовлення шляхом розробки та інтеграції згорткової нейронної мережі шумозаглушення у pipeline обробки аудіосигналів для подальшої транскрипції У результаті виконання роботи було проведено аналіз сучасних підходів до розпізнавання мовлення та методів шумозаглушення; досліджено властивості мовних сигналів і вплив шумів; розроблено та реалізовано згорткову нейронну мережу для попереднього очищення аудіо; виконано інтеграцію моделі з сервісом OpenAI Speech-to-Text; проведено експериментальне оцінювання якості розпізнавання за метриками WER і CER; сформовано висновки щодо ефективності запропонованого підходу. Практичне значення дослідження: розроблена модель шумозаглушення може бути використана як автономний модуль попередньої обробки аудіо у системах автоматичного розпізнавання мовлення, голосових інтерфейсах, аналітичних сервісах та застосунках обробки аудіо. Наукова новизна: наукова новизна полягає у розробці та дослідженні згорткової нейронної мережі, адаптованої для шумозаглушення мовних сигналів перед подальшим розпізнаванням, а також у поєднанні цього підходу з сучасною системою OpenAI Speech-to-Text для оцінювання фактичного впливу попередньої обробки на метрики WER і CER. Робота демонструє практичну доцільність інтеграції нейромережевих методів очистки у реальні ASR-системи.

Тип елементу :	Кваліфікаційні роботи здобувачів (Другий (магістерський))
Ключові слова:	автоматичне розпізнавання мовлення; шумозаглушення; згорткова нейронна мережа; глибинне навчання; спектрограми; ASR
Шифр освітньої програми:	122.00.02
Шифр академічної групи:	ІАСм-1-24-1.4д
ПІБ наукового керівника:	Мельник Ірина Юріївна
Дата захисту:	20.12.2025
Місце захисту:	Київський столичний університет імені Бориса Грінченка
Типологія:	Кваліфікаційні роботи здобувачів > Інформаційна, бібліотечна та архівна справа
Підрозділи:	Факультет інформаційних технологій та математики > Кафедра комп'ютерних наук
Користувач, що депонує:	Ізабелла Андріївна Соболенко
Дата внесення:	24 Лют 2026 20:58
Останні зміни:	24 Лют 2026 20:58
URI:	https://elibrary.kubg.edu.ua/id/eprint/56398

Actions (login required)

Перегляд елементу