Хльобас, Денис Володимирович (2025) Інтеграція нейромереж в системи розпізнавання мови для покращення точності та швидкості [Кваліфікаційні роботи здобувачів] Другий (магістерський). Шифр академічної групи: ІАСм-1-24-1.4д. Дата захисту: 20.12.2025, Київський столичний університет імені Бориса Грінченка.
|
Текст
D_Khlobas_FITM_2025.pdf Download (4MB) |
Анотація
Актуальність: Актуальність теми дипломної роботи обумовлена необхідністю підвищення ефективності роботи з аудіо файлами. Станом на сьогодні, існуючі методи поліпшення аудіо файлів мають певні обмеження. Літературні джерела та досвід провідних медичних установ свідчать про потенціал нейромереж у покращенні аудіо файлів. Удосконалення цих технологій сприятиме зручному та якісному використанню спотворених аудіо файлів. Об’єкт дослідження: процес автоматичного розпізнавання мовлення у зашумлених акустичних умовах. Предмет дослідження: методи попередньої обробки аудіосигналів та нейромережеві підходи до шумозаглушення, що впливають на точність роботи систем розпізнавання мовлення. Мета роботи: підвищення точності автоматичного розпізнавання мовлення шляхом розробки та інтеграції згорткової нейронної мережі шумозаглушення у pipeline обробки аудіосигналів для подальшої транскрипції У результаті виконання роботи було проведено аналіз сучасних підходів до розпізнавання мовлення та методів шумозаглушення; досліджено властивості мовних сигналів і вплив шумів; розроблено та реалізовано згорткову нейронну мережу для попереднього очищення аудіо; виконано інтеграцію моделі з сервісом OpenAI Speech-to-Text; проведено експериментальне оцінювання якості розпізнавання за метриками WER і CER; сформовано висновки щодо ефективності запропонованого підходу. Практичне значення дослідження: розроблена модель шумозаглушення може бути використана як автономний модуль попередньої обробки аудіо у системах автоматичного розпізнавання мовлення, голосових інтерфейсах, аналітичних сервісах та застосунках обробки аудіо. Наукова новизна: наукова новизна полягає у розробці та дослідженні згорткової нейронної мережі, адаптованої для шумозаглушення мовних сигналів перед подальшим розпізнаванням, а також у поєднанні цього підходу з сучасною системою OpenAI Speech-to-Text для оцінювання фактичного впливу попередньої обробки на метрики WER і CER. Робота демонструє практичну доцільність інтеграції нейромережевих методів очистки у реальні ASR-системи.
| Тип елементу : | Кваліфікаційні роботи здобувачів (Другий (магістерський)) |
|---|---|
| Ключові слова: | автоматичне розпізнавання мовлення; шумозаглушення; згорткова нейронна мережа; глибинне навчання; спектрограми; ASR |
| Шифр освітньої програми: | 122.00.02 |
| Шифр академічної групи: | ІАСм-1-24-1.4д |
| ПІБ наукового керівника: | Мельник Ірина Юріївна |
| Дата захисту: | 20.12.2025 |
| Місце захисту: | Київський столичний університет імені Бориса Грінченка |
| Типологія: | Кваліфікаційні роботи здобувачів > Інформаційна, бібліотечна та архівна справа |
| Підрозділи: | Факультет інформаційних технологій та математики > Кафедра комп'ютерних наук |
| Користувач, що депонує: | Ізабелла Андріївна Соболенко |
| Дата внесення: | 24 Лют 2026 20:58 |
| Останні зміни: | 24 Лют 2026 20:58 |
| URI: | https://elibrary.kubg.edu.ua/id/eprint/56398 |
Actions (login required)
![]() |
Перегляд елементу |


