Automated Pipeline for Training Dataset Creation from Unlabeled Audios for Automatic Speech Recognition

Romanovskyi, O. та Iosifova, Olena та Iosifov, Ievgen та Sokolov, V. Y. та Kipchuk, F. та Sukaylo, I. (2021) Automated Pipeline for Training Dataset Creation from Unlabeled Audios for Automatic Speech Recognition Lecture Notes on Data Engineering and Communications Technologies, 83. с. 25-36. ISSN 2194-5365

[thumbnail of Romanovskyi_O_Iosifov_I_Iosifova_O_Sokolov_V_Kipchuk_F_Sukaylo_I_DECT_83.pdf] Текст
Romanovskyi_O_Iosifov_I_Iosifova_O_Sokolov_V_Kipchuk_F_Sukaylo_I_DECT_83.pdf - Опублікована версія

Download (88kB)
Офіційне посилання: https://link.springer.com/chapter/10.1007/978-3-03...

Анотація

In the paper, we present a software pipeline for speech recognition to automate the creation of training datasets, based on desired unlabeled audios, for low resource languages and domain-specific area. Considering the commoditizing of speech recognition, more teams build domain-specific models as well as models for local languages. At the same time, lack of training datasets for low to middle resource languages significantly decreases possibilities to exploit last achievements and frameworks in the Speech Recognition area and limits the wide range of software engineers to work on speech recognition problems. This problem is even more critical for domain-specific datasets. The pipeline was tested for building Ukrainian language recognition and confirmed that the created design is adaptable to different data source formats and expandable to integrate with existing frameworks.

Тип елементу : Стаття
Додаткова інформація: EID: 2-s2.0-85111941280 DOI: 10.1007/978-3-030-80472-5_3
Ключові слова: Automatic Speech Recognition; ASR; Dataset creation pipeline; Natural language processing; NLP; Asynchronous graphs
Типологія: Це архівна тематика Київського університету імені Бориса Грінченка > Статті у наукометричних базах > Scopus
Підрозділи: Це архівні підрозділи Київського університету імені Бориса Грінченка > Факультет інформаційних технологій та математики > Кафедра інформаційної та кібернетичної безпеки імені професора Володимира Бурячка
Користувач, що депонує: Volodymyr Sokolov
Дата внесення: 17 Серп 2021 11:32
Останні зміни: 17 Серп 2021 12:05
URI: https://elibrary.kubg.edu.ua/id/eprint/36974

Actions (login required)

Перегляд елементу Перегляд елементу