Buriachok, Volodymyr та Hadzhyiev, M. та Sokolov, V. Y. та Skladannyi, Pavlo та Kuzmenko, L. (2019) Впровадження технології оптимізації індексування вузькоспеціалізованих термінів на базі фонетичного алгоритму Metaphone Eastern-European Journal of Enterprise Technologies, 5 (2(101)). с. 64-71. ISSN 1729-4061
Перегляд |
Текст
V_Buriachok_M_Hadzhyiev_V_Sokolov_P_Skladannyi_L_Kuzmenko_EEJoET_101.pdf Download (535kB) | Перегляд |
Анотація
При формуванні баз даних, наприклад, для задоволення потреб закладів охорони здоров’я, доволі часто виникає проблема щодо введення та подальшої обробки імен і прізвищ лікарів і пацієнтів, які є вузькоспеціалізованими за вимовою і написанням. Це пояснюється тим, що імена та прізвища людей не можуть бути унікальними, їх напис не підпадає під жодні правила фонетики, а їх довжини при їх викладенні різними мовами можуть не співпадати. З появою інтернету такий стан справ стає взагалі критичним й може привести до того, що за однією адресою може бути відправлено декілька копій електронних листів. Вирішити означену проблему можуть допомогти фонетичні алгоритми порівняння слів Daitch-Mokotoff, SoundEx, NYSIIS, Polyphone та Metaphone, а також алгоритми Левенштейна та Джаро, алгоритми на основі Q-грам, які дозволяють знаходити відстані між словами. Найбільшого поширення серед них отримали алгоритми SoundЕx і Metaphone, які призначені для індексування слів по їх звучанням з урахуванням правил вимови. Шляхом застосування алгоритму Metaphone зроблено спробу оптимізації процесів фонетичного пошуку для задач нечіткого співпадіння, наприклад, при дедублікації даних в різноманітних базах даних і реєстрах для зменшення кількості помилок невірного введення прізвищ. Із аналізу найбільш розповсюджених прізвищ видно, що частина з них є українського або російського походження. При цьому правила, за якими вимовляються і записуються прізвища, наприклад, українською мовою кардинально відрізняються від базових алгоритмів для англійської і достатньо відрізняються для російської мови. Саме тому фонетичний алгоритм має враховувати передусім особливості формування українських прізвищ, що нині є надзвичайно актуальним. Представлено результати експерименту із формування фонетичних індексів, а також результати збільшення продуктивності при використанні сформованих індексів. Окремо представлено метод адаптації пошуку для інших сфер і кількох споріднених мов на прикладі пошуку по лікарським засобам.
Тип елементу : | Стаття |
---|---|
Додаткова інформація: | DOI: 10.15587/1729-4061.2019.181943 EID: 2-s2.0-85075389262 arXiv: 1911.00152 |
Ключові слова: | нечітке співпадіння; фонетичне правило; фонетичний алгоритм; Metaphone; українське прізвище |
Типологія: | Це архівна тематика Київського університету імені Бориса Грінченка > Статті у наукометричних базах > Scopus Це архівна тематика Київського університету імені Бориса Грінченка > Статті у журналах > Фахові (входять до переліку фахових, затверджений МОН) |
Підрозділи: | Це архівні підрозділи Київського університету імені Бориса Грінченка > Факультет інформаційних технологій та математики > Кафедра інформаційної та кібернетичної безпеки імені професора Володимира Бурячка |
Користувач, що депонує: | Volodymyr Sokolov |
Дата внесення: | 03 Груд 2019 13:53 |
Останні зміни: | 03 Груд 2019 13:53 |
URI: | https://elibrary.kubg.edu.ua/id/eprint/29410 |
Actions (login required)
Перегляд елементу |