Впровадження технології оптимізації індексування вузькоспеціалізованих термінів на базі фонетичного алгоритму Metaphone

Buriachok, Volodymyr та Hadzhyiev, M. та Sokolov, V. Y. та Skladannyi, Pavlo та Kuzmenko, L. (2019) Впровадження технології оптимізації індексування вузькоспеціалізованих термінів на базі фонетичного алгоритму Metaphone Eastern-European Journal of Enterprise Technologies, 5 (2(101)). с. 64-71. ISSN 1729-4061

[thumbnail of V_Buriachok_M_Hadzhyiev_V_Sokolov_P_Skladannyi_L_Kuzmenko_EEJoET_101.pdf]
Перегляд
Текст
V_Buriachok_M_Hadzhyiev_V_Sokolov_P_Skladannyi_L_Kuzmenko_EEJoET_101.pdf

Download (535kB) | Перегляд
Офіційне посилання: http://journals.uran.ua/eejet/article/view/181943

Анотація

При формуванні баз даних, наприклад, для задоволення потреб закладів охорони здоров’я, доволі часто виникає проблема щодо введення та подальшої обробки імен і прізвищ лікарів і пацієнтів, які є вузькоспеціалізованими за вимовою і написанням. Це пояснюється тим, що імена та прізвища людей не можуть бути унікальними, їх напис не підпадає під жодні правила фонетики, а їх довжини при їх викладенні різними мовами можуть не співпадати. З появою інтернету такий стан справ стає взагалі критичним й може привести до того, що за однією адресою може бути відправлено декілька копій електронних листів. Вирішити означену проблему можуть допомогти фонетичні алгоритми порівняння слів Daitch-Mokotoff, SoundEx, NYSIIS, Polyphone та Metaphone, а також алгоритми Левенштейна та Джаро, алгоритми на основі Q-грам, які дозволяють знаходити відстані між словами. Найбільшого поширення серед них отримали алгоритми SoundЕx і Metaphone, які призначені для індексування слів по їх звучанням з урахуванням правил вимови. Шляхом застосування алгоритму Metaphone зроблено спробу оптимізації процесів фонетичного пошуку для задач нечіткого співпадіння, наприклад, при дедублікації даних в різноманітних базах даних і реєстрах для зменшення кількості помилок невірного введення прізвищ. Із аналізу найбільш розповсюджених прізвищ видно, що частина з них є українського або російського походження. При цьому правила, за якими вимовляються і записуються прізвища, наприклад, українською мовою кардинально відрізняються від базових алгоритмів для англійської і достатньо відрізняються для російської мови. Саме тому фонетичний алгоритм має враховувати передусім особливості формування українських прізвищ, що нині є надзвичайно актуальним. Представлено результати експерименту із формування фонетичних індексів, а також результати збільшення продуктивності при використанні сформованих індексів. Окремо представлено метод адаптації пошуку для інших сфер і кількох споріднених мов на прикладі пошуку по лікарським засобам.

Тип елементу : Стаття
Додаткова інформація: DOI: 10.15587/1729-4061.2019.181943 EID: 2-s2.0-85075389262 arXiv: 1911.00152
Ключові слова: нечітке співпадіння; фонетичне правило; фонетичний алгоритм; Metaphone; українське прізвище
Типологія: Це архівна тематика Київського університету імені Бориса Грінченка > Статті у наукометричних базах > Scopus
Це архівна тематика Київського університету імені Бориса Грінченка > Статті у журналах > Фахові (входять до переліку фахових, затверджений МОН)
Підрозділи: Це архівні підрозділи Київського університету імені Бориса Грінченка > Факультет інформаційних технологій та математики > Кафедра інформаційної та кібернетичної безпеки імені професора Володимира Бурячка
Користувач, що депонує: Volodymyr Sokolov
Дата внесення: 03 Груд 2019 13:53
Останні зміни: 03 Груд 2019 13:53
URI: https://elibrary.kubg.edu.ua/id/eprint/29410

Actions (login required)

Перегляд елементу Перегляд елементу