Наукова періодика України Eastern-European journal of enterprise technologies


Buriachok V. 
Implementation of an index optimize technology for highly specialized terms based on the phonetic algorithm Metaphone / V. Buriachok, M. Hadzhyiev, V. Sokolov, P. Skladannyi, L. Kuzmenko // Восточно-Европейский журнал передовых технологий. - 2019. - № 5(2). - С. 64-71. - Режим доступу: http://nbuv.gov.ua/UJRN/Vejpte_2019_5%282%29__9
У процесі формування баз даних, наприклад для задоволення потреб закладів охорони здоров'я, доволі часто виникає проблема щодо введення та подальшої обробки імен і прізвищ лікарів і пацієнтів, які є вузькоспеціалізованими за вимовою та написанням. Це пояснюється тим, що імена та прізвища людей не можуть бути унікальними, їх напис не підпадає під жодні правила фонетики, а їх довжини у разі їх викладення різними мовами можуть не співпадати. З появою інтернету такий стан справ стає взагалі критичним і може призвести до того, що за однією адресою може бути відправлено декілька копій електронних листів. Вирішити означену проблему можуть допомогти фонетичні алгоритми порівняння слів DaitchMokotoff, Soundex, NYSIIS, Polyphone та Metaphone, а також алгоритми Левенштейна та Джаро, алгоритми на основі Q-грам, які надають можливість знаходити відстані між словами. Найбільшого поширення серед них отримали алгоритми Soundex і Metaphone, які призначені для індексування слів по їх звучанням з урахуванням правил вимови. Шляхом застосування алгоритму Metaphone зроблено спробу оптимізації процесів фонетичного пошуку для задач нечіткого співпадіння, наприклад, у разі дедублікації даних у різноманітних базах даних і реєстрах для зменшення кількості помилок невірного введення прізвищ. Із аналізу найбільш розповсюджених прізвищ видно, що частина з них є українського або російського походження. У цьому випадку правила, за якими вимовляються та записуються прізвища, наприклад українською мовою, кардинально відрізняються від базових алгоритмів для англійської та достатньо відрізняються для російської мови. Саме тому фонетичний алгоритм має враховувати передусім особливості формування українських прізвищ, що нині є надзвичайно актуальним. Наведено результати експерименту з формування фонетичних індексів і збільшення продуктивності у разі використання сформованих індексів. Запропоновано метод адаптації пошуку для інших сфер і кількох споріднених мов на прикладі пошуку по лікарським засобам.У процесі формування баз даних, наприклад для задоволення потреб закладів охорони здоров'я, доволі часто виникає проблема щодо введення та подальшої обробки імен і прізвищ лікарів і пацієнтів, які є вузькоспеціалізованими за вимовою та написанням. Це пояснюється тим, що імена та прізвища людей не можуть бути унікальними, їх напис не підпадає під жодні правила фонетики, а їх довжини у разі їх викладення різними мовами можуть не співпадати. З появою інтернету такий стан справ стає взагалі критичним і може призвести до того, що за однією адресою може бути відправлено декілька копій електронних листів. Вирішити означену проблему можуть допомогти фонетичні алгоритми порівняння слів DaitchMokotoff, Soundex, NYSIIS, Polyphone та Metaphone, а також алгоритми Левенштейна та Джаро, алгоритми на основі Q-грам, які надають можливість знаходити відстані між словами. Найбільшого поширення серед них отримали алгоритми Soundex і Metaphone, які призначені для індексування слів по їх звучанням з урахуванням правил вимови. Шляхом застосування алгоритму Metaphone зроблено спробу оптимізації процесів фонетичного пошуку для задач нечіткого співпадіння, наприклад, у разі дедублікації даних у різноманітних базах даних і реєстрах для зменшення кількості помилок невірного введення прізвищ. Із аналізу найбільш розповсюджених прізвищ видно, що частина з них є українського або російського походження. У цьому випадку правила, за якими вимовляються та записуються прізвища, наприклад українською мовою, кардинально відрізняються від базових алгоритмів для англійської та достатньо відрізняються для російської мови. Саме тому фонетичний алгоритм має враховувати передусім особливості формування українських прізвищ, що нині є надзвичайно актуальним. Наведено результати експерименту з формування фонетичних індексів і збільшення продуктивності у разі використання сформованих індексів. Запропоновано метод адаптації пошуку для інших сфер і кількох споріднених мов на прикладі пошуку по лікарським засобам.
  Повний текст PDF - 533.075 Kb    Зміст випуску     Цитування публікації

Цитованість авторів публікації:
  • Buriachok V.
  • Hadzhyiev M.
  • Sokolov V.
  • Skladannyi P.
  • Kuzmenko L.

  • Бібліографічний опис для цитування:

    Buriachok V. Implementation of an index optimize technology for highly specialized terms based on the phonetic algorithm Metaphone / V. Buriachok, M. Hadzhyiev, V. Sokolov, P. Skladannyi, L. Kuzmenko // Восточно-Европейский журнал передовых технологий. - 2019. - № 5(2). - С. 64-71. - Режим доступу: http://nbuv.gov.ua/UJRN/Vejpte_2019_5(2)__9.

      Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
     
    Відділ інформаційно-комунікаційних технологій
    Пам`ятка користувача

    Всі права захищені © Національна бібліотека України імені В. І. Вернадського