Mashtalir S. V. Data preprocessing and tokenization techniques for technical Ukrainian texts = Методи препроцесингу та токенізації даних для технічних українських текстів / S. V. Mashtalir, O. V. Nikolenko // Appl. Aspects of Inform. Technology. - 2023. - 6, № 3. - С. 318-326. - Бібліогр.: 18 назв. - англ.За останні роки галузь обробки природної мови (Natural Language Processing, NLP) пережила значні досягнення завдяки машинному та глибинному навчанню та штучному інтелекту, що розширило її застосування та покращило взаємодію між людиною та комп'ютером. Однак системи обробки природної мови стикаються з проблемами, пов'язаними з неповними та помилковими даними, що може призводити до побудови моделей із помилковими результатами. Спеціалізовані технічні області ставлять додаткові вимоги, вимагаючи налаштування моделей під конкретну галузь та використання власних специфічних термінів. Більше того, багато природних мов не мають повноцінної підтримки в NLP. У цьому контексті досліджено нові методи попередньої обробки даних і токенізації, призначені для технічних українських текстів. Використано набори даних, що містять назви операцій із галузі автомобільного ремонту, специфікою яких є наявність багатьох помилок і присутність специфічних термінів, часто у комбінації української та російської мов. Метою є точна класифікація цих сутностей, що на першому етапі передбачає комплексну очистку даних, попередню обробку та токенізацію. Підхід модифікує класичну попередню обробку NLP, включаючи виявлення мови, розпізнавання конкретних кириличних символів, розклад складних слів на прості частини та обробку абревіатур. Нормалізація частин окремого речення стандартизує символи, видаляє розділові знаки та розшифровує абревіатури. Переклад із російської на українську мову здійснюється шляхом використання детальних довідників та автоматично створених словників відповідностей. Під час токенізації вирішуються питання злитих токенів, орфографічних помилок, спільних префіксів у складних словах та абревіатурах. Лематизація, особливо важлива для мов, які використовують відмінки, використовує великі наукові словники, які перетворюють словоформи у леми, з акцентом на називному відмінку іменників. В результаті створюється повний словник токенів, який може використовуватись у різних завданнях у сфері обробки природної мови. Повнота словника та унікальність окремих токенів підвищує точність та надійність їхнього застосування, особливо в технічних українських текстах. Це дослідження поглиблює існуючі методи та моделі попередньої обробки та токенізації даних в межах NLP і надає конкретні інструменти для роботи з текстами із специфічних галузей. Індекс рубрикатора НБУВ: З970.66
Рубрики:
Шифр НБУВ: Ж101736 Пошук видання у каталогах НБУВ
Повний текст Наукова періодика України
 Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
|