Наукова періодика України Інформатика та математичні методи в моделюванні


Penko V. 
Approach to identifying plagiarism in multilingual texts / V. Penko, Abdula I. Gafar // Інформатика та математичні методи в моделюванні. - 2018. - Т. 8, № 2. - С. 121-128. - Режим доступу: http://nbuv.gov.ua/UJRN/Itmm_2018_8_2_5
Завдання виявлення плагіату між текстами на різних мовах є важливим різновидом загального завдання виявлення плагіату. Для вирішення цього завдання плідним є можливість обчислювати ступінь подібності (паралельності) двох текстів. Вивчено метод оцінки паралельності на основі розподілу частот Зіпфа. Ключовою ідеєю методу є побудова лінійної регресійної моделі, що співставляє площі під лінеарізованими кривими Зіпфа для текстів, що співставляються. Реалізована обчислювальна процедура для знаходження оптимальних параметрів класифікації такої моделі. Для отримання моделі, яка більшою мірою відповідає конкретним умовам застосування проведені дві серії обчислювальних експериментів для визначення оптимальних параметрів, що відповідають двом класифікаційним метрикам: Accuracy і F1-міра. Визначення найкращих класифікаційних параметрів відбувається на основі навчального підмножини корпусу. Для надійної оцінки моделі класифікаційні метрики перераховуються на тестовому підмножині. Виконані обчислювальні експерименти з використанням цього підходу показали обмежену придатність що до мовних пар, складених з англійських, російських та українських текстів. Для поліпшення показників фільтрації паралельних текстів запропонований і реалізований фільтр, що базується на частотах слів в текстах. Сформульовано напрямки, що дозволяють поліпшити показники якості класифікації: розширення корпусу текстів, що використовуєтьмя при навчанні моделі, а також методи спільного використання декількох класифікаційних фільтрів.
  Повний текст PDF - 236.598 Kb    Зміст випуску     Цитування публікації

Цитованість авторів публікації:
  • Penko V.
  • Gafar A.

  • Бібліографічний опис для цитування:

    Penko V. Approach to identifying plagiarism in multilingual texts / V. Penko, Abdula I. Gafar // Інформатика та математичні методи в моделюванні. - 2018. - Т. 8, № 2. - С. 121-128. - Режим доступу: http://nbuv.gov.ua/UJRN/Itmm_2018_8_2_5.

      Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
     
    Відділ інформаційно-комунікаційних технологій
    Пам`ятка користувача

    Всі права захищені © Національна бібліотека України імені В. І. Вернадського