Lytvyn V. Development of the quantitative method for automated text content authorship attribution based on the statistical analysis of N-grams distribution / V. Lytvyn, V. Vysotska, I. Budz, Y. Pelekh, N. Sokulska, R. Kovalchuk, L. Dzyubyk, O. Tereshchuk, M. Komar // Вост.-Европ. журн. передовых технологий. - 2019. - № 6/2. - С. 28-51. - Бібліогр.: 108 назв. - англ.Розглянуто особливості застосування технологій лінгвостатистики для ідентифікації стилістики автора текстового контенту науково-технічного профілю (НТП). Квантитативний лінгвістичний аналіз тексту використовує переваги контент-моніторінгу на базі методів NLP для визначення та аналізу множини стопових слів, ключових слів, стійких словосполучень і дослідження N-грам. Останні використовують в методах лінгвометрії для визначення приналежності аналізованого тексту конкретному авторові у відсотках. Розроблено квантитативний метод автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу 3-грам. Запропоновано підхід реалізації визначення автора україномовного тексту НТП. Отримано експериментальні результати запропонованого методу для визначення приналежності аналізованого тексту конкретному автору за наявності еталонного авторського тексту. Застосування лінгвостатистичного аналізу 3-грам до множини статей надасть можливість сформувати підмножину подібних за лінгвістичними характеристиками публікацій. Накладання на підмножину додаткових умов у вигляді проведення статистичних і квантитативних аналізів (множини ключових слів, стійких словосполучень, стилеметричного, лігвометричного тощо) надасть можливість значно скоротити цю підмножину, уточнивши список імовірніших авторських робіт. Для якісного та ефективного аналізу контенту у ході визначення ступеня авторства конкретному автору запропоновано аналізувати еталонной текст та досліджуваного в декілька етапів: лінгвометричний аналіз коефіцієнтів різноманіття авторського мовлення, стилометричний аналіз, аналіз стійких словосполучень, лінгвостатистичний аналіз 3-грам. Для автоматизованого опрацювання тексту має велике значення не тільки частота появи тієї чи іншої категорії, а взагалі присутність в досліджуваному тексті. Кількісний підрахунок надає можливість зробити об'єктивні висновки щодо спрямованості матеріалів за кількістю вживань одиниць аналізу в досліджуваних текстах. Якісний аналіз робить те саме, але внаслідок дослідження того, чи зустрічається (і в якому контексті) певна важлива оригінальна категорія взагалі. Індекс рубрикатора НБУВ: Ш111.2
Рубрики:
Шифр НБУВ: Ж24320 Пошук видання у каталогах НБУВ Повний текст Наукова періодика України Додаткова інформація про автора(ів) публікації: (cписок формується автоматично, до списку можуть бути включені персоналії з подібними іменами або однофамільці) Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
|