РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"
Abstract database «Ukrainica Scientific»


Бази даних


Реферативна база даних - результати пошуку


Вид пошуку
Пошуковий запит: (<.>ID=REF-0000745321<.>)
Загальна кількість знайдених документів : 1

Lytvyn V. 
Development of the quantitative method for automated text content authorship attribution based on the statistical analysis of N-grams distribution / V. Lytvyn, V. Vysotska, I. Budz, Y. Pelekh, N. Sokulska, R. Kovalchuk, L. Dzyubyk, O. Tereshchuk, M. Komar // Вост.-Европ. журн. передовых технологий. - 2019. - № 6/2. - С. 28-51. - Бібліогр.: 108 назв. - англ.

Розглянуто особливості застосування технологій лінгвостатистики для ідентифікації стилістики автора текстового контенту науково-технічного профілю (НТП). Квантитативний лінгвістичний аналіз тексту використовує переваги контент-моніторінгу на базі методів NLP для визначення та аналізу множини стопових слів, ключових слів, стійких словосполучень і дослідження N-грам. Останні використовують в методах лінгвометрії для визначення приналежності аналізованого тексту конкретному авторові у відсотках. Розроблено квантитативний метод автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу 3-грам. Запропоновано підхід реалізації визначення автора україномовного тексту НТП. Отримано експериментальні результати запропонованого методу для визначення приналежності аналізованого тексту конкретному автору за наявності еталонного авторського тексту. Застосування лінгвостатистичного аналізу 3-грам до множини статей надасть можливість сформувати підмножину подібних за лінгвістичними характеристиками публікацій. Накладання на підмножину додаткових умов у вигляді проведення статистичних і квантитативних аналізів (множини ключових слів, стійких словосполучень, стилеметричного, лігвометричного тощо) надасть можливість значно скоротити цю підмножину, уточнивши список імовірніших авторських робіт. Для якісного та ефективного аналізу контенту у ході визначення ступеня авторства конкретному автору запропоновано аналізувати еталонной текст та досліджуваного в декілька етапів: лінгвометричний аналіз коефіцієнтів різноманіття авторського мовлення, стилометричний аналіз, аналіз стійких словосполучень, лінгвостатистичний аналіз 3-грам. Для автоматизованого опрацювання тексту має велике значення не тільки частота появи тієї чи іншої категорії, а взагалі присутність в досліджуваному тексті. Кількісний підрахунок надає можливість зробити об'єктивні висновки щодо спрямованості матеріалів за кількістю вживань одиниць аналізу в досліджуваних текстах. Якісний аналіз робить те саме, але внаслідок дослідження того, чи зустрічається (і в якому контексті) певна важлива оригінальна категорія взагалі.


Індекс рубрикатора НБУВ: Ш111.2

Рубрики:

Шифр НБУВ: Ж24320 Пошук видання у каталогах НБУВ 
Повний текст  Наукова періодика України 
Додаткова інформація про автора(ів) публікації:
(cписок формується автоматично, до списку можуть бути включені персоналії з подібними іменами або однофамільці)
  Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
 
Національна бібліотека України імені В. І. Вернадського
Відділ наукового формування національних реферативних ресурсів
Інститут проблем реєстрації інформації НАН України

Всі права захищені © Національна бібліотека України імені В. І. Вернадського