Lytvyn V. Development of the linguometric method for automatic identification of the author of text content based on statistical analysis of language diversity coefficients / V. Lytvyn, V. Vysotska, P. Pukach, Z. Nytrebych, I. Demkiv, R. Kovalchuk, N. Huzyk // Вост.-Европ. журн. передовых технологий. - 2018. - № 5/2. - С. 16-28. - Бібліогр.: 71 назв. - англ.Розробленно лінгвометричний метод алгоритмічного забезпечення процесів контент-моніторінгу для розв'язання задачі автоматичного визначення автора україномовного текстового контенту на базі технології статистичного аналізу коефіцієнтів мовної різноманітності. Проведено декомпозицію методу визначення автора на підставі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв'язність мовлення, індекси винятковості та концентрації тексту. Проаналізовано параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, і кількість слів із частотою 10 і більше. Особливостями розробленого є адаптація морфологічного та синтаксичного аналізу лексичних одиниць до особливостей конструкцій україномовних слів/текстів. Тобто під час аналізу лінгвістичних одиниць типу слів враховувалась належність до частини мови та відмінювання в межах цієї частини мови. Для цього проаналізовано флексії цих слів для класифікації, виділено основи для формування відповідних алфавітно-частотних словників. Наповнення цих словників у подальшому враховувалися на наступних кроках визначення авторства тексту як розрахунок параметрів та коефіцієнтів авторського мовлення. Для індивідуального стилю письменника показовими є саме службові (стопові або опорні) слова, оскільки вони ніяк не пов'язані з темою і змістом публікації. Проведено порівняння результатів на множині 200 одноосібних робіт технічного спрямування біля 100 різних авторів за період 2001 - 2017 рр. для визначення, чи змінюються і як коефіцієнти різноманітності тексту цих авторів у різні проміжки часу. Виявлено, що для обраної експериментальної бази з понад 200 робіт найкращих результатів за критерієм щільності досягає метод аналізу статті без початкової обов'язкової інформації як анотації та ключові слова різними мовами, а також списку літератури. Індекс рубрикатора НБУВ: Ш111.2
Рубрики:
Шифр НБУВ: Ж24320 Пошук видання у каталогах НБУВ Повний текст Наукова періодика України Додаткова інформація про автора(ів) публікації: (cписок формується автоматично, до списку можуть бути включені персоналії з подібними іменами або однофамільці) Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
|