Наукова періодика України Eastern-European journal of enterprise technologies


Lytvyn V. 
Development of the linguometric method for automatic identification of the author of text content based on statistical analysis of language diversity coefficients / V. Lytvyn, V. Vysotska, P. Pukach, Z. Nytrebych, І. Demkiv, R. Kovalchuk, N. Huzyk // Восточно-Европейский журнал передовых технологий. - 2018. - № 5(2). - С. 16-28. - Режим доступу: http://nbuv.gov.ua/UJRN/Vejpte_2018_5%282%29__3
Розробленно лінгвометричний метод алгоритмічного забезпечення процесів контент-моніторінгу для розв'язання задачі автоматичного визначення автора україномовного текстового контенту на базі технології статистичного аналізу коефіцієнтів мовної різноманітності. Проведено декомпозицію методу визначення автора на підставі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв'язність мовлення, індекси винятковості та концентрації тексту. Проаналізовано параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, і кількість слів із частотою 10 і більше. Особливостями розробленого є адаптація морфологічного та синтаксичного аналізу лексичних одиниць до особливостей конструкцій україномовних слів/текстів. Тобто під час аналізу лінгвістичних одиниць типу слів враховувалась належність до частини мови та відмінювання в межах цієї частини мови. Для цього проаналізовано флексії цих слів для класифікації, виділено основи для формування відповідних алфавітно-частотних словників. Наповнення цих словників у подальшому враховувалися на наступних кроках визначення авторства тексту як розрахунок параметрів та коефіцієнтів авторського мовлення. Для індивідуального стилю письменника показовими є саме службові (стопові або опорні) слова, оскільки вони ніяк не пов'язані з темою і змістом публікації. Проведено порівняння результатів на множині 200 одноосібних робіт технічного спрямування біля 100 різних авторів за період 2001 - 2017 рр. для визначення, чи змінюються і як коефіцієнти різноманітності тексту цих авторів у різні проміжки часу. Виявлено, що для обраної експериментальної бази з понад 200 робіт найкращих результатів за критерієм щільності досягає метод аналізу статті без початкової обов'язкової інформації як анотації та ключові слова різними мовами, а також списку літератури.
  Повний текст PDF - 602.662 Kb    Зміст випуску     Цитування публікації

Цитованість авторів публікації:
  • Lytvyn V.
  • Vysotska V.
  • Pukach P.
  • Nytrebych Z.
  • Demkiv І.
  • Kovalchuk R.
  • Huzyk N.

  • Бібліографічний опис для цитування:

    Lytvyn V. Development of the linguometric method for automatic identification of the author of text content based on statistical analysis of language diversity coefficients / V. Lytvyn, V. Vysotska, P. Pukach, Z. Nytrebych, І. Demkiv, R. Kovalchuk, N. Huzyk // Восточно-Европейский журнал передовых технологий. - 2018. - № 5(2). - С. 16-28. - Режим доступу: http://nbuv.gov.ua/UJRN/Vejpte_2018_5(2)__3.

    Додаткова інформація про автора(ів) публікації:
    (cписок формується автоматично, до списку можуть бути включені персоналії з подібними іменами або однофамільці)
  • Литвин Василь Володимирович (1976–) (фізико-математичні науки)
  • Литвин Віталій Костянтинович (технічні науки)
  •   Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
     
    Відділ інформаційно-комунікаційних технологій
    Пам`ятка користувача

    Всі права захищені © Національна бібліотека України імені В. І. Вернадського