Наукова періодика України Телекомунікаційні та інформаційні технології


Otrokh S. I. 
Analysis of information in the tasks of consolidating from open sources / S. I. Otrokh, V. O. Kuzminykh, Ye. Yu. Shvets // Телекомунікаційні та інформаційні технології. - 2018. - № 1. - С. 47-53. - Режим доступу: http://nbuv.gov.ua/UJRN/vduikt_2018_1_8
Розглянуто питання та можливості використання існуючих алгоритмів синтаксичного аналізу для одержання та консолідації даних з відкритих джерел для моніторингу екологічної ситуації в Україні. В основі консолідації лежить процес збору та організації зберігання даних у вигляді, оптимальному з точки зору їх подальшої обробки. Проведено аналіз основних алгоритмів парсинга, що існують на сьогодні, було проведено дослідження і зроблені висновки, в яких випадках той чи інший алгоритм краще використовувати. Для проведення аналізу було використано декілька методів з реалізацією на PHP 7 версії. Інструментом тестування була HTML форма з вибором веб-документа за допомогою AJAX запитів при обмеженні часу виконання одного запиту. Інструменти тестування всіх засобів парсинга розроблені за допомогою сценаріїв bash і PHP в операційній системі Linux і за допомогою пакетних файлів batch, сценаріїв PowerShell і PHP в Windows. Проведено дослідження щодо часу роботи та використання пам'яті в залежності від кількості ітерацій. Приведено обрані для тестування веб-документи і їх характеристики (формат, розмір, URL). Для кожного засобу парсинга було проведено тестування з кожним з веб-документів при п'яти різних варіантах їх обробки. На підставі проведеного аналізу зроблено висновок, що для вирішення задач консолідації інформації з відкритих джерел найбільш відповідним та ефективним може бути використання засоби парсинга зі зберіганням ієрархії елементів. Такі засоби надають найбільш зручний спосіб доступу до елементів веб-документа за допомогою запитів (CSS і XPath) і підходять для виконання багаторазових запитів у задачах консолідації інформації з відкритих джерел для моніторингу екологічної ситуації в Україні.
  Повний текст PDF - 969.31 Kb    Зміст випуску     Цитування публікації

Цитованість авторів публікації:
  • Otrokh S.
  • Kuzminykh V.
  • Shvets Y.

  • Бібліографічний опис для цитування:

    Otrokh S. I. Analysis of information in the tasks of consolidating from open sources / S. I. Otrokh, V. O. Kuzminykh, Ye. Yu. Shvets // Телекомунікаційні та інформаційні технології. - 2018. - № 1. - С. 47-53. - Режим доступу: http://nbuv.gov.ua/UJRN/vduikt_2018_1_8.

      Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
     
    Відділ інформаційно-комунікаційних технологій
    Пам`ятка користувача

    Всі права захищені © Національна бібліотека України імені В. І. Вернадського