Наукова періодика України Проблеми програмування


Погорілий С. Д. 
Автоматизована екстракція структурованої інформації з множини веб сторінок / С. Д. Погорілий, А. А. Крамов // Проблеми програмування. - 2018. - № 2-3. - С. 149-158. - Режим доступу: http://nbuv.gov.ua/UJRN/Progr_2018_2-3_19
Обгрунтовано доцільність використання методу Trinity для екстракції даних у порівнянні з іншими методами. Показано проблему вибору вхідних документів методу серед множини HTML-сторінок для формування узагальненого шаблону. Проведено експериментальну перевірку методу Trinity на множині HTML-сторінок англомовних статей українських наукових журналів. Для формування тестової множини HTML-сторінок виконано автоматизований обхід веб-сайтів журналів за допомогою пошукового роботу. Реалізацію пошукового роботу здійснено за рахунок обробки об'єктної моделі HTML-документів, одержаних з веб-сайтів. Шаблони (регулярні вирази), сформовані за методом Trinity, застосовано до всього набору вхідних HTML-сторінок. Результати екстракції - структуровані дані про статті (назва, автори, анотація, ключові слова) - експортовано до бази даних з можливістю їх подальшого аналізу. Здійснено порівняння одержаних результатів з даними про статті, одержаними за допомогою аналізу об'єктної моделі веб-сторінок власноруч. Обраховано похибку використання методу Trinity на експериментальній множині HTML-сторінок.
  Повний текст PDF - 969.935 Kb    Зміст випуску     Цитування публікації

Цитованість авторів публікації:
  • Погорілий С.
  • Крамов А.

  • Бібліографічний опис для цитування:

    Погорілий С. Д. Автоматизована екстракція структурованої інформації з множини веб сторінок / С. Д. Погорілий, А. А. Крамов // Проблеми програмування. - 2018. - № 2-3. - С. 149-158. - Режим доступу: http://nbuv.gov.ua/UJRN/Progr_2018_2-3_19.

      Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
     
    Відділ інформаційно-комунікаційних технологій
    Пам`ятка користувача

    Всі права захищені © Національна бібліотека України імені В. І. Вернадського