Наукова періодика України Eastern-European journal of enterprise technologies


Minukhin S. 
Enhancing the performance of distributed big data processing systems using Hadoop and PolyBase / S. Minukhin, V. Fedko, Y. Gnusov // Восточно-Европейский журнал передовых технологий. - 2018. - № 4(2). - С. 16-28. - Режим доступу: http://nbuv.gov.ua/UJRN/Vejpte_2018_4%282%29__3
Розглянуто підхід до підвищення продуктивності розподілених інформаційних систем на підставі спільного використання технологій кластера Hadoop і компонента PolyBase SQL Server. Показано, що актуальність вирішуваної проблеми пов'язана з необхідністю обробки великих даних, що мають різний спосіб подання відповідно до рішення різнопланових задач бізнес-проектів. Проаналізовано методи та технології створення гібридних сховищ даних на базі різних даних типу SQL та NoSQL. Показано, що в даний час найбільш поширеною є технологія обробки великих даних із використанням середовища розподілених обчислень Hadoop. Проаналізовано існуючі технології організації та доступу до даних у кластері Hadoop із SQL-подібних СУБД за допомогою конекторів. Наведено порівняльні кількісні оцінки використання конекторів Hive та Sqoop під час експорту даних у сховище Hadoop. Проведено аналіз та особливості обробки великих даних в архітектурі розподілених кластерних обчислень на базі Hadoop. Наведено та описано особливості технології PolyBase як компонента SQL Server для організації моста між SQL Server і Hadoop даних типу SQL і NoSQL. Наведено склад модельної обчислювальної установки на базі віртуальної машини для спільного налаштування PolyBase та Hadoop для рішення тестових завдань. Розроблено методичне забезпечення установки та конфігурування програмного забезпечення Hadoop і PolyBase SQL Server з урахуванням обмежень на обчислювальні потужності. Розглянуто запити для використання PolyBase та сховища даних Hadoop у процесі обробки великих даних. Для оцінки продуктивності системи запропоновано абсолютні та відносні метрики. Для тестових даних великих об'ємів наведено результати експериментів і проведено їх аналіз, що ілюструє підвищення продуктивності інформаційної системи - часу виконання запитів і величини тимчасових таблиць, що створюються у цьому випадку. Проведено порівняльний аналіз досліджуваної технології з існуючими конекторами з кластером Hadoop, який показав перевагу PolyBase над конекторами Sqoop та Hive.
  Повний текст PDF - 1.831 Mb    Зміст випуску     Цитування публікації

Цитованість авторів публікації:
  • Minukhin S.
  • Fedko V.
  • Gnusov Y.

  • Бібліографічний опис для цитування:

    Minukhin S. Enhancing the performance of distributed big data processing systems using Hadoop and PolyBase / S. Minukhin, V. Fedko, Y. Gnusov // Восточно-Европейский журнал передовых технологий. - 2018. - № 4(2). - С. 16-28. - Режим доступу: http://nbuv.gov.ua/UJRN/Vejpte_2018_4(2)__3.

      Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
     
    Відділ інформаційно-комунікаційних технологій
    Пам`ятка користувача

    Всі права захищені © Національна бібліотека України імені В. І. Вернадського