Повнотекстовий пошук
Пошуковий запит: (<.>AT=Minukhin Enhancing the performance of$<.>) |
Загальна кількість знайдених документів : 1
|
1. |
Minukhin S. Enhancing the performance of distributed big data processing systems using Hadoop and PolyBase [Електронний ресурс] / S. Minukhin, V. Fedko, Y. Gnusov // Восточно-Европейский журнал передовых технологий. - 2018. - № 4(2). - С. 16-28. - Режим доступу: http://nbuv.gov.ua/UJRN/Vejpte_2018_4(2)__3 Розглянуто підхід до підвищення продуктивності розподілених інформаційних систем на підставі спільного використання технологій кластера Hadoop і компонента PolyBase SQL Server. Показано, що актуальність вирішуваної проблеми пов'язана з необхідністю обробки великих даних, що мають різний спосіб подання відповідно до рішення різнопланових задач бізнес-проектів. Проаналізовано методи та технології створення гібридних сховищ даних на базі різних даних типу SQL та NoSQL. Показано, що в даний час найбільш поширеною є технологія обробки великих даних із використанням середовища розподілених обчислень Hadoop. Проаналізовано існуючі технології організації та доступу до даних у кластері Hadoop із SQL-подібних СУБД за допомогою конекторів. Наведено порівняльні кількісні оцінки використання конекторів Hive та Sqoop під час експорту даних у сховище Hadoop. Проведено аналіз та особливості обробки великих даних в архітектурі розподілених кластерних обчислень на базі Hadoop. Наведено та описано особливості технології PolyBase як компонента SQL Server для організації моста між SQL Server і Hadoop даних типу SQL і NoSQL. Наведено склад модельної обчислювальної установки на базі віртуальної машини для спільного налаштування PolyBase та Hadoop для рішення тестових завдань. Розроблено методичне забезпечення установки та конфігурування програмного забезпечення Hadoop і PolyBase SQL Server з урахуванням обмежень на обчислювальні потужності. Розглянуто запити для використання PolyBase та сховища даних Hadoop у процесі обробки великих даних. Для оцінки продуктивності системи запропоновано абсолютні та відносні метрики. Для тестових даних великих об'ємів наведено результати експериментів і проведено їх аналіз, що ілюструє підвищення продуктивності інформаційної системи - часу виконання запитів і величини тимчасових таблиць, що створюються у цьому випадку. Проведено порівняльний аналіз досліджуваної технології з існуючими конекторами з кластером Hadoop, який показав перевагу PolyBase над конекторами Sqoop та Hive.
|
|
|