Распределенный программный комплекс на базе фреймворка apache spark для обработки потоковых big data от сложных технических систем

Вычужанин, В. В.

Проведен анализ систем, предназначенных для обработки данных, поступающих с информационно-измерительных систем сложных технических систем показал, что используемые в этих целях, например SCADA-системы, применены главным образом для обеспечения обзора контролируемых процессов в сложных технических системах с возможностью выполнять способы Process Analyzer для анализа состояния систем и в основном для статистической обработки данных. В этой связи новые технологии обработки и методы анализа Big Data для этой сферы становятся более востребованными. Для решения поставленной задачи, связанной с обработкой данных, поступающих с информационно-измерительных систем сложных технических систем, в статье проведен анализ характеристик фреймворков Hadoop MapReduce и Apache Spark для обработки Big Data и их аналитики, обладающих внутри-гетерогенной памятью. Рассмотрено влияние на производительность и отказоустойчивость приложений Hadoop MapReduce и Apache Spark. Рассмотрены способы создания Resilient Distributed Data: распараллеливания переданной коллекции в программе; использование ссылок на внешнюю файловую систему в Hadoop. Описан распределенный программный комплекс на базе массово-параллельной технологии для обработки потокових Big Data, поступающих с информационно-измерительных систем сложных технических систем. Отличительными особенностями системы являются ее способность работы в режиме реального времени с потоковыми Big Data, а также применение существующих алгоритмов, не предназначенных для распределенной обработки, на множестве узлов без изменения реализации последних. Предложено обработку потоковых Big Data в Apache Spark, поступающих синформационно-измерительных систем сложных технических систем, осуществлять на языке Scala с использованием библиотек SparkContext и RDD. Предлагаемый распределенный программный комплекс на базе массово-параллельной технологии с облачными вычислениями для обработки потоковых Big Data, поступающих с информационно-измерительных систем сложных технических систем, обладает способностью работы в режиме реального времени с большими объемами потоковых данных для управления технологическими процессами в сложных технических системах.


	Наукова періодика України		Інформатика та математичні методи в моделюванні