Наукова періодика України Вісник Вінницького політехнічного інституту


Півошенко В. В. 
Аналіз та експериментальне дослідження методу безмодельного навчання з підкріпленням / В. В. Півошенко, М. С. Кулик, Ю. Ю. Іванов, А. С. Васюра // Вісник Вінницького політехнічного інституту. - 2019. - № 3. - С. 40-49. - Режим доступу: http://nbuv.gov.ua/UJRN/vvpi_2019_3_7
Розглянуто сучасний метод машинного навчання, який має назву навчання з підкріпленням. У задачах, які розв'язуються на основі взаємодії, найчастіше непрактично намагатися одержувати приклади необхідної поведінки інтелектуального програмного агента, які були б одночасно коректними та доречними для всіх ситуацій, оскільки наявні умови невизначеності, що виникають через неповноту інформації про навколишнє середовище та можливі дії інших ботів або людей. Тому програмний агент повинен навчатися на основі власного досвіду. Важливою перевагою навчання з підкріпленням є можливість навчання бота "з нуля" за рахунок збалансованого поєднання (пошук компромісу) режимів "дослідження" - "застосування" та вивчення стратегій, які дозволяють жертвувати малим на певному етапі заради одержання більшої вигоди в подальшому. Дослідження в області навчання з підкріпленням можна вважати частиною загального процесу, який розвивається в останні роки. Він складається зі взаємодії штучного інтелекту та інженерних дисциплін, тому саме у навчанні з підкріпленням розвиваються ідеї, взяті з теорії оптимального управління, стохастичної оптимізації та апроксимації, прагнучи реалізації загальніших і амбітних цілей штучного інтелекту. Представлено математичний апарат навчання з підкріпленням із залученням методу безмодельного Q-навчання, показано практичні аспекти його застосування, а також розроблено ефективну стратегію навчання бота у штучному середовищі (комп'ютерній відеогрі). В ролі спостережуваних змінних об'єкта виступає інформація, яку використовує агент, а прихованими змінними є довгострокові оцінки одержаної ним вигоди. Залежно від поточного стану середовища і дій бота розраховується функція вигоди, яку отримає агент у наступний момент часу. З використанням розробленого програмного забезпечення виконано експериментальні дослідження розглянутого методу. Одержано оптимальні параметри налаштування, криві та час навчання бота. Результати дослідження можуть бути корисними для комп'ютерних систем різного функціонального призначення, їх можна застосовувати у моделюванні та проектуванні, в системах автоматичного керування та прийняття рішень, робототехніці, на фондових ринках тощо.
  Повний текст PDF - 521.769 Kb    Зміст випуску     Цитування публікації

Цитованість авторів публікації:
  • Півошенко В.
  • Кулик М.
  • Іванов Ю.
  • Васюра А.

  • Бібліографічний опис для цитування:

    Півошенко В. В. Аналіз та експериментальне дослідження методу безмодельного навчання з підкріпленням / В. В. Півошенко, М. С. Кулик, Ю. Ю. Іванов, А. С. Васюра // Вісник Вінницького політехнічного інституту. - 2019. - № 3. - С. 40-49. - Режим доступу: http://nbuv.gov.ua/UJRN/vvpi_2019_3_7.

      Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
     
    Відділ інформаційно-комунікаційних технологій
    Пам`ятка користувача

    Всі права захищені © Національна бібліотека України імені В. І. Вернадського