Наукова періодика України Технічні науки та технології


Корнієнко О. 
Метод відображення мовних сигналів у задачі розпізнавання мовця / О. Корнієнко // Технічні науки та технології. - 2017. - № 3. - С. 129-137. - Режим доступу: http://nbuv.gov.ua/UJRN/Vcndtn_2017_3_17
Більшість когнітивних сервісів використовують мовні сигнали як джерело інформації, а саме: розпізнавання емоцій, мови та ідентифікація мовця. Актуальною проблемою є створення загального підходу до відображення мовних сигналів, позбавленого недоліків існуючих методів класифікації у задачі розпізнавання мовця. Постановка проблеми. Більшість сучасних методів розпізнавання мовця є чутливими до тривалості мовних сигналів і, відповідно, це накладає істотні обмеження на їх застосування. Метод зрівняння фундаментальних частот голосів та ймовірнісні підходи часто застосовують для розпізнавання мовця. Предметом більшості робіт, пов'язаних із розпізнаванням мовця, є пошук метрик зрівняння статистичних моделей голосових трактів мовців для забезпечення найвищої точності розпізнавання. Формування цих моделей (метод i-vector) здійснюється на основі статистичних розподілів короткочасних спектральних ознак. Основним недоліком такого підходу є необхідність великої кількості тренувальних даних (записів мовних сигналів великої тривалості), з метою розрахунку статистичних розподілів ознак та побудови текстонезалежної моделі мовця. Створення загального методу виділення закономірностей у спектральних ознаках мовних сигналів короткої тривалості та характер їх зміни у часі є відкритим завданням. Запропоновано новий підхід до відображення мовних сигналів, як векторів ознак розподілених у часі, з використанням рекурентної нейронної мережі. Розпізнавання мовця включає ідентифікацію та верифікацію людини за голосом та полягає у пошуці оптимальної пари функції відображення набору ознак мовного сигналу в багатовимірний вектор, та функції оцінки схожості таких відображень. Для пошуку альтернативної функції відображення ознак мовного сигналу використано рекурентну нейронну мережу, що складається з ланцюга двонаправлених довгих короткочасних пам'ятей. Використано евклідову відстань для спрощення процесу зрівняння зразків мовних сигналів. Для налаштування ваг рекурентної нейронної мережі використано підхід триплет втрат, що успішно використовується для розпізнавання облич. Висновки: експериментально показано, що використання запропонованого підходу дозволило зменшити помилку розпізнавання мовця EER на 7,5 % порівняно із сучасним підходом i-vector при розмірності векторів відображень 16 та 100, відповідно, для мовних сигналів тривалістю 2 с.
  Повний текст PDF - 1.307 Mb    Зміст випуску     Цитування публікації

Цитованість авторів публікації:
  • Корнієнко О.

  • Бібліографічний опис для цитування:

    Корнієнко О. Метод відображення мовних сигналів у задачі розпізнавання мовця / О. Корнієнко // Технічні науки та технології. - 2017. - № 3. - С. 129-137. - Режим доступу: http://nbuv.gov.ua/UJRN/Vcndtn_2017_3_17.

    Додаткова інформація про автора(ів) публікації:
    (cписок формується автоматично, до списку можуть бути включені персоналії з подібними іменами або однофамільці)
  • Корнієнко Оксана Анатоліївна (хімічні науки)
  • Корнієнко Олена Борисівна (технічні науки)
  • Корнієнко Олександр Миколайович (1938–) (технічні науки)
  •   Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
     
    Відділ інформаційно-комунікаційних технологій
    Пам`ятка користувача

    Всі права захищені © Національна бібліотека України імені В. І. Вернадського