Development of the algorithm of keyword search in the Kazakh language text corpus

Akanova, А.; Ospanova, N.; Kukharenko, Y.; Abildinova, G.

Питання семантичного аналізу тексту займає особливе місце в комп'ютерній лінгвістиці. Дослідники даної області мають підвищений інтерес до розробки алгоритму, використання якого надасть можливість підвищити якість обробки корпусу тексту та ймовірнісне визначення змісту тексту. Результати дослідження застосувань методик, підходів, алгоритмів для семантичного аналізу тексту у комп'ютерній лінгвістиці в міжнародній і казахстанській науці призвели до розробки алгоритму пошуку ключових слів у тексті казахською мовою. Першим етапом алгоритму було складання еталонного словника ключових слів для корпусу тексту українською мовою. Вирішенням цієї проблеми стало застосування алгоритму Портера (стеммера) для корпусу текстів казахською мовою. Реалізація стеммера надала можливість виділити унікальні основи слів та отримати еталонний словник, який згодом проіндексували. Наступний крок - це збір навчальних даних із корпусу текстів. Для обчислення ступеня семантичної близькості між словами кожному слову присвоюється вектор відповідних йому словоформ еталонного словника, в результаті якого виходить пара - ключове слово та вектор. І останнім кроком алгоритму є навчання нейронних мереж. Під час навчання застосовується метод зворотного поширення помилок, що надає можливість провести семантичний аналіз корпусу тексту й отримати ймовірнісну кількість слів, близьку до очікуваної кількості ключових. Цей процес надає можливість автоматизувати обробку текстового матеріалу шляхом створення цифрових навчальних моделей ключових слів. Алгоритм використовується для розробки нейрокомп'ютерної системи, що буде проводити автоматичну перевірку текстових робіт учнів онлайн курсів. Унікальністю алгоритму пошуку ключових слів є застосування навчання нейронної мережі для текстів казахською мовою. У Казахстані вченими в області комп'ютерної лінгвістики було проведено ряд досліджень на підставі застосування морфологічного аналізу, лемматизації та інших підходів і реалізовані лінгвістичні інструменти (в основному словники-перекладачі). Область застосування навчання нейронних мереж для синтаксичного аналізу казахської мови залишається відкритим питанням в казахстанській науці. Розроблений алгоритм передбачає вирішення однієї з проблем в отриманні ефективного семантичного аналізу тексту казахською мовою.Питання семантичного аналізу тексту займає особливе місце в комп'ютерній лінгвістиці. Дослідники даної області мають підвищений інтерес до розробки алгоритму, використання якого надасть можливість підвищити якість обробки корпусу тексту та ймовірнісне визначення змісту тексту. Результати дослідження застосувань методик, підходів, алгоритмів для семантичного аналізу тексту у комп'ютерній лінгвістиці в міжнародній і казахстанській науці призвели до розробки алгоритму пошуку ключових слів у тексті казахською мовою. Першим етапом алгоритму було складання еталонного словника ключових слів для корпусу тексту українською мовою. Вирішенням цієї проблеми стало застосування алгоритму Портера (стеммера) для корпусу текстів казахською мовою. Реалізація стеммера надала можливість виділити унікальні основи слів та отримати еталонний словник, який згодом проіндексували. Наступний крок - це збір навчальних даних із корпусу текстів. Для обчислення ступеня семантичної близькості між словами кожному слову присвоюється вектор відповідних йому словоформ еталонного словника, в результаті якого виходить пара - ключове слово та вектор. І останнім кроком алгоритму є навчання нейронних мереж. Під час навчання застосовується метод зворотного поширення помилок, що надає можливість провести семантичний аналіз корпусу тексту й отримати ймовірнісну кількість слів, близьку до очікуваної кількості ключових. Цей процес надає можливість автоматизувати обробку текстового матеріалу шляхом створення цифрових навчальних моделей ключових слів. Алгоритм використовується для розробки нейрокомп'ютерної системи, що буде проводити автоматичну перевірку текстових робіт учнів онлайн курсів. Унікальністю алгоритму пошуку ключових слів є застосування навчання нейронної мережі для текстів казахською мовою. У Казахстані вченими в області комп'ютерної лінгвістики було проведено ряд досліджень на підставі застосування морфологічного аналізу, лемматизації та інших підходів і реалізовані лінгвістичні інструменти (в основному словники-перекладачі). Область застосування навчання нейронних мереж для синтаксичного аналізу казахської мови залишається відкритим питанням в казахстанській науці. Розроблений алгоритм передбачає вирішення однієї з проблем в отриманні ефективного семантичного аналізу тексту казахською мовою.


	Наукова періодика України		Eastern-European journal of enterprise technologies