РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"
Abstract database «Ukrainica Scientific»


Бази даних


Реферативна база даних - результати пошуку


Вид пошуку
Пошуковий запит: (<.>ID=REF-0000705395<.>)
Загальна кількість знайдених документів : 1

Kungurtsev O. 
Development of information technology of term extraction from documents in natural language / O. Kungurtsev, S. Zinovatnaya, Ia. Potochniak, M. Kutasevych // Вост.-Европ. журн. передовых технологий. - 2018. - № 6/2. - С. 44-51. - Бібліогр.: 17 назв. - англ.

Показано, що словники предметних областей широко використовуються на різних етапах створення та експлуатації програмних продуктів. Процес створення словника, особливо виділення термінів, є досить трудомістким і вимагає високої кваліфікації експерта. Проведено дослідження по виявленню найбільш важливих характеристик багатослівних термінів, таких як: ймовірності присутності в документі термінів, що містять різну кількість слів; розташування іменників у багатослівних термінах; можливу кількість іменників у багатослівних термінах. Проаналізовано контекст використання термінів і визначено можливі межі термінів у тексті. Запропоновано процедуру попереднього групування документів, що надає можливість уникнути "втрати" термінів, що входять у короткі документи. Визначено залежність помилок у разі виділення термінів від розміру аналізованого документа. Запропоновано математичну модель представлення терміна, що заснована на визначенні безлічі ланцюжків слів, згрупованих близько опорного слова - іменника. Фільтрація ланцюжків виробляється залежно від частоти їх входження в текст на підставі зіставлення нормалізованих уявлень багатослівних термінів. Розроблено механізми заповнення словника предметної області новими записами і коригування існуючих у міру аналізу вхідного документа. Запропоновано рішення щодо коригування частоти появи термінів на підставі виявлення міжфразових зв'язків. Всі процеси і моделі об'єднані в єдину інформаційну технологію створення словника предметної області. Проблема визначення тлумачень термінів у даній роботі не розглядається, оскільки вимагає окремого рішення. Розроблено програмний продукт, що надає можливість значною мірою автоматизувати процес виділення термінів із текстових документів. Результати апробації запропонованих рішень показали відсутність "загублених термінів" і, як результат, скорочення часу виділення термінів із текстів обсягом у 10 000 слів на 1,5 год за рахунок звільнення експерта від аналізу вихідного документа. Результати дослідження можуть бути використані на різних етапах створення та експлуатації програмних продуктів.


Індекс рубрикатора НБУВ: З970.62 + Ш111.4

Рубрики:

Шифр НБУВ: Ж24320 Пошук видання у каталогах НБУВ 
  Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
 
Національна бібліотека України імені В. І. Вернадського
Відділ наукового формування національних реферативних ресурсів
Інститут проблем реєстрації інформації НАН України

Всі права захищені © Національна бібліотека України імені В. І. Вернадського