№ 2 (480) 2020
Постійне посилання зібрання
Переглянути
Перегляд № 2 (480) 2020 за Ключові слова "data preparation automation"
Зараз показуємо 1 - 1 з 1
Результатів на сторінці
Налаштування сортування
Документ Автоматизація підготовки даних для географічного блока ахівної бази даних(2020) Прокоп, Ю. В.; Трофименко, О. Г.; Прокоп, А. С.; Prokop, Yuliіa V.; Trofymenko, Olena G.; Prokop, Artem S.Анотація. Створення архівних інформаційно-пошукових систем є одним з актуальних напрямів розвитку української архівної галузі. Проте реалізація його потребує внесення до баз даних величезного обсягу інформації, причому цей процес нині не автоматизований, а тому потребує значних людських ресурсів для введення даних вручну. Метою роботи є дослідження автоматизації процесу підготовки даних для географічного блока архівної інформаційно-пошукової системи із джерел різного формату: електронних реєстрів, вебсторінок, паперових друкованих видань, рукописних архівних документів тощо. Пропонується підсистема для підготовки даних, яка складається з модулів пошуку джерел інформації, видобування даних, ідентифікації даних і внесення інформації до бази. Значну частину роботи в підсистемі було автоматизовано, тому вона вже не потребує ручного введення даних. Вибір методу видобування і попереднього опрацювання даних залежить від джерела інформації. З урахуванням специфіки завдання можна припускати, що більшість джерел є або друкованими виданнями, або рукописними архівними документами. Тому першим кроком для їх опрацювання має бути сканування і розпізнавання тексту за допомогою поширених програмних засобів або нейронної мережі. Отриманий із джерел неструктурований текст методом синтаксичного аналізу трансформується у структурований і заноситься в таблиці певного шаблону. Видобуті дані мають бути ідентифіковані, відомості про тотожні адміністративні одиниці – об’єднані та внесені в базу даних. Запропонована підсистема підготовки даних була реалізована на прикладі підготовки географічних відомостей для Миколаївської області. Практична значимість отриманих результатів полягає в тому, що використання запропонованого алгоритму дозволить автоматизувати заповнення географічного блока даними інших регіонів для використання в регіональних тематичних архівних базах даних і загальнодержавній архівній інформаційно-пошуковій системі.