МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ федеральное государственное бюджетное образовательное учреждение высшего образования «Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева» АНДРЕЕВ Владимир Викторович КОМПЬЮТЕРНЫЙ МЕТОД АВТОМАТИЧЕСКОГО АНАЛИЗА ВИЗУАЛЬНОГО И ТЕКСТОВОГО КОНТЕНТА В ИНТЕРАКТИВНЫХ СИСТЕМАХ НА ОСНОВЕ СЕТЕЙ ГЛУБОКОГО ОБУЧЕНИЯ ДОКЛАД по диссертации на соискание ученой степени кандидата технических наук по специальности 2.3.1 Системный анализ, управление и обработка информации (технические науки) Актуальность • Точность визуальных вопросно-ответных систем все еще не достаточна высока. В зависимости от типа вопроса доля правильных ответов находится в пределах 3982%; • Объединение мультимодальных данных все еще является развивающейся областью исследований; • Полезные результаты могут быть применены широком спектре задач глубокого обучения, предполагающих объединение мультимодальных данных. 2 Актуальность Метод Несколько Открыты ответов й тип (другое) Да/Нет Количество Все HieCoAtt 79.7 38.7 65.8 51.7 58.9 Joint-Loss 81.9 39.0 67.7 53.0 60.4 MCB 83.4 39.8 70.2 58.5 62.9 MRN 82.3 39.1 66.3 48.8 59.1 DualNet 82.0 37.9 66.7 49.2 59.0 Точность визуальных вопросно-ответных систем Изображение Извлечение признаков Модель Объединение данных Текст Извлечение признаков Вывод ответа Модель Объединение мультимодальных данных 3 Цель и задачи Цель: • Повышение точности аннотирования визуального и текстового контента с использованием сетей глубокого обучения Задачи: • Анализ современных методов глубокого обучения, предназначенных для анализа мультимодальных данных. • Разработка архитектуры визуальной вопросно-ответной системы с реализацией классификации вопросов по типу. • Разработка адаптивного метода тензорного разложения для объединения мультимодальных данных в билинейных визуальных вопросно-ответных системах. • Реализация предварительной обработки изображений в визуальной вопросно-ответной системе с целью шумоподавления и улучшения качества визуального внимания. • Модификация архитектуры сверточной нейронной сети путем изменения слоя нелинейности. • Оценка эффективности принятых модификаций на специализированном наборе данных. 4 Научная новизна 1. Разработан новый метод тензорного разложения, применяемый при объединении мультимодальных данных в билинейных визуальных вопросно-ответных системах. Метод позволяет автоматически аппроксимировать размер блоков и их количество при применении блочного тензорного разложения, что делает метод более универсальным и не требующим ручной настройки под набор данных. 2. Разработан новый механизм визуального внимания, позволяющий системе на этапе предобработки изображения выделить области, которые с наибольшей вероятностью будут важны для ответа на вопрос. Данный механизм позволяет расширить существующий механизм внимания за счет использования оптических особенностей изображения, без привязки к известным для сверточной нейронной сети объектам. 3. Разработан новый оператор нелинейности для сверточных нейронных сетей, позволяющий улучшить качество извлечения признаков данными сетями. Оператор обладает возможностью имитировать свойства некоторых других известных операторов нелинейности, а также формировать новые в процессе работы алгоритма обучения. 4. Разработана новая архитектура визуальной вопросно-ответной системы, позволяющая увеличить качество ответа на вопрос, определяя тип вопроса с помощью классификации, и частично изменяя метод ответа. 5 Практическая значимость • Разработанные методы анализа визуального и текстового контента с использованием глубоких нейронных сетей могут помочь улучшить качество работы визуальных вопросно-ответных систем, а также снизить вычислительные затраты в билинейных системах анализа мультимодальных данных за счет снижения размерности с помощью тензорного разложения. Исследования в данной области также связаны с улучшением понимания контента системами глубокого обучения. 6 Классификация визуальных вопросноответных систем 7 Структура тензора Метод объединенного представления Метод тензорного разложения 8 Предлагаемый метод тензорного разложения 𝑚𝑖𝑛 𝑓 𝐴, 𝐵, 𝐶 + 𝜆 𝐹 𝐴, 𝐵, 𝐶 𝐴,𝐵,𝐶 1,2 Где f – функция ошибки аппроксимации тензора, 𝜆 – параметр регуляризации, ||1,2 – смешанная норма (ℓ1-норма ℓ2-норм столбцов матрицы) F(A, B, C) – матрица размера 2 × R, вычисляемая следующим образом: 𝐺1 1,2 𝐺2 1,2 … 𝐺𝑅 1,2 𝐹 𝐴, 𝐵, 𝐶 = 𝑐1 2 𝑐2 2 … 𝑐𝑅 2 где G – матрица факторов A и B, вычисляемая следующим образом: 𝐺 = 𝐴𝑇 𝐵𝑇 Блок с индексом r вычисляется следующим образом: 𝐺𝑟 = 𝐴𝑇𝑟 𝐵𝑟𝑇 9 Предлагаемый метод тензорного разложения Изображение Извлечение признаков ResNet, Faster RCNN B D Вопрос Векторное представление вопроса Skip-thought A C Классификатор SoftMax Ответ Регуляризованное блочное тензорное разложение 10 Модификация функции активации ( x) sn py px f ( x) ( x px ) sl py при x px при x px где θpx, θpy – смещение точки перехода между участками фунции, в виде приращений к аргументу и значению функции соответственно, θsn θsl – коэффициенты наклона частей функции. 11 Предобработка изображений • • • • • • • • • • Шаг 1. Начало цикла Шаг 2. Построение карты внимания на основе атрибутов яркости, цвета и контраста Шаг 3. Если важный регион найден, то переход к Шагу 3, иначе переход к Шагу 8 Шаг 4. Выделить участки изображения в соответствии с картой внимания Шаг 5. Удалить выделенные участки из изображения Шаг 6. Увеличить контраст и параметры цвета на полученном изображении для построения новой карты внимания Шаг 7. Конец цикла Шаг 8. Сегментация каждого выбранного региона изображения для получения отдельных объектов интереса Шаг 9. При необходимости, сегментация области вне карты внимания (фона) Шаг 10. Формирование прямоугольных изображений из выбранных участков для последующей обработки. 12 Предобработка изображений (примеры) изначальные изображения сегментация переднего плана сегментация фона 13 Классификация вопросов по типу • Вопросы, ответ на которые должен быть дан в бинарном виде - да или нет; • Вопросы о количестве объектов; • Вопросы, предполагающие несколько наиболее вероятных ответов; • Вопросы открытого типа, предполагающие генерацию ответа дополнительной рекуррентной сетью Изображение Вопрос Извлечение признаков Объединение данных (rBTD) Данные Модель Извлечение признаков Классификация вопроса по типу Выбор модели VQA В зависимости от модели VQA: 1. Классификация Или 2. Генерация ответа 14 Исходные данные для экспериментов • Набор данных VQA 2.0, включает в себя 204721 изображений (train/val/test: 82783/40504/81434) из набора данных COCO, 1105904 вопросов, 11059040 правильных ответов (по 10 на вопрос), а также по 3 неправильных ответа на вопрос. Векторные представления слов получены с помощью Skip-thought кодировщика. • Для классификации вопроса по типу применен классификатор BERT. • Для предобработки изображений с последующей сегментацией применен метод JSEG. • Для извлечения визуальных признаков используется сверточная нейронная сеть архитектуры ResNet101 с измененной функцией активации. • Для обработки текста используется рекуррентная нейронная сеть архитектуры GRU. • В качестве алгоритма обучения был применен метод Adam, 40 эпох обучения. 15 Результаты экспериментальных исследований Метод Тип вопроса Несколько Открытый тип Произвольный ответов (другое) Да/Нет Количество HieCoAtt 79,7 38,7 65,8 51,7 58,9 Joint-Loss 81,9 39,0 67,7 53,0 60,4 MCB 83,4 39,8 70,2 58,5 62,9 MRN 82,3 39,1 66,3 48,8 59,1 DualNet 82,0 37,9 66,7 49,2 59,0 Без предобр. 81,4 39,2 68,2 59,1 62,0 Без модификации ReLU 82,1 38,5 67,5 59,0 61,8 Предложенная модель 83,1 40,1 68,8 59,3 62,4 16 Заключение • Проведен анализ технологий, применяемых при разработке визуальных вопросно-ответных систем. Рассмотрены основные виды данных систем, архитектуры применяемых глубоких нейронных сетей, механизмы внимания, способы объединения мультимодальных данных. • Разработан новый метод тензорного разложения, применяемый при объединении мультимодальных данных в билинейных визуальных вопросно-ответных системах. Метод позволяет автоматически аппроксимировать размер блоков и их количество при применении блочного тензорного разложения, что делает метод более универсальным и не требующим ручной настройки под набор данных. • Разработан новый оператор нелинейности для сверточных нейронных сетей, позволяющий улучшить качество извлечения признаков данными сетями. Оператор обладает возможностью имитировать свойства некоторых других известных операторов нелинейности, а также формировать новые в процессе работы алгоритма обучения. • Разработан новый механизм визуального внимания, позволяющий системе на этапе предобработки изображения выделить области, которые с наибольшей вероятностью будут важны для ответа на вопрос. Данный механизм позволяет расширить существующий механизм внимания за счет использования оптических особенностей изображения, без привязки к известным для сверточной нейронной сети объектам. • Разработана новая архитектура визуальной вопросно-ответной системы, позволяющая увеличить качество ответа на вопрос, определяя тип вопроса с помощью классификации, и частично изменяя метод ответа. • Проведены экспериментальные исследования разработанных элементов архитектуры. Приведены примеры работы алгоритма внимания. Осуществлено тестирования визуальной вопросно-ответной системы в разных конфигурациях и в сравнении с другими подобными системами. 17 Публикации 1. 2. 3. 4. 5. 6. 7. 8. Андреев В. В. АНАЛИЗ ВИЗУАЛЬНОЙ И ТЕКСТОВОЙ ИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ //Материалы 22-й Международной Конференции «Цифровая Обработка Сигналов и Ее Применение», 543-546, Москва., 2020. Андреев В.В. АЛГОРИТМ АНАЛИЗА ВИЗУАЛЬНОГО И ТЕКСТОВОГО КОНТЕНТА // Материалы 19-й международной конференции "Цифровая обработка сигналов и ее применение - DSPA-2017. – 95-99 c. Андреев В.В. МЕТОД ОСТАТОЧНОГО ОБУЧЕНИЯ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ // Материалы XXII Междунар. науч.-практ. конф., посвящ. 55-летию Сиб. гос. аэрокосмич. ун-та им. акад. М. Ф. Решетнева – 2018. – 237-238 c. Андреев В.В. РАЗРАБОТКА АРХИТЕКТУРЫ НЕЙРОННОЙ СЕТИ С АДАПТИВНОЙ ТОЧКОЙ ЭКСТРЕМУМА ФУНКЦИИ АКТИВАЦИИ / Андреев В.В. // Материалы 21-й Международной конференции «Цифровая обработка сигналов и ее применение». – Institute of Electrical and Electronics Engineers Inc., 2019. – C. 569571. Андреев В.В. Снижение размерности в билинейных визуальных вопросно-ответных системах // Материалы XXIV Междунар. науч-практ. конф., посвящ. памяти генерального конструктора ракетнокосмических систем академика М. Ф. Решетнева (10–13 нояб. 2020, г. Красноярск), 2020. М.Н. Фаворская. Андреев В.В. Адаптивное блочное тензорное разложение в визуальных вопросноответных системах // Программные продукты и системы. – 2021. – № 1. Favorskaya M. Andreev V. Popov A. Salient region detection in the task of visual question answering // IOP Conference Series: Materials Science and Engineering. – Institute of Physics Publishing, 2018. – Vol. 450. Favorskaya M.N., Andreev V. V. THE STUDY OF ACTIVATION FUNCTIONS IN DEEP LEARNING FOR PEDESTRIAN DETECTION AND TRACKING // ISPRS - International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2019. (XLII-2/W12). С. 53–59. DOI:10.5194/isprs-archives-XLII-2-W12-53-2019. 18