Механизм внимания для обработки данных в глубоких нейронных сетях-трансформерах
16+
Цель семинара -- рассмотрение современных архитектур нейронных сетей – трансформеров. В докладе будет представлена математическая модель подобных нейронных сетей, в частности модель внимания, а также проанализированы области применения: от классов задач до конкретных наборов данных.
В самом начале доклада познакомимся с краткой предысторией возникновения сетей-трансформеров.
В основной части доклада рассмотрим математические модели, которые применяются в трансформерах, а также проведем обзор архитектур сетей-трансформеров. Далее рассмотрим наборы данных и типы задач, в которых активно применяются сети-трансформеры. Сравним архитектуры сетей-трансформеров с другими архитектурами глубоких нейронных сетей на одинаковых наборах данных.
В заключение будет выдвинута гипотеза о применимости сетей-трансформеров для определенных классов задач и наборов данных.
Спикер: Гаврилов Андрей, магистрант кафедры МОЭВМ СПбГЭТУ "ЛЭТИ"
Мероприятие пройдет в zoom. Ссылка на подключение будет автоматически выслана за 1 час до начала события.
Регистрация закрыта
На событие зарегистрировалось уже много человек, либо событие уже прошло. Возможно, вас заинтересуют другие события организатора.