Ученые Ратгерского университета в Нью-Джерси создали нейросеть, которая генерирует фотореалистичные изображения несуществующей пиццы и назвали его «Мультиингредиентный генератор пиццы» или сокращенно MPG. Об этом пишет Vice со ссылкой на работу авторов, опубликованную на arXiv.org.
Как и многие нейросети, появившиеся в последнее время, MPG использует архитектуру StyleGAN2 — еще одной нейросети, на этот раз от компании Nvidia.
Ученые создали свой набор данных под названием Pizza10. Для него они использовали набор данных ученых из Массачусетсткого технологического института (MIT), которые учили нейросеть «готовить» пиццу.
Команда MIT нашла в инстаграме полмиллиона фотографий пиццы, а затем сократила выборку до 9,2 тысячи изображений с 13 разными топпингами и промаркировали каждый ингредиент на фото. Разница между двумя нейросетями в том, что цель проекта MIT была именно в том, чтобы научить нейросеть поэтапному «приготовлению» пиццы.
Посмотреть на то, как работает нейросеть ученых из Ратгерского университета можно в этом видео:
В ролике можно увидеть интерфейс нейросети. В нем можно выбрать различные ингредиенты для пиццы и ее форму. В зависимости от установок, нейросейть выдает фотореалистичное изображение несуществующей пиццы — аналогично тому, как StyleGAN2 может генерировать фото несуществующих людей.
В клипе один из авторов проекта Фангда Хана показывает работу других нейросетей по генерации фотографий пиццы. Стоит признать, что вариант MPG выглядит самым аппетитным.
Работа ученых может показаться не слишком серьезной, но на самом деле это не так. Генерирование изображений с несколькими метками (в данном случае ингредиентам) и при соблюдении определенных условий остается сложной задачей и MPG, на примере пиццы, показывает ее возможное решение.