В Disney научили нейросеть снимать мультики по сценарию

Ученые из подразделения Disney Research и Ратгерского университета в Нью-Джерси научили алгоритм читать текст сценария и создавать на его основе раскадровку и видео. Работа ученых опубликована на сайте Arxiv.org.

Создатели алгоритма считают, что он пригодится не только для визуализации сценариев, но и при создании обучающих курсов, а также роликов на тему безопасности.

Созданную Disney систему нельзя назвать новаторской, объясняет издание Venture Beat. В прошлом году ученые показали алгоритм на основе нейросетей, который создавал видео из 32 кадров на основе описаний вроде «игра на траве в гольф».

Но сотрудники Disney Research развили эту идею дальше. Их алгоритму не нужны аннотации для создания видео и раскадровок, и он способен воспринимать сложные предложения. Для этого используется модульная нейросеть (то есть состоящая из нескольких нейросетей).

Фотография: Generating Animations from Screenplays / Disney Research, Rutgers University, ETH Zurich

Каждая из этих подсетей выполняет свою функцию. Например, одна из них выделяет релевантный текст из описания сцен в сценарии, а другая — упрощает сложные предложения, используя набор лингвистических правил. Для создания видео алгоритм использует графический движок Unreal и библиотеку 3D-моделей. По описанию в сценарии алгоритм находит подходящую модель и добавляет ее в ролик.

Разработка нужна не для того, чтобы заменить аниматоров и сценаристов, а чтобы облегчить их труд. Для создания алгоритма использовали около тысячи сценариев, из которых взяли описания конкретных сцен. В итоге получился «набор» из более чем 525 тысяч описаний.

Ученые провели опрос, который показал, что 68% респондентов считают, что алгоритм на основе текста создает видео «приемлемого» качества.