Ученые из подразделения Disney Research и Ратгерского университета в Нью-Джерси научили алгоритм читать текст сценария и создавать на его основе раскадровку и видео. Работа ученых опубликована на сайте Arxiv.org.
Создатели алгоритма считают, что он пригодится не только для визуализации сценариев, но и при создании обучающих курсов, а также роликов на тему безопасности.
Созданную Disney систему нельзя назвать новаторской, объясняет издание Venture Beat. В прошлом году ученые показали алгоритм на основе нейросетей, который создавал видео из 32 кадров на основе описаний вроде «игра на траве в гольф».
Но сотрудники Disney Research развили эту идею дальше. Их алгоритму не нужны аннотации для создания видео и раскадровок, и он способен воспринимать сложные предложения. Для этого используется модульная нейросеть (то есть состоящая из нескольких нейросетей).
Каждая из этих подсетей выполняет свою функцию. Например, одна из них выделяет релевантный текст из описания сцен в сценарии, а другая — упрощает сложные предложения, используя набор лингвистических правил. Для создания видео алгоритм использует графический движок Unreal и библиотеку 3D-моделей. По описанию в сценарии алгоритм находит подходящую модель и добавляет ее в ролик.
Разработка нужна не для того, чтобы заменить аниматоров и сценаристов, а чтобы облегчить их труд. Для создания алгоритма использовали около тысячи сценариев, из которых взяли описания конкретных сцен. В итоге получился «набор» из более чем 525 тысяч описаний.
Ученые провели опрос, который показал, что 68% респондентов считают, что алгоритм на основе текста создает видео «приемлемого» качества.