ADPASS рекомендует материал к прочтению
Agenda Media Group
28.09.2023, 13:00

Видеопродакшен 2.0. Техники по нейростилизации видео с помощью Stable Diffusion и NeRF (Neural Radiance Field)

Нейросети стали мощным инструментом в области создания контента, и одни из самых перспективных — Stable Diffusion и NeRF. Конечно, эти технологии находятся на разных уровнях, но удачно могут дополнять друг друга. Алексей Парфун, CEO Agenda Media Group, вице-президент АКАР, рассмотрел возможности использования данных нейросетей в маркетинге и видеопродакшене.

Stable Diffusion и NeRF — нейросети для сотен профессий

Stable Diffusion стала известной в мире нейросетей благодаря своей уникальной концепции и прозрачному подходу. Авторы проекта осознанно развивают его открыто, чтобы его могли поддержать тысячи энтузиастов. Это привело к созданию сотен модификаций нейросети, способных генерировать изображения в различных стилях.

Вдохновлённые идеей Stable Diffusion, разработчики активно взаимодействуют, обмениваясь своими модификациями и находя новые способы применения нейросети. Благодаря этому проект продолжает расти и совершенствоваться, становясь всё более мощным и гибким инструментом для генерации изображений. Каждая модификация нейросети вносит свой уникальный вклад в мир искусства и дизайна. От реалистичных изображений до абстрактных и стилизованных композиций — Stable Diffusion и его сообщество вдохновляют и удивляют своими творческими возможностями.

В то же время использование нейросети NeRF (Neural Radiance Field) в маркетинге позволяет создавать впечатляющие сцены с демонстрациями продуктов и услуг, а также уникальный контент для соцсетей.

На основе нескольких фото или видео продукта нейросеть «додумывает» окружение и даёт возможность задавать движение камеры уже на отснятом материале. Это позволяет предпринимателям избежать дорогостоящих съёмок с использованием дополнительного оборудования, такого, например, как квадрокоптер. Достаточно одного смартфона.

Таким образом, эта нейросеть позволяет сделать контент с продуктом разнообразнее, а клиентам — увидеть и оценить продукт с самых разных ракурсов.

Stable Diffusion и видеопродакшен

Нейросеть может помочь создавать интересные эффекты в видео, стилизовать его, генерировать видеофильтры и менять содержимое сцены кардинально. Это большой и цельный инструмент, потому что он берёт исходное видео и на его базе, сохраняя пропорции, образ человека или объектов в кадре, стилизует его, например, под аниме, мультипликацию, 3D-рендер, киберпанк.

В некоторых случаях, при соблюдении определённых условий, нейросеть может радикально изменить то, что происходит в кадре. Например, вы можете превратить изображение человека в Lego-человечка.

Существует множество примеров и способов использования нейросети Stable Diffusion в видеопродакшене, мы выделили основные:

Создание анимированных переходов и переходных эффектов. Нейросеть может быть использована для создания уникальных анимированных переходов и переходных эффектов между сценами. Это добавляет плавность и профессионализм в видео, делая его более привлекательным для зрителей.

Улучшение качества видео. Stable Diffusion может помочь улучшить качество видео путём устранения шума, снижения размытости и повышения чёткости изображения. Это особенно полезно при работе с низкокачественными и старыми видеоматериалами, которые требуют доработки и улучшения.

Создание абстрактных и стилизованных эффектов. Нейросеть даёт возможность создавать уникальные абстрактные и стилизованные эффекты, которые могут использоваться для создания художественного и креативного видео. Это открывает новые возможности для экспериментов с визуальными стилями и создания уникального контента.

Редактирование и обработка цвета. Вы можете изменять тон, насыщенность, контрастность и другие параметры цветовой гаммы. Это помогает создать желаемую атмосферу и настроение в видео, подчеркнуть определённые детали и создать единый стиль.

Создание виртуальных миров и фонов. Невероятная возможность создавать виртуальные миры и фоновые сцены, которые могут быть использованы для съёмок без необходимости находиться на реальной локации. Вы сэкономите время, ресурсы и сделаете видео более гибким и адаптивным.В целом нейросеть предоставляет множество возможностей для улучшения и обогащения видеопродакшена. Её инновационные функции и гибкость делают её ценным инструментом для профессионалов в области видеопроизводства и маркетинга.

SD + маркетинг

SD позволяет оптимизировать расходы на создание контента. Вы можете обучить 3—4 модели и создавать генерации с вашим продуктом почти бесконечно. Рассмотрим примеры.

В первом случае крупная компания заказывает корпоративный фильм, и в нём предусмотрена серия анимаций, которая отражает то, как люди могут хорошо проводить время в общественном транспорте. Режиссёр отбирает определённое количество фотографий с платных и бесплатных стоков, после чего художник отрисовывает буквально три персонажа и немного работает с фонами, где находятся эти персонажи. И вот этого маленького дата-сета может быть достаточно специалисту, который натренирует отдельную модель под эту стилистику. То есть художник понадобился, но он отрисовывал не 30 иллюстраций, а всего три образа и немножко фонового изображения, чтобы сама модель поняла стилистику.

Необходимо брать фотографию, где понятен сценарий. Например, мужчина с девушкой мило сидят в метро и о чём-то беседуют или смотрят в телефоны. С помощью этой модели нейросеть может реализовать более 30 уникальных артов, и на это понадобится 2—3 часа. Впоследствии эти арты получает и оживляет аниматор.

Следующий пример — бренд спортивной одежды, который хочет создать себе возможность бесконечной генерации моделей с их продуктами: одеждой, спортивным инвентарём и так далее — и пытается оптимизировать эти процессы. В этом случае клиенту необходимо провести всего одну фотосессию. Буквально это можно даже сделать на хорошую камеру телефона, больших финансовых вложений в фотосессию не требуется. Нескольких фотографий продукта хватит, чтобы генерировать бесконечное количество контента для публикации, причём фотореалистичного. У данной нейросети есть определённый нюанс. Например, она не очень хорошо справляется с текстом и требует минимальной доработки человеком, обладающим навыками Photoshop, чтобы подкорректировать, например, лейблы, на продукте. Но сам продукт будет воспроизводиться с очень высокой точностью.

Генеративные нейросети в умелых руках могут создавать контент и арты любой сложности. Вы можете написать «машина», получить машину, добавить название марки и окружение — и добиться желаемого результата. Создавая правильное описание задачи, вы можете получить качественное исходное изображение, а потом некоторыми инструментами внутри той же нейросети детально его доработать, добавить персонажа и так далее. То есть скорость создания визуального контента артов, иллюстраций, фотографий, реалистичной графики, концептов персонажей невероятно высока. Существует реальные кейсы.

Крупные китайские компании по разработке игр всё меньше и меньше начинают нуждаться в специалистах по созданию концептов персонажей, они сокращают их и просто нанимают людей, которые могут выдавать один концепт в день, используя нейросети.

Специалисты, которые не внедряют в свою работу нейросети, проигрывают тем, кто активно пользуется нейросетями в работе. На первый взгляд нейросети дают случайный результат. Каждый раз, когда вы нажимаете «сгенерировать лес», вы получаете разный лес, но в умелых руках контроль над этим всё больше и больше.

Что такое NeRF?

NeRF (Neural Radiance Field) — это технология, позволяющая делать эффекты заморозки времени на видео, с различными траекториями движения камеры и долли-зумами. Журнал Time назвал NeRF одним из лучших изобретений 2022 года.

Действительно, по сути это похоже на так называемый эффект Bullet time, который появился не вчера. Сама идея впервые была реализована в мультипликации. В финале заставки аниме-мультсериала 1967 года «Спиди-гонщик» главный герой выпрыгивает из машины, время замирает, и камера делает облёт вокруг него.

Вачовски, будучи в детстве фанатами этого мультсериала, добавили эффект в «Матрицу», а позже отдали должное уже самому «Спиди-гонщику», сняв одноимённый фильм в 2011 году. А в «Матрице» выставлялось множество камер по выбранной траектории движения и кадры с них последовательно совмещались.

Для NeRF не нужно множество камер — достаточно одного смартфона. Люди часто задаются вопросом, в чём отличие этой технологии от старой доброй фотограмметрии, которая давно используется для построения топографических карт и, например, для 3D-моделирования.

Во-первых, отличается принцип обработки. Фотограмметрия в результате анализа реального объекта генерирует его 3D-модель с полигональными сетками для последующего редактирования. NeRF же фиксирует свет от объектов или внутри сцены. Именно поэтому NeRF, в отличие от фотограмметрии, умеет отображать отражающие поверхности, рефлексы от разных источников света и даже полупрозрачные материалы.

Во-вторых, там, где фотограмметрия требует перекрытия изображений со всех сторон, NeRF с помощью искусственного интеллекта заполняет любые пробелы своими предположениями о направлении света в других точках пространства. Таким образом визуализируется трёхмерная сцена.

И самое главное — NeRF даёт возможность создавать почти неограниченное количество траекторий камеры в сцене, которые можно менять на постпродакшене.

Как с этим работать?

Нужно отснять интересующий нас объект с разных сторон: это может быть как фото, так и видео, как профессиональная камера, так и смартфон. Безусловно, чем серьёзней оборудование, тем на более качественный результат можно рассчитывать.

Полученный материал подгружается в программу, и та преобразовывает дата-сет в трёхмерную сцену. Этот процесс называют «обратный рендеринг». Далее мы можем управлять получившейся трёхмерной сценой, задавая траекторию, по которой будет двигаться виртуальная камера. Результат можно вывести видеофайлом либо 3D-объектом и импортировать в Blender или другую программу по работе с 3D для добавления других элементов в сцену.

Есть несколько ресурсов, которые помогают работать с этой технологией: это Instant NeRF от Nvidia, Nerfstudio, KIRI Engine, Luma AI. Они показывают примерно одинаковые результаты на выходе, но у каждой есть плюсы и минусы в работе. Например, у Instant NeRF самая быстрая обработка, но сравнительно высокий порог вхождения из-за более сложной установки со скачиванием дополнительных пакетов дистрибутивов. Также важным ограничением является его работа только с графическими процессорами от Nvidia.

При этом Luma AI обладает самым простым, дружелюбным интерфейсом и проста в использовании. Не нужно ничего устанавливать, достаточно подгрузить свой материал на сайт одним файлом, и обработка началась. Причём мощность вашего локального компьютера не имеет значения — обработка происходит на ресурсе разработчика. Однако она занимает от 30—40 минут, что усложняет продакшен, потому что оперативно посмотреть на площадке, всё ли получилось, не выйдет.

Какие есть недостатки?

На изображении присутствуют специфические артефакты, похожие на «облачка». Чем более детально отснят объект, тем их меньше, тем чище картинка. Но на данном этапе развития технологии полностью избежать этого достаточно сложно.

Это во многом можно обыгрывать художественными решениями, например, виртуализацией воспоминаний героя или виртуальной реальностью.

Ещё один недостаток — при выводе объекта (.obj), созданного NeRF, теряется его фишка с динамичным светом. NeRF именно про заморозку движения, не замедление, как тот же Bullet time. Хотя это с лихвой компенсируется возможностями самых безумных ракурсов и пролётов камеры. За динамику можно не волноваться.

Но самая актуальная проблема при использовании NeRF — это не очень хорошая обработка лиц людей. Любая микромимика на лице даёт плюс к смазу. Это стоит учитывать при съёмке и последующем построении траекторий и не делать акцент на лице.

Где это можно использовать?

При грамотном использовании NeRF является хорошим способом разнообразить и освежить визуальный язык в ваших видеоработах. Однако, учитывая описанные недостатки, возникает вопрос, насколько актуально применение технологии в её сегодняшнем виде для крупных коммерческих заказов. Такие примеры существуют: в этом году у Макдональдса вышла реклама с использованием NeRF от Luma AI.

И всё-таки не все компании могут позволить себе такие смелые эксперименты, как Макдональдс. Пока эта технология не стала выглядеть более приемлемо, она отлично подходит в первую очередь для рилсов, клипов, художественных работ.

И говоря о художественном потенциале этого эффекта, можно назвать примеры хороших работ Jake Oleson. Обратите внимание, как интересно и аутентично автор обыгрывает недостатки этой технологии.

И конечно, это можно комбинировать с другими визуальными эффектами, как в этой работе, где NeRF переходит в стилизацию через Stable Diffusion + Deforum.

Ну и?

Stable Diffusion и NeRF — очень интересные и перспективные технологии со своими уникальными фишками. Это инструменты для умелых рук и, если подружиться с этими нейросетями, можно создавать впечатляющие ваших клиентов продукты.

Вам понравится

Редакция ADPASS
17.04.2024
Lava Media
16.04.2024
Centra
04.04.2024
Как создать полезный гид
для предпринимателей?