ADPASS рекомендует материал к прочтению
Aigital
18.09.2024, 14:45

Генерация картинки по референсу

Разберем, как генерировать картинки по референсу с помощью ИИ.

Привет, это Настя, руководитель отдела контента ИИ-сервиса Aigital. Мы создаем инструменты на основе нейросетей, чтобы пользователи и корпоративные команды могли легко и быстро решать маркетинговые и бизнес-задачи. Здесь мы делимся разборами наших навыков и ИИ-ассистентов.

С навыком «В стиле референса» можно решать множество прикладных задач: от генерации обложек для YouTube-видео в едином стиле до создания изображений для сайта компании или соцсетей. Он учитывает стиль, цветовую палитру и композицию предложенного изображения при генерации. Помимо этого навык учитывает и то, что указано в текстовом промпте.

Например, в поле «Референс» вы добавляете картинку — обложку с любого YouTube-видео, которая вам нравится по стилистике и цветовой палитре. В текстовом поле указываете, что вам нужна обложка для Youtube-видео с рецептом приготовления шашлыков для кулинарного блога. В результате вы получаете картинку с шашлыками, подходящую по тематике для вашего блога, а по стилистике, палитре и композиции похожую на изображение, что вы добавляли в качестве референса.

Под капотом навык работает следующим образом:

  1. На первом этапе ИИ анализирует референс — GPT-4o подробно описывает картинку с разных сторон, прорабатывает её стилистику.

  2. В параллель с этим другая нода GPT-4o берет текстовый запрос пользователя и переводит его на английский.

  3. На следующем шаге GPT формирует объемный промпт, объединяя описание референса и текстовый запрос пользователя. Веса в нем расставлены так, чтобы нейронка понимала, на что следует обратить больше внимания, а на что меньше.

  4. Этот текстовый промпт отправляется в Fooocus.

  5. Fooocus умеет работать с входящими изображениями, поэтому вместе с текстовым промптом приходит и картинка-референс. Получается двойной удар по задаче — и со стороны текстового описания референса, и визуально — с ориентиром на само исходное изображение.

  6. Fooocus сохраняет не только цветовую палитру, но и пропорции картинки-референса. Это особенно удобно, если требуется определенный размер изображения.

Генерация изображения в навыке «В стиле референса»

Картина-референс

Результат генерации изображения по референсу и описанию

Далее обученная нами модель улучшает черты лица на картинке и передает ее пользователю.

Мы решили поэкспериментировать и сгенерировать стол со стульями на основе скрина нашего лендинга. Нейронка сохранила пропорции, забрала темно-серый на фон, а зеленый и белый в акценты.

Скрин нашего лендинга Aigital.co

Изображение сгенерировано в навыке «В стиле референса»


А если вам интересно читать о мире нейросетей, идеях и жизни проекта, подписывайтесь на наш телеграм-канал.

Вам понравится

ООО «Акме»
10 часов назад
webit
18.09.2024
ООО ТТ ГРУПП
30.08.2024