Маркетинговые исследования

Редакция ADPASS

17.10.2023, 17:32

Стереотипическое зрение: генеративный ИИ видит мир как набор штампов

Midjourney, DALL-E, Stable Diffusion и другие ИИ-модели, генерирующие изображения, не в состоянии отобразить многообразие нашего мира во всей его полноте, оперируя лишь примитивными стереотипами. Предвзятость ИИ граничит с убожеством: «человек из Индии» для нейросетей почти всегда оказывается бородатым пожилым мужчиной в чалме, «человек из Мексики» — всегда мужчина в сомбреро, а «улица в Нью-Дели» всегда завалена мусором. ADPASS рассказывает, почему так происходит и как обстоят дела с многообразием у российских нейросетей.

Культурная слепота

Протестировать генеративные нейросети на тенденциозность решили в издании Rest of World, для чего сервису Midjourney задавали комбинации слов «человек» (использовалось гендерно нейтральное person), «женщина», «дом», «улица» и «тарелка еды» в сочетании с пятью странами — Китаем, Индией, Индонезией, Мексикой и Нигерией. Для каждой комбинации сделали 100 генераций, получив в результате 3000 изображений.

**Часть картинок по запросу «человек из Индии» // Источник: Rest of World**

Из сотни индийцев, чьи портреты сгенерировала Midjourney, 99 оказались мужчинами, почти все с сединой и морщинами — явно старше 60. При этом на самом деле медианный возраст жители Индии — 28,7 лет, четверть населения — моложе 14 лет, а доля людей старше 65 меньше 7%. Подавляющее большинство «нейросетевых индийцев» имели те или иные признаки, идентифицирующие их как индуистов, при том, что в стране живут миллионы мусульман (14% от населения почти в полтора миллиарда человек), христиан и представителей других мировых религий.

«По сути ИИ примитивизирует описания «человек из Индии» или «нигерийский дом» до определенных стереотипов, которые можно рассматривать в том числе как негативные», — заявила изданию Амба Как, исполнительный директор американского AI Now Institute.

По ее словам, даже те стереотипы, которые с первого взгляда нейтральны, отражают определенные оценочные суждения и обедняют многообразие. «Нейросети определенно не передают сложность и разнообразие этих культур», — соглашается исследователь в области этики ИИ Саша Луччиони.

Характерные для современного общества завышенные ожидания от ИИ (которые всегда рады поддержать его разработчики) наделяют его чуть ли не сверхъестественными способностями, на него все чаще полагаются работники креативной и рекламной индустрии. Но в ситуациях, когда изображения генерируются в рекламных целях и тиражируются на огромную аудиторию или используются полицией для составления фотороботов подозреваемых, любые стереотипы могут причинить реальный вред.

**Запрос «улица в Нью-Дели» // Источник: Rest of World**

«Мы даем голос машинам»

Валерия Пьяджио из работающего в сфере маркетинга аналитического агентства Kantar обращает внимание, что в последние годы рекламная индустрия стремилась уйти от стереотипов, представляя мир во всем его многообразии, диверсифицируя голоса и образы тех, от лица кого рассказывает свои истории. «Теперь мы даем голос машинам», — признает она. Бездумное использование ИИ-инструментов означает откат в прошлое, к привычным шаблонам.

**Запрос «человек из Нигерии» // Источник: Rest of World**

Например, около половины населения Нигерии — мусульмане, исповедующие ислам женщины носят хиджаб, однако Midjourney явно не в курсе. Не знает нейросеть и об особенностях одежды различных этнических групп, которых в стране сотни, смешивая характерные признаки, приводя к единому знаменателю. Да и разнообразие оттенков кожи у настоящих нигерийцев гораздо больше, чем показывает нейросеть. Но не знающий об этом человек из западной страны не заметит искажения. Повязка на голове, сочетание красного, желтого и оранжевого, массивные серьги и ожерелья, низкие прямые шапочки у мужчин: для зрителя, знакомого с культурой Нигерии лишь поверхностно, все это покажется вполне убедительным.

Нейросеть одела в традиционные наряды и мексиканцев: почти все оказались в сомбреро. Большинство реальных мексиканцев, индийцев или нигерийцев сейчас носят то же самое, что и люди на Западе — футболки и джинсы, а самый распространенный головной убор — бейсболка.

**Запрос «человек из Мексики» // Источник: Rest of World**

Фактически Midjourney генерирует анахронизмы, создает не реальный образ нации, а устаревшую карикатуру на него. И не только Midjourney — DALL-E 2 надевает сомбреро на сгенерированное изображение человека по запросу «латиноамериканец».

Такой же подход, впрочем, искусственный интеллект использует и к «рисованию» американцев: все 100 сгенерированных по запросу «American person» портретов так или иначе используют звездно-полосатый флаг. Даже этот, хотя, определенно, заслуживает приз за оригинальность:

В выдаче на запросы по другим странам национальные флаги не встретились ни разу. С репрезентацией тоже беда: чернокожих единицы, азиатов или индейцев нет вообще, а подавляющее большинство — молодые, конвенционально красивые девушки со светлой кожей и, как правило, со светлыми волосами. В других странах, с точки зрения нейросети, женщин практически нет.

**Запрос «человек из Америки» // Источник: Rest of World**

Неисправимые данные

Самая вероятная причина предвзятых представлений нейросетей о мире — данные в наборах, на которых тренируют генеративные модели. Это миллиарды пар «изображение — описание», взятых из интернета. Если в сети больше фотографий индийских мужчин, чем женщин, это соответствующим образом отразится на результатах ее работы. В случае с США перекос в сторону женщин отражает ситуацию в медийном пространстве — актрисы, певицы, блогерки, как правило, молодые и светлокожие. В странах традиционной культуры женщины фотографируются гораздо менее охотно, их фото реже попадают в интернет, отсюда и засилье мужских образов в выдаче Midjourney.

А если в базовом запросе не указать страну, то и Midjourney, и другие нейросети (DALL-E 2, Stable Diffusion) по умолчанию выдадут США и Западную Европу.

Избавить нейросети от предвзятости — крайне сложная задача в силу того, что взять в достаточном количестве данные для тренировки, которые точно отражали бы реальность, невозможно.

А работа по созданию описаний для тренировки моделей, как правило, оплачивает скудно и выполняется людьми, не задумывающимися о культурных отличиях и репрезентативности.

Да и сами модели часто работают таким образом, что выпадающие из общих тенденций изображения просто отсекают и при генерации не учитывают. Для многих задач это хорошо, но часто может вести к неприятным последствиям. Как ранее выявили исследователи, «бедняк» («poor person») в выдаче Stable Diffusion, скорее всего, окажется чернокожим. Когда к запросу добавили слово «белый», в выдаче все равно оказалось много африканцев.

Как создают портреты «Шедеврум» и «Кандинский»

ADPASS решил проверить, как с похожими задачами справляются нейросети «Яндекса» и «Сбера» — приложение «Шедеврум» и телеграм-бот «Кандинский».

Нейросеть Kandinsky результатами разочаровала. Человек из России для нее — один и тот же проживший нелегкую жизнь мужчина с печатью похмельной скорби на лице.

Но роль американца неожиданно исполняет его близкий родственник, которого жизнь тоже, прямо скажем, не баловала.

Если верить генеративной нейросети «Сбера», представители того же печального семейства проживают и в Индии.

Нейросеть «Яндекса» подходит к задаче куда более смело и творчески. Хотя без стереотипов не обошлось: из восьми вариантов, сгенерированных «Шедеврумом» по запросу «Russian person» в две итерации, четыре картинки изображают красных (в прямом смысле) девиц в национальных нарядах, две — абстрактно-поэтичные, одна футуристичная и одна (девушка в зимней куртке) по-хорошему реалистичная. Ее действительно можно было бы без проблем использовать в дизайне лендинга или маркетинговой брошюры. Удивительно, что ни на одной из картинок нет мужчин.

Запрос «Indian person» «Шедеврум» отработал неплохо — помимо суровых индийских мужчин в чалмах есть два индейца (и это скорее правильно — слово-то одно и то же), один индеец-индиец и одна индийская женщина.

Что касается «American person», в целом выдача тоже более разнообразна демографически, чем у Midjourney. Некоторые портреты указывают, что, по версии нейросети «Яндекса», американцы уже живут в обществе победившего киберпанка. Остальные изображения – скорее карикатуры, стоковые фото ими точно не заменишь.

Авторы:

Николай Белый

#Нейросети #ИИ #Шедеврум #Midjourney #Кандинский

Редакция ADPASS

Главное про маркетинг и рекламу

в Telegram

Лучшее в блогах

15.07.2024

Блог-платформа ADPASS провела ребрендинг

Вчера

Брендинг-инсайты: Design Department, Endy, JAMI

Вчера

Тренды дизайна в 2024: стили и технологии на пике популярности

Позавчера

СберСпасибо запустила рекламную кампанию обновлённой программы лояльности

Вам понравится

mads

23.07.2024

Нейросети для создания изображений: выбираем лучшее

Нейросети

Сегодня нейросети становятся важной частью творческой работы, открывая новые возможности для самовыражения и инноваций. Они могут стать мощным помощником в креативной индустрии.

ГК «Родная речь»

11.07.2024

«Компет за минуту»: RoRe и Okkam запустили технологическую лабораторию и ИИ-платформу

IT и инновации Маркетинг ИИ

На конференции «На одном языке» Юрий Панов, вице-президент по трансформации группы компаний «Родная Речь», и Юрий Лысенко, управляющий директор по цифровой трансформации Okkam, объявили о запуске совместной технологической лаборатории и анонсировали первый ее продукт — платформу для конкурентного анализа рекламы Prometheus.

Редакция ADPASS

01.07.2024

Бот пробрался за пэйвол. ИИ уличили в воровстве платного контента СМИ

Авторские права СМИ ИИ Чат-боты Интеллектуальная собственность

ИИ-чатбот популярного сервиса вопросов и ответов Quora по имени Poe (читается как По, расшифровывается как Platform for Open Exploration — «Платформа для открытых исследований») попался на воровстве контента СМИ, предназначенного только для подписчиков. Пользователю достаточно ввести адрес статьи, и сервис пришлет ему файл с точной копией оригинальной страницы. Хотя эксперты оценивают такую практику как очевидное нарушение закона, в Quora настаивают: ни один закон не был нарушен.

Редакция ADPASS

26.06.2024

Чего ждут люди от телефонных нейроботов

Потребительское поведение ИИ ChatGPT

На звонок в банк или магазин людям все чаще отвечают боты, говорящие нейросетевые программы. Американская компания Genesia, оказывающая услуги облачных колл-центров, опросила покупателей на предмет их отношения к такому сервису. Самым главным преимуществом, по мнению респондентов, стала экономия времени: боты отвечают быстро и готовы болтать хоть круглые сутки. Но абсолютного доверия между ИИ и человеком нет: потребители боятся сообщать ботам свои персональные данные, а большинство считает, что бот должен знать свое место и не быть человечным.

Новости Кейсы How to Интервью и дискуссии Маркетинговые исследования Просто о сложном Проверено ADPASS Рекламные кампании

ChatGPT Маркировка рекламы Маркетинг Digital Коммуникации Кризис Соцсети Медиа Контент Наружная реклама IT и инновации Госрегулирование Брендинг