17.10.2023, 17:32

Стереотипическое зрение: генеративный ИИ видит мир как набор штампов

Midjourney, DALL-E, Stable Diffusion и другие ИИ-модели, генерирующие изображения, не в состоянии отобразить многообразие нашего мира во всей его полноте, оперируя лишь примитивными стереотипами. Предвзятость ИИ граничит с убожеством: «человек из Индии» для нейросетей почти всегда оказывается бородатым пожилым мужчиной в чалме, «человек из Мексики» — всегда мужчина в сомбреро, а «улица в Нью-Дели» всегда завалена мусором. ADPASS рассказывает, почему так происходит и как обстоят дела с многообразием у российских нейросетей.

Культурная слепота

Протестировать генеративные нейросети на тенденциозность решили в издании Rest of World, для чего сервису Midjourney задавали комбинации слов ​«человек» (использовалось гендерно нейтральное person), «женщина», «дом», «улица» и «тарелка еды» в сочетании с пятью странами — Китаем, Индией, Индонезией, Мексикой и Нигерией. Для каждой комбинации сделали 100 генераций, получив в результате 3000 изображений.

Часть картинок по запросу «человек из Индии» // Источник: Rest of World

Из сотни индийцев, чьи портреты сгенерировала Midjourney, 99 оказались мужчинами, почти все с сединой и морщинами — явно старше 60. При этом на самом деле медианный возраст жители Индии — 28,7 лет, четверть населения — моложе 14 лет, а доля людей старше 65 меньше 7%. Подавляющее большинство «нейросетевых индийцев» имели те или иные признаки, идентифицирующие их как индуистов, при том, что в стране живут миллионы мусульман (14% от населения почти в полтора миллиарда человек), христиан и представителей других мировых религий.

«По сути ИИ примитивизирует описания «человек из Индии» или «нигерийский дом» до определенных стереотипов, которые можно рассматривать в том числе как негативные», — заявила изданию Амба Как, исполнительный директор американского AI Now Institute.

По ее словам, даже те стереотипы, которые с первого взгляда нейтральны, отражают определенные оценочные суждения и обедняют многообразие. «Нейросети определенно не передают сложность и разнообразие этих культур», — соглашается исследователь в области этики ИИ Саша Луччиони.

Характерные для современного общества завышенные ожидания от ИИ (которые всегда рады поддержать его разработчики) наделяют его чуть ли не сверхъестественными способностями, на него все чаще полагаются работники креативной и рекламной индустрии. Но в ситуациях, когда изображения генерируются в рекламных целях и тиражируются на огромную аудиторию или используются полицией для составления фотороботов подозреваемых, любые стереотипы могут причинить реальный вред.

Запрос «улица в Нью-Дели» // Источник: Rest of World

«Мы даем голос машинам»

Валерия Пьяджио из работающего в сфере маркетинга аналитического агентства Kantar обращает внимание, что в последние годы рекламная индустрия стремилась уйти от стереотипов, представляя мир во всем его многообразии, диверсифицируя голоса и образы тех, от лица кого рассказывает свои истории. «Теперь мы даем голос машинам», — признает она. Бездумное использование ИИ-инструментов означает откат в прошлое, к привычным шаблонам.

 Запрос «человек из Нигерии» // Источник: Rest of World 

Например, около половины населения Нигерии — мусульмане, исповедующие ислам женщины носят хиджаб, однако Midjourney явно не в курсе. Не знает нейросеть и об особенностях одежды различных этнических групп, которых в стране сотни, смешивая характерные признаки, приводя к единому знаменателю. Да и разнообразие оттенков кожи у настоящих нигерийцев гораздо больше, чем показывает нейросеть. Но не знающий об этом человек из западной страны не заметит искажения. Повязка на голове, сочетание красного, желтого и оранжевого, массивные серьги и ожерелья, низкие прямые шапочки у мужчин: для зрителя, знакомого с культурой Нигерии лишь поверхностно, все это покажется вполне убедительным.

Нейросеть одела в традиционные наряды и мексиканцев: почти все оказались в сомбреро. Большинство реальных мексиканцев, индийцев или нигерийцев сейчас носят то же самое, что и люди на Западе — футболки и джинсы, а самый распространенный головной убор — бейсболка.

Запрос «человек из Мексики» // Источник: Rest of World

Фактически Midjourney генерирует анахронизмы, создает не реальный образ нации, а устаревшую карикатуру на него. И не только Midjourney — DALL-E 2 надевает сомбреро на сгенерированное изображение человека по запросу «латиноамериканец».

Такой же подход, впрочем, искусственный интеллект использует и к «рисованию» американцев: все 100 сгенерированных по запросу «American person» портретов так или иначе используют звездно-полосатый флаг. Даже этот, хотя, определенно, заслуживает приз за оригинальность:

В выдаче на запросы по другим странам национальные флаги не встретились ни разу. С репрезентацией тоже беда: чернокожих единицы, азиатов или индейцев нет вообще, а подавляющее большинство — молодые, конвенционально красивые девушки со светлой кожей и, как правило, со светлыми волосами. В других странах, с точки зрения нейросети, женщин практически нет.

Запрос «человек из Америки» // Источник: Rest of World

Неисправимые данные

Самая вероятная причина предвзятых представлений нейросетей о мире — данные в наборах, на которых тренируют генеративные модели. Это миллиарды пар «изображение — описание», взятых из интернета. Если в сети больше фотографий индийских мужчин, чем женщин, это соответствующим образом отразится на результатах ее работы. В случае с США перекос в сторону женщин отражает ситуацию в медийном пространстве — актрисы, певицы, блогерки, как правило, молодые и светлокожие. В странах традиционной культуры женщины фотографируются гораздо менее охотно, их фото реже попадают в интернет, отсюда и засилье мужских образов в выдаче Midjourney.

А если в базовом запросе не указать страну, то и Midjourney, и другие нейросети (DALL-E 2, Stable Diffusion) по умолчанию выдадут США и Западную Европу.

Избавить нейросети от предвзятости — крайне сложная задача в силу того, что взять в достаточном количестве данные для тренировки, которые точно отражали бы реальность, невозможно.

А работа по созданию описаний для тренировки моделей, как правило, оплачивает скудно и выполняется людьми, не задумывающимися о культурных отличиях и репрезентативности.

Да и сами модели часто работают таким образом, что выпадающие из общих тенденций изображения просто отсекают и при генерации не учитывают. Для многих задач это хорошо, но часто может вести к неприятным последствиям. Как ранее выявили исследователи, «бедняк» («poor person») в выдаче Stable Diffusion, скорее всего, окажется чернокожим. Когда к запросу добавили слово «белый», в выдаче все равно оказалось много африканцев.

Как создают портреты «Шедеврум» и «Кандинский»

ADPASS решил проверить, как с похожими задачами справляются нейросети «Яндекса» и «Сбера» — приложение «Шедеврум» и телеграм-бот «Кандинский».

Нейросеть Kandinsky результатами разочаровала. Человек из России для нее — один и тот же проживший нелегкую жизнь мужчина с печатью похмельной скорби на лице.

Но роль американца неожиданно исполняет его близкий родственник, которого жизнь тоже, прямо скажем, не баловала.

Если верить генеративной нейросети «Сбера», представители того же печального семейства проживают и в Индии.

Нейросеть «Яндекса» подходит к задаче куда более смело и творчески. Хотя без стереотипов не обошлось: из восьми вариантов, сгенерированных «Шедеврумом» по запросу «Russian person» в две итерации, четыре картинки изображают красных (в прямом смысле) девиц в национальных нарядах, две — абстрактно-поэтичные, одна футуристичная и одна (девушка в зимней куртке) по-хорошему реалистичная. Ее действительно можно было бы без проблем использовать в дизайне лендинга или маркетинговой брошюры. Удивительно, что ни на одной из картинок нет мужчин.

Запрос «Indian person» «Шедеврум» отработал неплохо — помимо суровых индийских мужчин в чалмах есть два индейца (и это скорее правильно — слово-то одно и то же), один индеец-индиец и одна индийская женщина.

Что касается «American person», в целом выдача тоже более разнообразна демографически, чем у Midjourney. Некоторые портреты указывают, что, по версии нейросети «Яндекса», американцы уже живут в обществе победившего киберпанка. Остальные изображения – скорее карикатуры, стоковые фото ими точно не заменишь.

Авторы:
Николай Белый
Редакция ADPASS
Главное про маркетинг и рекламу
в Telegram

Вам понравится

Редакция ADPASS
23 часа назад
Редакция ADPASS
Позавчера
Как создать полезный гид
для предпринимателей?