Эволюция использования ChatGPT в работе ORM: часть 1
Впервые об автоматизации процесса копирайтинга с помощью ИИ мы задумались в 2019 году, когда Open-AI опубликовала в общий доступ нейросеть GPT-2. С тех пор мы протестировали все новые версии и кучу гипотез — расскажем обо всём в серии статей, чтобы вы могли познакомиться с опытом, не наступать на грабли и тоже включиться в активное применение нейронок в работе.
В далёком-далёком 2019 году…
Возможности модели GPT-2.0 поражали — если раньше ИИ решали задачу предсказания двух-трех слов после исходной фразы, то новая модель генерировала целые страницы осмысленного текста, писала стихи и могла придумать синопсис для вымышленного фильма. Так как основные продукты нашей компании были завязаны на копирайтинге, то мы не могли остаться в стороне от зарождающейся движухи.
Мы поставили себе амбициозную цель автоматизировать создание небольших продуктовых текстов на 300–400 символов, описывающих основные характеристики и опыт взаимодействия с продуктом или брендом. Сразу же определились с основной метрикой, по которой будем измерять качество нашей разработки — процент приемлемых текстов в выборке из 100 результатов, которые сгенерировала нейросеть.
Приемлемый результат мы определи как «осмысленный текст, который копирайтер может довести до готового к публикации в течение 5 минут», т.е. исправить возможные ошибки, что-то добавить или убрать. В среднем опытный копирайтер тратит на подготовку текста 25–30 минут и увеличение скорости его работы в 5 раз казалось очень перспективным способом оптимизации процесса создания текста.
IT'S ALIVE, IT’S ALIVE!
GPT-2 был опубликован в исходном коде с краткой справкой для быстрого старты. Для запуска мы арендовали виртуальный сервер с GPU семейства Nvidia Tesla и после двух недель плясок с бубном запустили нейросеть у себя на сервере.
Первые тесты выявили ряд серьезных ограничений:
-
Модель работает только на английском языке;
-
Без дообучения (fine-tune) результаты нас не устраивали даже на английском языке. Процент приемлемых текстов не превышал 1–2%.
Поскольку уже много лет вся работа над текстами у нас происходит во внутренней корпоративной системе, к моменту тестирования ИИ мы сумели накопить примерно 100 тыс. примеров подобных текстов. Спустя два месяца, через тернии, боль и страдания мы смогли выкрутить возможности GPT-2 на максимум по следующему алгоритму:
-
Формировали обучающую выборку по каждому бренду из текстов в корпоративной системе.
-
Не все тексты годились для обучения, поэтому мы отсеивали нерелевантные тексты с помощью сервиса Яндекс.Толока.
-
Через API от Яндекса, переводили обучающую выборку на английский язык.
-
Дообучали GPT-2, получая модели генерации текстов для каждого бренда по отдельности.
-
Переводили полученные тексты обратно на русский.
В итоге процент приемлемых текстов достиг 15%, а на некоторых моделях, где были большие объемы данных для обучающей выборки — до 25%. Неплохой результат, учитывая, что нейросеть могла генерировать до 450–500 приемлемых текстов в час.
Но сомнения все равно где-то витали, поэтому для тестирования в поле мы определили самый минимальный функционал.
Держать постоянно включенным сервер с двумя видеокартами Nvidia Tesla очень затратное занятие, поэтому чтобы сократить расходы мы делали так: включали сервер на несколько часов, генерировали большой объем текстов по разным брендами и загружали их в корпоративную систему, где работают копирайтеры.
У копирайтеров появилась кнопка, которая выводит случайный текст из сгенерированной выборки. Текст можно дизлайкнуть, чтобы он исчез навсегда и появился новый, и так пока нужный текст не будет найден.
Почему не пошло и какие выводы мы сделали?
Несмотря на то, что новый функционал был добавлен в корпоративную систему без повышения планов на копирайтера или обязанностью ее использовать, специалисты отнеслись к ней достаточно холодно. Аналитика по использованию функционала показывала удручающие результаты — интерес к нему угасал после 2–3 попыток использовать его, процент текстов, которые были взяты в работу минимальным.
Опросы копирайтеров, модераторов и руководителей помогли понять причины:
-
В тексте очень важна точность описываемых преимуществ или недостатков продукта. GPT-2 умел создавать стилистически приемлемый текст, но в качественное описание характеристик и преимуществ он не смог. Тексты выглядели очень складно и логично, но дьявол кроется деталях — фактически ошибки можно было выявить только сверяясь с базой знаний по проекту. Наша ошибка в том, что на этапах тестирования и обучения моделей, мы использовали для оценки текстов случайных копирайтеров, а не специалистов, погруженных в особенности конкретного бренда или продукта.
-
Модераторы тоже увидели риски в возможном снижении качества, прохождения текстов с фактическими ошибками. И если у копирайтера еще был выбор — полностью писать текст самому или с помощью ИИ, то модераторы были вынуждены дотошно проверять все тексты, потому что не знали каким образом они были написаны.
-
Сам процесс отбраковки текстов, где из 100 только 15 можно взять в качестве «болванки» довольно трудоемок.
Итоги
Насильно внедрять технологию смысла никакого не имело: скорость генерации текстов едва ли изменилась, скорость модерации резко упала и появились риски снижения качества. Проект мы закрыли, но в целом, опыт оказался очень важным, чтобы сделать некоторые выводы.
Во-первых, тексты — основа продуктов нашей компании и жертвовать их качеством в угоду производительности мы не можем. Намного перспективней использовать ИИ для повышения качества текста, помощи в модерации и сокращения времени на задачи не связанные с творческим процессом создания текстов. Профессиональные и грамотные специалисты наше главное преимущество и пытаться заменить их опыт и компетенции искусственным интеллектом как минимум глупо.
Во-вторых, если бы мы сформулировали правильные гипотезы и протестировали их на этапе, когда обучили первую модель с реальной командой, то много лишней работы можно было бы избежать. Но проект казался очень перспективным и почти обреченным на успех. Мы сосредоточились на преодоление технических ограничений, забыв протестировать продуктовую гипотезу о повышении эффективности копирайтеров, приняв ее подлинность за факт.
Общий вывод простой — нужно как можно быстрее тестировать даже самые привлекательные и амбициозные гипотезы и сокращать MVP до действительно минимального функционала.
Эти довольно полезные выводы позволили нам осмысленно подойти к внедрению ИИ в будущем. Через 3 года, когда вышли новые модели GPT 3.5 и GPT4, мы сделали новый подход к внедрению и пересмотрели в корне модель использования искусственного интеллекта в бизнесе. Этим опытом мы обязательно поделимся в следующих статьях.
Следите за обновлениями и читайте другие материалы по блокам SMM и ORM в недвижимости в нашем Телеграм-канале или на сайте.
Лучшее в блогах
Вам понравится
Российская платформа Picvario DAM (Digital Asset Management) привлекла 30 млн рублей от венчурного фонда MalinaVC. Инвестиции будут направлены на масштабирование платформы, которая стала ключевым инструментом импортозамещения для крупного бизнеса.
Каждому поколению кажется, что «раньше люди были другими», но если убрать эмоции, становится очевидно, что меняются не только вкусы, а меняется сама логика потребления: то, что для одних было символом успеха, для других становится пережитком прошлого, то, что раньше считалось нормой, сегодня вызывает раздражение или недоверие. И для рекламного рынка это не философский вопрос, а практический. Потому что меняется не просто аудитория — меняется её отношение к деньгам, статусу, брендам и самому факту покупки. В Статье CPAExchange рассмотрим модель поведения и интересы нового поколения и как это меняет рекламный рынок!
В этой статье — разбираем, как работает новый формат нативной рекламы в фильмах и сериалах, почему он оказывается устойчивым к «баннерной слепоте» и какую роль такая реклама играет в современных brandformance-стратегиях.
Неделя рекламы
Энциклопедия обмана