Эволюция использования ChatGPT в работе ORM: часть 1
Рассказываем о том, как в далёком 2019 году мы тестировали версию ChatGPT-2.0.
Впервые об автоматизации процесса копирайтинга с помощью ИИ мы задумались в 2019 году, когда Open-AI опубликовала в общий доступ нейросеть GPT-2. С тех пор мы протестировали все новые версии и кучу гипотез — расскажем обо всём в серии статей, чтобы вы могли познакомиться с опытом, не наступать на грабли и тоже включиться в активное применение нейронок в работе.
В далёком-далёком 2019 году…
Возможности
модели GPT-2.0 поражали — если раньше ИИ решали задачу предсказания двух-трех
слов после исходной фразы, то новая модель генерировала целые страницы
осмысленного текста, писала стихи и могла придумать синопсис для вымышленного
фильма. Так как основные продукты нашей компании были завязаны на копирайтинге, то мы не могли остаться в стороне от зарождающейся движухи.
Мы
поставили себе амбициозную цель автоматизировать создание небольших продуктовых
текстов на 300–400 символов, описывающих основные характеристики и опыт
взаимодействия с продуктом или брендом. Сразу же определились с основной
метрикой, по которой будем измерять качество нашей разработки — процент
приемлемых текстов в выборке из 100 результатов, которые сгенерировала
нейросеть.
Приемлемый
результат мы определи как «осмысленный
текст, который копирайтер может довести до готового к публикации в течение
5 минут», т.е. исправить возможные ошибки, что-то добавить или убрать. В среднем опытный копирайтер тратит на подготовку текста 25–30 минут и увеличение
скорости его работы в 5 раз казалось очень перспективным способом
оптимизации процесса создания текста.
IT'S ALIVE, IT’S ALIVE!
GPT-2 был опубликован в исходном коде с краткой справкой для быстрого старты. Для запуска мы арендовали виртуальный сервер с GPU семейства Nvidia Tesla и после
двух недель плясок с бубном запустили нейросеть у себя на сервере.
Первые
тесты выявили ряд серьезных ограничений:
Модель работает только на английском языке;
Без дообучения (fine-tune) результаты нас не устраивали даже на английском языке. Процент приемлемых текстов не превышал 1–2%.
Поскольку уже много лет вся работа над текстами у нас происходит во внутренней
корпоративной системе, к моменту тестирования ИИ мы сумели накопить примерно
100 тыс. примеров подобных текстов. Спустя два месяца, через тернии, боль и страдания мы смогли выкрутить возможности GPT-2 на максимум по следующему
алгоритму:
Формировали обучающую выборку по каждому бренду из текстов в корпоративной системе.
Не все тексты годились для обучения, поэтому мы отсеивали нерелевантные тексты с помощью сервиса Яндекс.Толока.
Через API от Яндекса, переводили обучающую выборку на английский язык.
Дообучали GPT-2, получая модели генерации текстов для каждого бренда по отдельности.
Переводили полученные тексты обратно на русский.
В итоге процент приемлемых текстов достиг 15%, а на некоторых моделях, где были
большие объемы данных для обучающей выборки — до 25%. Неплохой результат, учитывая,
что нейросеть могла генерировать до 450–500 приемлемых текстов в час.
Но сомнения все равно где-то витали, поэтому для тестирования в поле мы определили
самый минимальный функционал.
Держать
постоянно включенным сервер с двумя видеокартами Nvidia Tesla очень затратное
занятие, поэтому чтобы сократить расходы мы делали так: включали сервер
на несколько часов, генерировали большой объем текстов по разным брендами и загружали их в корпоративную систему, где работают копирайтеры.
У копирайтеров появилась кнопка, которая выводит случайный текст
из сгенерированной выборки. Текст можно дизлайкнуть, чтобы он исчез навсегда и появился новый, и так пока нужный текст не будет найден.
Почему не пошло и какие выводы мы сделали?
Несмотря
на то, что новый функционал был добавлен в корпоративную систему без повышения
планов на копирайтера или обязанностью ее использовать, специалисты отнеслись к ней достаточно холодно. Аналитика по использованию функционала показывала
удручающие результаты — интерес к нему угасал после 2–3 попыток
использовать его, процент текстов, которые были взяты в работу
минимальным.
Опросы
копирайтеров, модераторов и руководителей помогли понять причины:
В тексте очень важна точность описываемых преимуществ или недостатков продукта. GPT-2 умел создавать стилистически приемлемый текст, но в качественное описание характеристик и преимуществ он не смог. Тексты выглядели очень складно и логично, но дьявол кроется деталях — фактически ошибки можно было выявить только сверяясь с базой знаний по проекту. Наша ошибка в том, что на этапах тестирования и обучения моделей, мы использовали для оценки текстов случайных копирайтеров, а не специалистов, погруженных в особенности конкретного бренда или продукта.
Модераторы тоже увидели риски в возможном снижении качества, прохождения текстов с фактическими ошибками. И если у копирайтера еще был выбор — полностью писать текст самому или с помощью ИИ, то модераторы были вынуждены дотошно проверять все тексты, потому что не знали каким образом они были написаны.
Сам процесс отбраковки текстов, где из 100 только 15 можно взять в качестве «болванки» довольно трудоемок.
Итоги
Насильно внедрять технологию смысла никакого не имело: скорость генерации
текстов едва ли изменилась, скорость модерации резко упала и появились риски
снижения качества. Проект мы закрыли, но в целом, опыт оказался очень
важным, чтобы сделать некоторые выводы.
Во-первых, тексты — основа продуктов нашей
компании и жертвовать их качеством в угоду производительности мы не можем.
Намного перспективней использовать ИИ для повышения качества текста, помощи в модерации и сокращения времени на задачи не связанные с творческим процессом
создания текстов. Профессиональные и грамотные специалисты наше главное
преимущество и пытаться заменить их опыт и компетенции искусственным
интеллектом как минимум глупо.
Во-вторых, если бы мы сформулировали
правильные гипотезы и протестировали их на этапе, когда обучили первую модель с реальной командой, то много лишней работы можно было бы избежать. Но проект
казался очень перспективным и почти обреченным на успех. Мы сосредоточились на преодоление технических ограничений, забыв протестировать продуктовую гипотезу
о повышении эффективности копирайтеров, приняв ее подлинность за факт.
Общий вывод простой — нужно как можно быстрее тестировать даже самые привлекательные и амбициозные гипотезы и сокращать MVP до действительно минимального функционала.
Эти
довольно полезные выводы позволили нам осмысленно подойти к внедрению ИИ в будущем. Через 3 года, когда вышли новые модели GPT 3.5 и GPT4, мы сделали
новый подход к внедрению и пересмотрели в корне модель использования
искусственного интеллекта в бизнесе. Этим опытом мы обязательно поделимся в следующих статьях.