Flocktory

15.11.2023, 13:34

Как устроена кухня A/B-тестов во Flocktory: тестируем новые гипотезы ежедневно

Честно рассказываем, как наладили цикл тестов и какие бизнес-результаты получили. В конце статьи — полезные карточки для тех, кто планирует тестировать гипотезы.

По данным Invesp, 71% компаний проводит A/B-тесты для оптимизации веб-продуктов и улучшения метрик. Обсудили этот инструмент и его влияние на показатели бизнеса с Данилой Епишиным, Head of Performance Products в команде Flocktory.

Во Flocktory работа с гипотезами идет постоянно. Скажи, сколько вы их в среднем тестируете за год?

— Около 600. Это примерно 50 гипотез в месяц. Большую часть запускаем на сайтах партнеров, при этом одну гипотезу иногда нужно запустить на 50–100 сайтах, чтобы подтвердить ее для каждого партнера. Если говорить про уникальные гипотезы, то выходит около 50. В сумме ставим около 1 000 экспериментов в месяц с учетом того, что одну и ту же гипотезу можем тестировать в разных местах.

Звучит внушительно! Как это стало возможным и как это повлияло на результаты?

— Наш секрет — это скорость прохождения ключевых этапов в тестировании гипотез. Всего их пять.

1. Генерация. Чтобы генерировать гипотезы, команде нужен продакт или другой специалист, который умеет системно работать с источниками. У каждого продукта свои источники гипотез. Мы пользуемся всеми перечисленными, а каждую новую гипотезу заносим в бэклог.

Как находить гипотезы

Чаще всего гипотезы рождаются из данных, общения с пользователями, результатов опросов и анализа конкурентов — как прямых, так и в целом сервисов, которые решают похожие задачи.

2. Приоритизация. Ей должен заниматься специалист с готовой системой приоритизации гипотез. Я встречал ситуации, когда команда из трех, четырех или 15 человек начинает голосовать за гипотезы в рамках встречи. Или 15 человек дают собственные оценки, а затем на их основе считается среднее арифметическое. Это затягивает процесс и не всегда улучшает его, в то время как квалифицированный product- или growth-менеджер может самостоятельно оценить и приоритизировать гипотезы по ряду критериев.

У нас этот этап практически не занимает времени: мы задали критерии приоритизации гипотез на основе данных и работаем по ним. В сущности, это шкала ICE, но не та, которую все используют по-своему, а с определениями для каждого критерия: в каком случае это Confidence 3, в каких — Confidence 2 и т. д. Поэтому продакт-менеджер, когда смотрит на каждую гипотезу, может самостоятельно по установленным критериям определить уровень ICE для гипотезы, а затем решить, использовать такую модель или отклониться от нее.

3. Подготовка. Зачастую это самый долгий этап. Компании, в которых тестируют одну гипотезу в месяц, теряют больше всего времени именно здесь.

Для наших performance-продуктов рассматривали разные решения, к примеру, Google Optimize. Затем в качестве временного решения решили попробовать собственный инструмент — он позволяет показывать виджет, чтобы быстро тестировать гипотезы. По ходу работы стало понятно, что он проверяет 99% всего, что мы хотим. В итоге начали полноценно использовать свой продукт для тестирования гипотез.

Нам очень помогает команда frontend-разработки: они за три дня готовят любые эксперименты как для нас, так и для партнеров. В большинстве случаев от намерения провести эксперимент до создания кода проходит два дня. Далее смотрим, как отображается ход эксперимента, и, если все хорошо, запускаем. Чаще всего за неделю мы набираем достаточно данных для анализа.

Когда запускаем эксперимент, уже понимаем, какую целевую метрику хотим вырастить и на какие данные будем смотреть, чтобы понять, подтвердилась гипотеза или нет.

4. Сбор данных. Для нас это самый долгий этап — он занимает неделю. Мы можем тестировать несколько гипотез параллельно, зачастую даже на пересеченном трафике, если они не влияют друг на друга. Иногда делим трафик: на одной части тестируем одну гипотезу, на второй — другую. То есть мы ждем неделю, прежде чем запускать новую гипотезу, но параллельно можем тестировать другие. Затем видим результаты эксперимента в стандартном шаблоне и оцениваем влияние каждой протестированной кампании на ключевые метрики.

5. Выводы. Грамотно сформулированная гипотеза сразу предполагает, какие выводы из каких метрик предстоит сделать и какое решение принять. Она может подтвердиться с дальнейшей имплементацией (прим. ред. — реализацией) в продукт, а может быть опровергнута. Это тоже хороший результат, это новые знания, хоть и не влияющие на метрики.

Опровергнутая гипотеза — это тоже хороший результат. Это новые знания, но не влияющие на метрики.

Иногда можно получить промежуточный результат, когда, допустим, мы вырастили одну метрику, но по целевой не было изменений. Или вырастили целевую метрику, но уронили проверочные. В этих случаях мы думаем, как изменить эксперимент или гипотезу, либо добавляем больше вариаций. Последнее делается для того, чтобы реализовать потенциал гипотезы, если он в ней есть по итогам теста.

Кто участвует в этом процессе и сколько времени на это тратит?

— Чаще всего — growth- или аккаунт-менеджер, если речь идет об эксперименте с клиентом.

Также не обойтись без frontend-разработчика, который непосредственно готовит эксперимент.

Расскажи подробнее про вариации и погрешности

В сумме для менеджера каждый шаг на этой стадии занимает два-три часа в пределах одного эксперимента, если мы говорим о какой-то простой гипотезе. Разработчику понадобится примерно столько же времени. Если мы можем запускать тесты параллельно, а специалисты тратят на них меньше рабочего дня, то это позволяет нам проверять по гипотезе в день.

На этом этапе очень важно не просто получать результаты в виде дельты и видеть, что какая-то вариация повышает метрику больше других, а убеждаться, что эта дельта статистически значима, т. е. обусловлена именно экспериментом, а не случайной погрешностью.

Что такое дельта?

Дельта — соотношение двух метрик по итогу эксперимента. Считается по формуле X/Y − 1, где X — результат тестовой вариации, а Y — контрольной. В экспериментах, направленных на рост, это значение должно быть больше нуля, в противном случае гипотеза опровергается.

Чтобы убедиться, что именно тестируемые изменения повлияли на метрику, важно следить за критерием статзначимости. Он позволяет определить, с какой вероятностью результаты теста можно списать на статпогрешность.

По моему опыту, российские и зарубежные клиенты ставят отсечку в 5% — именно такова вероятность, что результаты эксперимента можно объяснить статпогрешностью. Это считается нормальным показателем.

Точно неизвестно, почему все выбирают именно 5%, а не 4% или 6%. Я предполагаю, что эта практика идет из медицины — именно там взяли за стандарт на 5%, а product-менеджеры слепо скопировали подход. Хотя в медицине такой сравнительно высокий риск обусловлен недостаточностью данных для подведения итогов эксперимента. Испытуемых для препаратов не сотни тысяч и миллионы, а в лучшем случае десятки или сотни, и по ним сложнее делать уверенные выводы. В таких условиях набрать 95% успешных случаев — это уже хорошо.

В ecommerce и онлайн-сервисах, где миллионы посетителей, очень часто можно сократить этот уровень риска до 1%. Поскольку мы тестируем очень много гипотез, то если бы ориентировались на 5%, то из 20 гипотез в месяц у нас бы была в среднем одна с ложным результатом. Поэтому мы равняемся на показатель в 1%, а не на 5%. Так называемое P-значение в этом случае равно 0,01.

Нашими продуктами пользуются миллионы людей, поэтому зачастую нам хватает недели, чтобы собрать данные.

Что такое P-значение?

P-значение, или P-value — вероятность получить такое же или более экстремальное значение статистики по сравнению с ранее наблюдаемым, при условии, что нулевая гипотеза верна.

Что делать тем, у кого нет миллиона посетителей?

— Есть компромиссное решение — анализ прокси-метрик. Например, вы меняете главную страницу и хотите понять, как это влияет на конверсию в заказ. Однако на сайте всего несколько тысяч заказов в месяц. Вам придется очень долго ждать результатов: значимость в 5–10% сложно набить быстро.

Тогда мы смотрим прокси-метрики. Например, как часто посетитель переходит на другую страницу, просто не уходит с сайта сразу же.

Риск принять неправильное решение в этом случае чуть выше, зато тестировать гипотезы можно намного быстрее.

Можешь на примерах рассказать, как проверка гипотез помогает улучшить бизнес-метрики партнеров? Понятное дело, что мы чаще всего говорим про изменения на сайте, будь то дизайн, коммуникация или что-то еще. Например, можно ли с помощью правильной кнопки увеличить продажи?

— У нас есть рекламодатель — онлайн-кинотеатр «Смотрёшка». Наверняка кому-то известен этот бренд, но лично я впервые о нем услышал, когда мы начали с ним работать. При этом я уверен, что большему числу читателей известны IVI, Start, KION и прочие.

Когда мы добавили сервис на витрину подарков Exchange, первым делом протестировали, как позиционируем само предложение — через картинку с логотипом. В одной вариации был только логотип «Смотрёшки», а в другой — еще и уменьшенные логотипы вышеупомянутых сервисов. Тесты показали, что пользователи в три раза чаще кликали на предложение «Смотрёшки» во втором случае.

Мы проверили и все дальнейшие метрики по воронке продаж: в три раза увеличилась не только конверсия в клики, но и подписки. Все потому что посетители лучше понимали, что им предлагают.

На тот момент сервис «Смотрёшка» ворвался на витрине в пятерку лидеров по числу активированных новых клиентов.

Другой пример — «Альфа-Банк» — не про результаты, а про психологию. В начале 2023-го банк улучшил предложение на витрине подарков Exchange: беспроцентный период по новой кредитке увеличился до 365 дней.

Коллеги из «Альфа-Банка» предложили переименовать акцию в «Год без процента». Очевидно, что такое изменение повысит популярность предложения и прокачает все шаги в воронке. Однако, когда ты можешь тестировать много гипотез, появляется ресурс даже для таких мелких вопросов, как «написать “Год без процентов” или “365 дней без процентов”?». Мы проверили эту гипотезу и выяснили, что второй вариант приносит на 10% больше заказов, а это десятки тысяч новых клиентов в год.

Вот пример теста, где дельта не такая большая, но даже такими малыми оптимизациями можно кумулятивно получать кратный рост, проверяя подобные гипотезы каждый день на постоянной основе.

Кратный рост — это наш основной ориентир в работе с клиентами. Иногда дать его может одна прорывная гипотеза, как в случае со «Смотрёшкой», иногда — последовательность небольших удачных гипотез, как с «Альфа-Банком».

На какой метрике вы фокусируетесь в первую очередь, тестируя гипотезы?

— В нашем продукте два ключевых участника — рекламодатели, которые размещают свои предложения на витрине Exchange, и трафик-провайдеры (это сайты и сервисы с большой аудиторией, которые не предлагают пользователям ничего напрямую, но хотят монетизировать эту аудиторию, предоставляя площадку для партнеров).

Ценность сессии — это доход, который мы как Flocktory получаем с пользователя, перешедшего на Exchange.

Часть этого дохода идет на монетизацию трафика для провайдеров. Так что нам важно максимизировать заработок с пользовательской сессии: чем больше получат трафик-провайдеры, тем больше трафика они захотят привести в продукт и тем лучше будут результаты рекламодателей. Во многом поэтому большая часть экспериментов по продукту отслеживает именно доход на сессию.

Давай перейдем к универсальным советам для тех, кто хочет ускорить рост продукта за счет экспериментов.

— Если в рамках вашего продукта недорого проводить эксперименты, я бы порекомендовал назначить ответственного за рост — компетентного специалиста с высокой экспертностью. На рынке таких не очень много, но они есть. Также никто не мешает вырастить такого специалиста внутри компании. Чаще всего в эту роль может перейти продакт, умеющий работать с данными, или аналитик, понимающий основы продукта. Короче говоря, для начала вам нужен growth-менеджер — некто, кто будет отвечать за рост продукта.

Ему потребуется инфраструктура для системного и непрерывного запуска экспериментов. Также понадобится команда разработчиков, которая будет эти эксперименты быстро готовить. Ну и не обойтись без унифицированного инструмента для анализа итогов. В общем, все то, что мы предлагаем в рамках нашей платформы. *смеется*

Все остальное приложится. Насколько быстро и успешно — зависит от таланта growth-менеджера, который у вас будет править бал. Чуть не забыл: этому человеку нужно дать не только инфраструктуру, но и полномочия. Часто в интернет-магазинах и других онлайн-сервисах работают различные команды — у каждой свои целевые метрики, и важно, чтобы у growth-менеджера была автономия, чтобы он мог принимать решения самостоятельно.

Порой клиенты приходят к нам с готовыми гипотезами. Как часто они ошибочны? Поделись тремя секретами, как правильно их формулировать.

— Давай отталкиваться от определения. Гипотезы — это предположения о конкретном изменении внутри продукта и о том, как оно повлияет на некую целевую метрику.

Первое правило постановки гипотез

Каждая гипотеза должна быть конкретной и работать с единственным изменением.

Часто встречаются предложения от клиентов, которые смешивают несколько разных гипотез в одной. Например, тестируем новое изображение, но в нем меняется целиком и дизайн, и текст. Такой эксперимент покажет, как хуже или лучше работает это сочетание изменений в совокупности, но будет непонятно, что стало ключевым фактором: оформление или сообщение.

Второе правило постановки гипотез

Изменение должно влиять на конкретную метрику.

Я часто встречал случаи, в которых гипотезы формулировались без понимания целевой метрики, которую этот эксперимент должен изменить. В таких ситуациях можно смотреть на все метрики подряд и пытаться делать какие-то выводы. Это сравнимо с ситуацией, когда корабль в дрейфе причаливает к острову, но команда не знает, хорошо ли это. Такая работа бессистемна.

Третье правило постановки гипотез

Гипотеза должна быть релевантной вашему продукту прямо сейчас.

Если понимаете, что ваш онлайн-сервис по какой-то конверсионной метрике в три раза отстает от конкурентов, нет смысла тестировать мелкие гипотезы и заниматься тонкой настройкой типа улучшения кнопок. Стоит подняться на уровень выше: переосмыслить CJM, изменить структуру информации на целевой странице и т. п.