27.02.2025, 17:06

Как запустить A/B тест и получить достоверный результат: кейс Adventum и Hoff

В современном мире цифрового маркетинга A/B тестирование стало одним из наиболее эффективных инструментов для оптимизации пользовательского опыта и повышения конверсии. Однако, несмотря на популярность метода, многие компании сталкиваются с трудностями в его реализации и интерпретации результатов.

Для проведения А/В тестирования есть свой набор инструментов и сервисов: Varioqub, Trisigma, Ux Rocket, Amplitude. И несмотря на то, что Amplitude больше не доступна на территории РФ, вы еще можете воспользоваться его бесплатным функционалом в рамках решения аналитических задач.

Что же такое А/В тестирование?

Это метод сравнения двух версий продукта, позволяет определить, какая из них лучше соответствует конкретной цели Эксперимента.

Эксперимент может включать в себя все что угодно: от тестов на разных конверсионных воронках до необходимости контролировать основные метрики. Например, вы изменили дизайн главной страницы, и вам нужно понять, какой вариант принесет больше продаж старый или новый, и не уронит метрики.

В этой статье мы приводим «вредные советы для A/B тестирования» от Hoff, сети гипермаркетов по продаже мебели и товаров для дома, и специалистов Adventum. Как команда интернет-магазина научилась на своих ошибках, и как специалисты Adventum помогали их исправить, на примере работы с системой аналитики Amplitude.

Частые ошибки при проведение А/В тестов

1 ошибка — проверять несколько гипотез в одном A/B тесте

На сайте Hoff запустили блок с хитами распродаж, в котором были счетчик остатков, плашка «раскупили», раздел с важными свойствами. Решили тестировать сразу все инструменты: вырастили продажи, а за счет чего это получилось — проанализировать невозможно.

Как исправить:

  • отдельно проверить каждую гипотезу;

для нескольких гипотез проводить A/B/C тесты.Любое изменение нужно тестировать отдельно, так как высока вероятность ошибиться.

2 ошибка — по тесту на одной платформе судить обо всех пользователях

У Hoff есть сайт и приложение, которое делится на iOS и Android. Также есть разделение по устройствам. Часто продакт менеджеры не анализируют, где именно конкретное изменение увеличило метрики, и раскатывают его на все платформы. В результате на одной платформе изменение позволило вырастить метрики, а на другой — получить нулевые результаты.

Как исправить: при дизайне эксперимента закладывать тестирование на всех ключевых платформах, и отслеживать результаты на каждой из них.

Менеджеры по продукту частенько строят процесс сплитования, анализируют результаты эксперимента в разных системах, и часто забывают пролить параметр A/B теста в систему аналитики.

Как исправить:

  • завести инструкцию, где должны быть заложены все шаги A/B теста, в том числе заведение параметра;

  • проверить на тестовой сборке, что разработчики корректно завели параметр в Amplitude;

  • в первые дни эксперимента проверять, что сплитование прошло корректно.

3 ошибка — запускать параметр раньше начала теста

Во многих системах для A/B тестирования, кроме Amplitude Experiment, есть особенность: если вы завели A/B тест, но не включили его, система все равно начнет назначать пользователей в контрольную группу.

Обычно, когда появляется тестовая группа, данные начинают выравниваться, но всегда остается небольшой зазор между контрольной и тестовой группами.

Как решить:

  • с помощью инструмента Cohorts создать когорту пользователей, которые заходили с даты заведения параметра до даты старта теста, и исключите ее;

  • при анализе результатов ограничивать воронку датами проведения эксперимента.

4 ошибка — продлевать тест

Часто бывает так, что проводят тестирование, которое не показывает статистически значимого результата. Но вместо того, чтобы закрыть тест и запускать новые гипотезы, его продляют, чтобы получить статистически значимые результаты.

Почему так нельзя делать: в тестировании гипотез даже при идентичных группах разница в конверсиях может выходить за пределы зоны неразличимости. Это может создавать ложные сигналы, так как с каждым новым тестом повышается вероятность получить случайные различия.

Как решить:

  • заранее определить количество пользователей, на основе которых будет оцениваться результат;

  • собрать наблюдения, подсчитать результаты и сделать вывод.

5 ошибка — радоваться ложноположительному результату

В Hoff немного обновили онбординг и получили практически двукратный рост покупок у новых пользователей — это слишком высокий результат. Чтобы найти причину такого роста, стали анализировать A/B тест по дням и нашли аномалию: фродовый трафик распределился только в одной из групп.

Поэтому если вы видите подозрительные результаты, это повод копнуть поглубже и понять, почему так произошло.

Еще 10 способов, которые могут сломать эксперимент:

  • Настраивать A/B тест для тестовой среды, но забыть настроить для боя; Не выпиливать старые A/B тесты из кода;

  • Держать A/B тест меньше, чем длятся ваши периодические циклы (месячная подписка, выходные);

  • Передавать параметр A/B теста не при открытии приложения, а позже (при загрузке главной);

  • Запускать тестовую и контрольную группы на разные города/соц. страты;

  • Запускать множественные сравнения (ABC/ABCD тесты) без коррекции уровня значимости;

  • Раскатывать A/B тесты сразу на всех без проверки на малой группе;

  • Запускать тест раньше, чем раскатать релиз;

  • Некорректно выбирать целевую метрику;

  • Не проверить, что 100% аудитории участвует в тесте;

У всех разный опыт, и даже самые крутые специалисты могут ошибаться.

Когда не нужен A/B тест:

  • На странице теста недостаточно трафика;

  • Недостаточно времени, чтобы набрать выборку (срочный ивент, распродажа и так далее);

  • Мало времени на проработку дизайна A/B теста. Именно во время проработки дизайна чаще всего понимают, что A/B тест не нужен;

  • Страница теста забита другими тестами, и новый можно провести только параллельно;

  • Планируется протестировать много гипотез сразу;

  • Планируется протестировать обновление, которое напрямую не влияет на конверсию, например, NPS-опрос;

И так мы выяснили основные ошибки при проведение А/В тестирования, а также рассмотрели, когда не стоит его проводить. Теперь разберемся, как альтернативный Amplitude сервис Varioqub поможет решать аналитические задачи.

Varioqub — платформа для А/В тестирования, которая:

  1. Помогает бизнесу оптимально расходовать ресурсы и зарабатывать;

  2. Агрегирует все данные в едином интерфейсе: метрики, эксперименты, запуски, информирование;

  3. Позволяет провести эксперимент за один день;

  4. Эффективно использует вычислительные ресурсы.

Плюсы платформы:

  • Возможность проводить эксперименты на сайтах любой сложности;

  • Сравнение различных вариантов дизайна, текста, функционала сайта или приложения;

  • Проведение экспериментов с рекламой;

  • Персонализация контента для разных групп пользователей. Контент адаптируют с учётом интересов аудитории;

Так Varioqub в Яндекс Метрике — это мощный инструмент для создания и анализа кастомизированных отчетов. Позволяет глубже понимать поведение пользователей и вносить обоснованные изменения на сайте. Помогает оптимизировать маркетинговые стратегии, улучшать пользовательский опыт, повышать эффективность сайта и прибыльность бизнеса.

Проводите А/В тесты и не совершайте распространенные ошибки вместе с командой Adventum.


Подписывайтесь на наше аналитическое сообщество и будьте в курсе последних новостей в мире аналитики.

Adventum
Adventum — digital-агентство полного цикла. Предоставляем полный спектр услуг в digital-маркетинге: от аудита рекламных кампаний до разработки и реализации комплексных digital-стратегий. На протяжении 15 лет команда успешно помогает брендам и людям находить друг друга в цифровом пространстве. В Adventum работают более 130 высококвалифицированных специалистов, каждый из которых стремится к объективности и измеримым результатам и работает на бизнес-цели клиентов.