Как получить достоверные цифры при AB-тестировании. Пошаговый план

16 Апр ‘18

АВ-тест — полезный инструмент, если использовать его правильно.

Мы составили чек-лист из 5 этапов — нужно пройти их, чтобы результат теста получился достоверным. Примеры приводим про email-рассылки, но план подходит для любых АВ-тестов: сайта, скриптов колл-центра, текстов смс и других областей.

Шаг 1. Выдвинуть гипотезу

Улучшить в email-рассылках можно что угодно. Главное правило: тестировать одну идею за раз. Например, как повлияет на конверсию замена одного слова в теме письма. Можно тестировать и полностью дизайн письма. Тогда и выводы в конце нужно будет делать обо всем дизайне, а не о каком-то конкретном элементе.

Как правильно выдвинуть гипотезу

Старую версию назовем вариантом А, идею — вариантом В. Гипотеза звучит просто: «вариант В работает лучше варианта А».

Что тестируем Гипотеза
Слово в теме письма Слово «приз» привлекательнее для клиента, чем слово «подарок»
Другой шаблон письма В email-поздравлении с 8 марта картинки брутальных качков привлекательнее для женщин, чем изображения цветов

Гипотезу пишем один раз и не меняем до конца теста. После эксперимента используем как вывод: вариант В работает лучше или хуже варианта А.

Вести историю эксперимента от появления идеи до результата полезно и можно делать в любом формате, например, в Google Excel таблице.

Шаг 2. Определить целевой показатель

Гипотеза описана словами, но для измерения нужен числовой показатель. E-commerce компании проводят тесты ради роста прибыли или конверсии, но измерить ее сложно. Например, цикл продажи длинный, и переход из письма на сайт не приводит к покупке сразу. Тогда ищем показатель, наиболее близкий к целевому, например, Open Rate и Click Rate.

Изначально выбрать правильную цель — важно. Ниже приводим пример теста тем email-сообщений клиента из fashion. Вариант А звучал так: «Узнайте, как сделать идеальные брови и выбрать блеск для губ». В варианте В добавили интригу: «Представляем вам новую „вкусную“ линейку от;L’Oreal Paris».

В результате получили статистически значимый рост в открытиях писем. А вот переходы на сайт по клику из письма упали. Оба показателя посчитаны от количества доставленных сообщений.

Показатели

В варианте B привлекли больше клиентов, но не целевых. Люди открывали письмо, а содержание не соответствовало ожиданиям. Правильная метрика для этого теста — Click Rate.

Целевой показатель нужен для измерения результатов по окончанию теста.

Шаг 3. Рассчитать размер выборки

Размер выборки — это количество людей, которые должны поучаствовать в эксперименте. Цифра рассчитывается с помощью калькулятора АВ-тестов один раз, до запуска исследования.

Разберем на примере:

Триггер отправляет email клиентам сразу после регистрации на сайте. Маркетолог решил протестировать тему сообщения и измерить результат по Open Rate. Вариант А — старая тема, вариант В — новая.

Для расчета размера выборки используем калькулятор Mindbox.

Калькулятор АВ-тестов

Выбираем нужный показатель — Open Rate. Количество вариантов — 2. Дальше предположим, каким будет Open Rate вариантов А и В во время теста.

«Средний Open Rate по истории» — показатель «старого» варианта, его легко посчитать на исторических данных. Например, средний Open Rate письма А за последний месяц составил 20%.

Ожидаем, что у нового варианта В Open Rate будет выше, но пока не ясно насколько. Поэтому предположим минимальный рост, ради которого тест стоит проводить. Например, доказывать разницу между 21% и 20% — неинтересно, она слишком маленькая и слабо повлияет на бизнес. Если по итогу теста варианты покажут такие цифры, будем считать разницу случайной.

Если же Open Rate варианта В окажется 23% или больше, хотим доказать, что разница обусловлена сменой темы. «Ожидаемый прирост Open Rate» в калькуляторе — это абсолютная разница между 23% и 20%, т.е. 3%.

Чем больше разница, тем проще ее доказать — для теста нужно меньше людей и времени. Поэтому нет смысла занижать «минимальный прирост», если в этом нет необходимости.

Если исторических данных нет, подойдет любой другой способ прогнозирования Open Rate. Предполагаем значения для варианта А и В: более низкую цифру укажем в графе «средний Open Rate по истории», разницу между вариантами в поле «минимальный ожидаемый прирост».

Часто в калькуляторах встречаются еще два параметра: достоверность (или уровень значимости, который рассчитывается как 100%-достоверность) и мощность.

  • Если упростить, достоверность — это процент уверенности в результате, если тест покажет разницу между вариантами. Хорошая достоверность — 95%, но 90% тоже допустима. Такая настройка теста позволит говорить по окончанию: «Я на 95% уверен, что разница между вариантами есть».
  • Мощность — процент уверенности в результате, если тест покажет, что разницы между вариантами нет.

Если вы не знаете, какой процент показателей стоит указать, оставьте значения по умолчанию.

После ввода всех параметров вы получите результат: 10 220 человек на каждый вариант. Полученное число показывает, сколько людей должны увидеть каждый вариант, чтобы можно было доверять результату. Расчет размера выборки до запуска теста — гарантия избежать одной из ошибок:

  • выключить тест слишком рано, как только расчеты показали, что есть статистическая разница между откликами;
  • обратное: продолжить тестирование, когда нужный размер выборки уже набран, а ожидаемой разницы в откликах нет. В такие моменты кажется, что еще чуть-чуть, и разница станет значимой, но доверие к таким данным постепенно снижается.

На третьем шаге рассчитываем количество людей для теста. Отключать тест будем после достижения нужного количества людей и только по этой причине.

Шаг 4. Запустить тест

Запуск зависит от технического решения. Обязательное условие: делить людей на группы случайным образом. Это гарантирует, что в группах люди одинаковы, и их отличает только вариант полученного email. Самостоятельно контролировать параметры — неправильно, только рандомизатор справится с этой задачей.

Для чистоты исследования можно заранее провести АА-тест. Это будет полезно для проверки качества рандомизатора, если он вызывает вопросы, или при переходе на новый инструмент. Проверять однородность аудитории перед каждым запуском нет смысла.

Четвертый шаг— запуск теста с помощью инструмента, который разделит аудиторию случайным образом.

Шаг 5. Снять результат

Тест завершается, когда наберется нужный размер выборки. Людей недостаточно? Продолжайте тест. Разница между вариантами не обнаружена и хочется подержать тест подольше? Завершайте эксперимент и фиксируйте результат.

После окончания теста не спешите с выводами. Реальные Open Rate скорее всего не совпали с прогнозом, значит, уверенности в результате нет. Представьте, вы прогнозировали Open Rate 20% для варианта А, а он показал 23%. Вы ожидали, что Open Rate варианта В вырастет на 3%, а он вырос на 2.5%. Есть ли в этом случае разница?Это нужно проверить на вкладке «Итоги тестирования» калькулятора AB-тестов.

Итоги тестирования

Для проверки укажем количество вариантов и Open Rate каждого из них: сколько людей открыли письмо из тех, кому оно было доставлено. Достоверность планировали 95%. Вывод теста: мы на 95% уверены, что разница между вариантами есть, и вариант В лучше варианта А.

Поздравляем. Исследование завершено, победитель выявлен, и можно применять лучший вариант на 100% аудитории.

Честный АВ-тест состоит из 5 шагов:

  1. Выдвинуть гипотезу.
  2. Определить целевой показатель для измерения результата.
  3. Рассчитать размер выборки с помощью калькулятора.
  4. Запустить тест (клиенты должны попадать в группы рандомно).
  5. Выключить тест строго после набора нужного количества людей и проверить результат тестирования.

Команда Mindbox

Туркина Юлия

Туркина Юлия
ведущий аналитик

Подпишитесь на наш ежеквартальный дайджест новостей
Согласен на передачу данных и рекламную рассылку

Пожалуйста, оставьте информацию о вас

Свяжемся в течение
рабочего дня

Заявка на партнерство

Свяжемся в течение
рабочего дня

Обратная связь