1 июля 2019

Не всем AB-тестам можно доверять: чек-лист проверки с примерами

АВ-тестирование — хороший метод, чтобы понять, сработала гипотеза или нет. Поэтому у кейсов, где результаты подтверждены АВ-тестированием, больше кредит доверия. Бывает, что в кейсе не описывают методологию тестов и статические выкладки. Это может говорить о том, что автор пытается слишком вольно интерпретировать результаты.

Чек-лист хорошей статьи об AB-тестах

Во время чтения любой статьи про АВ-тест мысленно проверьте ее по чек-листу. Если по итогу несколько пунктов не выполнено — это признак возможной манипуляции и некачественно проведенного исследования.

Итак, в хорошем исследовании:

Явно указан показатель, который измеряли в АВ-тесте

Разные показатели измеряются по-разному. Сравнить конверсию в двух группах просто, а средний чек и выручку — сложнее. Чем более явно в статье указано, что измеряли, тем больше ей доверия. Если речь идет о конверсии, то обязательно нужно указать из чего эта конверсия и куда.

Вызывает вопросы

Лучше

Мы провели серию АВ-тестов дизайна email-рассылки. Тестировали пять разных вариантов. В конце эксперимента выяснили, что покупателям нравятся анимации.

Мы провели серию АВ-тестов дизайна email-рассылки. Тестировали пять разных вариантов.По показателю Click Rate кнопки «Перейти на сайт» выиграл пятый вариант. Так мы выяснили, что покупателям нравятся анимации. Click Rate считался как отношение количества пользователей, совершивших клик по письму к количеству доставленных писем.

Указан уровень доверия для каждого показателя, относительно которого делается вывод АВ-теста

Уровень доверия в результате — важнейший показатель теста; он показывает, на сколько мы можем доверять результату. Как правило, больше 95% — круто, больше 90% — достаточно. Если уровень доверия вообще не указан, возможно что-то не так.

Например, уровень доверия 95% говорит о том, что в 95% экспериментов (если бы мы делали не 1, а 1000 тестов) мы обнаружим, что разница есть, и это будет правдой. Соответственно, в 5% случаях мы решим, что разница есть и ошибемся.

Если вариантов теста больше двух, их сравнивают попарно

АВ-тесты с тремя и более вариантами — это сложно. Нужно правильно организовать тест и подвести итоги. Для таких тестов нужна большая выборка, а каждый вариант нужно сравнить друг с другом. Если варианта три, то A нужно сравнить c B, B c C, C c A. Если проигнорировать это правило, результат тестирования может оказаться неправдой. А чтобы его не игнорировать, у компании должен быть большой трафик.

Общий вывод статьи касается только проведенных АВ-тестов

Если в статье есть обобщения на основании небольшого количества тестов — скорее всего что-то приукрашено.

Вызывает вопросы

Лучше

Разрушаем мифы: имя клиента в теме email не работает. Мы провели три АВ-теста тем рассылок и убедились в этом на своем опыте.

Мы провели три АВ-теста тем рассылок и поняли, что для нас имя клиента в теме письма не работает. Проверьте у себя!

Как использовать чек-лист

Разберем на примерах.

Пример № 1: «В магазине косметики письмо с блоком преимуществ в виде списка увеличивает Сlick Rate»

Уральский интернет-магазин посуды провел мультивариантный тест шаблона email-письма для посетителей сайта за последний месяц:

Вариант А: стандартный шаблон
Вариант В: стандартный с добавлением блока преимуществ плиткой
Вариант C: стандартный с добавлением блока преимуществ списком
Вариант D: стандартный с добавлением блока преимуществ плиткой + кнопка
Вариант E: стандартный с добавлением блока преимуществ списком + кнопка

Тест показал, что по показателю Click Rate победил вариант D с уровнем доверия в 95%. Общий вывод статьи: теперь в нашем письме мы используем блок преимуществ плиткой и добавляем кнопку. Использовать мультивариантное тестирование оказалось очень удобно, так как мы можем сравнить сразу много вариантов.

Проверим тест чек-листом

Явно указан показатель, который измеряли в АВ-тесте. Есть — это Click Rate. В идеале стоит указывать, каким образом рассчитывался показатель.
Указан уровень доверия результату — 95%.
Если вариантов теста больше двух, они сравнены попарно. В этом тесте аналитики не описали, как сравнивали варианты между собой. Это вызывает первое сомнение в корректности теста. Действительно ли вариант D настолько хорош, что оказался значимо лучше в сравнении со всеми остальными вариантами?

Есть и второе сомнение. Посмотрите, сколько человек потребуется для проведения АВ-теста с 2 вариантами и мультивариантного теста на 5 вариантов (рассчитано с помощью калькулятора АВ-тестов). В 5 раз больше на каждый вариант:

Такие тесты могут позволить себе компании с большим трафиком. Если вы подозреваете, что в кейсе описан не такой бизнес или выборка явна узкая, возможно, исследование проведено неверно.

Общий вывод статьи касается только проведенных АВ-тестов. Общий вывод статьи касается только проведенного теста. Все в порядке.

Несмотря на то, что три пункта из чеклиста выполнены, корректность исследования вызывает сомнения. Выборка для теста кажется маленькой (только посетители сайта за последний месяц для интернет-магазина косметики). Достаточна ли она для проведения теста или аналитик совершил распространенную ошибку при снятии результата? Также в статье нет попарного сравнения вариантов.

Пример № 2: «Хиты продаж снижают выручку рассылки»

Мы провели тест рассылки Next best offer (следующее лучшее предложение покупки):

Вариант А: отправили хиты продаж.
Вариант B: отправили персональные рекомендации.
Вариант С: письмо не отправлялось. Сегмент выступал в качестве контрольной группы.

Результаты:

Сегмент

Прирост конверсии

Изменение среднего чека

Оценка увеличения выручки

Хиты продаж

-9,1%

-10%

-20%

Персональные рекомендации

+30,9%

-5,2%

+4%

Контрольная группа

—

Общий вывод статьи: персональные рекомендации показали увеличение конверсии в заказы на 30,9% с уровнем доверия 95%. Вместе с небольшим снижением среднего чека, это дает увеличение выручки на 4%. Использование блока рекомендаций «Хиты продаж» приводит к снижению выручки на 20%.

Проверим тест чек-листом:

Казалось бы, все очевидно — персональные рекомендации приводят к увеличению выручки, хиты продаж выручку уменьшают. Сильный вывод. Нужно проверять.

Явно указан показатель, который измеряли в АВ-тесте. Из таблицы можно сделать вывод, что измеряли сразу три показателя: конверсию, средний чек и выручку. По вступлению не ясно, на основе какого из них будет сделан вывод кейса.
Указана статистическая значимость результата для каждого показателя, относительно которого делается вывод АВ-теста. В данном примере можно выделить три вывода о показателях:

Персональные рекомендации увеличивают конверсию на 30,9%.
Показатель: конверсия в заказы. Уровень доверия — 95%
Хиты продаж уменьшают выручку на 20%, средний чек на 10%, конверсию на 9,1% — (статистическая значимость не указана ни для одного показателя).
Показатель: выручка, конверсия, средний чек. Уровень доверия не указан.
Персональные рекомендации увеличивают выручку на 4%. Выручка измеряется гораздо сложнее, чем конверсии, и часто значимой разницы выручки не видно. В примере значимость выручки никак не исследовалась.
Показатель: выручка. Уровень доверия не указан.
Итого, из трех выводов кейса, верить можно только первому — «Персональные рекомендации увеличивают конверсию на 30,9%, уровень доверия измерений — 95%». Остальные два не имеют под собой достаточных оснований.

Если вариантов теста больше двух, они сравнены попарно.В тесте исследовали три варианта: «Хиты продаж», «Персональные рекомендации» и «Контрольная группа». Однако мы видим только сравнение варианта «Персональные рекомендации» с двумя другими:"Персональные рекомендации показали увеличение конверсии в заказы на 30,9%, уровень доверия измерений 95%».

Вариант с хитами продаж представляется как занижающий конверсию и выручку, хотя значимость по сравнению с контрольной группой не оценивается. Давайте представим, что мы знаем размеры каждого сегмента и количество купивших клиентов в этом кейсе, а не только % прироста:

Сегмент

Прирост конверсии

Размер сегмента

Количество купивших посетителей

Хиты продаж

-9,1%

995

10000

Персональные рекомендации

+30,9%

1445

10000

Контрольная группа

—

1100

10000

Проверим статистическую значимость разницы конверсии между вариантами. Используем калькулятор значимости:

Оказывается, что варианты B (контрольная группа) и С (хиты продаж) могут значимо не различаться. То есть, вывод «Хиты продаж уменьшают конверсию на 9,1%» не верен. Про выручку и средний чек не говорим, так как они не проверены на значимость в кейсе вовсе.

Общий вывод статьи касается только проведенных АВ-тестов. Субъективный пункт. В данном примере основным выводом можно считать тот, который в заголовке —"Хиты продаж снижают выручку от рассылок». Такой вывод звучит очень обобщающе, и может сложиться впечатление, что такое происходит всегда, хотя приведен пример только одного теста, который содержит неточности.

Вывод, который можно сделать из такого теста, — «Персональные рекомендации на 30,9% лучше конвертируют получателей письма в заказы, по сравнению с контрольной группой и хитами продаж». Но если верить описанию теста, то напрашивается вывод, что рекомендации «Хиты продаж» занижают выручку, что не подтверждается.

Призываем всех делать тесты прозрачно

AB-тесты — лучший из известных нам инструментов оценки эффективности маркетинговых механик. Их нужно делать как можно больше, проверять гипотезы и анализировать результаты. Но обратная сторона AB-тестов — требования к соблюдению определенных правил и методологии, чтобы их результатам можно было доверять.

Наверное, любой аналитик или маркетолог, хотя бы раз испытывал соблазн подогнать выводы теста под желаемый результат. Но мы призываем всех и, в первую очередь, себя быть честными и делать тесты прозрачно.

Надеемся, этот чек-лист позволит авторам статей улучшать качество материалов, а читателям более критично относиться к результатам и сделанным выводам.

Теги:
AB-тесты

Игорь Калиновский

Продакт-оунер Mindbox

Юлия Туркина

Ведущий аналитик

Не всем AB-тестам можно доверять: чек-лист проверки с примерами