Как правильно оценивать эффект от улучшений в e-mail рассылках: три главных правила

Как правильно оценивать эффект от улучшений в e-mail рассылках: три главных правила

Хороший маркетинг — это доказательный маркетинг.

Но если не соблюсти несколько правил, то все насмарку: вроде бы результаты тестов положительные, конверсия растет, а выручка — нет.

Три главных правила оценки эффекта от рассылок:

  1. Разница в результатах должна быть значима
  2. Один тест - одна гипотеза
  3. Инвестиции в улучшения должны окупаться

1. Разница значима?

Всегда, всегда, всегда нужно помнить про статистику. Разница в результатах может быть как закономерностью, так и случайностью.
Например, на кассе вы опросили 10 покупателей, меняли ли они номер мобильного телефона за последнее время. Выяснилось, что 1 человек не пользуется телефоном вообще. Сделаете ли вы вывод, что 10% ваших покупателей не пользуются телефоном? Вряд ли. Вы скажете, что это какая-то случайность. Такие люди, наверное, есть, но их точно меньше 10%. Но если вы опросили 1000 человек и 100 человек сказали, что отказались от использования мобильного телефона? Вы были бы безумно удивлены, но отмахнуться от 10% стало бы тяжелее.
Чтобы понять, когда и насколько можно доверять данным, есть разработанные методологии и готовые инструменты. Например русскоязычный калькулятор Mindbox (подробная инструкция на странице калькулятора).

Как применять это на практике?

Предположим, вы провели тест: одной группе клиентов отправили письмо с простой картинкой, а другой группе — с анимированной. Получилось, что в одном варианте конверсия 14%, а в другом — 17%. Казалось бы — ура, рост конверсии на 21,5%! Но достаточно ли наблюдений (писем или показов страницы сайта)?
Берем цифры и подставляем в калькулятор (нижний слайдер ставьте на 95%):
Для того, чтобы правильно спланировать этот тест еще до его проведения, можно рассчитать, сколько минимум нужно отправленных писем каждого варианта, чтобы сразу получить достоверную оценку результатов.
Для нашего примера калькулятор показывает, что только если в каждом варианте более 3 000 писем, можно сказать, что вариант с конверсией 17% успешнее, чем вариант с конверсией в 14%.
  • Если нужно определить, какого объема должна быть выборка в каждом варианте (сколько писем, сколько показов странички сайта), вам нужно подставить две цифры в эту форму. Первая цифра — какая конверсия была до изменений или ожидается в одном из вариантов. Вторая цифры — минимум на сколько  вы хотите эту конверсию увеличить.
  • Если нужно понять, можно ли верить разнице конверсии в двух вариантах, нужно подставить абсолютные значения в следующую форму.
  • Если надо определить, различаются ли средние чеки в двух вариантах, нужно подставить столбцы со значениями в третью форму
Если тест проводили не вы, а вам предоставляют отчет, убедитесь, что была проведена проверка на значимость или запросите данные и самостоятельно проверьте их на калькуляторе. Если хотите почитать об этом всем побольше, то вот ключевые слова: доверительный интервал, 95% доверительная вероятность, уровень значимости 5%, ХИ-квадрат, T-тест, t-критерий Стьюдента.
Если возник спорный случай или не получается разобраться, пишите нам на news@mindbox.ru, мы постараемся помочь.

2. Тест точно проверяет нужную гипотезу?

Как построить эксперимент так, чтобы измерить именно то, что хочется измерить? Кажется, что все просто? Давайте разберем на примере.
Есть гипотеза: товарные рекомендации в письме увеличивают выручку.
Кажется, что АБ-тест должен быть такой: первый вариант письма — без рекомендаций, второй — с рекомендациями.
Но это не так. Давайте разберемся:
Когда мы говорим, что хотим измерить эффективность рекомендаций, мы имеем в виду измерение специального способа (алгоритма) подбора товаров. Считается, что именно качественный подбор растит конверсию.  Но что мы делаем, когда добавляем  рекомендации? На самом деле мы делаем две вещи:
  1. добавляем блок товаров в письмо
  2. выбираем с помощью рекомендательного алгоритма правильные товары в этот блок
Получается, что мы нарушили правило «один тест — одна гипотеза», и проверяем сразу два изменения.
В результате мы не сможем понять, что же именно изменило конверсию: само по себе наличие дополнительного блока с товарами или алгоритм их подбора?
Что делать?
Применить правило «один тест — одна гипотеза» и  добавить еще один вариант: письмо с блоком товаров, подобранных случайным образом.
Сравнивая конверсии попарно, можно определить, какой вклад делает каждая составляющая.
Сколько надо писем, чтобы такая разница была значима? Немало. В первой паре 15% и 17% будут достоверно различны, если  в каждом варианте будет больше 5 000 писем. Для второй же пары в 17% и 18% нужно уже больше 22 000 писем в каждом варианте.

3. Окупаются ли инвестиции?

Хорошо, допустим, мы грамотно провели тест и проверка на значимость показала, что конверсия или средний чек увеличились. Это хорошо и должно привести к увеличению выручки.
Теперь давайте разберемся, сколько нам стоил этот рост выручки, и окупились ли улучшения. В случае товарных рекомендаций, например — это затраты на разработку (или покупку) алгоритма + затраты на его обновление и поддержку.
Если эффект от рассылок дает прирост на 1%, т. е. 1 дополнительный заказ на 100 «обычных», хватает ли этого, чтобы окупить затраты?

Итог

  1. Проверяйте результаты на статистическую значимость
  2. Разбирайте тест на элементарные составляющие, 1 тест — 1 гипотеза
  3. Грамотно считайте деньги
Если вы делаете много тестов, выбираете выигрышные варианты, но в итоге у вас не растет выручка — это признак, что что-то вы делаете не так. АБ-тесты должны работать на ваш бизнес.