АБ-тест работает только если правильно выбрать метрику, рассчитать выборку и не трогать результаты раньше времени. Разбираем каждый шаг ― от гипотезы до интерпретации результата.
5 июня 2026
AB-тестирование: что это такое и как провести
AB-тест показывает, работает ли гипотеза — и на каком основании это можно утверждать. Он позволяет принять решение с конкретным уровнем уверенности: вариант B увеличивает конверсию на X%, вероятность случайного результата — меньше 5%.
Разобрались, как правильно спроектировать тест: выбрать метрику, рассчитать выборку и не получить ложные результаты.
Содержание:
Зачем нужно ab-тестирование и что оно измеряет
AB-тест помогает отделить эффект изменения от фонового шума. Допустим, маркетолог изменил тему письма, увидел, что open rate вырос на 4% и счел изменение успешным. Но рост мог произойти из-за дня недели, праздника, изменения погоды или случайного всплеска активности базы.
AB-тест решает эту проблему: две группы получают письма в одно и то же время, при одинаковых внешних условиях. Разница в результатах объясняется только тем, что отличает вариант B от варианта A.
Без AB-тестирования команды часто переоценивают собственные изменения. Исследование Рона Кохави (Microsoft, Amazon) показывает: только треть гипотез, которые команды считают «очевидно верными», подтверждается в тестах. Две трети либо не дают эффекта, либо дают отрицательный.
Сервис путешествий «Туту» проверял, где в письме лучше размещать промокод. Интуиция подсказывала: в начале, чтобы пользователь сразу видел выгоду. Тест показал обратное — вариант с промокодом в конце письма дал +20% переходов на сайт. Вариант «сверху» проиграл: получив промокод сразу, пользователь не дочитывал письмо и не переходил по ссылке.
Вариант рассылки «Туту» с промокодом в конце письма (победитель). Промокод в начале письма казался очевидным решением — тест показал обратное
Как сформулировать гипотезу для АБ-тестирования
Гипотеза — не идея («поменяем цвет кнопки»), а утверждение с механизмом и ожидаемым эффектом.
Плохая гипотеза
Хорошая гипотеза
Поменяем тему письма — будет больше открытий
Если добавить имя получателя в тему письма, open rate увеличится на 3–5%, потому что персонализация делает письмо более личным
Три элемента гипотезы:
- Что изменяем — один конкретный элемент.
- Ожидаемый эффект ― на сколько процентов вырастет или упадет метрика.
- Механизм — почему это должно сработать.
Механизм важен не только для формулировки. Если гипотеза подтвердилась, механизм позволяет перенести вывод на другие каналы и сегменты. Если нет — понять, где логика дала сбой.
Бренд женской одежды Present & Simple тестировал, нужно ли показывать цены товаров прямо в письме. Гипотеза: цена в письме снижает желание кликать, потому что покупатель принимает решение о покупке до перехода на сайт. Тест подтвердил: click rate без цен — 4,7%, с ценами — 3,8%. Вывод распространили на все промописьма.
Победивший вариант письма Present & Simple — без указания цен. Click rate — 4,7% против 3,8% у версии с ценами
Как выбрать метрику для АБ-тестирования
Метрика — единственный показатель, по которому определяется победитель. Правило одной метрики: если смотреть на несколько показателей одновременно, вероятность случайно найти «значимый» результат резко возрастает.
Критерии хорошей метрики:
- Напрямую отвечает на вопрос гипотезы. Если тестируют тему письма — смотрят на open rate, а не на выручку.
- Чувствительна к изменению: если метрика меняется медленно, потребуется огромная выборка.
- Фиксируется в момент действия, а не с задержкой.
Распространенная ошибка — выбирать финальную метрику (выручку или LTV), когда тест затрагивает верхний уровень воронки. Связь между темой письма и выручкой проходит через несколько промежуточных шагов: каждый добавляет шум и снижает способность теста обнаружить эффект.
Иногда правильная метрика неочевидна. Для теста push-уведомлений логичной метрикой кажется CTR. Но если цель — покупка, лучше смотреть на конверсию из клика в заказ: CTR может вырасти, а продажи — упасть, если клики привлекают незаинтересованных пользователей.
Как рассчитать выборку для АБ-тестирования
Размер выборки определяет, насколько уверенно можно доверять результату. Слишком маленькая — тест не поймает реальный эффект. Слишком большая — потрачены время и деньги.
Для расчета нужны три параметра:
1. Базовая конверсия — текущее значение метрики, например open rate 18%.
2. Минимальный значимый эффект (MDE) — наименьший прирост, ради которого стоит менять вариант, например +2 п. п.
3. Уровень значимости и мощность — обычно α = 0,05 и мощность 80%.
Рассчитать выборку можно с помощью калькулятора AB-тестов Mindbox. Нужно ввести базовую конверсию и желаемый эффект, и сервис расчитает минимальный размер каждой группы.
Чтобы выбрать MDE, нужно определить, какой минимальный прирост метрики оправдывает затраты на внедрение? Если изменение стоит одного часа разработчика — MDE можно ставить 1%. Если внедрение потребует переработки шаблонов — рентабельным будет только прирост от 5%. Слишком маленький MDE требует огромной выборки и делает тест практически нереализуемым.
Например, базовый open rate — 18%. Маркетолог хочет зафиксировать рост на 2 п. п. (до 20%). При уровне значимости 95% и мощности 80% нужно 3400 получателей в каждой группе, всего 6800. Если снизить MDE до 1 п. п. — потребуется уже 14 000 получателей.
«Читай-город» проводил тест темы письма с персонализацией на выборке 50 тысяч подписчиков. Калькулятор показал минимальную выборку 9600 — взяли с запасом. Через семь дней вариант с именем выиграл с уровнем значимости 97%.
Зачем проводить АА-тест перед АБ-тестированием
AA-тест — предварительная проверка системы тестирования. Обе группы получают одинаковый вариант A. Если результаты статистически значимо различаются — система разбивки работает некорректно.
AA-тест нужен:
— При первом запуске платформы тестирования.
— После изменений в системе разделения трафика или аудитории.
— При переходе на новый инструмент.
Длительность AA-теста — такая же, как у планового AB-теста. Проводить его при каждом тесте не нужно: достаточно периодической проверки и при изменениях в системе.
Если AA-тест показал значимые различия ― нужно повторить его еще два раза. Если победитель появляется стабильно, проблема в логике теста: ошибки в сегментации, пересечение групп, технические различия между вариантами (скорость отрисовки, браузеры).
AA-тест также помогает откалибровать ожидания команды. Если даже при одинаковых вариантах метрика «прыгает» на 2–3%, значит, тест с MDE меньше 3% будет давать ненадежные результаты — и это лучше знать до запуска.
Что такое статистическая значимость и как ее читать
Статистическая значимость показывает, что результат не случаен. Обычно используют пороговое значение 95%: вероятность случайного результата меньше 5%.
Также важны:
— Доверительный интервал — диапазон, в котором с заданной вероятностью лежит истинный эффект. Узкий интервал означает высокую точность оценки; широкий — низкую, даже при значимом результате.
— Практическая значимость — статистически значимый эффект в 0,1 п. п. может не стоить затрат на внедрение.
— Мощность теста — вероятность обнаружить эффект, если он есть. При мощности 80% одна из пяти реальных разниц останется незамеченной.
Например, тест показал прирост +0,3 п. п. при базовом open rate 20% — это 1,5% в относительных единицах. Стоит ли внедрять? Зависит от стоимости изменения и масштаба базы.
Сколько времени нужно на АБ-тестирование
Минимальная длительность — один-два полных цикла покупательской активности. Для email-рассылки — не меньше семи дней, чтобы охватить все дни недели. Для онлайн-магазина — минимум две недели.
Нельзя останавливать тест, когда один вариант вышел вперед. Нужно дождаться, пока наберется запланированная выборка и пройдет минимальный срок теста — оба условия должны выполниться одновременно.
Факторы, которые влияют на длительность теста:
— Размер активной аудитории — чем меньше база, тем дольше набирается выборка.
— Частота контакта — в push-канале выборка набирается быстрее, чем в email.
— Сезонность — тест в декабре нельзя применять к данным января.
Отдельный вопрос — «новизна эффекта». Когда пользователи впервые видят изменение, они реагируют активнее просто потому, что оно новое. Этот эффект затухает через несколько дней. Если тест остановить в первые два дня, победитель может оказаться ложным. Минимальный срок — неделя — частично нейтрализует этот эффект.
Какие инструменты использовать для АБ-тестирования
Основные инструменты для AB-тестирования в маркетинге:
Инструмент
Что тестирует
Особенности
Mindbox
Тему, контент, время отправки, сегменты в email, push, SMS
Встроенный калькулятор выборки, автоматическая отправка победителя
Varioqub («Яндекс»)
Элементы сайта, тексты, лэйауты
Интеграция с «Яндекс Метрикой», сплит-тест по сессиям и пользователям
Unisender
Тему, контент, время отправки в email
Российская платформа, встроенный статдвижок
Sendsay
Тему, контент, время, сегменты в email
Российская платформа, AB-тест с автоопределением победителя
VWO
Элементы сайта, формы, воронки
Тепловые карты и запись сессий рядом с результатами; оплата через зарубежную карту
«Яндекс Метрика»
Страницы и элементы сайта через эксперименты
Бесплатно, интеграция с Директом, отчеты по целям
Типичные ошибки в АБ-тестировании и как их избежать
Большинство некорректных результатов AB-тестов — следствие методологических ошибок, а не случайности. Рон Кохави в исследовании на данных Microsoft и Amazon описывает несколько системных паттернов, из-за которых команды ошибочно внедряют изменения, не дающие реального эффекта.
Остановить тест досрочно (peeking problem)
Самая распространенная ошибка. Маркетолог запускает тест, проверяет результаты на третий день и видит: вариант B впереди со значимостью 95%. Останавливает тест и объявляет победителя.
Проблема: при многократных проверках промежуточных результатов вероятность случайно получить «значимый» результат резко растет. Кохави показывает: при ежедневных проверках двухнедельного теста вероятность ложноположительного результата достигает 40%, даже если реального эффекта нет.
Решение: зафиксировать длительность и выборку до запуска, не смотреть на результаты до окончания. Если заглядывать все равно нужно — использовать Sequential testing (реализован в VWO): он корректирует порог значимости при досрочных проверках.
Тестировать несколько изменений одновременно
Если изменить тему письма и кнопку одновременно, невозможно понять, что именно повлияло на результат. Даже при значимом результате неясно, что масштабировать.
Исключение: многовариантное тестирование (MVT). Но оно требует значительно большей выборки — пропорционально количеству комбинаций. Для базы до 100 тысяч MVT обычно нецелесообразен.
Смотреть на несколько метрик и выбирать «победившую»
Если запустить тест без заранее определенной основной метрики и потом выбрать ту, которая показала значимость, — это называется p-hacking. При десяти метриках вероятность случайно найти хотя бы одну «значимую» превышает 40%.
Не учитывать загрязнение данных
Один пользователь попадает в обе группы: получает и вариант A, и вариант B. Чаще всего — из-за ошибок в сегментации или при тестировании на анонимных пользователях, которые потом авторизуются.
Решение: использовать устойчивые идентификаторы (user ID, email) вместо cookie для разбивки. Проверять пересечение групп перед запуском.
Игнорировать сезонность и внешние события
Тест, запущенный в пятницу вечером перед длинными выходными, даст нерепрезентативную выборку. Результаты теста в «Черную пятницу» нельзя применять к обычным неделям.
Отсюда правило: не запускать тесты в нетипичные периоды. Если запуск совпал с внешним событием — зафиксировать это в выводах и повторить тест в нормальных условиях.
Применять выводы теста не к той аудитории
Тест проводился на сегменте «активные покупатели», а вывод применяется ко всей базе. Или тест запускался летом, а результаты используются зимой. Каждый вывод AB-теста действует в тех же условиях, в которых был получен. Поэтому важно фиксировать не только результат теста, но и контекст: сегмент, канал, период, внешние события. Это база для корректного применения выводов в будущем.
Как провести АБ-тестирование: пошаговый чеклист
- Сформулировать гипотезу: что меняем, ожидаемый эффект, механизм.
- Выбрать одну метрику успеха — до запуска теста.
- Рассчитать выборку.
- Провести AA-тест при первом запуске новой платформы тестирования.
- Запустить тест.
- Дождаться набора выборки и минимального срока — оба условия.
- Интерпретировать результат: статзначимость, доверительный интервал, практическая значимость.
- Зафиксировать вывод с контекстом: сегмент, канал, период.
5 вопросов об AB-тестах
Чем AB-тест отличается от сплит-теста?
Ничем — это одно и то же. «Сплит-тест» и «AB-тест» — синонимы: оба термина описывают метод, при котором аудитория разделяется (split) на группы и каждой показывают свой вариант. «AB-тест» чаще используется в продуктовой и CRM-среде, «сплит-тест» — в контексте рекламных объявлений и лендингов. Иногда «сплит-тест» применяют для обозначения тестов с более чем двумя вариантами (A/B/C), но единого стандарта нет.
Можно ли тестировать несколько изменений одновременно?
В классическом AB-тесте — нет. Если изменить тему и кнопку одновременно, непонятно, что повлияло на результат. Для одновременного тестирования нескольких изменений используется многовариантное тестирование (MVT), но оно требует значительно большей выборки — пропорционально количеству комбинаций.
Что делать, если тест не показал значимых результатов?
Незначимый результат — тоже результат. Он означает: при данной выборке эффект настолько мал, что его нельзя отличить от шума. Три возможных вывода: гипотеза неверна; эффект существует, но меньше выбранного MDE; выборка недостаточна. Перед повторным запуском стоит пересмотреть MDE или увеличить выборку.
Как часто проводить AB-тесты?
Практика: один активный тест в канале в каждый момент времени. Параллельные тесты в одном сегменте могут взаимодействовать и искажать результаты. Частота зависит от объема трафика: при базе 500 000 можно тестировать еженедельно, при 20 000 — раз в месяц.
Как AB-тестирование применяют в «Яндекс Директ»?
В «Яндекс Директ» AB-тест позволяет сравнивать объявления, посадочные страницы и стратегии ставок. Трафик разделяется через «Эксперименты» в «Яндекс Аудиториях». Для корректного теста нужно запускать варианты одновременно в одной кампании, а не в разных. Результаты оцениваются в «Яндекс Метрике».