5 июня 2026

AB-тестирование: что это такое и как провести

AB-тест показывает, работает ли гипотеза — и на каком основании это можно утверждать. Он позволяет принять решение с конкретным уровнем уверенности: вариант B увеличивает конверсию на X%, вероятность случайного результата — меньше 5%.

Разобрались, как правильно спроектировать тест: выбрать метрику, рассчитать выборку и не получить ложные результаты.

Словарь маркетолога

AB-тест: Метод, который помогает выбрать лучший из нескольких вариантов на основе данных. Аудиторию делят на две группы: одной показывают вариант А (например, старый дизайн кнопки), другой — вариант Б (новый). Затем сравнивают, какой вариант принес больше целевых действий — открытий, кликов, заявок или продаж.

AB-тесты: как и зачем их проводить

Содержание:

Зачем нужно ab-тестирование и что оно измеряет
Как сформулировать гипотезу для АБ-тестирования
Как выбрать метрику для АБ-тестирования
Как рассчитать выборку для АБ-тестирования
Зачем проводить АА-тест перед АБ-тестированием
Что такое статистическая значимость и как ее читать
Сколько времени нужно на АБ-тестирование
Какие инструменты использовать для АБ-тестирования
Типичные ошибки в АБ-тестировании и как их избежать
Как провести АБ-тестирование: пошаговый чеклист

Зачем нужно ab-тестирование и что оно измеряет

AB-тест помогает отделить эффект изменения от фонового шума. Допустим, маркетолог изменил тему письма, увидел, что open rate вырос на 4% и счел изменение успешным. Но рост мог произойти из-за дня недели, праздника, изменения погоды или случайного всплеска активности базы.

AB-тест решает эту проблему: две группы получают письма в одно и то же время, при одинаковых внешних условиях. Разница в результатах объясняется только тем, что отличает вариант B от варианта A.

Исследование Рона Кохави

Без AB-тестирования команды часто переоценивают собственные изменения. Исследование Рона Кохави (Microsoft, Amazon) показывает: только треть гипотез, которые команды считают «очевидно верными», подтверждается в тестах. Две трети либо не дают эффекта, либо дают отрицательный.

Подборка АВ-тестов, чтобы повышать метрики email-рассылок

Сервис путешествий «Туту» проверял, где в письме лучше размещать промокод. Интуиция подсказывала: в начале, чтобы пользователь сразу видел выгоду. Тест показал обратное — вариант с промокодом в конце письма дал +20% переходов на сайт. Вариант «сверху» проиграл: получив промокод сразу, пользователь не дочитывал письмо и не переходил по ссылке.

Вариант рассылки «Туту» с промокодом в конце письма (победитель). Промокод в начале письма казался очевидным решением — тест показал обратное

Как сформулировать гипотезу для АБ-тестирования

Гипотеза — не идея («поменяем цвет кнопки»), а утверждение с механизмом и ожидаемым эффектом.

Плохая гипотеза

Хорошая гипотеза

Поменяем тему письма — будет больше открытий

Если добавить имя получателя в тему письма, open rate увеличится на 3–5%, потому что персонализация делает письмо более личным

Три элемента гипотезы:

Что изменяем — один конкретный элемент.
Ожидаемый эффект ― на сколько процентов вырастет или упадет метрика.
Механизм — почему это должно сработать.

Механизм важен не только для формулировки. Если гипотеза подтвердилась, механизм позволяет перенести вывод на другие каналы и сегменты. Если нет — понять, где логика дала сбой.

+ 5 п. п. к доле CRM в выручке. Как в Present & Simple улучшили рассылки благодаря AB-тестам

Бренд женской одежды Present & Simple тестировал, нужно ли показывать цены товаров прямо в письме. Гипотеза: цена в письме снижает желание кликать, потому что покупатель принимает решение о покупке до перехода на сайт. Тест подтвердил: click rate без цен — 4,7%, с ценами — 3,8%. Вывод распространили на все промописьма.

Победивший вариант письма Present & Simple — без указания цен. Click rate — 4,7% против 3,8% у версии с ценами

Как выбрать метрику для АБ-тестирования

Метрика — единственный показатель, по которому определяется победитель. Правило одной метрики: если смотреть на несколько показателей одновременно, вероятность случайно найти «значимый» результат резко возрастает.

Критерии хорошей метрики:

Напрямую отвечает на вопрос гипотезы. Если тестируют тему письма — смотрят на open rate, а не на выручку.
Чувствительна к изменению: если метрика меняется медленно, потребуется огромная выборка.
Фиксируется в момент действия, а не с задержкой.

Распространенная ошибка — выбирать финальную метрику (выручку или LTV), когда тест затрагивает верхний уровень воронки. Связь между темой письма и выручкой проходит через несколько промежуточных шагов: каждый добавляет шум и снижает способность теста обнаружить эффект.

Иногда правильная метрика неочевидна. Для теста push-уведомлений логичной метрикой кажется CTR. Но если цель — покупка, лучше смотреть на конверсию из клика в заказ: CTR может вырасти, а продажи — упасть, если клики привлекают незаинтересованных пользователей.

Как рассчитать выборку для АБ-тестирования

Размер выборки определяет, насколько уверенно можно доверять результату. Слишком маленькая — тест не поймает реальный эффект. Слишком большая — потрачены время и деньги.

Для расчета нужны три параметра:

1. Базовая конверсия — текущее значение метрики, например open rate 18%.

2. Минимальный значимый эффект (MDE) — наименьший прирост, ради которого стоит менять вариант, например +2 п. п.

3. Уровень значимости и мощность — обычно α = 0,05 и мощность 80%.

Рассчитать выборку можно с помощью калькулятора AB-тестов Mindbox. Нужно ввести базовую конверсию и желаемый эффект, и сервис расчитает минимальный размер каждой группы.

Чтобы выбрать MDE, нужно определить, какой минимальный прирост метрики оправдывает затраты на внедрение? Если изменение стоит одного часа разработчика — MDE можно ставить 1%. Если внедрение потребует переработки шаблонов — рентабельным будет только прирост от 5%. Слишком маленький MDE требует огромной выборки и делает тест практически нереализуемым.

Например, базовый open rate — 18%. Маркетолог хочет зафиксировать рост на 2 п. п. (до 20%). При уровне значимости 95% и мощности 80% нужно 3400 получателей в каждой группе, всего 6800. Если снизить MDE до 1 п. п. — потребуется уже 14 000 получателей.

«Читай-город» проводил тест темы письма с персонализацией на выборке 50 тысяч подписчиков. Калькулятор показал минимальную выборку 9600 — взяли с запасом. Через семь дней вариант с именем выиграл с уровнем значимости 97%.

Зачем проводить АА-тест перед АБ-тестированием

AA-тест — предварительная проверка системы тестирования. Обе группы получают одинаковый вариант A. Если результаты статистически значимо различаются — система разбивки работает некорректно.

AA-тест нужен:

— При первом запуске платформы тестирования.

— После изменений в системе разделения трафика или аудитории.

— При переходе на новый инструмент.

Длительность AA-теста — такая же, как у планового AB-теста. Проводить его при каждом тесте не нужно: достаточно периодической проверки и при изменениях в системе.

Если AA-тест показал значимые различия ― нужно повторить его еще два раза. Если победитель появляется стабильно, проблема в логике теста: ошибки в сегментации, пересечение групп, технические различия между вариантами (скорость отрисовки, браузеры).

AA-тест также помогает откалибровать ожидания команды. Если даже при одинаковых вариантах метрика «прыгает» на 2–3%, значит, тест с MDE меньше 3% будет давать ненадежные результаты — и это лучше знать до запуска.

Что такое статистическая значимость и как ее читать

Статистическая значимость показывает, что результат не случаен. Обычно используют пороговое значение 95%: вероятность случайного результата меньше 5%.

Также важны:

— Доверительный интервал — диапазон, в котором с заданной вероятностью лежит истинный эффект. Узкий интервал означает высокую точность оценки; широкий — низкую, даже при значимом результате.

— Практическая значимость — статистически значимый эффект в 0,1 п. п. может не стоить затрат на внедрение.

— Мощность теста — вероятность обнаружить эффект, если он есть. При мощности 80% одна из пяти реальных разниц останется незамеченной.

Например, тест показал прирост +0,3 п. п. при базовом open rate 20% — это 1,5% в относительных единицах. Стоит ли внедрять? Зависит от стоимости изменения и масштаба базы.

Сколько времени нужно на АБ-тестирование

Минимальная длительность — один-два полных цикла покупательской активности. Для email-рассылки — не меньше семи дней, чтобы охватить все дни недели. Для онлайн-магазина — минимум две недели.

Нельзя останавливать тест, когда один вариант вышел вперед. Нужно дождаться, пока наберется запланированная выборка и пройдет минимальный срок теста — оба условия должны выполниться одновременно.

Факторы, которые влияют на длительность теста:

— Размер активной аудитории — чем меньше база, тем дольше набирается выборка.

— Частота контакта — в push-канале выборка набирается быстрее, чем в email.

— Сезонность — тест в декабре нельзя применять к данным января.

Отдельный вопрос — «новизна эффекта». Когда пользователи впервые видят изменение, они реагируют активнее просто потому, что оно новое. Этот эффект затухает через несколько дней. Если тест остановить в первые два дня, победитель может оказаться ложным. Минимальный срок — неделя — частично нейтрализует этот эффект.

Какие инструменты использовать для АБ-тестирования

Основные инструменты для AB-тестирования в маркетинге:

Инструмент

Что тестирует

Особенности

Mindbox

Тему, контент, время отправки, сегменты в email, push, SMS

Встроенный калькулятор выборки, автоматическая отправка победителя

Varioqub («Яндекс»)

Элементы сайта, тексты, лэйауты

Интеграция с «Яндекс Метрикой», сплит-тест по сессиям и пользователям

Unisender

Тему, контент, время отправки в email

Российская платформа, встроенный статдвижок

Sendsay

Тему, контент, время, сегменты в email

Российская платформа, AB-тест с автоопределением победителя

VWO

Элементы сайта, формы, воронки

Тепловые карты и запись сессий рядом с результатами; оплата через зарубежную карту

«Яндекс Метрика»

Страницы и элементы сайта через эксперименты

Бесплатно, интеграция с Директом, отчеты по целям

Типичные ошибки в АБ-тестировании и как их избежать

Исследование Рона Кохави

Большинство некорректных результатов AB-тестов — следствие методологических ошибок, а не случайности. Рон Кохави в исследовании на данных Microsoft и Amazon описывает несколько системных паттернов, из-за которых команды ошибочно внедряют изменения, не дающие реального эффекта.

Остановить тест досрочно (peeking problem)

Не всем AB-тестам можно доверять: чек-лист проверки с примерами

Самая распространенная ошибка. Маркетолог запускает тест, проверяет результаты на третий день и видит: вариант B впереди со значимостью 95%. Останавливает тест и объявляет победителя.

Проблема: при многократных проверках промежуточных результатов вероятность случайно получить «значимый» результат резко растет. Кохави показывает: при ежедневных проверках двухнедельного теста вероятность ложноположительного результата достигает 40%, даже если реального эффекта нет.

Решение: зафиксировать длительность и выборку до запуска, не смотреть на результаты до окончания. Если заглядывать все равно нужно — использовать Sequential testing (реализован в VWO): он корректирует порог значимости при досрочных проверках.

Тестировать несколько изменений одновременно

Если изменить тему письма и кнопку одновременно, невозможно понять, что именно повлияло на результат. Даже при значимом результате неясно, что масштабировать.

Исключение: многовариантное тестирование (MVT). Но оно требует значительно большей выборки — пропорционально количеству комбинаций. Для базы до 100 тысяч MVT обычно нецелесообразен.

Смотреть на несколько метрик и выбирать «победившую»

Если запустить тест без заранее определенной основной метрики и потом выбрать ту, которая показала значимость, — это называется p-hacking. При десяти метриках вероятность случайно найти хотя бы одну «значимую» превышает 40%.

Не учитывать загрязнение данных

Один пользователь попадает в обе группы: получает и вариант A, и вариант B. Чаще всего — из-за ошибок в сегментации или при тестировании на анонимных пользователях, которые потом авторизуются.

Решение: использовать устойчивые идентификаторы (user ID, email) вместо cookie для разбивки. Проверять пересечение групп перед запуском.

Игнорировать сезонность и внешние события

Тест, запущенный в пятницу вечером перед длинными выходными, даст нерепрезентативную выборку. Результаты теста в «Черную пятницу» нельзя применять к обычным неделям.

Отсюда правило: не запускать тесты в нетипичные периоды. Если запуск совпал с внешним событием — зафиксировать это в выводах и повторить тест в нормальных условиях.

Применять выводы теста не к той аудитории

Тест проводился на сегменте «активные покупатели», а вывод применяется ко всей базе. Или тест запускался летом, а результаты используются зимой. Каждый вывод AB-теста действует в тех же условиях, в которых был получен. Поэтому важно фиксировать не только результат теста, но и контекст: сегмент, канал, период, внешние события. Это база для корректного применения выводов в будущем.

Как провести АБ-тестирование: пошаговый чеклист

Сформулировать гипотезу: что меняем, ожидаемый эффект, механизм.
Выбрать одну метрику успеха — до запуска теста.
Рассчитать выборку.
Провести AA-тест при первом запуске новой платформы тестирования.
Запустить тест.
Дождаться набора выборки и минимального срока — оба условия.
Интерпретировать результат: статзначимость, доверительный интервал, практическая значимость.
Зафиксировать вывод с контекстом: сегмент, канал, период.

5 вопросов об AB-тестах

Чем AB-тест отличается от сплит-теста?

Ничем — это одно и то же. «Сплит-тест» и «AB-тест» — синонимы: оба термина описывают метод, при котором аудитория разделяется (split) на группы и каждой показывают свой вариант. «AB-тест» чаще используется в продуктовой и CRM-среде, «сплит-тест» — в контексте рекламных объявлений и лендингов. Иногда «сплит-тест» применяют для обозначения тестов с более чем двумя вариантами (A/B/C), но единого стандарта нет.

Можно ли тестировать несколько изменений одновременно?

В классическом AB-тесте — нет. Если изменить тему и кнопку одновременно, непонятно, что повлияло на результат. Для одновременного тестирования нескольких изменений используется многовариантное тестирование (MVT), но оно требует значительно большей выборки — пропорционально количеству комбинаций.

Что делать, если тест не показал значимых результатов?

Незначимый результат — тоже результат. Он означает: при данной выборке эффект настолько мал, что его нельзя отличить от шума. Три возможных вывода: гипотеза неверна; эффект существует, но меньше выбранного MDE; выборка недостаточна. Перед повторным запуском стоит пересмотреть MDE или увеличить выборку.

Как часто проводить AB-тесты?

Практика: один активный тест в канале в каждый момент времени. Параллельные тесты в одном сегменте могут взаимодействовать и искажать результаты. Частота зависит от объема трафика: при базе 500 000 можно тестировать еженедельно, при 20 000 — раз в месяц.

Как AB-тестирование применяют в «Яндекс Директ»?

В «Яндекс Директ» AB-тест позволяет сравнивать объявления, посадочные страницы и стратегии ставок. Трафик разделяется через «Эксперименты» в «Яндекс Аудиториях». Для корректного теста нужно запускать варианты одновременно в одной кампании, а не в разных. Результаты оцениваются в «Яндекс Метрике».