Проведение a/b-тестирования: пошаговый разбор

Содержание

Возможности сервисов A/B-тестирования

Сегодня на рынке существует множество сервисов для A/B тестирования, не говоря уже о тех, которые предлагают тесты как часть комплексных услуг. Выбранное решение должно соответствовать масштабу бизнеса, отражать ваш предыдущий опыт работы с инструментами A/B тестирования и использовать имеющиеся ресурсы.

Но есть и другие факторы, которые следует учитывать. Перечислим обязательные и дополнительные функции такого ПО, а также возможные технические характеристики.

Обязательные функции

  • Возможность A/B/n тестирования. При A/B-тесте посетитель видит версию A или B определенной страницы. Тест с тремя версиями страниц можно назвать тестом A/B/C. Аббревиатура «A/B/n» используется как сокращение для теста, имеющего множество — «N» — разных версий.
  • «Умный» редактор. Некоторые инструменты A/B-тестирования имеют встроенные веб-редакторы для создания веб-страниц. Это похоже на интерфейс редактирования в CMS WordPress или Тильда. Такая опция полезна для начинающих «тестировщиков», особенно если работа с IT-отделом в компании затруднена.
  • Режим «автопилота» — если курс коэффициента конверсии внезапно изменится, нужно быстро отреагировать на это. Функция «автопилота» направляет трафик на наиболее эффективные в ходе тестирования страницы.

Дополнительные функции

  • «Многорукий бандит» — алгоритм позволяет «автопилоту» завершить тест с максимальной достоверностью, отправляя больше трафика на страницу, которая показывает наибольшую конверсию в ходе тестирования. Некоторые инструменты A/B-тестирования равномерно распределяют трафик между вариантами A и B. Это может означать направление половины трафика сайта на более «слабую» версию, что может стоить крупным компаниям огромных денег. «Многорукий бандит» позволяет этого избежать.
  • Библиотека идей для A/B тестирования. В какой-то момент идеи заканчиваются у каждого. Библиотека идей помогает найти вдохновение в опыте других.
  • Многовариантное тестирование, MultiVariate Testing, MVT. Многовариантные или мультимерные тесты позволяют выполнять тестирование одновременно на нескольких независимых элементах страницы. Существуют разные способы их проведения. Вы можете показывать пользователям все возможные комбинации элементов страницы или только их часть. Или настроить более редкое отображение «проигрышных» комбинаций.

Технические характеристики

  • На стороне клиента. Такие инструменты A/B тестирования работают, напрямую передавая параметры отображаемой страницы в браузер пользователя. Это делается путем «пометки» страницы несколькими строками кода JavaScript. Когда страница загружается, JavaScript связывается с платформой А/Б тестов, которая и «сообщает» браузеру, какой контент отображать. Платформа также отслеживает количество конверсий.
  • На стороне сервера. Такие сервисы запускаются на стороне страницы. Страница при этом компилируется сервером и представляется браузеру в готовом виде. Точно так же, как некоторые программы для ПК доступны только для Windows или Mac, некоторые серверные программы доступны только для определенных серверов — например, для PHP.

Устойчивые гипотезы A/B-тестирования

Первым делом нужно определить, что именно вы хотели бы попробовать изменить. Далее вы формируете гипотезу, а после тестирования по полученным результатам делаете вывод. Без гипотезы A/B- тестирование не имеет смысла – ценность от выводов, которые вы получите, будет невелика. 

Ниже перечислены самые частые эксперименты для A/B-тестирования. 

  1. Разные заголовки, как в объявлении, так и на посадочной странице дают разный результат.
  2. Чем меньше полей для заполнения в лид-форме, тем выше конверсия.
  3. Модификация CTA элемента на посадочной странице. 
  4. Наличие гарантии. 
  5. Непрерывное тестирование элементов приводит к различным результатам. 

Как провести А/Б тест

  1. Определите метрику, на которую вы будете ориентироваться. Это может быть коэффициент конверсии, показатель кликабельности (CTR), количество регистраций. 
  2. Разработайте гипотезу о том, что именно поменяется, и каких результатов вы ожидаете.  
  3. Подготовьте эксперимент: 
    • Создайте две версии сообщения/поп-апа/письма;
    • Решите, на каких пользователях вы будете проводить эксперимент, а какие будут в контрольной группе — части аудитории, которая не увидит ни один из вариантов. Это поможет определить, что происходит с конверсией без вашего сообщения;
    • Посчитайте минимальный размер выборки с помощью калькулятора;
    • Определите продолжительность А/Б тестирования.
  4. Проведите эксперимент. 
  5. Проанализируйте результаты. 

    Проверьте статистическую значимость с помощью калькулятора, чтобы не делать ошибочных выводов. Чем она ниже, тем больше вероятность, что полученные вами результаты — случайность.

Как запустить А/Б тест в Carrot quest

Зайдите в раздел «Триггерные сообщения», нажмите на кнопку «Создать сообщение» и выберите нужный тип. Создайте первый вариант сообщения нажмите на кнопку «Добавить А/Б тест»:

Раздел «Триггерные сообщения»

Ещё один вариант: вы можете выбрать уже существующее триггерное сообщение и создать для него А/Б тест.

После этого откроется раздел, в котором вы сможете сделать второй вариант. Carrot quest сам разделит аудиторию сообщения на две равные группы и покажет каждой свой вариант. Дальше вы ждете, когда в статистике сообщения наберется достаточно данных. В зависимости от трафика, на это может потребоваться от нескольких дней до нескольких месяцев.

В разделе «Условия отправки» вы можете включить контрольную группу. По умолчанию она составляет 10% — это значит, что 10% посетителей сайта не увидят ни варианта А, ни варианта B. Вы можете задать своё значение. Но помните, чем меньше процент контрольной группы, тем дольше вы будете ждать, пока соберется статистика.

Раздел «Условия отправки»

Чтобы узнать, какой вариант сработал лучше, кликните на иконку «Статистика» и перейдите в раздел «А/B тест»:

Иконка «Статистика»

Вы можете посмотреть:

Данные выводятся рядом, чтобы вы могли сравнить цифры, а также в виде графиков:

Статистика по А/Б тесту

Вы можете посмотреть, сколько денег принёс вам каждый из вариантов. Для этого при настройке автосообщения задайте цель (следующий шаг после Вид и Содержание). Это событие, которое должен выполнить пользователь после прочтения автосообщения (например, купить). В статистике вы сможете увидеть конверсию достижения цели и полученный доход.

Как только вы набрали достаточно статистических данных и выбрали сообщение-победителя, завершите А/Б-тест. Для этого нажмите кнопку «Завершить тест» и выберите вариант сообщения, который хотите отключить:

Как завершить А/Б тест

Как только вы снова решите сравнить сообщение А с каким-либо другим, создайте новый А/Б тест на основе этого же сообщения. У одного сообщения может быть неограниченное количество А/Б-тестов. Историю всех закрытых А/Б-тестов можно посмотреть в архиве.

Посмотрите нашу видеоинструкцию о том, как запустить A/Б тест в Carrot quest:

A/B-тестирование в вашей компании

Эксперименты и анализ их результатов помогают нам расставлять приоритеты, выявлять точки роста, четко понимать, что именно нужно улучшать для увеличения оборота компании. Благодаря тестам выводы максимально точны и это позволяет эффективно развивать продукт. 

Разработка системы A/B-тестирования довольно сложная. Чтобы система работала качественно, нужны существенные вложения и специалисты. Если того и другого нет и речь идет о стартапе с понятной и небольшой аудиторией, то что-то улучшать можно и на основе сбора обратной связи от пользователей. Сложные алгоритмы тестирования будут избыточны. 

A/B-тестами имеет смысл заниматься в том случае, когда компания уже нарастила аудиторию в несколько миллионов и не может проводить глубинные интервью. Тогда в ход идут исследования, масштабные опросы и анализ поведения. 

Принцип 12. Сосредоточиться на небольших, постепенных тестах, которые меняют одну вещь за шаг

Очень заманчиво запускать большие эксперименты или связку маленьких в надежде, что они приведут к большим результатам. Но часто вы инвестируете в это тонны усилий, а потом узнаёте, что ваше изменение не работает. И тогда трудно понять, что именно произошло: только часть эксперимента потерпела неудачу или это было взаимодействие нескольких изменений? Лучшее решение — разделить большие эксперименты на более мелкие тесты.

Дэн Маккинли, бывший главный инженер Etsy, приводит отличный пример этой проблемы в своей презентации о непрерывных экспериментах. Его команда провела недели, работая над включением infinite scroll для страницы поиска. Но когда они запустили A/B-тестирование, то обнаружили что infinite scroll показывает плохие результаты. Их первой реакцией было предположение, что это, должно быть, какая-то ошибка, но когда они нашли ошибку и исправили её, результаты остались неизменными. Поэтому они вернулись на шаг назад — к тому, почему они решили, что бесконечный скролл будет лучше. Во-первых, действительно ли большее количество элементов на странице лучше? Когда они изменили только количество элементов на странице поиска, то обнаружили, что получили большее количество кликов, но такое же количество покупок. Во-вторых, было ли столь значительным улучшением получение быстрых результатов поиска? Нет, искусственное замедление поиска ничему не повредило. Если бы они сначала проверили эти гипотезы, не пришлось бы инвестировать в бесконечный скролл.

В нашем Телеграм-канале Маркетинг за три минуты мы пересказываем самые интересные материалы про онлайн-маркетинг в формате постов-трёхминуток — подписывайтесь и будьте в курсе. А если вы хотите поболтать и поделиться своими мыслями, приходите к нам в Чат Солдат.

Калькулятор размера выборки для А/Б-теста: как пользоваться

Размер выборки — это количество людей, посетивших 2 варианта веб-страницы. Как правило, чем это число больше, тем точнее будет тест. При работе с меньшими наборами данных более вероятны отклонения — группы людей, которые ведут себя совершенно иначе, чем целевая аудитория в целом. Поэтому уменьшить статистические ошибки можно за счет увеличения размера выборки.

Чтобы рассчитать размер выборки, которая понадобится для достижения статистически значимых результатов, необходимо знать 3 вещи:

  • уровень достоверности, Confidence Level;
  • коэффициент конверсии, CR;
  • статистическая мощность теста, Statistical Power;
  • ожидаемый прирост конверсии.

Первые две метрики мы уже рассматривали в предыдущем калькуляторе, поговорим о мощности. 

Способность А/Б-теста проявлять эффект известна как статистическая мощность. Она измеряется в процентах — от 1 до 100% или по шкале от 0 до 1, в десятых долях — например, 0,5 или 0,7. В разных калькуляторах расчет этого значения реализован по-разному. Обозначает он одно и то же — это время — в процентах или баллах, в течение которого будет обнаружен минимальный эффект от теста. При условии, что этот эффект вообще существует. Чем выше процент, тем больше вы уверены в результатах теста и тем меньше в нем ошибок. 

Если эксперимент А имеет статистическую мощность 70%, а эксперимент Б — 95%, то есть высокая вероятность, что Б более надежен, чем А. Точно так же эксперимент А с более низкой мощностью содержит больше погрешностей. Обычно для расчетов достаточно брать значение 80-85%.

Что касается ожидаемого прироста конверсии, то его назначение понятно из названия. Вам нужно понимать, какого результата вы хотели бы добиться, чтобы повысить CR в результате следующего А/Б-тестирования. Есть одно «но»: чем ниже вы установите этот показатель, тем больше людей понадобится для получения надежных результатов. Математически это объясняется тем, что для подтверждения незначительных колебаний всегда требуется большая выборка.

Посмотрим на пример работы калькулятора размера выборки. Их много и в англоязычном, и в русскоязычном Интернете, так что просто выберите самый удобный для вас. Мы провели расчеты на калькуляторе выборки от Mindbox.

Зададим следующие данные:

  • коэффициент конверсии, CR — 1,25%, именно это значение мы вычислили выше с помощью статистической значимости;
  • статистическая мощность — 80%;
  • уровень достоверности — 95%, тот же, что и в предыдущем расчете;
  • ожидаемый прирост конверсии — 0,4%.

В результате получим необходимый размер выборки при заданных условиях — 12 111 человек.

Существует и другая, более простая версия калькулятора статистической выборки. Его математическая модель построена на трех метриках — уровне достоверности, доверительном интервале и генеральной совокупности. Мы воспользуемся простым решением от Центра БМА.

Уровень достоверности мы уже разбирали. Под доверительным интервалом в данном случае понимается процент ошибок, который вы готовы допустить в данных. Чем меньше процент доверительного интервала, тем более точные результаты вы хотите получить, и тем больше будет нужная выборка. Генеральная совокупность — это общее количество пользователей в целевой аудитории. Например, если вы рассчитываете охватить жителей определенного города, то генеральной совокупностью будет общее количество живущих там людей.

Мы зададим для расчета следующие значения:

  • уровень достоверности — 95%;
  • доверительный интервал — 3%;
  • генеральная совокупность — 100 000.

В результате получим размер выборки в 1056 человек. 

Как видите, здесь не учитывается нужное число конверсий или ожидаемый их прирост. Это просто расчетные цифры для понимания репрезентативной выборки из определенной целевой аудитории. Такими калькуляторами можно пользоваться, например, перед началом А/Б-тестирования, чтобы понимать, когда можно заканчивать тесты.

Помимо калькуляторов статистической значимости и выборки, существуют другие методы контроля цифр для проведения А/Б-тестов — они касаются необходимого трафика и проверки гипотез.

Этапы проведения эксперимента

Выделим этапы проведения A/Б-тестирования и подробно остановимся на каждом:

  1. Определение точки роста и выбор метрик.
  2. Составление гипотезы.
  3. Определение размера тестовой выборки.
  4. Проверка сбора данных по метрике.
  5. Запуск теста и снятие результатов.

Определение точки роста и выбор метрики

Для определения точки роста важно понять, что хочется улучшить и с помощью какой метрики измеряется улучшение

Например, вы обратили внимание, что транзакционное письмо об оформлении заказа редко открывают. Или хочется разобраться, приносит ли деньги виджет товарных рекомендаций в карточке товара

Варианты метрик для измерения улучшения:

  • Доход
  • Количество заказов
  • Средний чек
  • Процент открытия писем
  • Повторные покупки
  • Количество линий чека в заказе

Составление гипотезы

Определив точку роста, выберем, что улучшать. Без гипотезы тест бесполезен. В идеале гипотеза содержит ожидаемое увеличение. Тестировать можно дополнительные блоки, обращения, цвета, размеры текста, формы и дизайны. Ниже примеры гипотез наших клиентов.

Гипотеза Варианты Метрика
Эмодзи в теме письма увеличивают открытия на 2% С эмодзи и без эмодзи Открываемость
Блок сопутствующих товаров в карточке товара увеличит средний чек на ~10% С блоком сопутствующих товаров в карточке и без Выручка
Попап на сайте с бесплатной доставкой увеличит конверсию в заказ на 4% С попапом и без попапа Количество заказов и выручка

Определение размера тестовой выборки

Для каждого тестирования нужен определенный размер выборки, чтобы получить статистически значимый результат. Статистическая значимость — это оцененная мера уверенности в том, что полученный результат не случайность

Это важно, потому что без статистической значимости случайное совпадение можно ошибочно принять за успех варианта. Результат — неверное бизнес-решение

Например, доля открытых писем в рассылках составляет 20%. Если хотите увеличить показатель на 25% с помощью изменения, понадобится выборка минимум из 2000 человек. Необходимый размер выборки рассчитывается с помощью калькулятора A/Б-тестов. Подробнее — в блоке «Инструменты для тестов».

Проверка сбора данных по метрике

Перед запуском теста убедитесь, что нужная метрика собирается. Например, настроена цель в Google Analytics, или запущен эксперимент в Google Optimize, или собирается информация о выручке в сводном отчете по рассылкам Mindbox.

Если предполагаете, что возникла погрешность и результаты связаны не с тестируемыми вариантами, а с особенностями выборки, попробуйте А/А-тестирование.

А/А-тест как способ проверить правильность деления на группы

А/А-тест — это разновидность эксперимента, когда варианты одинаковы. Если, несмотря на идентичность, показатели вариантов отличаются, значит где-то ошибка.

Например, ошибка может быть в распределении участников эксперимента. В одной группе участники покупают товары чаще, чем в другой. Ошибка может быть в сборе данных: на каком-то этапе передачи информация теряется. Есть сомнения — используйте А/А-тестирование.

Снятие результатов

По окончанию тестирования снимите результаты и посчитайте статистическую значимость теста. Вариант, который статистически значим и отличается в лучшую сторону (например, заработал больше денег), считается победителем. Чтобы рассчитать результат, воспользуйтесь калькулятором A/Б-тестирований, о нем ниже.

Пример из Google Optimize: завершенное тестирование на сайте со статистически значимым результатом: выручка варианта-победителя оказалась на 50% больше

Что можно тестировать

Всё, что может влиять на поведение пользователей. Чаще всего А/Б тесты применяют для оптимизации емейл-рассылок, поп-апов, сообщений в чат.

Что можно протестировать:

  • тему письма;
  • текст сообщения;
  • изображения;
  • расположение блоков с контентом в письме;
  • текст на кнопках;
  • призывы к действию;
  • каналы коммуникации.

В первую очередь протестируйте ценности для клиента и общие формулировки. Такие тесты быстрее дадут статистически значимый результат и покажут разницу в конверсии. Для роста важнее ценность, которую вы предлагаете, а не кнопки и шрифты.

Лучше не тестировать мелочи вроде цвета кнопок, потому что на получение значимого результата у вас уйдут месяцы. За время такого теста продукт или сайт могут измениться, и тест потеряет свою актуальность еще до того, как вы получите результат. 

В одном проекте мы тестировали оффер на сайте курсов по улучшению фигуры. В первом варианте пользователю предлагали бесплатную тренировку, а во втором — меню на три дня:

Какой поп-ап сработает лучше?

Конверсия варианта А — 3,91%, варианта Б — 6, 34%, это значительная разница. Мы предполагаем, что второй вариант оказался эффективнее по двум причинам:

  • Мы все любим есть. Вкусное меню ценнее, чем очередная тренировка.
  • Выгода в заголовке. Многие не читают дальше заголовка, поэтому лучше в нем прописать ценность.

Оценка качества системы A/B-тестирования

  1. Если , то либо стат. тест, либо выбранная метрика слишком консервативны. То есть у A/B-тестов заниженная чувствительность («стойкий оловянный солдатик»). И это плохо, т. к. в процессе эксплуатации такой системы A/B-тестирования мы будем часто отклонять изменения, которые действительно что-то улучшили, т. к. мы не почувствовали улучшения (т. е. мы будем часто совершать ошибку второго рода).
  2. Если , то либо стат. тест, либо выбранная метрика слишком чувствительны («принцесса на горошине»). Это тоже плохо, т. к. в процессе эксплуатации мы будем часто принимать изменения, которые в действительности ни на что не влияли (т. е. мы будем часто совершать ошибку первого рода).
  3. Наконец, если , значит, стат. тест вместе с выбранной метрикой показывают хорошее качество и такой системой можно пользоваться для проведения A/B-тестирования.
(а) Перебираем все возможные пары (б) Случайно разбиваем на непересекающиеся пары
Рисунок 4. Два варианта разбиения 4 групп пользователей (, , , ) на пары.

серьезным недостаткомзависимыхЕсли число пар невелико, то как нам надежно измерить ?

  1. Повторять раз:
    • Случайно распределить всех пользователей по группам;
    • Случайно разбить групп на пар;
    • Для всех пар провести A/A-тест и вычислить процент прокрасившися пар на данной -ой итерации
  2. вычислить как среднее по всем итерациям:

система оценки качества метрик

Примеры

Рекламная рассылка

Компания с клиентской базой данных из 2000 человек решает создать кампанию по электронной почте с кодом скидки, чтобы увеличить продажи через свой веб-сайт. Он создает две версии электронного письма с разным призывом к действию (та часть текста, которая побуждает клиентов что-то сделать — в случае кампании продаж — совершить покупку) и идентифицирующим промокодом.

  • 1000 человек отправляет электронное письмо с призывом к действию: «Предложение заканчивается в эту субботу! Используйте код A1»,
  • и еще 1000 человек он отправляет электронное письмо с призывом к действию, в котором говорится: «Предложение скоро заканчивается! Используйте код B1».

Все остальные элементы копии и макета писем идентичны. Затем компания отслеживает, какая кампания имеет более высокий уровень успеха, анализируя использование промокодов. Электронная почта с использованием коды A1 имеет 5% скорость реакции (50 из 1000 людей отправляет письма использовали код , чтобы купить продукт), а также адрес электронной почты с использованием коды B1 имеет скорость отклика 3% (30 из получателей использовали код купить товар). Поэтому компания определяет, что в этом случае первый призыв к действию более эффективен, и будет использовать его в будущих продажах. Более тонкий подход будет включать применение статистического тестирования, чтобы определить, были ли различия в уровне ответов между A1 и B1 статистически значимыми (то есть с большой вероятностью, что различия являются реальными, повторяемыми, а не случайными).

В приведенном выше примере цель теста — определить, какой способ побудить клиентов совершить покупку является более эффективным. Если, однако, цель теста заключалась в том, чтобы увидеть, какое электронное письмо вызовет более высокий рейтинг кликов,  то есть количество людей, которые фактически переходят на веб-сайт после получения электронного письма, тогда результаты могли бы быть другими.

Например, даже если на веб-сайт обратилось больше клиентов, получивших код B1, поскольку в Призыве к действию не указана дата окончания акции, многие из них могут не чувствовать необходимости совершать немедленную покупку. Следовательно, если бы целью теста было просто увидеть, какое электронное письмо принесет больше трафика на веб-сайт, то электронное письмо, содержащее код B1, могло бы быть более успешным. A / B-тест должен иметь определенный результат, который можно измерить, например, количество произведенных продаж, конверсию по рейтингу кликов или количество людей, которые подписываются / регистрируются.

A / B-тестирование цен на продукты

Для определения подходящей цены на продукт можно использовать A / B-тестирование, поскольку это, пожалуй, одна из самых сложных задач при запуске нового продукта или услуги.

A / B-тестирование (особенно актуально для цифровых товаров) — отличный способ выяснить, какая цена и какое предложение максимизируют общий доход.

Политическое A / B-тестирование

A / B-тесты используются не только для корпораций, но также являются движущей силой политических кампаний

В 2007 году президентская кампания Барака Обамы использовала A / B-тестирование как способ привлечь внимание в Интернете и понять, что избиратели хотели видеть от кандидата в президенты. Например, команда Обамы протестировала четыре отдельные кнопки на своем веб-сайте, которые побуждали пользователей подписываться на информационные бюллетени

Кроме того, команда использовала шесть различных сопроводительных изображений, чтобы привлечь внимание пользователей. С помощью A / B-тестирования сотрудники смогли определить, как эффективно привлечь избирателей и вызвать дополнительный интерес.

HTTP-маршрутизация и тестирование функций API

HTTP-маршрутизатор с A / B-тестированием

A / B-тестирование очень распространено при развертывании более новой версии API. Для тестирования взаимодействия с пользователем в режиме реального времени обратный прокси-сервер HTTP настроен таким образом, что N % HTTP- трафика поступает в более новую версию внутреннего экземпляра, а оставшиеся 100-N % HTTP-трафика попадают в (стабильная) более старая версия серверной службы HTTP-приложений. Обычно это делается для того, чтобы ограничить доступ клиентов к новому экземпляру серверной части, так что, если есть ошибка в более новой версии, только N % от общего числа пользовательских агентов или клиентов будут затронуты, в то время как другие будут перенаправлены на стабильную серверную часть, которая это обычный механизм контроля проникновения.