Ключевые метрики для популярных моделей роста

5- F1 Счет

В зависимости от приложения вы можете придать более высокий приоритет отзыву или точности. Но есть много применений, в которых важны как отзыв, так и точность. Поэтому естественно придумать способ объединить эти два в одну метрику.Один популярный показатель, который сочетает в себе точность и отзыв, называется F1-счет, что является гармоническим средним значением точности и отзыва, определяемым как:

F1-оценка = 2 * Точность * Вспомнить / (Точность + Вспомнить)

Таким образом, для нашего примера классификации с матрицей путаницы на рисунке 1, F1-показатель может быть рассчитан как:

F1_cat = 2 * 0,6 * 0,9 / (0,6 + 0,9) = 72%

Обобщенная версия F-счета определяется следующим образом. Как мы видим, F1-счет является частным случаем F_ℬ, когда ℬ = 1.

Хорошо отметить, что всегда есть компромисс между точностью и отзывом модели, если вы хотите сделать точность слишком высокой, вы в конечном итоге увидите снижение скорости повторного вызова, и наоборот.

Какие метрики ловят ботов

Под ботами мы понимаем сразу множество сценариев фрода. В том числе мошенничество с использованием эмуляторов, прошитые телефоны и программы, эмулирующие отдельные функции игры.

Метрики, которые ловят таких ботов, можно разделить на кликовые, аппаратные и поведенческие.

  • Кликовые метрики — опираются на аномальные действия устройств ещё до совершения ими установки приложения. На чересчур быстрые клики, странные просмотры рекламных баннеров. Или слишком короткий интервал между кликом и установкой приложения.
  • Поведенческие метрики — контролируют поведение пользователя после установки. Проверяется СРА фрод, подозрительная частота сессий, отсутствие активности и так далее.
  • Аппаратные метрики — проверяют характеристики устройства. Так тоже можно обнаружить ботов или эмуляторы. Например, производителем устройства может быть указана Apple, а модель, ОС или разрешение экрана у него — как у смартфонов Xiaomi.

Ни одна отдельная метрика не сможет обнаружить все возможные варианты фрода. Поэтому решение должно быть комплексным. 

Следует использовать комбинацию метрик, чтобы с высокой вероятностью определять ботов. 

В идеале, вам должен быть показан уровень риска фрода. Чтобы вы могли решить, как стоит реагировать на такое оповещение: блокировать отдельные аккаунты, переходить к другому рекламному партнеру, банить по IP, добавлять новые алгоритмы в систему защиты или что-то другое.

Команда myTracker выделяет следующий список главных метрик, которые могут ловить ботов:

  • Продолжительность сессии.
  • Аномальная частота сессий (либо полное отсутствие активности, либо активность внутри приложения 24/7).
  • Подозрительные устройства (сканируя информацию об ОС, дисплее, бренде, модели, сотовом операторе, можно определить, что это не планшет и не смартфон, а их эмулятор).
  • CPA-фрод — некачественный трафик может подмешиваться в поток хороших заявок.
  • Установки без запусков (если чересчур много — значит, стоит внимательнее присмотреться к рекламной площадке, поставляющей вам такой трафик).
  • Click Time to Install — время, прошедшее между кликом по рекламному баннеру и установкой приложения (если слишком короткое — значит, такое мог сделать только бот или происходит перехват установок).
  • View Time to Install — время между последним просмотром рекламного баннера и установкой.
  • Click Time to Click — время между последним и предпоследним кликом перед установкой. Будет странно, если практически одновременно от одного пользователя мы получаем 2 клика по разным рекламным баннерам. И ещё более странно, если они приходят от двух разных рекламных сетей. Возможно, одна сеть пытается «украсть» трафик у другой. Или присылает вам ботов.

Четыре разновидности Retention

  1. Day N Rolling Retention (повторяющееся удержание N-го дня) — это процент пользователей, которые вернулись в приложение в N день с момента установки или позже. Например, если один пользователь вернулся в приложение на 14 день и на 45 день, а второй пользователь — на 44 день, то при расчёте Day 14 Rolling Retention, они будут считаться двумя пользователями, вернувшимися на 14 день.

  2. Day N Return Retention (возвратное удержание N-го дня) – это процент пользователей, которые вернулись хотя бы один раз за N дней. Например, при расчёте Day 21 Return Retention, будут учитываться все пользователи, зашедшие в приложение хотя бы один раз в любой из дней с первого по двадцать первый.

  3. Day N Bracket-Dependent Return Retention (диапазонное удержание N-го дня) — это процент пользователей, хотя бы один раз вернувшихся в приложение в промежуток со дня M до дня N, где параметр M ограничивает временной диапазон для возврата пользователей. Например, M — 14, тогда Day 20 Bracket-Dependent Return Retention покажет процент пользователей, которые запускали приложение с 14 по 20 день с момента установки. Фактически, это частный случай возвратного удержания N-го дня.

  4. Day N Full Retention (полное удержание N-го дня) — это процент пользователей, которые заходили в приложение каждый день до дня N. Например, Day 5 Full Retention — это процент пользователей, которые заходили в приложение в 1, 2, 3, 4 и 5 дни с момента установки.

Проходите наши бесплатые онлайн-курсы, раскрывающие разные стороны геймдева и аналитики

Что такое HR-метрики?

Метрики (от английского metrics) — стандартные единицы измерения. Система измерений представляет собой специальные расчеты, которые помогают интерпретировать полученные данные, соотнося их с предыдущими результатами. 

Как правило, метрики в определенной области валидны только в ее рамках, поэтому производительность труда в разных сферах некорректно сравнивать

Также важно не переоценивать выводы, поскольку они сильно зависят от выбранных параметров

В HR-сфере используются такие метрики:

  • статистика по сотрудникам компании;
  • метрики HR-эффективности: показатели, которые используются для оценки качества человеческих ресурсов и эффективности их использования;
  • метрики, с помощью которых оценивают эффективность работы конкретных специалистов или отделов;
  • метрики, оценивающие эффективность работы HR-департамента.

Функции метрик

  1. Числовое выражение бизнес-процессов. Предприниматель получает правдивые данные. Он узнает конверсию, сколько клиентов прикоснулись к продукту, прогноз стабильности ситуации на протяжении нескольких месяцев.
  2. Быстрая реакция на отрицательные сигналы. Последовательный анализ данный позволяет незамедлительно заметить упадок интереса покупателей, выяснить причину возникшей ситуации.
  3. Распознавание пика сезона. Бизнесмену легко обнаружить рост/снижение спроса в различные периоды.
  4. Итоги маркетинговой кампании и работы отдела продаж. Характер изменений обуславливается эффективностью рекламы и качеством товара.

Как создать эффективный финальный отчет

В ФО обязательно фиксируйте, что планировалось и что получилось в итоге. Де-факто ФО — это ретроспектива (или post-mortem analysis — он работает по принципу «вскрытие покажет»), в которой мы описываем: 

плановый и фактический срок реализации
причины сдвигов по времени

Важно: если проект велся корректно, то любое смещение срока реализации должно было фиксироваться запросом на изменение. Подобные решения РМ не принимает — он может только все подготовить, предложить опции дальнейших действий, но последнее слово остается за спонсором
отчет по расходам (сколько планировали и сколько в итоге потратили)
риски (нужно указать, какие контрмеры были эффективны, а какие — нет)

Важно также отметить риски, которые не были идентифицированы, но случились в процессе. Помогает всем последующим РМ в работе с другими проектами
команду (какие скилы и опыт получили, какая текучка, были ли проблемы с наймом)

  • опыт по закупкам (каких подрядчиков привлекали и как с ними работалось)
  • опыт коммуникации (насколько заказчик и команда могли эффективно взаимодействовать)
  • рефлексию РМ относительно своей работы

Коэффициент «липучести» и другие показатели активности пользователей

На основании метрик DAU, WAU и MAU можно высчитать степень заинтересованности клиентов в продукте (Stickness).

Sticky Factor, или Stickness (степень вовлечённости, коэффициент «липучести») — показатель лояльности аудитории к приложению. Показывает, как часто клиенты возвращаются в приложение в течение недели или месяца.

Высокий процент «липучести» означает, что люди часто пользуются вашим приложением. Чем выше лояльность, тем охотнее пользователи рекомендуют приложение друзьям и знакомым, тем больше прирост активной аудитории.

Если Stickiness падает, это говорит о том, что приложение перестало закрывать потребности пользователей.

Чтобы узнать, в какое конкретно время юзеры наиболее активно пользуются приложением, рассчитывают показатели PCCU и ACU.

PCCU (Peak Concurrent User), она же PCU — максимальное число людей, единовременно находящихся в приложении. Измеряется за час, месяц или год.

ACU (Average Concurrent User) — среднее число посетителей за конкретный период времени.

Эти метрики пригодятся, например, когда нужно определить лучшее время для запуска рекламной кампании.

Метрики активности и коэффициент вовлечённости позволяют рассчитать финансовые показатели продукта.

Резюме. Десять важных вопросов

Инструкции по выбору метрик давать бесполезно, поскольку они в значительной степени определяются конкретными условиями, но я могу предложить несколько вопросов открытого типа, которые можно задавать при определении набора метрик для продукта:

  1. Какой цели вы пытаетесь достичь? Какие у вас ?

  2. Как узнать, что цель достигнута?

  3. Как оценивать прогресс в достижении этой цели?

  4. Какие действия вам нужны от пользователей и как оценить, выполняются ли они?

  5. Как измерить совокупное поведение пользователей, определить контекст и выработать эмпатию?

  6. Метрики абсолютные или относительные? Цель — привлечь определенное количество пользователей или определенный процент?

  7. Как понять, что продукт надежно работает у 99,9% пользователей?

  8. Можете ли вы объяснить выбранный «истинный север» максимум двумя предложениями?

  9. Какие контрольные метрики вы отслеживаете в экспериментах?

  10. Как пользователи относятся к продукту?

Здесь есть над чем подумать. Тема продуктовых метрик — очень широкая, и в ней множество нюансов. Однако одно из самых эффективных действий, которые может предпринять продуктовая команда, — вложить ресурсы и время в определение и построение правильных метрик.

Если статья оказалась полезной — можете ознакомиться с остальными в блоге reeve.blog, которые появляются там регулярно (более-менее).

О переводчике

Перевод статьи выполнен в Alconost.

Alconost занимается локализацией игр, приложений и сайтов на 70 языков. Переводчики-носители языка, лингвистическое тестирование, облачная платформа с API, непрерывная локализация, менеджеры проектов 24/7, любые форматы строковых ресурсов.

Мы также делаем рекламные и обучающие видеоролики — для сайтов, продающие, имиджевые, рекламные, обучающие, тизеры, эксплейнеры, трейлеры для Google Play и App Store.

Пирамида метрик

Иерархия метрик не всегда даёт однозначное понимание, какие из них являются более значимыми, какие — составными, а какие — промежуточными. Особенно сложно сориентироваться в самом начале. Чтобы избежать возможных ошибок, обратимся к пирамиде метрик.

Пирамида имеет пять уровней, расположенных по порядку от макроструктуры к микропроцессам. 

  1. В основе находятся бизнес-метрики, которые показывают, зарабатываем ли мы и эффективна ли наша бизнес-модель (считаем общий профит).
  2. Дальше идут метрики маржинальности, баланс которых напрямую влияет на профит. Следим за прибылью с каждого пользователя и каждой сделки, работаем над формулой LTV > CAC.
  3. Ценность продукта. На этом этапе мы должны быть уверены, что продукт решает основную задачу пользователя, с которой он приходит к нам. Если она решается хорошо, это залог готовности платить больше и дольше, что напрямую влияет на второй этап. Здесь подойдут любые метрики лояльности. 
  4. Метрики качества. Готовы ли мы гарантировать удобство и отказоустойчивость нашего сервиса? Чтобы измерить это, отслеживаем операционные процессы: оптимальность, безотказность, отсутствие багов и критических сценариев.
  5. Маркетинговые метрики. Как работают отдельные каналы и сегменты, успешны ли наши рекламные коммуникации — всё это учитывается с помощью CTR, CPA и т. д. 

Кстати, достаточно сложная иерархия, представленная в виде древовидной структуры, является по сути пирамидой метрик.

Прокси-метрики

Все предыдущие фреймворки работают в том случае, если есть накопленная статистика и данные можно свести в единую структуру. А если в продуктовую воронку попадает не очень много пользователей или речь идёт о выходе на новый сегмент или рынок, требуется получить часть данных искусственно. Другими словами, спрогнозировать на основании существующих цифр.

Показатели, созданные на основе реальных данных и используемые для бизнес-решений, называются прокси-метриками. Они позволяют работать в условиях недостаточных данных, но требуют участия хорошего аналитика. А зачастую могут быть применены только с помощью машинного обучения. 

Свойства

  • Метрическое пространство компактно тогда и только тогда, когда из любой последовательности точек можно выбрать сходящуюся подпоследовательность (секвенциальная компактность).
  • Метрическое пространство может не иметь счётной базы, но всегда удовлетворяет первой аксиоме счётности — имеет счётную базу в каждой точке.
    • Более того, каждый компакт в метрическом пространстве имеет счётную базу окрестностей.
    • Сверх того, в каждом метрическом пространстве существует такая база, что каждая точка пространства принадлежит лишь счётному множеству её элементов — точечно-счётная база (но это свойство слабее метризуемости даже в присутствии паракомпактности и хаусдорфовости).

Коэффициент стабильности требований

Назначение метрики: показать, как много уже реализованных требований приходиться переделывать от релиза к релизу при разработке новых фич.

  • Разумеется, полностью изолированного функционала не существует, но количество новых требований должно преобладать над изменяемыми а коэффициент желательно должен быть меньше 0,5. В этом случае мы внедряем новых фич в 2 раза больше, чем переделываем существующих.
  • Если коэффициент выше 0,5, особенно если больше 1, то это скорее всего значит, что ранее мы сделали то, что оказалось ненужным. Команда фокусируется не на создании новых ценностей для бизнеса, а на переделывании ранее выпущенных фич.
  • Также метрика дает представление о том, насколько легко масштабируется функционал системы, добавляются новые возможности.

Ловим ботов на примере метрики «Виртуальные устройства»

Эта метрика считает установку приложения фродовой, если аппаратные характеристики аномально различны с характеристиками реальных моделей мобильных устройств. Чаще всего мошенники не рассчитывают, что кто-то будет использовать систему fraud detection, и не тратят время на правильную настройку своего эмулятора или прошитых смартфонов перед установкой очередного приложения.

«Виртуальные устройства» — строгая метрика. Если характеристики девайса не соответствуют заявленным, то, скорее всего, к вам пришел не реальный пользователь, а скамер или бот.

Метрика «Виртуальные устройства» в Fraud Scanner

Обратите внимание на бенчмарки. Если среди установок, совершенных за выбранный в отчете период, было слишком много виртуальных устройств, то myTracker выделяет цифру красным цветом

Это значит, что стоит подробнее изучить этот трафик. Если фрод подтвердится — нужно прекратить его закупать. Перейти на площадки, которые не поставляют вам фрода, или выдвинуть претензию рекламному посреднику с требованием возместить издержки.

Что умеет Fraud Scanner от myTracker — на реальном примере

Чтобы разобраться, какую пользу Fraud Scanner может принести вашему бизнесу, рассмотрим кейс ecommerce-приложения.

Каждый день отслеживать ситуацию с фродом по рекламным кампаниям можно с помощью шаблонов. Это подготовленные отчёты, которые упрощают мониторинг фрода в приложении по всем рекламным кампаниям.

Строгий, уверенный и мягкий фрод — это комбинированные метрики, которые одновременно работают с несколькими показателями. Строгий фрод — это самые очевидные типы мошенничества: короткие установки, совпадающие клики, подозрительные и виртуальные устройства. На основе этих данных фрод можно определить практически безошибочно. Уверенный и мягкий фрод требуют большего погружения в тему

Здесь важно учитывать контекст, в первую очередь — как именно работает рекламная площадка, с которой вы сотрудничаете. При желании можно погрузиться ещё глубже и изучать аналитику на уровне одной метрики, всего таких метрик 16.

Начнём с шаблона «Комплексные метрики фрода», который показывает общую картину по рекламной кампании. На скриншотах мы скрыли название реального приложения, остальные данные остались без изменений. Анализируем трафик с первых чисел декабря.

Обратите внимание на аномалии (пики на графиках) — они означают, что происходит атака на рекламный трафик.

Теперь нужно определить, каким именно способом происходит фродовая атака. От этого зависит, какие аргументы можно предоставлять партнёру для защиты своего приложения и возврата средств.

В нашем случае уверенная метрика фрода явно коррелирует с метрикой «Низкий CCR» (Conversion Click Rate).

«Низкий CCR» показывает установки в рекламных кампаниях, в которых при достаточном количестве кликов виден аномально низкий процент установок приложения. То есть пользователи, которые кликают по вашей рекламе, либо фейковые, либо не заинтересованы в вашем приложении. В обоих случаях это может свидетельствовать о недобросовестных действиях со стороны рекламной площадки.

Далее определим партнёра — рекламную площадку, на которой определён фрод. Для этого добавляем партнёра в селекторы отчёта и включаем группировку по рекламной площадке.

Обратите внимание на показатели Partner 1. У него высокое значение метрики «Низкий CCR», которую мы определили ранее:

Красные и зелёные значения показывают отклонения от «нормального» значения фрода на проекте. Эти значения используют данные бенчмарков myTracker — проанализировав сотни рекламных кампаний, система определила средние значения, которые считаются «нормой» для рекламы мобильных приложений.

Теперь самое интересное: определим кампанию и сумму, которую мы защитили в результате работы Fraud Scanner. Для этого построим отчёт по конкретной кампании (добавив селектор «Кампания») и отфильтруем данные по Partner 1:

Результат: уже в феврале, после общения с партнёром, количество фродовых установок упало до нуля. Таким образом, за декабрь удалось сэкономить пятую часть рекламного бюджета — и это только по одной кампании.

Цели — Сигналы — Метрики

Итак, как же перейти от HEART категорий к метрикам, которые вы можете внедрить и трекать? К сожалению, нет готового HEART дашборда, который магически за вас это сделает, — наиболее вероятно, что самые полезные метрики будут специфичны для вашего продукта или проекта.

Цели

Порой хочется начать думать о метриках, просто составляя длинный лист, но он быстро может стать громоздким и неудобным в приоритезации. В идеале вам нужен небольшой сет ключевых метрик, которые важны для всех членов команды. Чтобы понять, что это за метрики, надо начать на уровень выше: определить цели, а потом уже выбрать метрики, которые помогут вам измерять прогресс по выполнению этих целей.

Порой может быть удивительно сложно сформулировать цели проекта, и в этот момент полезно использовать для дискуссии категории метрик HEART. В YouTube, к примеру, одна из наиболее важных целей относится к категории Engagement: мы хотим, чтобы пользователи наслаждались видео, которые они смотрят, и продолжали открывать больше видео и каналов, которые они хотели бы посмотреть. У вас могут быть разные цели для определенного проекта или фичи — и для продукта в целом. Для YouTube Поиска ключевая цель относится к Task Success категории: когда пользователь вводит запрос, мы хотим, чтобы он быстро и легко нашел наиболее релевантные видео или каналы.

Частая ловушка — определять цели в рамках ваших существующих метрик: например, “наша цель увеличить трафик на сайт”. Да, каждый хочет это сделать, но как UX-улучшения помогут вам в этом? Хотите ли вы увеличить вовлеченность существующих пользователей или привлечь новых?

Вы можете не осознавать, что у разных членов вашей команды могут быть разные представления о целях вашего проекта. Этот процесс предоставляет возможность достичь соглашения о том, в каком направлении вы движетесь.

Сигналы

Следующий шаг — привязать цели к более низкоуровневым сигналам. Как успех или провал в достижении целей может проявить себя в пользовательском поведении или отношении? Например, сигналом вовлеченности для YouTube может быть количество видео, просмотренных пользователем, а еще лучше — время, потраченное на просмотр видео. Сигналом провала в Task Sucess категории для YouTube Search может быть запрос, по которому не было ни одного клика на результаты.

Обычно есть большое количество потенциально полезных сигналов для конкретной цели. Как только вы набросаете какое-то количество “кандидатов”, остановитесь и проведите небольшое исследование.

Во-первых, насколько легко трекать каждый сигнал? Будут ли логироваться нужные действия в продукте, или можно ли это сделать? Можете ли вы выкатывать опросы на постоянной основе? Для Task Success метрик одна из опций — использовать задания в benchmarking исследовании, которые можно проводить с большим количеством участников.

Во-вторых, выбирайте сигналы, которые будут чувствительны к изменениям в вашем дизайне. Если вы уже собираете потенциально полезные сигналы, вы можете проанализировать имеющиеся данные и попытаться понять, какие сигналы будут точнее всего предсказывать достижение соответствующей цели.

Метрики

Сигналы, которые вы выбрали, можно уточнить и превратить в метрики, которые вы будете трекать в динамике или использовать для сравнения в экспериментах. В примере с вовлеченностью в YouTube мы могли бы внедрить сигнал “как долго пользователи смотрят видео” как метрику “среднее количество минут, потраченное на просмотр видео, на пользователя в день”.

Специфика сильно зависит от вашей инфраструктуры. Но, как и на предыдущем шаге, есть множество метрик, которые можно вывести из определенного сигнала, — вам надо будет проанализировать данные и решить, какие будут для вас наиболее полезны. Возможно, вам также надо будет нормализовать сырые числа и использовать среднее или проценты, чтобы сделать их более “говорящими”.

Процесс Цели-Сигналы-Метрики должен привести к приоритезации метрик — важно трекать метрики, которые относятся к вашим ключевым целям. Не добавляйте просто “интересные цифры” в ваш список

Помогут ли они вам принять решение? Нужно ли вам трекать их в динамике, или достаточно одного измерения? Фокусируйтесь на метриках, которые относятся к вашим целям, чтобы избежать затрат на их внедрение и засорения дашборда.

Если вы хотите, чтобы ваш продуктовый дизайн информировался данными, подумайте над метриками, которые отражают качество user experience, и свяжите их с вашими основными целями.

Подведение итогов

Таким образом, необходимо выбрать важные метрики для вашего стартапа. Они предоставляют ценную информацию о бизнесе, которая может ускользать из поля зрения предпринимателя, однако именно она позволит своевременно вносить корректировки в план развития. Без метрик решения будут приниматься интуитивно и без учета возможных негативных последствий, а стартап не сможет правильно реагировать на непредвиденные обстоятельства. 

При этом стоит обратить внимание на KPI, которые позволят контролировать развитие стартапа. KPI — удобный инструмент для эффективной организации работы команды: он помогает объединить сотрудников общей целью, ставит перед ними четкие задачи, дает возможность повлиять на размер зарплаты, мотивирует справедливой премией

Тем не менее нужно понимать — не существует готового набора метрик для любого бизнеса. В каждом случае придется самостоятельно или при помощи специалистов выбирать ключевые метрики, подходящие именно вам. 

P. S. .