Проклятие среднего арифметического
В школе нас научили, как считать среднее арифметическое: берешь все числа, складываешь, делишь на их количество. Но нам не сказали, что в реальном мире это число может быть отравленным. Вот пример.

Нам нужно получить ориентир по цене на определенный товар в городе. Имеем набор данных (на картинке). Если просто посчитать среднее арифметическое, мы получим несуществующую цену. Если в одном из магазинов цена будет аномально высокой (из-за технической ошибки), среднее арифметическое будет очень далеко от правды.
Что лучше использовать вместо среднего? Два варианта:

Мода — это самое часто повторяющееся значение. В нашем примере чаще всего в городе цена была 2. В маленькой выборке это не самая показательная история, но когда будет 20−30 тысяч единиц данных, мода покажет, какую реальную цену люди видят в магазинах чаще всего.
Медиана — это способ защититься от аномалий. Даже если в городе у кого-то слишком высокая цена, медиана покажет настоящую цену в середине ряда. Это похоже на среднее арифметическое, но мы получим реальную, а не виртуальную цену, с защитой от аномалий. Это значение мы используем в большинстве расчетов в дашбордах PromoData.
К своему стыду, эту разницу я узнал только три года назад, когда мы настраивали мониторинг для «Карусели». Тогда мы не делали никакой аналитики, а просто собирали цены. С тех пор для разработки наших дэшбордов мы подключили команду аналитиков и используем весь статистический арсенал. А наши «средние» цены — на самом деле медианы.

Собрали все три определения на общий плакат.
  • Сергей Ипатов