Как стать автором
Обновить
102.68

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Разоблачаем Эффект Даннинга-Крюгера. Статистический артефакт, пример автокорреляции

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 26K

Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.

И вы понимаете почему.

Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз...

Разоблачаем популярный миф
Всего голосов 118: ↑104 и ↓14 +90
Комментарии 81

База: айсберг A/B-тестов

Уровень сложности Средний
Время на прочтение 11 мин
Количество просмотров 5.5K

Если вы по кусочкам и фрагментарно изучаете разные аспекты и тонкости A/B-тестирования, но большое множество концепций и идей не ложатся в единую систему, то это статья для вас.

Предлагаю разобрать структуру A/B-тестов сверху вниз. Пройдем по основным этапам от наблюдаемой разницы в целевой метрике до матрицы ошибок. Формализуем, систематизируем и идейно свяжем те концепции, которые стоят за экспериментами. Постараемся сформировать цельное представление об этой процедуре, обозначим, что эксперименты делают, чего не делают, как делают, в каком представлении работают с данными и метриками.

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 4

Итоги расследований инцидентов ИБ в 2021–2023 годах

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 2.8K

Привет, на связи команда по расследованию инцидентов экспертного центра безопасности Positive Technologies (PT Expert Security Center, PT ESC). Вероятно, вы уже читали наши расследования здесь, на Хабре, а может быть, даже заглядывали к нам в блог. В последние два года число расследований у нашей команды выросло более чем вдвое, и в этот раз мы решили проанализировать 100+ последних своих проектов по расследованию, чтобы понять, как действуют злоумышленники и сколько в среднем по времени находятся в инфраструктуре компаний.

Читать
Рейтинг 0
Комментарии 0

Проблема множественного тестирования на практике

Уровень сложности Средний
Время на прочтение 15 мин
Количество просмотров 3.7K

Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не одну группу, а сразу несколько. Особенно часто такая необходимость встречается в некоторых областях биологии. Но и в продуктовых командах возникают кейсы, когда, например, уже есть несколько вариантов дизайна каких-то элементов / моделей рекомендаций / ранжирования / etc, и хочется выбрать лучший в рамках одного эксперимента.

Эта статья - попытка структурировать знания о проблеме множественного тестирования, сравнить методы решения проблемы и поделиться практическим опытом работы с множественными экспериментами.

Читать дальше →
Рейтинг 0
Комментарии 0

Истории

Xg предсказывает результаты матчей?

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.9K

Для начала определим для кого эта статья? Моя цель заинтересовать не только обыкновенных зрителей, но и тех, кто уже занимается футбольной аналитикой. В статье я постараюсь показать интересные исследования об Xg.

Многие из тех, кто смотрит футбол и читает новости когда-нибудь видел метрику «xg». Что она вообще означает? Простыми словами Xg это количество ожидаемых голов. Т.е. каждый нанесённый удар по воротам имеет вероятность конвертироваться в забитый мяч, но с каждой позиции эта вероятность разная (если углубляться, то станет очевидным, что xg зависит от нескольких параметров, а не от одной позиции). К примеру, самая высокая вероятность забить мяч при исполнении пенальти. Чаще всего с пенальти дают 0.79 xg. Необходимо учитывать, что единой формулы расчёта xg нет, каждый провайдер рассчитывает её по-своему. Так например, для написания этой статьи я использовал данные с сайта https://understat.com/, но, если мы посмотрим другие источники, цифры будут отличаться.

Моя задача узнать, насколько точно Xg предсказывает количество голов в матче. Исследование будем проводить для АПЛ сезона 2022/2023. В данном исследовании мы ограничимся простыми методами анализа. Я составил таблицу из 380 матчей АПЛ.

Читать далее
Рейтинг 0
Комментарии 6

Статистика QA вакансий и резюме. Октябрь 2023

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 10K

Раз в месяц я и команда QA Studio вручную собираем статистику по вакансиям и резюме тестировщиков с нескольких ресурсов. Сегодня — статистика за октябрь. Мы не делаем выводы, а оставляем сухие цифры. Много или мало открытых вакансий и что с рынком — каждый может интерпретировать по-своему.

Посмотреть статистику
Всего голосов 3: ↑2 и ↓1 +1
Комментарии 6

Использование ML для прогнозирования CLTV

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 2.1K

Из прошлой статьи мы узнали, что CLTV (customer lifetime value) — метрика, используемая для оценки прибыли, которую компания может получить от своего клиента за время его пользования продуктами и сервисами компании.

Разберем, что означает каждая буква в определении CLTV (customer lifetime value). Кто такой клиент, что мы понимаем под lifetime и ценностью, которую приносит нам клиент. 

CLTV строится для клиента, а не для номера телефона, так как мы не хотим терять историю взаимодействий с ним. Мы учитываем, что абонент может сменить номер телефона и/или может измениться номер договора. Также билайн — это не только мобильная связь, но и домашний интернет, которым наши абоненты могут пользоваться в рамках одного договора. Поэтому мы сразу решили собирать информацию и по этим услугам в рамках одной записи по клиенту. В будущем мы планируем прогнозировать CLTV уже на уровне физического лица и домохозяйств, объединяя историю пользования всех сим-карт клиента.

Под lifetime мы понимаем не полный жизненный цикл клиента от момента заключения договора до момента его закрытия, а пятилетний горизонт, который мы отсчитываем от текущего момента времени. То есть, если мы строим прогноз от января 2023 года, то прогноз будет построен помесячно до декабря 2027 года. Почему 5 лет? Этот срок был определен опытным путем — при нем достигается баланс между качеством предсказаний и потребностью в бизнес-процессах.

В билайне под ценностью клиента принято понимать маржу, которую нам приносит абонент с учетом всех затрат и доходов, которые мы можем аллоцировать на конкретного клиента.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 2

Исследование рынка ИТ-вакансий: годовой рост составил 18%

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 9.8K

Мы проанализировали спрос на ИТ-специалистов в России за период с сентября 2022 года по сентябрь 2023 года. Одни из самых востребованных вакансий — системные и бизнес аналитики, менеджеры проектов и продуктов, а также Java-разработчики.

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Комментарии 8

Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 33K

Привет, Хабр! Я проанализировал 600 публичных мок-интервью с YouTube и собрал из них 10 000 уникальных вопросов. Затем посчитал, как часто они встречаются, и определил вероятность появления каждого вопроса. У меня есть данные по 20 профессиям, включая frontend, python, java-разработчика, специалиста по тестированию и многих других.

Читать далее
Всего голосов 54: ↑52 и ↓2 +50
Комментарии 19

Пусть говорят, что хабр не торт, или небольшое социологическое (само-) исследование

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 1.9K

Почему так бывает, что люди, считающие себя учёными и проводящие днём слепое исследование, придя вечером домой читают гороскоп?

Если ты смотришь на мир через призму науки - то почему бы и на себя не взглянуть?

Сказано - сделано: построим графики своей активности на хабре.

Читать далее
Всего голосов 12: ↑8 и ↓4 +4
Комментарии 29

Галлий, германий, а теперь и графит: Китай понемногу ограничивает экспорт ценных ресурсов. Зачем это КНР?

Время на прочтение 4 мин
Количество просмотров 15K

В конце лета Китай практически остановил экспорт таких необходимых для различных отраслей металлов, как галлий и германий. Они не являются очень уж редкими, месторождения металлов есть и в других странах. Но КНР за прошедшие пару десятилетий смогла замкнуть на себе логистику. Соответственно, теперь покупателям галлия и германия приходится перестраивать цепочки поставок, а это процесс небыстрый.

Теперь же Китай пошел на новые ограничительные меры — страна ограничивает экспорт графита. По словам представителей КНР, поставки не останавливаются, просто экспортерам необходима специальная лицензия. Но то же самое говорилось и в отношении галлия с германием. А лицензии не получил в итоге почти никто. Подробности — под катом.
Читать дальше →
Всего голосов 64: ↑63 и ↓1 +62
Комментарии 45

Анализ вакансий ИТ в Москве: системное администрирование, 2023г

Уровень сложности Простой
Время на прочтение 15 мин
Количество просмотров 6.8K

Прошел ровно год с предыдущего анализа вакансий системных администраторов и снова появилась необходимость в актуальных данных для планирования заработных плат специалистам уже на 2024 год.

Цели, условия, методика и формат анализа остались без изменений, их можно прочитать в предыдущей статье или спойлером ниже. Данные по каждой должности сравним с предыдущим годом по количеству вакансий и по заработным платам.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 13

«К2 Кибербезопасность» и Anti-Malware представили совместное исследование о реализации 187-ФЗ (материал дополнен)

Время на прочтение 7 мин
Количество просмотров 2.3K

В Музее криптографии в Москве 12 октября 2023 года прошла презентация совместного исследования подразделения «К2 Кибербезопасность» и портала Anti‑Malware.ru, посвящённого реализации 187-ФЗ «О безопасности критической информационной инфраструктуры Российской Федерации» (КИИ). По этому исследованию, 71% опрошенных российских компаний сталкивались с различными сложностями при реализации требований 187-ФЗ. Кроме того, 44% респондентов планируют кратно увеличить расходы на безопасность из‑за требований закона, узнала информационная служба Хабра на презентации исследования. (материал был дополнен)

Читать далее
Всего голосов 26: ↑26 и ↓0 +26
Комментарии 2

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн
PG Bootcamp 2024
Дата 16 апреля
Время 09:30 – 21:00
Место
Минск Онлайн
EvaConf 2024
Дата 16 апреля
Время 11:00 – 16:00
Место
Москва Онлайн

Точка роста уже близко? Прогнозы аналитиков по ценам чипов NAND и DRAM меняются с отрицательных на положительные

Время на прочтение 4 мин
Количество просмотров 2K
image

Мы публиковали в блоге несколько статей, которые посвящены объемам выпуска и динамике цен чипов NAND и DRAM. Продолжительное время стоимость этих чипов падала, причем достаточно сильно. Но сейчас, впервые за долгий период, ситуация меняется. Пока что это лишь сигналы рынка, но, тем не менее, все больше аналитиков и игроков рынка сменяют прогнозы по динамике цен с отрицательной на положительную. Более того, стала понемногу расти прибыль производителей. Обо всем этом — под катом.
Читать дальше →
Всего голосов 13: ↑11 и ↓2 +9
Комментарии 0

Статистика QA вакансий и резюме. Сентябрь 2023

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 6.7K

Раз в месяц я и команда QA Studio вручную собираем статистику по вакансиям и резюме тестировщиков с разных ресурсов. Сегодня — статистика за сентябрь. Мы не делаем выводы, а оставляем сухие цифры. Много или мало открытых вакансий и что с рынком — каждый может интерпретировать по-своему.

Посмотреть статистику
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 6

Когда начинает работать закон больших чисел

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 13K

Большие числа != большим числам.

Число 100 большое? Зависит от ситуации. Сравниваем ли мы его с 0,001, или с 100000? Как и многое в жизни, понятие «большой» относительно.

В этом посте мы объясним, насколько большим должно быть «большое» и докажем, что вы, скорее всего, ошибаетесь насчёт закона больших чисел.

Читать далее
Всего голосов 63: ↑63 и ↓0 +63
Комментарии 13

Электоральная статистика выборов губернатора Московской области 2023 года

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 3.7K

По итогам голосования 8-10 сентября 2023 года Андрей Воробьев сохранил за собой должность губернатора Московской области. Официально опубликованный результат выборов следующие: 83.56% Воробьев А.Ю., 4.82% Жигарев К.С., 6.37% Наумов А.А., 4.06% Никитин А.Ю.

Попытаемся оценить электоральную статистику голосования, визуализировать ее, поискать аномалии.

На сайте ЦИК РФ по-прежнему присутствуют препоны для копирования первичных данных по участкам, поэтому эти данные взяты из телеграм-канала Бориса Надеждина.

Для начала рассмотрим диаграммы зависимости результатов победителя и суммы результатов проигравших от явки.

Читать далее
Всего голосов 11: ↑8 и ↓3 +5
Комментарии 20

Определяем оптимальный размер групп при множественном А/Б тестировании

Время на прочтение 3 мин
Количество просмотров 9.3K

Привет, Хабр! В этой статье мы затронем один из аспектов множественного тестирования, а именно определение оптимальных размеров групп в случае общей контрольной группы. Докажем теоретически, что предлагаемый способ является оптимальным и сравним его с другими популярными подходами.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 4

Бутстрап: швейцарский нож аналитика в A/B-тестах

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 13K

Вам надоело каждый раз разбираться какую гипотезу, а главное с какими ограничениями к имеющимся данным проверяет бесчисленное множество статистических тестов?
Тогда бутстрап — это ваш выбор. Он не требует никаких параметрических предположений о данных или какой-либо нетривиальной математики и, вместе с тем, может быть применен к широкому спектру статистических оценок.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 5

Как увеличить мощность A/B-теста, если мало данных и время поджимает

Время на прочтение 6 мин
Количество просмотров 3.3K

Привет, меня зовут Настя, я продуктовый аналитик в Dodo. Недавно мы провели A/B-тест по запросу геолокации у пользователей. Когда я приступила к анализу, то с ужасом обнаружила, что данных — кот наплакал, а бизнес уже очень ждёт результатов. Тогда мне пришлось пустить в ход свои «секретные техники» A/B-тестирования.

В этой статье расскажу, как мне удалось увеличить выборку без загадочного бутстрапа, причём тут раскатка и почему отсутствие результата — тоже результат. Статья может быть интересна как аналитикам и продакт оунерам, так и всем неравнодушным, интересующимся A/B-тестированием.

Погнали!
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 7

Вклад авторов