Как стать автором
Обновить
102.68

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Стандартное отклонение и стандартная ошибка: две статистики с похожими названиями, но разными смыслами

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 2.3K

Я читаю курс статистического мышления магистрам, и одна тема вызывает у них явные затруднения — чем стандартное отклонение отличается от стандартной ошибки, и в каких случаях, применять ту или иную статистику. Думаю, будет интересно поговорить об этом в блоге ЛАНИТ.

Читать далее
Всего голосов 26: ↑26 и ↓0 +26
Комментарии 8

Новости

История одной очереди

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 17K

В одно воскресенье довелось мне стоять в очереди на избирательный участок №8134 в Алматы. Простоял я там 4 часа, а некоторые и того больше. И как-то совершенно случайно вспомнил, что в институте я учился на специальности “системы и сети массового обслуживания”, а тут у нас как раз такая сеть, которую можно попробовать рассчитать. А заодно ответить расчётами на некоторые вопросы.

Уважаемые кроты, давайте посчитаем
Всего голосов 101: ↑87 и ↓14 +73
Комментарии 58

А/Б тестирование на маленьких выборках. Построение собственного критерия

Время на прочтение 8 мин
Количество просмотров 4.4K

Хабр, привет! Сегодня рассмотрим кейс, в котором классические статистические критерии не работают, и разберёмся, почему так происходит. Научимся строить свои собственные критерии по историческим данным. Обсудим плюсы и минусы такого подхода.

Читать далее
Всего голосов 13: ↑13 и ↓0 +13
Комментарии 0

Основные типы распределений вероятностей в примерах

Уровень сложности Средний
Время на прочтение 15 мин
Количество просмотров 8.7K

Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. Рассмотрим их подробнее на наглядных примерах.

Читать далее
Всего голосов 51: ↑51 и ↓0 +51
Комментарии 10

Истории

Зарплатные ожидания VS зарплатные предложения в IT: откуда взялся разрыв в 30%

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 24K

Бесконечно можно обсуждать три вещи: экономику, политику и зарплаты айтишников. Из мемов и достоверных источников мы знаем, что они получают 300 000 рублей в наносекунду. Или может они просто оценивают себя намного выше реального рынка?

Читать далее
Всего голосов 30: ↑26 и ↓4 +22
Комментарии 35

Экспресс-исследование корпоративных коммуникаций в России 2023

Время на прочтение 6 мин
Количество просмотров 1.1K

Результаты опроса 500 верифицированных специалистов, которые внедряют и обслуживают системы видеосвязи и корпоративные мессенджеры. География: 13 городов России.

Читать далее
Всего голосов 15: ↑14 и ↓1 +13
Комментарии 6

Опросил больше 1000 айтишников: вранье в резюме и котируемость курсов по «вкатыванию в IT»

Время на прочтение 7 мин
Количество просмотров 124K

Получилось отследить довольно интересные тренды: как размер стажа в индустрии коррелирует с отношением к выдумыванию опыта в резюме, как в IT-среде на самом деле относятся к выпускникам школ в стиле «стань айтишником за год», а также рейтинг самых ненавидимых и респектуемых в среде профи школ.

Читать далее
Всего голосов 189: ↑168 и ↓21 +147
Комментарии 318

Типичные задачи аналитика. Часть 2. А есть ли тренд?

Уровень сложности Средний
Время на прочтение 18 мин
Количество просмотров 8.7K

В первой части статьи на Habr мы рассмотрели классические подходы к оценке изменений метрики при условии ее стационарности. В этом контексте статистические критерии, применяемые в A/B тестировании, оказались весьма эффективными.

Однако, если существует стабильный тренд, например, среднемесячная аудитория увеличивается из года в год, оценка разницы средних за два смежных периода времени может быть некорректной. В таком случае среднее значение предыдущего периода всегда будет отличаться от среднего постпериода, и это часто может быть не связано с исследуемым функционалом.

Одна из причин — тренд не всегда зависит от действий компании и часто является следствием внешних условий. Например, рост аудитории может быть связан с увеличением благосостояния населения, масштабированием бизнеса или сезонными факторами.

Таким образом, наличие или отсутствие тренда является важным аспектом анализа данных. Рассмотрим несколько успешных и неудачных подходов, которые можно применять для решения этой задачи.

Читать далее
Всего голосов 22: ↑22 и ↓0 +22
Комментарии 3

Нелинейные корреляции. Моя любимая статистическая мера: D Хёфдинга

Уровень сложности Средний
Время на прочтение 25 мин
Количество просмотров 4.5K

Предположим, у вас есть две последовательности чисел, которые вы хотите сравнить, чтобы измерить, насколько они связаны или зависимы друг от друга. Это действительно довольно общий сеттинг: две последовательности могут представлять временные ряды, так что у вас есть таблица с тремя столбцами и кучей строк. Первый столбец будет временем (скажем, с часовыми интервалами), а затем по одному столбцу для каждой последовательности; первый, например, может быть средней ценой акции за этот интервал, а второй - объемом торгуемых акций за этот интервал. Или вы могли бы сравнить процентное изменение цены одной акции по сравнению с другой. Конечно, это вовсе не обязательно должны быть временные ряды: у вас также может быть всего два столбца (то есть вообще без столбца времени). Первый может быть ростом американца старше 30 лет в дюймах, а второй — весом того же человека в фунтах. Или, чтобы использовать более актуальный пример, каждый столбец может представлять вектор эмбеддингов некоторых предложений на английском языке от определенной модели LLM. Первый столбец может быть вектором от модели Mixtral 8x7B для строки "I love my 3 sons" (Я люблю моих трех сыновей), а другой — от той же модели для строки "I cherish my 5 daughters" (Я дорожу моими пятью дочерьми).

В каждом из этих случаев у нас есть две последовательности данных, которые мы хотим сравнить. Проблема заключается в том, что в самой общей ситуации мы не имеем ни малейшего представления о том, какова может быть природа связи, или даже есть ли связь, о которой стоит говорить. Что, если две последовательности полностью независимы, как записи бросков двух разных честных кубиков? Что, если данные немного искажены и содержат некоторые экстремальные выбросы, которые искажают наиболее общие виды мер, на которые вы могли бы захотеть посмотреть, такие как среднее значение и дисперсия каждого столбца отдельно? Вы могли бы подумать сейчас: «Погодите, разве ответ на это — просто посмотреть на корреляцию?» И это действительно хорошая идея для проверки, поскольку это наиболее часто используемая мера ассоциации между двумя наборами данных.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 4

Backblaze: надёжность жёстких дисков падает год от года. Это актуально для HDD большинства производителей

Время на прочтение 3 мин
Количество просмотров 19K

Компания Backblaze, провайдер облачных сервисов, регулярно публикует отчёты о выходе из строя жёстких дисков, находящихся у неё в эксплуатации. HDD — сотни тысяч, поэтому статистика получается интересной. Правда, обычно такие отчёты выглядят более-менее одинаково: какие-то модели дисков выходят из строя чаще, какие-то реже.

А вот сейчас ситуация иная: согласно данным провайдера за 2023 г., надёжность жёстких дисков разных моделей от любых производителей снизилась. Есть и исключения, но в целом это так. Подробности — под катом.

Читать далее
Всего голосов 69: ↑68 и ↓1 +67
Комментарии 130

Data Scientist in Helsinki. Мое небольшое исследование про поиск работы в Финляндии в 2024 году

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 7.3K

Превью фото сделано мной зимой 2022 года в Вуосаари - зимняя природа в Финляндии очень живописная

Привет, хабр! 

Под катом хотел бы обсудить тему поиска работы в период зимы 2023-2024 года it-специалистом в Финляндии. Про “исследование” я конечно сильно сказал, это скорее можно назвать приведением статистики, которую мне удалось собрать за период поиска с ноября 2023 по январь 2024 года и некоторые мои субъективные ощущения. В общем, если заинтересовались, - поехали!

tutkia
Всего голосов 16: ↑14 и ↓2 +12
Комментарии 13

Кнопки в автомобиле — это уже роскошь

Уровень сложности Простой
Время на прочтение 24 мин
Количество просмотров 18K

В 2021-м году я перевел и опубликовал десятилетнюю статью Будущее интерактивного дизайна в руках. Кроме хороших комментариев, я прочитал ремарку о том, что перевел старую статью и она уже неактуальна. На дворе 2024 год, но она актуальнее ещё больше. Ведь лучше не стало — кнопки нещадно истребляют в автомобилях, заменяя их на «планшеты»

Читать далее
Всего голосов 101: ↑98 и ↓3 +95
Комментарии 608

Z-test

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 2.9K

Привет, Хабр!

Z-тест, известный также как z-критерий Фишера, представляет собой набор статистических методов для проверки гипотез, которые базируются на предположении о нормальном распределении данных. Эти методы используются для анализа, являются ли средние значения двух наборов данных одинаковыми, при условии, что дисперсия генеральной совокупности известна. Еще они применяются для анализа стандартизированных выборочных средних. Расчёт Z-статистики производится путём деления разности между анализируемой случайной величиной и её математическим ожиданием на стандартную ошибку этой величины.

В этой статье рассмотрим, что такое Z-тест, чем он полезен и сравним его с t-тестом.

Читать далее
Всего голосов 15: ↑14 и ↓1 +13
Комментарии 0

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн

Почему нельзя сделать прогноз CLTV с помощью одной модели

Время на прочтение 17 мин
Количество просмотров 2.4K

Или как превратить набор продуктовых моделей склонности и оттоков в полноценный инструмент прогнозирования продуктового состояния клиента.

В чём специфика задачи оценки СLTV в банке? К каким математическим задачам она сводится? Как их решить и почему стандартные способы, например, модель регрессии, не работает? И чем здесь поможет комплексный подход? 

Привет, меня зовут Мария Самоделкина, я senior Data Scientist в Хабе Юридических Лиц Альфа-Банка - лидирую расчет CLTV в нашей команде. В статье расскажу что это за задача CLTV и для чего ее нужно решать банкам.

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 4

Как мы считали экономику продукта «Семья» через uplift CLTV

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 1.4K

Всем привет! Меня зовут Владлен Севернов. Я работаю ML-инженером в команде CLTV билайна. В этой статье я поделюсь с вами моим опытом решения задачи uplift-моделирования для оценки экономики продукта «Семья» с точки зрения CLTV.

Что мы подразумеваем под CLTV

Подробнее про CLTV в билайне вы можете почитать в наших предыдущих статьях:

- Что такое CLTV и как мы в билайне с ним работаем
- Использование ML для прогнозирования CLTV

С использованием CLTV билайн может сосредоточиться на удержании наиболее ценных клиентов, повышении их удовлетворенности и лояльности, а также оценивать эффективность маркетинговых и рекламных кампаний.

Немного про продукт «Семья»

Семейные тарифы — это возможность создать общую группу (семью) с другими людьми и добавить в нее до пяти абонентов (в зависимости от тарифа). После объединения в семью платящим остается только один абонент, называемый «донором», а другие члены группы, которые пользуются общими пакетами минут, SMS и трафика и не платят, называются «реципиентами». 

Почему для семейных тарифов необходимо считать именно CLTV?

Читать далее
Всего голосов 15: ↑13 и ↓2 +11
Комментарии 2

Метрики: их очарование и коварство

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 2.7K

Максим Лунев

Аналитик отдела аналитики производственного департамента Security Vision

Они окружили нас

Метрики прочно вошли в нашу жизнь. Финансы и спорт, бизнес и социальные сети - практически невозможно найти область, где те или иные количественные характеристики не решали бы много, если не все. Метрики рушат карьеры и возносят на пьедестал, вгоняют в депрессию и сулят золотые горы, могут стать лучшими друзьями или злейшими врагами. Не обошли они стороной и мир информационной безопасности.

 Все больше и больше современных SOC-центров активно внедряют в свою деятельность мониторинг и измерение своей эффективности. Это позволяет быстро выявить и устранить «бутылочные горлышки», оценить качество работы команд по реагированию, определить свои слабые места и составить стратегию развития. И, конечно же, проиллюстрировать свою ценность перед руководством компании, оправдав все вложенные инвестиции.

Читать далее
Всего голосов 15: ↑13 и ↓2 +11
Комментарии 7

Собирать данные VS интерпретировать их: типичные ошибки в e-commerce аналитике

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.8K

Каждый день мы собираем больше 200 ГБ данных о клиентах Lamoda, которые листают сайт и делают заказы. Но красивые цифры про наше хранилище — это одно, а правильные выводы из данных — совсем другое.

Меня зовут Александр Айваз, я руковожу командой Data & Analytics в Lamoda Tech. И сегодня расскажу об ошибках в аналитике, которые легко совершить, глядя на данные в ретейле и e-commerce. Уверен, кому-то статья поможет иначе взглянуть на собственный продукт — или даст представление о том, с какими вопросами работают продуктовые аналитики.

Конечно, многие из этих ошибок когда-либо совершали и мы сами. В статье я постараюсь не углубляться в цифры, а расскажу о причинах на собственном примере. 

Читать далее
Всего голосов 20: ↑19 и ↓1 +18
Комментарии 2

Как проводят оценку качества данных в Airbnb

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 2K


Сегодня, когда объем собираемых компаниями данных растет в геометрической прогрессии, мы понимаем, что больше данных — не всегда лучше. На самом деле слишком большой объем информации, особенно если вы не можете гарантировать ее качество, может помешать компании и замедлить процесс принятия решений. Или это приведет к принятию неправильных решений.

Рост показателей Airbnb до 1,4 миллиарда гостей на конец 2022 года привел нас в точку, когда снижение качества данных стало мешать нашим специалистам по работе с этими самыми данными. Еженедельные отчеты по метрикам стало сложно предоставлять вовремя, такие базовые показатели как «Активные объявления» стали иметь целую паутину зависимостей. Для полноценной работы с данными стали требоваться значительные институциональные знания, просто чтобы преодолеть все «подводные камни» в нашем информационном потоке.

Чтобы решить эту проблему, мы внедрили процесс под кодовым названием «Мидас» (Midas), который предназначался для сертификации наших данных. Начиная с 2020 года, процесс Midas, а также работа по реорганизации наших наиболее важных моделей позволили значительно повысить качество и оперативность получения важнейших данных Airbnb. Однако достижение всех критериев качества данных требует значительных межфункциональных инвестиций в такие вещи как проектирование, разработка, проверка и поддержка необходимых информационных ассетов и документации.
Читать дальше →
Всего голосов 32: ↑30 и ↓2 +28
Комментарии 3

Технические предпочтения пользователей с нарушениями зрения в 2023 году. Исследование Яндекса

Уровень сложности Средний
Время на прочтение 22 мин
Количество просмотров 2.8K

Цифровые продукты и сервисы стали обыденным явлением, и сегодня это часть повседневной жизни самых обычных людей, а не только ранних энтузиастов новых технологий. Однако есть пользователи, которые по-прежнему испытывают существенные трудности при взаимодействии с современными информационными технологиями. Они вынуждены преодолевать большой порог вхождения, осваивать не самые простые дополнительные инструменты и нетривиальные способы взаимодействия с компьютерной техникой, а также постоянно сталкиваются с неудобными или просто неработоспособными интерфейсами.


Привет, Хабр. Меня зовут Никита, я помогаю коллегам из Яндекса с технической экспертизой по вопросам accessibility. В этой статье я хочу поделиться результатами очередного исследования технических предпочтений пользователей с нарушениями зрения, которое предназначено для специалистов, работающих в сфере цифровой доступности. О подобном исследовании я рассказывал в 2020 году.


Круговая диаграмма с долями основных программ экранного доступа по данным таблицы 10
Читать дальше →
Всего голосов 16: ↑16 и ↓0 +16
Комментарии 0

Топ-10 качеств идеального ментора в IT. Мы опросили сто аналитиков

Время на прочтение 3 мин
Количество просмотров 4.6K

Всем привет! Меня зовут Артём Полуян, я руководитель системных аналитиков в SM Lab. В этой статье хочу поделиться одной любопытной статистикой, которую мне удалось собрать за два года. 

Что за статистика и откуда она у меня взялась? Дело в том, что у меня есть своего рода хобби: раз в три месяца я провожу тренинг по менторству (наставничеству) для сотрудников нашего департамента системного анализа. За два года я провёл девять таких тренингов, которые посетило суммарно около ста системных аналитиков и аналитиков данных. 

На тренинг приходят ребята с самым разным опытом. Кто-то только готовится стать ментором в своей команде, а кто-то, уже имея некоторый опыт, приходит обменяться экспертизой с коллегами. Формат мероприятия больше напоминает дискуссии, в рамках которых определяются оптимальные варианты выхода из различных ситуаций, в которых может оказаться ментор. 

На всякий случай обозначу, кто такой ментор в нашем понимании. Ментор — опытный участник команды, который прикрепляется к новому сотруднику (менти) для осуществления онбординга. Тут у нас всё примерно так же, как и в любых современных IT-компаниях. 

Читать далее
Всего голосов 17: ↑14 и ↓3 +11
Комментарии 4

Вклад авторов