Статистика в IT

Статистика, исследования, тенденции

Статьи Посты Новости Авторы Компании

DmitriiReshetnikov 7 часов назад

Разработка программного средства по обработке данных фонокардиограммы

Сложный

41 мин

356

Python*Big Data*Математика*Визуализация данных*Статистика в IT

Аналитика

Медицинские исследования играют важную роль в понимании различных заболеваний и разработке эффективных методов лечения. Одним из инструментов, используемых в кардиологии, является фонокардиограмма (ФКГ).

Фонокардиограмма - это метод диагностики сердечно-сосудистой системы, который основывается на записи звуков, производимых сердцем. Она может быть полезной в определении различных заболеваний сердца, таких как стеноз клапана, митральный стеноз, митральную недостаточность, перикардит и другие.

ФКГ может использоваться для оценки эффективности лечения сердечных заболеваний и для наблюдения за состоянием сердца в течение времени. Если у вас есть симптомы, такие как боль в груди, одышка, учащенный пульс, упадок сил, обратитесь к кардиологу, который посоветует, нужна ли вам ФКГ [1].

Объектом исследования выпускной квалификационной работы является список файлов формата .csv, содержащих разделенные знаком ";" смещенные целочисленные значения амплитуды шумов сердца, записанные в течение нескольких секунд, частота дискретизации – 1000 гц (числа в записи обозначают амплитуду сигнала, временной промежуток между соседними значениями - 1 миллисекунда).

Цель работы состоит в создании алгоритма автоматической интерпретации снятых данных, который пытается по форме кривых делать выводы, аналогичные тем, которые по этим же кривым умеет делать эксперт и создание собственного алгоритма. Необходимо определить и выделить точку максимальной амплитуды, начало и окончание тона 1 для каждого из сердечных циклов. Ответ необходимо вывести в виде списка списков [t1, t2, t3], где t1 – начало тона 1, t2 – точка максимальной амплитуды, t3 – окончание тона 1. Также, для проверки результата, необходимо визуализировать полученный результат на графике. Данную процедуру необходимо произвести для каждого файла.

n-surkov 18 апр в 16:00

T-test. Зависимость от независимости

16 мин

1.5K

Блог компании X5 TechPython*Математика*Статистика в IT

Привет, Хабр! В статье подробно рассмотрим область применения самого базового статистического критерия Стьюдента. Посмотрим, как он ведёт себя, когда мы не хотим отдавать качество подбора наших групп на волю случая.

AntonSoroka 18 апр в 14:20

Автоматически выделяем кусочно-линейные тренды временного ряда

Средний

7 мин

2.8K

Open source*Python*Математика*Машинное обучение*Статистика в IT

Из песочницы

Меня зовут Антон Сорока, я математик и аналитик данных.

Я хотел бы рассказать об алгоритме, который выделяет кусочно-линейный тренд из временного ряда и сам определяет точки изменения тренда. Другими словами, это алгоритм для автоматического кусочно-линейного приближения любой функции. Это может понадобиться, если вам важно анализировать линейные тренды ряда, но единственная линия явно недостаточно точно описывает ряд, и самостоятельно искать точки, где тренд менялся, неудобно. Реализация этого алгоритма есть в open-source библиотеке для анализа изменений временных рядов, написанной на Python.

prinkov 16 апр в 12:06

Непрекращающиеся AB-тесты: как делать продукт лучше и знать об этом

Простой

8 мин

1.1K

Блог компании Garage EightТестирование веб-сервисов*Повышение конверсии*Управление продуктом*Статистика в IT

Мнение

Основное предназначение A/B тестов — оценить эффективность вносимых изменений и, в случае увеличения целевых метрик, зафиксировать эти изменения, а в случае снижения — откатить. Как правило, один из критериев хорошего дизайна A/B-теста — это конкретное и реалистичное с практической точки зрения время его проведения.

Такой подход логичен, довольно хорошо изучен и не нуждается в очередном обсуждении. В этой же статье предлагаю обсудить не самые популярные подходы к тестированию: тесты, у которых есть начало, но нет конца, где эффект изменений может меняться за короткий промежуток времени, а тестируемые изменения — всегда в процессе частичного релиза.

nrsharip 11 апр в 16:06

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Средний

15 мин

5.5K

Python*Алгоритмы*Математика*Статистика в ITИнфографика

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

+24

georgia544 4 апр в 12:30

Программирование — не мужская профессия. Или как стереотипы о женщинах создали «мужской перекос» в IT-индустрии

Простой

11 мин

3.1K

Исследования и прогнозы в IT*Карьера в IT-индустрииСтатистика в ITИстория ITНаучно-популярное

Мнение

Или как стереотипы о женщинах создали «мужской перекос» в IT индустрии.

Наверное, многие из тех, кто сейчас работает в области IT каким-то образом сталкивались с историей программирования. Тогда вам, конечно же, будет известно имя первой программистки — Ады Лавлейс. Возможно, если бы в XVII-XIX веках, образование для женщин в сфере естественных наук было более доступным, то это было бы не единственным именем. Странно, что мы называем XVIII в. эпохой Просвещения, но просвещение не коснулось женщин, потому что им было отказано в праве получать высшее и профессиональное образование.

В этой статье я хочу рассказать о существующем «мужском перекосе» в данной отрасли, почему он существует и почему женщинам так сложно пробиться в эту сферу.

Узнать больше

-19

140

German_D 4 апр в 11:16

Стоит ли идти в тестирование в 2024 году?

Простой

6 мин

14K

Тестирование IT-систем*Тестирование веб-сервисов*Тестирование мобильных приложений*Тестирование игр*Статистика в IT

Аналитика

Растут или снижаются зарплаты в тестировании? Какие скилы наиболее востребованы? Сколько вакансий для джунов? Узнали у экспертов, как изменился рынок в 2023 году и какие тренды сохраняются в 2024.

+13

NechkaP 3 апр в 21:02

Парадоксы в данных, и почему визуализация бывает необходима

Простой

6 мин

7.3K

Математика*Визуализация данных*Статистика в IT

В этой заметке я хочу разобрать несколько «парадоксов» в данных, о которых полезно знать как начинающему аналитику данных, так и любому человеку, кто не хочет быть введенным в заблуждение некорректными статистическими выводами.

За рассматриваемыми примерами не кроется сложной математики помимо базовых свойств выборки (таких, как среднее арифметическое и дисперсия), зато такие кейсы могут встретиться и на собеседовании, и в жизни.

Погнали!

+40

IT-VAVILON 29 мар в 10:25

Стоит ли становиться Fullstack разработчиком

Простой

6 мин

5.4K

Веб-разработка*Исследования и прогнозы в IT*Карьера в IT-индустрииСтатистика в ITФинансы в IT

Мнение

Сегодня я кратко (или не очень) изложу свои мысли о том, стоит ли быть fullstack разработчиком, какие плюсы и минусы у такого пути развития и для кого такое направление выгодно.

kayan 29 мар в 01:00

К управлению задачами через статистику

Простой

15 мин

Управление разработкой*Управление проектами*Статистика в IT

Мнение

Данную статью меня побудило написать знакомство с несколькими статьями и видео Павла Ахметчанова (этой, например), коего я и приглашаю в первую очередь к дискуссии. :) Изначально ограничился чисто техническим комментарием к статье, но после более глубокого погружения различных прочих комментариев у меня накопилось столько, что я решил оформить их в лонгрид.

Вперёд к критике!

SergBag 26 мар в 10:01

Стандартное отклонение и стандартная ошибка: две статистики с похожими названиями, но разными смыслами

Средний

9 мин

6.3K

Блог компании ГК ЛАНИТМатематика*Исследования и прогнозы в IT*Статистика в IT

Я читаю курс статистического мышления магистрам, и одна тема вызывает у них явные затруднения — чем стандартное отклонение отличается от стандартной ошибки, и в каких случаях, применять ту или иную статистику. Думаю, будет интересно поговорить об этом в блоге ЛАНИТ.

+35

GRaAL 25 мар в 18:41

История одной очереди

Простой

8 мин

22K

Занимательные задачкиМатематика*Статистика в IT

В одно воскресенье довелось мне стоять в очереди на избирательный участок №8134 в Алматы. Простоял я там 4 часа, а некоторые и того больше. И как-то совершенно случайно вспомнил, что в институте я учился на специальности “системы и сети массового обслуживания”, а тут у нас как раз такая сеть, которую можно попробовать рассчитать. А заодно ответить расчётами на некоторые вопросы.

Уважаемые кроты, давайте посчитаем

+82

22 мар в 11:53

Формула идеального IT-ивента

2 мин

Карьера в IT-индустрииКонференцииСтатистика в ITСоциальные сети и сообщества

Привет!

Мы видим, что компании часто публикуют анонсы ивентов для айтишников, а вы, читая их, наверняка думаете: «вроде бы неплохо, но вот если бы это было… (офлайн/покороче/подешевле/на Багамах и т.д.), тогда бы сходил». Нам стало интересно: каким должен быть IT-ивент, чтобы вы перед ним не смогли устоять?

Давайте вместе попробуем вывести формулу самого крутого IT-ивента: для этого просим вас пройти короткий (правда короткий, 14 вопросов) опрос.

В анкете есть открытый вопрос: через пару недель мы поделимся самыми интересными ответами из него в апдейте этой статьи, так что добавьте её в закладки.

Чтобы в ответах вы следовали голосу сердца, а не внутренней «жабы», сразу обозначим, что наш идеальный ивент БЕСПЛАТНЫЙ. Но давайте договоримся: мы хотим, чтобы ивент был вам интересен сам по себе, а не как «под любым предлогом, лишь бы нахаляву на море», ага?

Погнали!

+12

deckerar 21 мар в 15:09

Коэффициенты для экстраполяции прогнозов компонент CLTV на 5 лет

8 мин

4.2K

Блог компании билайнМатематика*Машинное обучение*Управление продажами*Статистика в IT

Эта статья описывает, как из прогнозов ряда ML-моделей получить ценность клиента с горизонтом в 5 лет. Напомним, что показатель CLTV представляет из себя композицию прогнозов ее компонент (подробнее в статье). В нашей реализации максимальный период прогнозирования моделей - 24 месяца. Важно отметить, что чем выше горизонт прогнозирования, тем менее точный прогноз способна сделать модель. А показатель CLTV интересен бизнесу на более длинном горизонте, в нашем случае - пять лет. Как же из прогнозов на два года получить прогноз на пять лет? Ответ прост: экстраполировать прогнозы.

Основная идея продления (экстраполяции) прогнозов - это разбиение пользователей на несколько групп, а в каждой группе единообразно продлить ряд прогноза.

Далее мы обсудим:

- подходы к экстраполяции ряда, их достоинства и проблемы
- как выбирать группы и подготовить данные для экстраполяции
- достоинства выбранного подхода к продлению прогнозов на 5 лет, трудности и пути их решения.

RetailRocket 20 мар в 13:19

«Подземные камни» А/Б-тестирования в e-commerce

Средний

17 мин

1.3K

Блог компании Retail RocketИнтернет-маркетинг*Управление e-commerce*Управление продуктом*Статистика в IT

Любой полезный бизнесу продукт меняется со временем: появляются новые функции, улучшаются старые. Возникает потребность оценить влияние таких изменений на пользователей продукта. Необходимо проверить, нет ли ошибок в реализации новой функциональности и справляется ли она с поставленными задачами.

Первое, что хочется сделать — сравнить показатели работы продукта до внесения изменений и после. Но в таком случае нельзя утверждать, что разница в показателях обусловлена только новой функциональностью, так как на состояние продукта в любой момент времени может повлиять любой внешний фактор. Поэтому принято прибегать к контролируемым рандомизированным экспериментам, которые также называют А/Б-тестами. В том числе и для товарных рекомендаций в e-commerce.

nnazarov 20 мар в 12:30

А/Б тестирование на маленьких выборках. Построение собственного критерия

8 мин

6.5K

Блог компании X5 TechPython*Математика*Статистика в IT

Хабр, привет! Сегодня рассмотрим кейс, в котором классические статистические критерии не работают, и разберёмся, почему так происходит. Научимся строить свои собственные критерии по историческим данным. Обсудим плюсы и минусы такого подхода.

+14

nrsharip 18 мар в 17:32

Основные типы распределений вероятностей в примерах

Средний

15 мин

12K

Python*Алгоритмы*Математика*Статистика в ITИнфографика

Из песочницы

Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. Рассмотрим их подробнее на наглядных примерах.

+58

maratyv 17 мар в 16:30

Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации

Средний

10 мин

2.1K

Python*Анализ и проектирование систем*Big Data*Аналитика мобильных приложений*Статистика в IT

Аналитика

В предыдущих статьях статья 1, статья 2, статья 3 мы рассмотрели основные подводные камни автоматизации и анализу АБ тестов, привели подробный обзор статей по этой теме, а так же рассмотрели типичные задачи аналитика данных. В контексте АБ-тестов одним из ключевых аспектов является механизм разделения на группы, который в терминологии специалистов часто называется сплитовалкой.

Может показаться, что задача элементарная - сгенерировать случайное целое число каждому пользователю с вероятностью 1/n, где n - число групп в АБ тесте. Но на практике, особенно для высоконагруженных сервисов, таких как Ozon, возникает множество архитектурных и платформенных сложностей. В данной статье мы сконцентрируемся на основных принципах деления на группы, принятых в индустрии.

rezsoseres 13 мар в 17:18

Зарплатные ожидания VS зарплатные предложения в IT: откуда взялся разрыв в 30%

Простой

4 мин

25K

Блог компании hitchУправление персоналом*Карьера в IT-индустрииСтатистика в IT

Бесконечно можно обсуждать три вещи: экономику, политику и зарплаты айтишников. Из мемов и достоверных источников мы знаем, что они получают 300 000 рублей в наносекунду. Или может они просто оценивают себя намного выше реального рынка?

+24

alexmusyka 11 мар в 21:06

Juniorы врут об опыте работы. Проблема ли это для HR?

Простой

6 мин

19K

Исследования и прогнозы в IT*Учебный процесс в ITУправление персоналом*Карьера в IT-индустрииСтатистика в IT

Аналитика

Желание собрать отдельную статью появилась на фоне довольно бурных обсуждений в ветке комментариев. Во многом комментарии противоречивы. Споры касаются нюансов, начиная от этики запроса оплаты за тестовые задания до обширных вопросов касательно важности высшего образования.

Поэтому хотел бы пересобрать свой коммент в более расширенном формате + где-то его дополнить на основе новых интервью.

103

2 3 ...

46 47

Статистика в IT

Разработка программного средства по обработке данных фонокардиограммы

Новости

T-test. Зависимость от независимости

Автоматически выделяем кусочно-линейные тренды временного ряда

Непрекращающиеся AB-тесты: как делать продукт лучше и знать об этом

Истории

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Программирование — не мужская профессия. Или как стереотипы о женщинах создали «мужской перекос» в IT-индустрии

Стоит ли идти в тестирование в 2024 году?

Парадоксы в данных, и почему визуализация бывает необходима

Стоит ли становиться Fullstack разработчиком

К управлению задачами через статистику

Стандартное отклонение и стандартная ошибка: две статистики с похожими названиями, но разными смыслами

История одной очереди

Формула идеального IT-ивента

Ближайшие события

Коэффициенты для экстраполяции прогнозов компонент CLTV на 5 лет

«Подземные камни» А/Б-тестирования в e-commerce

А/Б тестирование на маленьких выборках. Построение собственного критерия

Основные типы распределений вероятностей в примерах

Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации

Зарплатные ожидания VS зарплатные предложения в IT: откуда взялся разрыв в 30%

Juniorы врут об опыте работы. Проблема ли это для HR?

Вклад авторов