Как стать автором
Обновить
79.27

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Разработка программного средства по обработке данных фонокардиограммы

Уровень сложностиСложный
Время на прочтение41 мин
Количество просмотров356

Медицинские исследования играют важную роль в понимании различных заболеваний и разработке эффективных методов лечения. Одним из инструментов, используемых в кардиологии, является фонокардиограмма (ФКГ).

Фонокардиограмма - это метод диагностики сердечно-сосудистой системы, который основывается на записи звуков, производимых сердцем. Она может быть полезной в определении различных заболеваний сердца, таких как стеноз клапана, митральный стеноз, митральную недостаточность, перикардит и другие.

ФКГ может использоваться для оценки эффективности лечения сердечных заболеваний и для наблюдения за состоянием сердца в течение времени. Если у вас есть симптомы, такие как боль в груди, одышка, учащенный пульс, упадок сил, обратитесь к кардиологу, который посоветует, нужна ли вам ФКГ [1].

Объектом исследования выпускной квалификационной работы является список файлов формата .csv, содержащих разделенные знаком ";" смещенные целочисленные значения амплитуды шумов сердца, записанные в течение нескольких секунд, частота дискретизации – 1000 гц (числа в записи обозначают амплитуду сигнала, временной промежуток между соседними значениями - 1 миллисекунда).

Цель работы состоит в создании алгоритма автоматической интерпретации снятых данных, который пытается по форме кривых делать выводы, аналогичные тем, которые по этим же кривым умеет делать эксперт и создание собственного алгоритма. Необходимо определить и выделить точку максимальной амплитуды, начало и окончание тона 1 для каждого из сердечных циклов. Ответ необходимо вывести в виде списка списков [t1, t2, t3], где t1 – начало тона 1, t2 – точка максимальной амплитуды, t3 – окончание тона 1. Также, для проверки результата, необходимо визуализировать полученный результат на графике. Данную процедуру необходимо произвести для каждого файла.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Новости

T-test. Зависимость от независимости

Время на прочтение16 мин
Количество просмотров1.5K

Привет, Хабр! В статье подробно рассмотрим область применения самого базового статистического критерия Стьюдента. Посмотрим, как он ведёт себя, когда мы не хотим отдавать качество подбора наших групп на волю случая.

Читать далее
Всего голосов 5: ↑5.5 и ↓-0.5+6
Комментарии0

Автоматически выделяем кусочно-линейные тренды временного ряда

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.8K

Меня зовут Антон Сорока, я математик и аналитик данных.

Я хотел бы рассказать об алгоритме, который выделяет кусочно-линейный тренд из временного ряда и сам определяет точки изменения тренда. Другими словами, это алгоритм для автоматического кусочно-линейного приближения любой функции. Это может понадобиться, если вам важно анализировать линейные тренды ряда, но единственная линия явно недостаточно точно описывает ряд, и самостоятельно искать точки, где тренд менялся, неудобно. Реализация этого алгоритма есть в open-source библиотеке для анализа изменений временных рядов, написанной на Python.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии4

Непрекращающиеся AB-тесты: как делать продукт лучше и знать об этом

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.1K

Основное предназначение A/B тестов — оценить эффективность вносимых изменений и, в случае увеличения целевых метрик, зафиксировать эти изменения, а в случае снижения — откатить. Как правило, один из критериев хорошего дизайна A/B-теста — это конкретное и реалистичное с практической точки зрения время его проведения.

Такой подход логичен, довольно хорошо изучен и не нуждается в очередном обсуждении. В этой же статье предлагаю обсудить не самые популярные подходы к тестированию: тесты, у которых есть начало, но нет конца, где эффект изменений может меняться за короткий промежуток времени, а тестируемые изменения — всегда в процессе частичного релиза.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии0

Истории

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров5.5K

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

Читать далее
Всего голосов 18: ↑21 и ↓-3+24
Комментарии13

Программирование — не мужская профессия. Или как стереотипы о женщинах создали «мужской перекос» в IT-индустрии

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров3.1K

Или как стереотипы о женщинах создали «мужской перекос» в IT индустрии.

Наверное, многие из тех, кто сейчас работает в области IT каким-то образом сталкивались с историей программирования. Тогда вам, конечно же, будет известно имя первой программистки — Ады Лавлейс. Возможно, если бы в XVII-XIX веках, образование для женщин в сфере естественных наук было более доступным, то это было бы не единственным именем. Странно, что мы называем XVIII в. эпохой Просвещения, но просвещение не коснулось женщин, потому что им было отказано в праве получать высшее и профессиональное образование.

В этой статье я хочу рассказать о существующем «мужском перекосе» в данной отрасли, почему он существует и почему женщинам так сложно пробиться в эту сферу.

Узнать больше
Всего голосов 56: ↑18.5 и ↓37.5-19
Комментарии140

Стоит ли идти в тестирование в 2024 году?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров14K

Растут или снижаются зарплаты в тестировании? Какие скилы наиболее востребованы? Сколько вакансий для джунов? Узнали у экспертов, как изменился рынок в 2023 году и какие тренды сохраняются в 2024.

Читать далее
Всего голосов 19: ↑16 и ↓3+13
Комментарии17

Парадоксы в данных, и почему визуализация бывает необходима

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров7.3K

В этой заметке я хочу разобрать несколько «парадоксов» в данных, о которых полезно знать как начинающему аналитику данных, так и любому человеку, кто не хочет быть введенным в заблуждение некорректными статистическими выводами.

За рассматриваемыми примерами не кроется сложной математики помимо базовых свойств выборки (таких, как среднее арифметическое и дисперсия), зато такие кейсы могут встретиться и на собеседовании, и в жизни.

Погнали!
Всего голосов 38: ↑39 и ↓-1+40
Комментарии3

Стоит ли становиться Fullstack разработчиком

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.4K

Сегодня я кратко (или не очень) изложу свои мысли о том, стоит ли быть fullstack разработчиком, какие плюсы и минусы у такого пути развития и для кого такое направление выгодно.

Читать далее
Всего голосов 9: ↑6 и ↓3+3
Комментарии23

К управлению задачами через статистику

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров1K

Данную статью меня побудило написать знакомство с несколькими статьями и видео Павла Ахметчанова (этой, например), коего я и приглашаю в первую очередь к дискуссии. :) Изначально ограничился чисто техническим комментарием к статье, но после более глубокого погружения различных прочих комментариев у меня накопилось столько, что я решил оформить их в лонгрид.

Вперёд к критике!
Всего голосов 6: ↑4 и ↓2+2
Комментарии2

Стандартное отклонение и стандартная ошибка: две статистики с похожими названиями, но разными смыслами

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров6.3K

Я читаю курс статистического мышления магистрам, и одна тема вызывает у них явные затруднения — чем стандартное отклонение отличается от стандартной ошибки, и в каких случаях, применять ту или иную статистику. Думаю, будет интересно поговорить об этом в блоге ЛАНИТ.

Читать далее
Всего голосов 34: ↑34.5 и ↓-0.5+35
Комментарии8

История одной очереди

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров22K

В одно воскресенье довелось мне стоять в очереди на избирательный участок №8134 в Алматы. Простоял я там 4 часа, а некоторые и того больше. И как-то совершенно случайно вспомнил, что в институте я учился на специальности “системы и сети массового обслуживания”, а тут у нас как раз такая сеть, которую можно попробовать рассчитать. А заодно ответить расчётами на некоторые вопросы.

Уважаемые кроты, давайте посчитаем
Всего голосов 112: ↑97 и ↓15+82
Комментарии70

Формула идеального IT-ивента

Время на прочтение2 мин
Количество просмотров4K

Привет!

Мы видим, что компании часто публикуют анонсы ивентов для айтишников, а вы, читая их, наверняка думаете: «вроде бы неплохо, но вот если бы это было… (офлайн/покороче/подешевле/на Багамах и т.д.), тогда бы сходил». Нам стало интересно: каким должен быть IT-ивент, чтобы вы перед ним не смогли устоять?

Давайте вместе попробуем вывести формулу самого крутого IT-ивента: для этого просим вас пройти короткий (правда короткий, 14 вопросов) опрос.

В анкете есть открытый вопрос: через пару недель мы поделимся самыми интересными ответами из него в апдейте этой статьи, так что добавьте её в закладки.

Чтобы в ответах вы следовали голосу сердца, а не внутренней «жабы», сразу обозначим, что наш идеальный ивент БЕСПЛАТНЫЙ. Но давайте договоримся: мы хотим, чтобы ивент был вам интересен сам по себе, а не как «под любым предлогом, лишь бы нахаляву на море», ага?

Погнали!

Читать далее
Всего голосов 14: ↑13 и ↓1+12
Комментарии5

Ближайшие события

Коэффициенты для экстраполяции прогнозов компонент CLTV на 5 лет

Время на прочтение8 мин
Количество просмотров4.2K

Эта статья описывает, как из прогнозов ряда ML-моделей получить ценность клиента с горизонтом в 5 лет. Напомним, что показатель CLTV представляет из себя композицию прогнозов ее компонент (подробнее в статье). В нашей реализации максимальный период прогнозирования моделей - 24 месяца. Важно отметить, что чем выше горизонт прогнозирования, тем менее точный прогноз способна сделать модель. А показатель CLTV интересен бизнесу на более длинном горизонте, в нашем случае - пять лет. Как же из прогнозов на два года получить прогноз на пять лет? Ответ прост: экстраполировать прогнозы.

Основная идея продления (экстраполяции) прогнозов - это разбиение пользователей на несколько групп, а в каждой группе единообразно продлить ряд прогноза. 

Далее мы обсудим:

- подходы к экстраполяции ряда, их достоинства и проблемы
- как выбирать группы и подготовить данные для экстраполяции
- достоинства выбранного подхода к продлению прогнозов на 5 лет, трудности и пути их решения.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии1

«Подземные камни» А/Б-тестирования в e-commerce

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.3K

Любой полезный бизнесу продукт меняется со временем: появляются новые функции, улучшаются старые. Возникает потребность оценить влияние таких изменений на пользователей продукта. Необходимо проверить, нет ли ошибок в реализации новой функциональности и справляется ли она с поставленными задачами. 

Первое, что хочется сделать — сравнить показатели работы продукта до внесения изменений и после. Но в таком случае нельзя утверждать, что разница в показателях обусловлена только новой функциональностью, так как на состояние продукта в любой момент времени может повлиять любой внешний фактор. Поэтому принято прибегать к контролируемым рандомизированным экспериментам, которые также называют А/Б-тестами. В том числе и для товарных рекомендаций в e-commerce.

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии3

А/Б тестирование на маленьких выборках. Построение собственного критерия

Время на прочтение8 мин
Количество просмотров6.5K

Хабр, привет! Сегодня рассмотрим кейс, в котором классические статистические критерии не работают, и разберёмся, почему так происходит. Научимся строить свои собственные критерии по историческим данным. Обсудим плюсы и минусы такого подхода.

Читать далее
Всего голосов 14: ↑14 и ↓0+14
Комментарии4

Основные типы распределений вероятностей в примерах

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров12K

Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. Рассмотрим их подробнее на наглядных примерах.

Читать далее
Всего голосов 58: ↑58 и ↓0+58
Комментарии11

Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.1K

В предыдущих статьях статья 1, статья 2, статья 3 мы рассмотрели основные подводные камни автоматизации и анализу АБ тестов, привели подробный обзор статей по этой теме, а так же рассмотрели типичные задачи аналитика данных. В контексте АБ-тестов одним из ключевых аспектов является механизм разделения на группы, который в терминологии специалистов часто называется сплитовалкой.

Может показаться, что задача элементарная - сгенерировать случайное целое число каждому пользователю с вероятностью 1/n, где n - число групп в АБ тесте. Но на практике, особенно для высоконагруженных сервисов, таких как Ozon, возникает множество архитектурных и платформенных сложностей. В данной статье мы сконцентрируемся на основных принципах деления на группы, принятых в индустрии.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии1

Зарплатные ожидания VS зарплатные предложения в IT: откуда взялся разрыв в 30%

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров25K

Бесконечно можно обсуждать три вещи: экономику, политику и зарплаты айтишников. Из мемов и достоверных источников мы знаем, что они получают 300 000 рублей в наносекунду. Или может они просто оценивают себя намного выше реального рынка?

Читать далее
Всего голосов 32: ↑28 и ↓4+24
Комментарии35

Juniorы врут об опыте работы. Проблема ли это для HR?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров19K

Желание собрать отдельную статью появилась на фоне довольно бурных обсуждений в ветке комментариев. Во многом комментарии противоречивы. Споры касаются нюансов, начиная от этики запроса оплаты за тестовые задания до обширных вопросов касательно важности высшего образования.

Поэтому хотел бы пересобрать свой коммент в более расширенном формате + где-то его дополнить на основе новых интервью.

Читать далее
Всего голосов 16: ↑10 и ↓6+4
Комментарии103
1
23 ...