Квартет Анскомбе

    Статистика — это такой инструмент… Очень страшный в неумелых руках. В умелых того страшнее, способен разорвать мозг на куски.Вот есть последовательности A, B, C и D, про которые известно следующее:
      A B C D
    Среднее значение x 9.00 9.00 9.00 9.00
    Дисперсия х 10.00 10.00 10.00 10.00
    Среднее значение y 7.50 7.50 7.50 7.50
    Дисперсия y 3.75 3.75 3.75 3.75
    Корреляция между x и y 0.82 0.82 0.82 0.82
    Прямая линейной регрессии y = 3 + 0.5 x y = 3 + 0.5 x y = 3 + 0.5 x y = 3 + 0.5 x
    То есть все указанные величины для них совпадают. По крайней мере, до второго знака после запятой.А теперь смотрим глазами:
    Anscombe's quartet
    Такая вот картина маслом. Можно скачать .XLS с данными для самостоятельного изучения.Придумал эту штуку британский статистик Ф.Дж. Анскомбе, и называется она «квартет Анскомбе». Поговорку про среднюю температуру по больнице все слышали, а теперь у вас есть к ней хорошая иллюстрация.Про квартет Анскомбе в английской википедии.UPD: началось портирование этой статьи в русскую википидею, и там правильно замечают, что автора следует называть Френсис Энскомб.
    Поделиться публикацией
    Реклама помогает поддерживать и развивать наши сервисы

    Подробнее
    Реклама
    Комментарии 67
    • НЛО прилетело и опубликовало эту надпись здесь
      • +21
        Я слышал в более жестком варианте: «Есть три вида лжи: ложь, наглая ложь и статистика».
        • –1
          Еще более жесткий вариант звучал так: «Есть маленькая ложь, большая ложь и советсткая статистика».
        • +16
          Поправочка:
          Существуют три вида лжи: ложь, наглая ложь и статистика. (Марк Твен)

          Но мне больше по нраву:
          По статистике один пешеход попадает под колеса автомобиля каждые 17 минут. Бедняга! (Янина Ипохорская)
        • 0
          Здорово! То, что доктор прописал для презентации по моей бакалаврской =)
          Благодарю за информацию!
          • 0
            Учтите, что в третьем и дальнейших знаках некоторые значения на самом деле не равны.
            • 0
              Само собой, но оживить презентацию эта информация способна :)
              А то сплошные формулы, код, графики… надо было попроще брать тему…
              • +3
                А как тема звучит?
                • +1
                  В переводе на русский звучит примерно как: «Разработка алгоритмов и программ статистического оценивания с применением пакета R»
                  • +1
                    сначала руководителю покажите — возможно в комиссии люди будут без юмора, не стоит рисковать работой!
                    • +1
                      И это… обратите внимание, что автора, оказывается, зовут Энскомб.
                      Пруфлинк.
                • 0
                  Здесь дело не в знаке, можно подобрать точки так, чтобы значения были в точности равны, а картинки выглядели так же. Эти картинки нам просто показывают, что статистическая информация — это просто усреднение, которое часто не отражает реальную природу данных.
                  • +16
                    Скажем так: нельзя ограничиваться несколькими статистическими показателями без подробного анализа данных.

                    Особенно это касается любимого всеми коэффициента корреляции: постоянно забывают, особенно всякие журналисты, что статистическая взаимосвязь не означает причинно-следственную взаимосвязь.

                    Классический пример:
                    • +21
                      Люди, которые делают утреннюю зарядку, умирают в сто раз реже остальных. Потому что их в сто раз меньше, чем остальных.
                    • НЛО прилетело и опубликовало эту надпись здесь
                      • +6
                        Пресвятые макароны!
                      • 0
                        О причинной связи можно говорить, если в эксперименте искуственно меняется одна переменная, а при этом наблюдается изменения в другой. Тогда коэффициент корреляции действительно покажет причинную связь
                        • 0
                          *занудство* как то у вас по оси Х странно циферки расположены. Потому и график не верен
                          • 0
                            Подробнее, плз — что там странного?
                            • 0
                              А, вы про пиратов… :) ну расположите там года.
                          • +1
                            Глобальное похолодание уже началось:

                            www.google.ru/trends?q=пираты
                    • 0
                      Первая мысль, когда посмотрел на C и D, что данные находятся в более, чем 2-мерном пространстве Оо
                      • 0
                        Я тоже так подумал поначалу)
                      • +3
                        отклонения больше чем 3сигмы выкидываются из результатов эксперимента, некоторые точки я бы под сомнение поставил
                        • 0
                          А где здесь эксперимент? ;)
                          • +5
                            А с чем оперирует статистика? Только с эксперементальными данными.
                            • +1
                              Здесь данные, конечно, не экспериментальные, а так — чистая игра ума. Как раз для того, чтобы показать уровень доверия к обобщенным показателям.

                              Впрочем, правило трёх сигм применяется только к нормально распределенным данным, а это ведь далеко не все возможные случаи. Например, размер зарплат у населения России — величина отнюдь не нормально распределенная.

                              И ещё: в квартете Анскомбе все данные, кроме случая D, вписываются в интервал трех сигм. И даже вон та зависшая точка в D — тоже почти на краю, ну чуть-чуть выбивается :)
                              • –2
                                в хлс файле все формулы явно для нормального распределения.
                                • 0
                                  Хмм… в общем случае можно использовать неравенство Чебышева, нет?
                                  Оно хотя не такое сильное, как правило трех сигм для нормального, но тоже не слишком слабое.
                                  • +1
                                    Для борьбы с точками-«аутсайдерами» (laverage effect) обычно применяют статистические критерии, например Q-тест
                                    • +1
                                      Сумма одинаково распределенных величин в пределе имеет нормальное распределение. Центральная предельная теорема.
                                      Даже сумма четырех-пяти равномерно распределенных величин (плотность — прямая линия) визуально очень сильно напоминает гауссиану.
                                • 0
                                  Статистикой не обязательно анализируются данные некоего физического эксперимента, предполагающего устойчивое поведение. Это могут быть данные соцопроса, замеры качества деталей и т.п. «Правило трех сигм» тут не применимо.
                                  • 0
                                    правило трех сигм именно из статистики, и показывает среднее экспериментальное с 99,7% достоверности.
                                    • +3
                                      Правило трех сигм, во-первых, эмпирическое, во-вторых, годится только для нормального распределения.
                                      • 0
                                        Никто этого не отрицает.
                                • НЛО прилетело и опубликовало эту надпись здесь
                                  • +1
                                    Именно поэтому в экспериментальной физике никогда не смотрят на выведенные зависимости без приложенных к ним «сырых» результатов.
                                    • 0
                                      У меня такое ощущение, что вы только что сказали — «Земля плоская! Потому-что я не вижу что она круглая.». Если вы конечно серьёзно а не юморите, вот англичанин точно прикалывался.
                                      • –1
                                        Дополнение от друга:
                                        Автор, он намекает, что показатели статистические ничего конкретного о выборке не говорят. и как следствие — методология статистики типа ебанутая. на самом деле эти примеры демонстрируют очень важную хрень — эти характеристики без контекста вообще не нужны. а уж линейная функция тут вообще ни при чем )))
                                        Так что это просто лулз не больше. И гениальности тут ноль.
                                        • НЛО прилетело и опубликовало эту надпись здесь
                                        • +5
                                          Не хватает показателей эксцесса, асимметрии, R2 — коэффициента детерминации для уравнения корреляции.
                                          • +4
                                            Не надо портить красивую штуку :))
                                            • +9
                                              Ну, поумничать захотелось.
                                            • +2
                                              R-квадрат совпадает с точностью до сотых. 0.666
                                              Если использовать регрессию из пакета анализа экселя — то все показатели практически совпадают. Расхождение в сотых или тысячных

                                              На счёт эксцесса и ассиметрии — разве они применимы в этом случае? Я что то сейчас не могу вспомнить.

                                              • 0
                                                Экцесс, ассиметрия для проверки нормальности распределения. Ну, они точно будут различаться. Видно по графикам.
                                                • +1
                                                  Я просто не могу сообразить, как коэффициенты асимметрии и эксцесса использовать для 2хмерной случайной величины( т.к. у нас есть x и y).
                                                  Если по отдельности считать для x и для y — то они конечно не совпадут.
                                            • +1
                                              Эти графики используются как раз для того, чтобы доказать, что R^2, которое любят приводить для подтверждения связи наблюдаемых явлений в экономике (Левитт с его Freakonimics как пример) еще ни о чем не говорит :)
                                            • +1
                                              ну это же математика, что тут удивляться? она просто режет правду матку, а её можно крутить как хочешь в зависимости что нужно достичь
                                              • –1
                                                Ну а что вы хотели, четко описать люббую последовательность пятью параметрами? Тем более, видно что корелляция довольно адекватно описывает зависимость)
                                                • 0
                                                  То есть вы хотите сказать, что для всех 4 выборок линейная модель адекватна?
                                                  Слабо верится. :)
                                                  • 0
                                                    Как раз наоборот — совсем неадекватна.
                                                    При коэффициенте корреляции меньше 0.9 вообще нельзя приближение линейное использовать. А тут — 0.82
                                                    А лучше, конечно r>0.9

                                                    Хотя я всерьёз видел кое-какие социологически-психологические исследования, опубликованные и всё такое, гед какие-то выводы делались на основе коэффициента корреляции порядка 0.7
                                                    Вот именно этим людям квартет и надо показывать
                                                    • 0
                                                      Да и вообще, метод МНК находит лучшее приближение в заданном классе функций.

                                                      То есть если я возьму синусоиду, я смогу найти такие параметры, при хоторых она лучшим образом будет описывать мою выборку. Но совсем же не факт, что это то, что мне нужно:)
                                                  • +3
                                                    На мой взгляд A,B,C весьма похожи, что и проявляется в схожести параметров.
                                                    Если добавить median то D сразу станет в стороне.
                                                    Вообще median зачастую дает более полезную информацию, чем среднее (арифметическое) напр. для средней зар. платы.
                                                    • 0
                                                      Я тоже всегда интересуюсь значением медианы, когда мне предлагают среднее арифметическое.
                                                      Ответа обычно не получаю (хотя «посчитать» её проще).
                                                    • 0
                                                      Не надо морочить людям голову. Четыре представленных параметра характеризуют эти случайные величины очень слабо. Можно сравнить с четырьмя последними цифрами crc32 суммы для некоторых двух медиафайлов. Вообще говоря, без курса тервера упоминание матстата в принципе бессмысленно, а процесс его понимания может взорвать мозг на приличный промежуток времени (где-то два месяца если самому изучать).
                                                      • 0
                                                        Люто удваиваю. Случайная величина описывается всеми своими моментами, коих бесконечно много. А мат-ожидание и дисперсия — это условно говоря только первые два. Так что аналогия с CRC хороша.
                                                      • 0
                                                        Да, линейная регрессия, которую так любят в экономике и, особенно, социологии довольно опасная вещь.
                                                        Часто любят писать про коэффициенты корреляции наборов статданных, но реально там может быть ничего обещего. Большая проблема для оценки качества научной работы…
                                                        • +2
                                                          Для случая B надо было использовать нелинейную регрессию, в остальных случаях — просто исключить ту точку, где отклонение наибольшее. А вот если бы взяли реальную статистическую выборку (хотя-бы 1000 значений x), то и исключать ничего не надо было бы.
                                                          • +1
                                                            Ну тогда A можно описать, как линия + периодическая функция ( достаточно просто для 3х точек задать значение).
                                                            B — многочленом 2-ого или 3-его порядка.
                                                            С — выбросить одну точку и сказать, что это ошибочное измерение.
                                                            D — выбросить крайнюю точку. И подогнать y под какое-нибудь распределение случайной величины.

                                                            Но прикол не в этом. Да и выборка маленькая.
                                                          • НЛО прилетело и опубликовало эту надпись здесь
                                                            • –1
                                                              Из-за того что подобные наблюдения статистиков часто публикуются без адекватного комментария, в массах и формируется базовое недоверие к математической статистике вообще. Это лишь иллюстрация к тому, что при использовании всякого средства нужно представлять его возможности, ограничения и допущения, которые лежат в их основе.
                                                              • 0
                                                                Корреляция описывает линейную зависимость между данными, которой здесь и не пахнет.
                                                                Собственно, по ссылке в википедии всё написано.

                                                                При том, что этот факт в общем-то хорошо известен, эту самую ошибку многие повторяют с завидным постоянством.

                                                                Есть мнение, что недавний кризис (который начался с обвала subprime ипотеки в США) начался с похожей ошибки: оригинальная статья (англ)

                                                                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.