Пользователь
0,0
рейтинг
23 июня 2011 в 18:08

MTBF — откуда берется «миллион часов MTBF»



Просто удивительно то, насколько велико непонимание вокруг такого широко распространенного понятия, как MTBF (Mean Time Between Failure — «Время между сбоями» или «наработка на отказ» ), насколько смысла этой величины не понимают, зачастую, даже специалисты в области хранения данных.

Казалось бы — что может быть проще. «Наработка на отказ» это время беспроблемной работы, от первого включения нового диска, до момента отказа, посчитанная в часах.
Почти любой, кто поинтересуется значением, приводимым производителями, в качестве MTBF современных дисков, и с легкостью сделает несложные подсчеты, будет удивлен странной его величиной.
На сегодня величина MTBF приводится в миллион или даже полтора миллиона часов.
В году — примерно 8760 часов, значит, исходя из нашего понимания «физического смысла» этого значения, производитель планирует «наработку на отказ» для любого такого диска более ста лет (114 лет, для миллиона часов MTBF), что является очевидной нелепостью для каждого, у кого подыхали жесткие диски.

Тогда что это за «миллион часов», где и каким образом он измерен?
Конечно же производитель не гоняет диск 114 лет, оценка производится искусственно, но откуда вообще взялась величина в «миллион часов»?

Дело в том, что MTBF измеряется для всей эксплуатируемой «дисковой популяции», и распространяется на период объявленного гарантийного срока для данного типа дисков. Оба выделенных момента являются важными, и часто опускаются в описании, что и приводит к принципиальному непониманию.

Представим себе, что мы поставили в сервер жесткий диск, который проработал 3 года гарантийного срока, и, будучи исправным, был заменен на новый. Следующий проработал три года, и был заменен по истечении гарантийного срока, и так далее. И вот на 38-м диске вы вправе ожидать, что до конца гарантийного срока он не доработает.

Или же представим себе чуть более приближенную к реальности ситуацию.
Допустим, для простоты подсчета, у нас есть система хранения на 115 дисков. Для каждого диска производитель приводит MTBF равный миллиону часов. Но надо принять во внимание то, что в большой дисковой популяции общий MTBF, то есть вероятность отказа, растет, с увеличением количества используемых дисков.
Для 115 дисков, исходя из приводимой вендором величины MTBF, мы вправе ожидать, что хотя бы один диск из популяции в 115 выйдет из строя до конца трехлетнего гарантийного срока.
Этот вариант уже куда более похож на правду.

Строго говоря, на практике, вместо MTBF гораздо практичнее пользоваться параметром AFR — Annual Failure Rate, или «ежегодная вероятность сбоев», выводимом из MTBF.
Он вычисляется как: AFR = 1-exp(-8760/MTBF)
Величина AFR для диска с миллионом часов MTBF составляет 0,87%, что, в принципе, хоть и чуть завышено (Google в известном исследовании 2007 года показывает для новых дисков в пределах гарантийного срока как раз AFR в районе 1%), но, все же уже довольно хорошо согласуется с практикой.

Любопытно, что, например, такой производитель жестких дисков как WD теперь вовсе перестал указывать величину MTBF, перейдя на указание другого параметра: «power on/off cycles», по видимому не в последнюю очередь именно в связи с явно видимым непониманием и неочевидностью применения указываемой величины MTBF пользователями.
@track
карма
29,7
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое

Комментарии (76)

  • НЛО прилетело и опубликовало эту надпись здесь
    • +43
      Без обид, но мы же не пендосы, чтобы выражать благодарности на три страницы вида «Thank you» в различных вариациях? Понравилось — отпишите в личку. Хуле просто так флудить. Не знаю на кой я лезу со своими советами, но, реально, утомляет. Давайте не допустим нового тренда на Хабре. Раньше за такое карали анально.
      • НЛО прилетело и опубликовало эту надпись здесь
      • 0
        Не много ли вы на себя берете, милейший?
        • +16
          Расслабьтесь, NetApp в списке «любимых компаний» у меня давно и не просто так, а исключительно благодарю тому интересному (часто уникальному) контенту, который вы даете. Ровно как и зеленая стрелочка вверх рядом с вашим никнеймом стоит уже год. Я практически наизусть помню пару-тройку ваших статей как минимум. Никакой лести.

          При всем моем уважении к вам, комментарии «Спасибо за статью» не несут абсолютно никакой нагрузки, а в последнее время пишутся людьми вообще далекими от поданного материала. Это плохой тренд. На хабре есть множество инструментов для поощрения автора, более того, есть «личка», через которую можно выразить свои эмоции и обсудить контент.

          Беру немного. Еще год назад за комментарий без смысла можно было «отхватить», сейчас, как показывает практика (моя в том числе), болевой порог снизился.
          • –1
            Я думаю тут люди вполне грамотные и взрослые, чтобы обойтись без ваших «предписаний» и указаний, что вас сегодня «утомляет», а что — нет.
            • –2
              Смотрю, вы не в духе. Ок.
          • –15
            потерял немного запятых, расставьте по возможности: ,,,,,,,,
      • +6
        У вас Хаброз головного моска
      • +5
        Может поставить кнопочку — «Спасибо» (типа Donate)?
        • +2
          Лично я такой кнопочкой для себя, как автора, считаю «звездочку» — «добавил в избранное».
          • 0
            Полностью согласен. Кнопка «Спасибо» не показательна. А вот когда твоя статья у кого-то в избранных — это настоящая благодарность для автора.
            • 0
              А ещё лучше, если за неё и денег дали.
            • 0
              Мне всегда казалось что в «Избранное» нужно заносить только то что потом пригодится, а искать будет неохота.
              • +1
                Я полностью с вами согласен, иначе поле «в избранных у… человек» тоже не будет показательным.
                Я не предлагаю заносить в избранное все статьи, за которые вы автору хотите сказать «Спасибо». Я как раз говорил о том, что если статья у кого-то в избранных, то, по моему скромно мнению, это для автора больше значит, чем миллион случайных спасибо от читак, которые о вас никогда больше не вспомнят.
                Что бы вы предпочли, увидеть 200 раз нажатой кнопку «спасибо» за свою статью или 10 раз нажатой кнопку «в избранное»? Лично для меня ценней знать что статья пригодилась. И именно это отображается полем «в избранном у N человек».
  • +13
    «перейдя на указание другого параметра: «power on/off cycles»»
    А если винт стоит в серваке, который никогда не выключается? Будет работать вечно или пока электричество не кончится?
    • 0
      Не вечно, но на порядок дольше.
    • 0
      в статье автор упомянул важное замечание «и распространяется на период объявленного гарантийного срока для данного типа дисков»
      то есть все это работат только в период «гарантийного срока». от себя добавлю, что часто все эти понятия действуют не в период гарантийного срока а в период эксплуоатационного срока, который все же побольше, чем гарантийный. после этого срока уже начинают сказыватся эффекты износа(
  • +4
    Ещё можно в «период полураспада» пересчитать.
    79 лет получается, довольно стабильный «элемент».
    • +10
      Western Digital — период полураспада наших жестких дисков вас приятно удивит!
      • +4
        Western Digital — наши диски работают даже после полураспада!
    • +12
      Период полураспада Газели — 1 год. Газель — короткоживущий изотоп Волги. (с) Не помню чье
  • +7
    И здесь снова ситуация, когда производитель намеренно указывает данные, вводящие по тем или иным причинам пользователя в заблуждение.
    Сначала они перешли на десятичные гигабайты «чтобы всем было удобнее» тем самым ощутимо снизив объем дисков при сохранении его «психологического размера», теперь разбираемся с совершенно неудобным и непрактичным MTBF.
    Вместо этой величины можно было бы вполне указывать ВБР(1/2/3лет) (вероятность безотказной работы), и надежность было бы намного проще понять. (Хотя все статистические данные надо уметь правильно интерпретировать)
    • 0
      На самом деле «десятичные гигабайты» и есть совершенно правильные, и их использование как раз следует принятому международному стандарту. Двоичные байты называются «гибибайты», для них есть внесенные в стандарт наименования «двоичных приставок».
      • +6
        Я знаю, я в курсе. Но до этого 15 лет маркировали жесткие диски «неправильными» гигабайтами, формируя у пользователей определенные представления о гигабайтах.
      • +29
        Да идите вы все в жопу со своими гиби, миби и киби. Я называл 1024 байта килобайтом и буду так называть. Так сложилось очень давно, такая единица измерения является естественной для компьютеров и поэтому наиболее удобна.

        • +9
          Как физик могу добавить, что профессионалы-физики никогда не используют «стандартную» систему СИ. Всегда используется наиболее естественная в данной задаче система единиц. В разных задачах наиболее удобными получаются разные системы единиц. В квантовой электродинамике, например, принято h=e=c=1, в формулах остаётся 40-60% символов, и вероятность сделать ошибку значительно меньше.

          И я не понимаю, чем компьютерщики хуже физиков и почему они не могут использовать естественные и удобные единицы измерения.
          • +8
            … и с какой стати спустя 50 лет их внезапно нужно начать называть по-другому, просто потому, что какая-то комиссия где-то так решила.
            • +3
              Со стандартами всегда так бывает :)
              Вот в США тоже считают как вы, с их квадратными футами на галлон. ;)
              • 0
                Угу, и сразу вспоминаем дивные истории про работу НАСА с европейским космическим агенством, когда из-за разных применённых систем упала ракета.
              • 0
                Что-то мне подсказывает что квадратный фут на галлон это площадь, делёная на объем, то есть это линейный размер в минус первой степени.
                Гугл подсказывает что ей измеряется «Макроскопическое сечение взаимодействия ионизирующих частиц»
                • 0
                  > Что-то мне подсказывает что квадратный фут на галлон это площадь, делёная на объем

                  Это шутка :)
                  • 0
                    А вот сколько галлонов на 100 миль потребляет его машина знает каждый американец :)
          • 0
            Да ладно! Помимо квантовой физики можете привести ещё какие-нибудь области, в которых используются не-Сишные величины?
            • 0
              Конечно.

              Лично я занимался поведением капель в сильных электрических полях. Ни о каких квантовых эффектах для капель размером около 1 мкм речи не идёт.

              Ни кулоны неудобны, ни метры. Для измерения поля использовались единицы с физическим смыслом типа «эквивалетное поле, требуемое для разрыва такой же капли, но радиусом 1 мкм».
              • 0
                А для отчётов? ;)
            • 0
              Мощность в лошадиных силах, температура в градусах Цельсия, емкость в литрах, давление в миллиметрах ртутного столба или атмосферах — и это только в России и в быту, и в экономике, и в технике, и в официальных нормативных документах.
        • 0
          Ну вот о чем и речь. Сперва вы не пользуетесь международно признанными стандартами, и от этого имеете проблемы, а потом производители, как раз и следующие стандартам, у вас и виноваты.

          Стандарты хороши именно тем, что существуют вне зависимости от того, нравится это «профессилналам-физикам» или нет.
          • –1
            Стандарты хороши когда они пользу приносят. Когда они удобны.

            А стандарт, который формулирует формат на 6000 страницах — это плохой «стандарт», не должно быть такого стандарта.
            • –2
              К счастью для цивилизации, ваше мнение в данном вопросе веса не имеет :)
            • 0
              В СИ семь основных величин, всё остальное производные, откуда 6000 страниц описаний формата?!
              • 0
                это был намёк на MS OOXML
    • +3
      Снижение гигабайт ещё ничего, а вот разница в объемах разных производителей, блин, удручает. Наткнулся на такие грабли. В зеркале пришлось менять диск, аналогичного под рукой не было, решил временно поставить другого производителя такого-же объема, и оказалось что ему не хватает нескольких десятков мегабайт до объема зеркала. Теперь приходится искусственно занижать объем массивов для таких случаев.
      • –3
        И это правильно, эта процедура, принудительного занижения емкости по «наименьшему общему кратному» для возможной смены типа дисков среди используемых моделей, называется right sizing, и обычно описана производителем RAID.
      • +3
        Это мне тоже не нравится. Что указывается объем суммарно с какими-то служебными областями, которые на самом деле недоступны.
      • 0
        Каждый раз думаю про такую разницу, но в какой-то момент времени заметил, что все seagate, wd и samsung на 500 Гб, какие мне попадались, имеют объём ровно 500107862016 байтов. Т.е. одинаковые у разных производителей. Такая же история и с 250ками.
        • +1
          сейчас полазил и проверил:
          Seagate ST3500620SS (SAS, 7200 rpm)
          WDC WD5001AALS-00E3A0 (SATA)
          Seagate ST3500418AS (SATA)

          ещё Samsung был, но он выведен из эксплуатации. и ещё какой-то диск Seagate IDE — точно такого же объёма. Он в переносном рэке, выключен, посмотреть на его модель не могу.

          А вот 160-ки — по 160041885696:
          HP GB0160EAFJE (SATA)
          Seagate ST3160815A (IDE)
          Seagate ST3160812AS (SATA)

          А вот 250-ки — по 250059350016:
          Seagate ST3250318AS (SATA)
          Samsung SP2504C (SATA)
          • 0
            Так бывает не всегда.
            Например два диска «SAS 600GB», разных производителей отличаются на 12117MB (572325MB один, и 560208MB — другой).
            • 0
              Я вполне верю, что такие случаи бывают. Просто, по-моему, эта проблема сильно преувеличена. Вот взять ваш пример: он же висит в воздухе, поскольку конкретных номеров моделей дисков с одинаковой меткой «600 Гб» и разным фактическим объёмом нет. Я же привёл кучу разных моделей разных производителей, но объём идентичный.

              Так вот, о чём я. По-хорошему — нужно было именно эти размеры стандартизировать, а не приставки. От этого была бы реальная польза, вы же понимаете.
              • 0
                Вы правда думаете, что я вам случаи из головы придумываю? ;)
                • 0
                  Нет, я уверен, что не из головы. Я только констатировал факт — конкретных моделей нет :)
                  • –2
                    Безапелляционность и «всезнайство» проходят с годами, по мере того, как вы углубитесь в тему.
                    • –1
                      Вообще-то я достаточно взрослый и довольно глубоко в теме. И привык доказывать и подтверждать, или как-то ещё обосновывать свои мысли. Хотя бы приводя примеры.

                      А вот вы как-то до сих пор в этом топике ни единого обоснования своим словам и не привели. Всё какие-то высокомерные хихоньки да хахоньки типа «подрастёшь-поймёшь», или «я давно работаю, мне лучше знать». С какой вы стати после этого ожидаете к себе серьёзного отношения?
                      • 0
                        Возможно вы в теме поведения капель в электрических полях, но вот в области жестких дисков и хранения данных — увы. Вам еще есть чему учиться. Это намек, не демонстрировать правоту «Принципа Питера» ;)
              • 0
                А я два раза столкнулся с такой разницей.
                Вот совсем недавно:
                Винты по 250 гиг:
                Seagate ST3250310NS объем 232,886GB
                WD2503ABYX0 объем 233,817GB

                И 160Гиг WD от Seagate отличаются. Сейчас уже не помню точных названий моделей.
        • 0
          Сталкивался с такой разницей в случае WD и, кажется, Maxtor. Разница была всего несколько мегабайт, но была.
          • +1
            Для разных емкостей она разная, подчас довольно значительная. Но, вообще говоря, для RAID неважно насколько разница, даже разница на один сектор уже не позволить добавить такой диск в RAID.
            • –1
              Вообще говоря, это зависит от RAID. С Linux LVM, например, всё проще. Можно одновременно сделать на пяти совершенно разных дисках тома «типа» RAID0, RAID1, RAID10, RAID5 и RAID6. (Возможность делать RAID5 и RAID6 в таком режиме, правда, появилась только недавно, начиная с 2.6.38.)
              • 0
                Да сдуру сделать-то можно много что, главное чтобы оно еще и работало как RAID после всего этого. ;)
                • 0
                  Ну, насчёт RAID1 и 1+0 я проверял — работает. Реально зеркало есть. RAID5 и 6 в LVM добавили очень недавно, я ещё не игрался с ними :)
            • 0
              Поэтому иногда советуют использовать не весь диск, а несколько меньше, на случай замены в будущем на диск «неродного» размера.
    • 0
      параметр и не так интересен. Хотя ;) для крупных уомпаний как раз он и интересен — если у вас есть 100 жёстких дисков, то хотелось бы узнать какова будет частота отказов — это и есть MTBF. Он позволяет расчитать затраты на обслуживание и т.п. Хотя ;) для частного пользователя он и весьма бесполезен :)
    • 0
      скажу вам более-само пониятие MFTB зависит от конкретных условий эксплуатации диска-например, для серверного подразумевается, что он будет включатся и выключатся 1-2 раза в неделю, когда как для десктопного-3-4 раза в день. Плюс качество питания, температурный режим, вибрации и прочее… Соотвественно, если вы воткнете серверный винчестер скажем в свой системник, MFTB для него будет уже сосвем другим, и наверняка в разы меньшим.
  • 0
    При любом раскладе единственной значимой величиной является гарантийный срок, так как после него диски как правило меняют в любом случае, а вылет одного-двух дисков не является чем-то катастрофическим и опять же по гарантии они будут заменены, поэтому можно не запариваться по поводу значений MTBF и тд, они важны только для производителя чтобы подсчитать сколько надо будет заменить.
    • +1
      Данные, хранившиеся на диске, вам тоже заменят по гарантии? :)
      Когда проектируется система с определенной надежностью, необходимо знать надежность всех ее компонентов, чтобы знать, какие методы резервирования необходимо и достаточно использовать и какие противоотказные меры принимать.
      • 0
        А у вас данные хранятся на единственном диске?? Вообщем-то какие-то важные данные хранятся в рейд массивах с зеркалированием и вероятность их потери достаточно низкая. А конкретно цифры о которых идет речь в реальной работе по вашему как-то используются или хоть кто-то обращает внимание на них? Может какие-то вычисления проводятся? Я лично сильно сомневаюсь, просто заранее закладывается возможность того что винт полетит, поэтому важные данные дублируются — всегда.
    • 0
      Понятно, что в любом случае будут использоваться RAID-массивы, но какой именно RAID выбрать? Как часто будут выходить диски из строя. Как много нужно обслуживающего персонала для их замены, на каком уровне нужно поддерживать запасы новых дисков для их замены, какую долю времени массивы будут находиться в состоянии реконструкции (и соответственно пониженной производительности). Все это и, возможно, что-то еще, нужно принимать во внимание при проектировании чего-то большого и хорошего (а как следствие — нужного и дорогого).
      • 0
        Ну я это тоже понимаю ) Но я просто к тому что закладываются некие стандартные нормы, без вычисления на основе MTBF допустим, потому что это тоже не абсолютный показатель, а соответственно и толку с него немного.
  • 0
    Power-On Hours — Количество отработанных часов во включенном состоянии. Поле raw value этого атрибута показывает количество часов (минут, секунд — в зависимости от производителя), отработанных жестким диском. Снижение значения (value) атрибута до критического уровня (threshold) указывает на выработку диском ресурса (MTBF — Mean Time Between Failures). На практике, даже падение этого атрибута до нулевого значения не всегда указывает на реальное исчерпывание ресурса и накопитель может продолжать нормально функционировать.

    Опытным путём было установлено, от 100 до 0 это ~8 лет работы 24/7. WD10EARS
    Думаю, более-менее адекватно… не в курсе как дела обстоят на винтах других производителей.
  • 0
    Очень у вас длинное описание для такого простого понятия.
    Оно ведь всего лишь означает, что в среднем диски отказывают каждые миллион часов работы. (для MTBF = 1 миллион часов). Т.е. вероятность отказа в каждый час у диска — 0,000001(одна миллионная). Или 0,000024 в день. Или 0,00876 в год.
    • 0
      Оно длинное потому, что такое простое понятие, к сожалению, по моему опыту, очень плохо понятно большинству пользователей.
  • +10
    Мне доводилось изучать теорию надёжности. Наработка на отказ это дословно среднее время между отказами. То есть предел отношения времени работы T к числу заменённых за это время дисков при T стремящемуся к бесконечности, если, конечно, все диски в этой «цепочке» одинаково надёжны. То есть, буквально, ставим диск в сервер и меняем на такой же при каждом отказе. Проведя, скажем, десять замен за 50 лет, мы получим наработку на отказ 5 лет.

    Понятно, что измерить наработку на отказ этим способом за приемлемое время не получится. Поэтому способ, описанный в статье, опирается на гипотезу об одинаковой на протяжении гарантийного срока интенсивности отказов, то есть износ дисков не учитывается.

    Полученная величина это не «наработка на отказ», а «наработка на отказ сферического диска в вакууме, не подверженного износу и равного по надёжности данному диску в период гарантийного срока». Так что обман всё же присутствует.
    • +1
      Бинго, единственный стоящий комментарий в топике!

      Предполагается, что вероятность выхода диска из строя не зависит от того, сколько он проработал. В этом суть MBTF!
      • 0
        Ни один реально существующий механизм таким свойством не обладает из-за износа. Можно делать такое допущение на короткий промежуток, например, на гарантийный срок. Но тогда и расчёты, опирающиеся на это допущение, тоже должны проводиться в пределах этого промежутка. Миллион часов это точно вне гарантийного срока, поэтому величина сугубо формальная и смысла не имеет.

        Лучше уж и правда пусть публикуют вероятность выхода из строя за единицу времени.
        • 0
          … так вам же написали, как эта величина получена. Если вероятность выхода из строя не зависит от износа, то справедлива эргодическая гипотеза — среднее по ансамблю = среднее по времени.

          Т.е. можно гонять 1 диск 1 млн часов, а можно 1 млн дисков 1 час. И потом усреднить результат.

          Из 1 млн дисков в течение часа выйдет из строя 1. Значит, 1 диск в среднем выйдет из строя за 1 млн часов.
          • 0
            Да всё правильно, я не оспариваю расчёты и метод получения. Просто полученная величина это не наработка на отказ, а «наработка на отказ *»

            * без учёта износа

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.