Редактор «Гиктаймс»
787,3
рейтинг
27 августа 2007 в 13:44

Опубликована статистика поломок жёстких дисков Google

На технической конференции USENIX несколько месяцев назад был представлен очень интересный документ с подробной статистикой о том, как и почему в компании Google выходят из строя жёсткие диски. Многие уже видели этот любопытный отчёт, а для остальных мы публикуем самое интересное из документа (оригинал в PDF).

Для начала — зависимость AFR (количество дисков, которые вышли из строя за год) от возраста дисков.



Естественно, вероятность поломки HDD сильно зависит от интенсивности использования диска (слабая, средняя, высокая). Особенно явно эта зависимость проявляется в первые месяцы «жизни» винчестера и на старости (пять лет и больше).



Вероятность поломки жесткого диска возрастает, если эксплуатировать его при температуре ниже 35°С, а особенно — ниже 25°С. Как ни странно, идеальная температура для винчестера — от 35°С до 45°С.



Система обнаружения ошибок SMART оповещает примерно о половине всех будущих поломок, но многие диски ломаются без предупреждения. После появления первой ошибки вероятность выживания диска в течение шести месяцев составляет около 75%.

Анатолий Ализар @alizar
карма
682,6
рейтинг 787,3
Редактор «Гиктаймс»
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое

Комментарии (60)

  • 0
    Ну... все рано или поздно ломается. И винчестеры Google не исключение
  • 0
    Но статистику по производителям жестких дисков Google "политкорректно" скрывает :-)
    • 0
      Я думаю, они пользуются одним производителем. Это достаточно распространенная корпоративная практика. Ведь речь идет об особых условиях поставок, цен и гарантий, так что проще работать с определенной компанией.

      Хотя, ведь сервера у Google очень распределены по всему миру.
      • 0
        Врядли они пользуются одним производителем. Они же сами пишут
        Failure rates are known to be highly correlated with drive models, manufacturers and vintages [18]. Our results do not contradict this fact. For example, Figure 2 changes significantly when we normalize failure rates per each drive model. Most age-related results are impacted by drive vintages. However, in this paper, we do not show a breakdown of drives per manufacturer, model, or vintage due to the proprietary nature of these data.
        А жаль конечно, что они эту инфу не опубликовали.
    • +1
      сейчас,к сожалению, все винты по качеству и смертности практически идентичны, на лейбл можно уже не глядеть %(
      • 0
        вообще не совсем так.
        Seagate хуже чем WD допустим.
        Но у WD тоже от модели к модели разная картинка. BB более отказоустойчив, чем например JB.
        • +1
          А мне почему-то всегда не везло как раз на диски WD. Особенно раньше.
          Сейчас все диски более-менее стабильны.
          • +1
            Western Digital официально признала, что одно время поставляла на постсоветский рынок "восстановленные" на заводе жесткие диски с соответствующей надежностью. Я был тем "счастливчиком" кто приобрел такой диск WD. С тех пор обхожу их продукцию стороной.
            • 0
              Наверняка и я так "попал": WD сдох через месяц, а выданный на замену Samsung служит уже третий год :)
            • +1
              да были такие проблемы у них ,) сейчас действует одно правило - чем меньше объем тем надежнее, то есть, выбрав самый маленький (если не ошибаюсь к примеру у сигейтов это 80гб) объем дискового пространства, мы получим бОльшую надежность. но как говорят сейчас в сервис центрах по винтам - берити любой, всеравно сломается :)
              • 0
                Интересно почуму Apple выбрала Фудцицу для MBP? - у меня уже два диска по замену ушли 120 и 160 ГиГа
              • +2
                да оно и раньше дествовало.
                только оно привязывается не к размеру, а к количеству пластин и плотности... логика примерно такая - если в винте используется не весь "потенциал", то вероятнее всего это винты из "хлипкой" пратии, т.е. когда объем програмно(прошивочно) урезается с номинала до надежно работающего оптимума, поскольку на номинале партия тесты не прошла (ну не выкидывать же их, правда?).

                80ки в нынешние времена в большинстве своем (как 20ки в какой-то период, 1ки и 16ки) собираются на старых "шассях", у них 80Гиг это как раз и был номинал/максимум. а 120/160 волне может оказаться "обрезанной" 200кой... так же как и 200ка - порезаной 320й...

                поэтому и создается иллюзия что "маленький винт борозды не портит", хотя на самом деле "средний размер" по обычно изначально потенциальный "смертник".

                ну или типа того. ежели у кого есть нормальное опровержение - с удовольствием выслушаю, а пока (последние лет 10) я этой "легенде" доверяю, и винты меняю не часто (эт только в ноутбуке я уже два поменял, но ноут это другая история :) )...
                • 0
                  Вообще все правильно.
                  Сейчас тоже в этом плане ничего не поменялось. Если диск на заводе бракуется по какому-то параметру, то его обрезают соответствующим образом.
            • 0
              Помню лет 6 назад разобрал такой драйв, а там под магнитами записка на русском языке!
              Что то вроде "привет!" :)
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      у вас тоже количество винтов измеряется десятками тысяч!? ;)
      • НЛО прилетело и опубликовало эту надпись здесь
        • 0
          >Ну типа гугловской статистики я исам могу нарисовать, благо учет ведется.
          >Это закрытая информация.
          так тогда и доверие к вашей статистике, в случае публикации, будет под вопросом :)
          все таки статистика штука такая, что чем больше тем лучше. с гуглём вопросов нет, винтов у них много, есть на чем выводы делать, а у вас винтов не известно сколько и соответственно будет непонятно что "ваша цифра показывает" :)

          >Это закрытая информация.
          ладно, прошу прощения если вопрос показался некорректным. я ж просто полюбопытствовал, без злого умысла и намеков на шпионаж :)
          • НЛО прилетело и опубликовало эту надпись здесь
  • +1
    Google неплохо селекционирует кадры, если подобный отчет с банальной эмпирикой им делает человек с PhD.
    • 0
      Я так понимаю что отчёт был просто "побочным эффектом" от разработки системы "учёта и контроля" - а для этого (с учётом того что количество дисков измеряется семизначным числом) PhD будет нелишним...
  • 0
    Интересует мнение, через сколько времени нужно обновлять жесткие диски на домашнем компе, чтобы минимизировать вероятность потери данных? У меня диску 3 года, может пора?
    • НЛО прилетело и опубликовало эту надпись здесь
      • 0
        Перечитай относительно мониторинга (о SMART). Raid естественно рулит, но есть моменты:
        1. Не какой-то там 5,6 и т.д, а именно raid1
        2. Очень опасно ставить в 1й рейд два одинаковых веника, купленных в одно и тоже время. Это чревато :)
        3. Рейд рейдом, но бекап это хороший помошник, а полноценный бекап (оригинал и копия в разных зданиях) может гарантировать 90% сохранность данных ;)
        • НЛО прилетело и опубликовало эту надпись здесь
          • 0
            1) Кроме 1го рейда есть еще парочка, которые как бы гарантируют сохранность данных ;)
            2) Не скажите. Хороший бесперебойник и мониторинг (все-таки) сводят вероятность падения двух веников одновременно из разных партий и возможно даже разных производителей к мизеру
            3. Все хорошо, что хорошо кончается. Бекап это тот необходимый процент уверенности в сохранности данных. Цитируя башорг "Есть 2 типа админов - те, кто ещё не делают бекапы, и те, кто уже делают". Учить и заставлять делать бекапы - стоит однозначно.
            • НЛО прилетело и опубликовало эту надпись здесь
              • 0
                1) Я же не отрицал, я обощал все моменты, связанные с сохранностью данных
                2) Перечитайте пожалуйста. Не в коем случае не опасно. Просто _не дает_ 100% гарантии от потери всего
                3) Обобщаю - нужно и то, и другое.
                • НЛО прилетело и опубликовало эту надпись здесь
                  • +1
                    Купить второй такой же винт и поставить в зеркало + сделать бекап ;)
                    • НЛО прилетело и опубликовало эту надпись здесь
            • НЛО прилетело и опубликовало эту надпись здесь
          • НЛО прилетело и опубликовало эту надпись здесь
          • 0
            просто восстановление из бекапа это всегда дополнительный геморрой и хоть небольшая, но всё же потеря последних изменений. самому зачастую лень, и не каждого васю научишь делать бекапы,

            Acronis TrueImage вам в помощь :)
            тем более ценовая политика у них вполне себе здоровая...
          • 0
            воткнуть два винта в зеркало - это проще простого. одно другому не мешает. но зеркало даёт возможность не прислушиваться к каждому чиху и стуку винта. "умерла так у мерла", говорим мы, достаём из шкафа / покупаем запасной, меняем, ребилдим и едем дальше. нынешние цены на винты позволяют иметь два винта в зеркале и даже ещё один в шкафу, про запас.
            лучше уж смотреть. На сервере приложений не маленькой организации стояло зеркало + hotspair
            Мне привозят машину - все три диска контроллер уже похерил. (т.е. заменил один диск сначала, потом отключил один из пары и в конце концов похерил третий)
            "оно при загрузке чтото писало не по нашему. мы нажимали кнопку и грузилось. ведь работало же"
            такчто на Васю надейся, а сам в логи заглядывай!
            PS: диски отработали лет 5 (SCSI). както полечил я их. еще оставались резервные блоки для замены. Больше всего меня убил вопрос "А какую гарантию ты нам даешь?"
            какую, какую - что он может быть сможет корректно выключиться при текущем сеансе работы
    • 0
      Не совсем корректно ставить вопрос "менять" - он же работает? Значит пусть работает и дальше. Просто покупаете новый жесткий диск, переносите важную инфу на него, а на старом храните контент, который всегда можно восстановить - часто слушаемую музыку, фильмы, игры.
      Идеальный вариант конечно же покупать два новых жестких диска и лепить из них RAID-массив нулевого уровня (Mirror - зеркало) в этом случае вероятность потери данных сводится практически к нулю.
      • 0
        Вы ошибаетесь и весьма сильно (Это я про "сводится практически к нулю"). Nikitoz выше написал почему. А вообще на Хабре была статья про сохранность данных.
      • 0
        Поаккуратнее с терминологией ;)
        Зеркало - RAID 1 уровня.
        RAID 0 уровня - объединение дискового пространства. Надежность такого массива даже меньше, чем у отдельно стоящего винта.
    • НЛО прилетело и опубликовало эту надпись здесь
      • 0
        уж лучше тогда взять Victoria и погонять еще и поверхность тестами.
        только лучше это делать сразу после покупки и потом результаты периодических проверок сравнивать с первыми тестами. Обычно тенденции к "посыпаться" у винтов можно заметить до того как оно начнет "сыпаться"... а ежели винт покажется подозрительным, то "поремапать" на нем все "грустные сектора" и юзать винт для хранения фильмов :)
        • +1
          Лучше ViVard'ом погоняйте. Как инструмент, она предпочтительней и работает лучше.
          • 0
            моя про нее не знала ;")
            обязательно посмотрю с чем его едят. спасибо за наводку :)
        • НЛО прилетело и опубликовало эту надпись здесь
          • 0
            вы зря иронизируете :)
            у меня возникали проблемы с ноутбучными винтами, приходилось от греха подальше их просто заменять (заодно и попросторнее после замены), но не выкидывать же цацку за 100$, правда?

            поэтому за пару часов поремапав на винте пару несчастных бедов поимел отличный USB-HDD всего за стоимость "кармана". один из них до сих пор отлично служит, второй тоже служил бы наверняка, если бы не частые падения на пол :)))
            • НЛО прилетело и опубликовало эту надпись здесь
              • 0
                >Я выкидываю.
                нерационально :) хотя это ваше лично дело.

                >А вообще у меня винты перед тем как сыпаться бошками стучали
                неужто у вас только "дятлы" IBMовские помирали?

                я уже много винтов померших в руках подержал, смею вас заверить, "стук головой" это далеко не верный признак скорой смерти. винты они подлые, и чаще помирают тихо-тихо... а некоторые стучат при рандомном акцесе, и при этом живут припеваючи...
                • НЛО прилетело и опубликовало эту надпись здесь
                  • 0
                    гыг :)
                    тошиба (родной, в ноуте) без шуму и пыли перестал читать некоторые (немного но рядом) сектора.
                    самсунг (на него был заменен упомянутый тошиба) тоже спустя какое-то время решил обзавестись бэдами.

                    у обоих причина - резкие удары возле ноута, т.е. антишок с такой нагрузкой не справился и головы по поверхности проехали, как я подозреваю. ни один не стучал головами.

                    З.Ы.: совпадение по производителям настораживат :)))
                    • НЛО прилетело и опубликовало эту надпись здесь
  • 0
    Про идеальную температуру для работы винта обрадовали. А я то боялся что он перегревается, а ему как раз хорошо живется при температуре 35 гр. =)
    • 0
      температуру в граммах!?
      это ново! :)))
      • 0
        граммы - это "г", а не "гр.".

        А "гр." - это градус. См. на сокр.ру
        • 0
          Я конечно понимаю, что своим комментарием побью все рекорды некропостинга на хабре, но всё же не могу удержаться от сего луча света в безграмотном царстве.
          Гр. — это что угодно: и грамм и градус и группа. Всё зависит от контекста.
          Г. — это, блджад, город.
    • 0
      Это, кстати, оказалось неожиданностью большой. Было даже высказано предположение о том почему так вышло: производители испытывают винчестеры при повышенной температуре на заводских испытаниях чтобы ускорить "старение" - и в результате невольно создают устройства рассчитанные на повышенную температуру!
      • 0
        на счет неожиданно - согласен, я тоже удивился сильно. однако в каких температурах должен работать комп, чтобы активно пашущий винт держался на 20C для меня тоже загадка... это что, в помещении +8C у них что ли ?!
        • 0
          Ты в нормальном датацентре когда-нибудь был ? Средняя температура там - 20-25C, но с учётом того что тепловыделение всего хозяйства может достигать мегаватта - воздух "на входе" может иметь темперетуру 8-10С легко (иначе 20-25C в среднем не получить), и если у машины корпуса нет (поищи фотки гугловых серверев на том же гугле), то 20C в районе жёстких дисков на серверах которые мало считают (то есть проц там греется слабо) - вполне реально... Обрати внимание, кстати, на то что в районе 20С снизу и 45C сверху доверительный интервал сильно расширяется по сравнению с другими частями графика - то есть материала такого мало, большая часть машин работает в интервале от 25C до 40С...
          • 0
            8-10C на входе не является средней температурой по помещению ;)
            я еще ни одного ДЦ не видел в котором такая температура была в помещении.
            потому и заинтересовало, как они такого добились... то-ли мощная кондишка не настроенная и пара серверов вместо десятка полных стоек была, то ли на аляске естесвенное охлаждение использовали :)))
            • 0
              "В помещении" - это где? В датацентрах же не разводят воздух от кондиционера к индувидуальным компьютерам! Там где воздух выходит из кондиционера - там и будет 8-10C "в помещении". А в других местах "в помещении" (том же самом!) будет 20-25C, а где-то может и 35-40C быть... При таких масштабах выделяемого тепла говорить о "температуре в помещении" бессмысленно - можно говорить о температуре в определённых точках или об интервале температур в помещении, но средняя температура приобретает смысл средней температуры по больнице...
              • 0
                в том то и фикус, что точек выхода по хорошему должно быть много, а не в одном углу +8, а в другом, куда "не задувает" +45 ;)
                хотя, это уже проблемы проектировщиков ДЦ. если у них разброс температур по равномерно нагруженным техникой углам 40C то флаг им в руки...
                • 0
                  Количество точек выхода определяет максимальную температуру, минимальная определяется кондиционером. При этом гнаться за сильным снижением максимальной температуры в собственном датацентре смысла нет: это ж не хостинг, где клиент может "выкатить претензии" если его сервер окажется в углу где +45C. Если компы нормально себя чувствует при +40C, то... "зачем платить больше" ? Конечно и +15C и +45C - это явные ошибки приектирования, но они не выходят за рамки того, что иногда случается. У Google'а десятки датацентров, причём далеко не все - их собственные, часть арендована, так что ничего удивительного в том что в некоторых из них дела обстоят не лучшим образом нет. При подходе когда вся система готова к тому что любой коспьютер/роутер/etc могут выйти из строя когда угодно (а никакой другой подход при сотнях тясячах серверов не сработает) - беды большой нет (хотя и приятного тоже мало, конечно): ну да, ресурс техники немного падает, но это может оказаться дешевле чем стоить новый датацентр, так ведь ?

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.