Пользователь
0,0
рейтинг
4 марта 2013 в 22:41

[обновлено] Проблемы у Curiosity: причины и текущая ситуация перевод

Как многие из вас уже наверняка слышали, на прошлой неделе у марсохода Curiosity, который был занят анализом образцов, высверленных им с помощью дрели, возникли некоторые проблемы с основным бортовым компьютером. Давайте разберемся, что именно произошло, и как специалисты JPL планируют решать эту проблему.

По словам специалистов NASA, причиной повреждения памяти на борту Curiosity может являться космическая радиация. Напомню, что в прошлый четверг, по причинам, которые специалисты связывают с повреждением области памяти марсохода, инженерам пришлось переключить Curiosity на запасной компьютер.




Сейчас команда марсохода проверяет данные телеметрии, а также проводит диагностические тесты для того, чтобы понять, что именно пошло не так, и как вернуть систему в рабочее состояние.

«Мы находились в довольно странной ситуации — наше ПО работало, но работало лишь частично, так что мы приняли решение переключится на «чистую» версию бортового ПО, работающую к тому же на «чистом» железе», — заявил руководитель проекта Curiosity Ричард Кук. «Самый простой способ сделать это — просто начать использовать запасной компьютер».

Curiosity оснащен двумя компьютерами, имеющими незамысловатые названия A и B, причем каждый из них может быть использован для управления ровером. Компьютер B использовался во время полета к Марсу, а после посадки ровер переключился на компьютер A, и пользовался им с тех самых пор.

[Бортовые компьютеры Curiosity называются RAD750, и представляют собой радиационно-устойчивые одноплатники на базе одноименного процессора. Они выпускаются по 250- или 150-нм технологии и способны выдержать радиацию до 1000000 рад, и работать в диапазоне температур от -55 до 125 градусов Цельсия, потребляя около 5 ватт энергии. Система, состоящая из самого процессора и материнской платы может выдерживать до 100000 рад, и температуру от -55 до 70 градусов. Компьютеры имеют 256 килобайт EEPROM, 256 мегабайт оперативной, и 2 гигабайта флеш-памяти. Конечно, это не очень впечатляет в 2013 году, но по сравнению с аппаратным обеспечением роверов предыдущего поколения, прирост в производительности очень велик, — прим.пер.]



Переключение с основного на запасной компьютер произошло около 5:30 вечера по EDT (GMT-5) в прошлый четверг. После этого ровер перешел в так называемый «безопасный режим». В течение следующих нескольких дней инженеры будут продолжать подключать компьютер B ко всем бортовым системам, и восстанавливать нормальное функционирование марсохода.

С момента посадки, эта проблема стала самой значительной из тех, что пали на голову Curiosity.

«Скорее всего, мы скоро вернемся в нормальный режим работы», — сказал Кук, — «И все же, это не самый приятный опыт – видите ли, ровер – это чрезвычайно сложный аппарат. Достаточно сущей мелочи, чтобы что-то пошло не так, и нам все время приходится принимать это во внимание»

Впервые проблема проявилась утром в среду. Все началось с того, что сотрудники центра управления заметили данные, которые, как им показалось, указывали на повреждение флеш-памяти марсохода. Бортовое ПО не записывало в память никаких новых данных, и отказывалось передавать данные, записанные ранее. Единственной информацией, которую можно было получить от ровера, была телеметрия реального времени.

В тот же день, во время сеанса связи через спутник MRO, телеметрия показала, что повреждение памяти все еще не было исправлено. К тому же, как выяснялось, компьютер не проделал некоторых заранее запрограммированных действий — он должен был перейти в спящий режим на час, а затем проснуться во время очередного коммуникационного окна со спутником Odyssey.


Спутники MRO (слева) и Odyssey (справа)

«Во время второго пролета, мы получили некоторую информацию, которая вкратце сводилась к следующему: Эй, ребята, память все еще повреждена, и к тому же я не лег спать, когда должен был, я бодрствовал все это время!», — заявил Кук.
Следующее коммуникационное окно было между 22:30 и полночью того же дня (по часовому поясу центра управления JPL). Компьютер ровера все еще работал, и инженеры приняли решение перейти на систему B.

При этом Кук отметил, что память марсохода изначально сделана устойчивой к ошибкам, которые могут быть вызваны космическими лучами или радиацией. Однако все указывало на то, что была повреждена наиболее чувствительная область памяти – директория, которая содержит информацию о местонахождении тех или иных данных.

«Не вдаваясь в подробности, у нас есть несколько степеней защиты. Сама память является самокорректирующейся, а ПО рассчитано на то, чтобы быть толерантным к повреждениям данных. Мы считаем, что нам крайне не повезло – мы получили ошибки именно в тех областях памяти, которые были к ним наиболее чувствительны»

[Напомню, что само ПО ровера имеет несколько уровней действий во внештатной ситуации. В случае возникновения особенно серьезных проблем, марсоход обычно переходит в «безопасный режим», прекращает всю свою деятельность и ожидает следующего коммуникационного окна, чтобы передать в центр управления информацию о проблеме, и получить дальнейшие инструкции, — прим.пер.]

«Таким образом, мы просто потеряли информацию, о том где какие данные находятся. Я повторюсь – в теории, ПО ровера должно быть толерантно к ошибкам такого рода, но мы попали в ситуацию, когда часть ПО работала как положено, а часть начала сбоить в ожидании изменения данных в памяти – софт просто не мог понять, откуда эти данные считывать.»

Кук отметил, что шансы того, что космические лучи вызовут такого рода проблему, крайне невысоки, но такое уже случалось раньше.

«Представьте себе адресную книгу, в которой полно записей. Вместо того, чтобы повредить одну из этих записей, космическая радиация повреждает оглавление. Это крайне редкое явление, но – увы – такие вещи иногда случаются».

Если эта догадка верна, перезапуск основного компьютера должен решить проблему. Однако инженеры не собираются торопиться – они проводят детальный анализ ситуации для того чтобы быть уверенными в причинах проблемы перед тем, как предпринимать какие-то действия.
«Конечно, мы можем использовать и компьютер B, причем абсолютно так же эффективно, как и основной. Так что в ближайшую неделю мы будем настраивать ПО второго компьютера, чтобы убедиться, что все системы работают как надо».

«В конце концов мы планируем вернуться на основной компьютер. Если проблема действительно в повреждении памяти, то во время загрузки она исчезнет сама собой, так как бортовое ПО перезапишет таблицу разделов с нуля».

Специалисты NASA рассчитывают, что Curiosity сможет продолжить свои научные изыскания в течение ближайших нескольких дней.

Обновление


Сегодня (4.03.2013) NASA сообщило, что Curiosity вновь находится в «активном» режиме. По расчетам, он должен полностью восстановиться и продолжить научные изыскания на следующей неделе.

Выход из безопасного режима был осуществлен в субботу, а в воскресенье марсоход снова начал использовать HGA (high-gain antenna) для связи с Землей.

«Процесс восстановления идет хорошо», — заявил уже знакомый нам Ричард Кук. «Состоит он из двух частей. Во-первых, мы хотим точно понять, что случилось с компьютером А, а во-вторых, провести ряд операций с компьютером B, например сообщить ему о состоянии ровера — текущем положении руки, мачты, и так далее».

Тем не менее, точная причина выхода из строя памяти все еще выясняется.

Пожалуйста, сообщайте о всех ошибках и опечатках в личку!
Как обычно, большое спасибо Zelenyikot за найденный материал.
Перевод: Wiliam Harwood
Вячеслав @Singerofthefall
карма
230,0
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое

Комментарии (72)

  • +10
    Надеюсь, справятся.
  • +8
    А в сми как обычно подняли панику. Ждем новостей.
  • +33
    Пока марсиане действуют ненавязчиво. image
    • +7
      Извините, но вы запостили такую картинку… Вы же сразу видели как она засоряет страницу, почему было не отредактировать сообщение и спрятать её?
      • +19
        Прошу прощения, у меня уже есть уменьшенная версия картинки, но теперь редактирование для комментария уже не доступно. Так что готовлюсь принять минусы за поспешность. Как говорится, поспешишь — людей насмешишь. Извините, господа.
      • –13
        Что значит засоряет?
  • +2
    А если из строя выйдет второй, то марсоход превратиться в кучу хлама? Или у них там есть ещё пару тузов?
    • +1
      Думаю что они могут его дистанционно перезагрузить, но системы они не дублируют более чем 2 раза.
    • +3
      В теории наверное они бы А могли перезагрузить сразу, но наверное, перестраховываются, а вдруг не загрузится или что-то случится. Ведь это только догадка, что поломка именно такая. В принципе их можно понять. Железяка то далеко. Имхо главное, что выходит на связь и выполняет команды.
    • 0
      Если они оба действительно капитально выйдут из строя — например, физически — то уже, конечно, ничего не сделать. А так у них есть возможность перезагружать и перепрошивать оборудование, плюс есть некоторые наборы действий для экстремальных ситуаций, которые выполняются на уровне железа, то есть не зависят от сбоев ПО.
    • 0
      Кстати, да. Вы натолкнули меня на мысль, что нигде не освещалось рассматривали ли вышедшие из строя комплексы исследования как потенциально полезные в отдаленном будущем вещи. Например, даже потеряв связь с Землей, марсоход мог бы служить а) маяком для следующих экспедиций, б) передатчиком информации для кхгм… других цивилизаций. И прочая.
      Надо реквестировать Zelenyikot для получения подробностей.
      • +31
        Марсоход Curiosity перестал отзываться на команды. Советский марсоход Марс-3 после 40 лет молчания передал на Землю научные данные и благодарность за доставленные запчасти.
      • 0
        Spirit, пока он сидел в яме, использовали как стационарную климатическую станцию. Но когда связь была потеряна, уже никакой научной работы с ним производить нельзя было. Думаю у Curiosity ходовая умрет тоже быстрее чем антенны связи и энергоблок, и он в этой роли прослужит очень и очень долго. (В JPL сейчас ходит шутка черного юмора, что MSL это Mars Science Lander). После потери связи, в будущем, их можно будет использовать только как музейные экспонаты.
  • 0
    Совсем недавно оператор рассказывал, как они ведут себя в нештатных ситуациях.
    • –4
      Сглазил.
      • +24
        Не постучал по дереву и не принес в жертву девственницу, ага.
  • 0
    До чего то добурились видать…
    • –1
      до чего-то такого, чего нам знать пока не стоит.
  • 0
    Гм, а у флеш-накопителей есть механизм типа низкоуровневого форматирования, чтоб сбойные блоки памяти исключить из эксплуатации?
    • 0
      Конечно, у NAND памяти присутствует в каждой страницы еще дополнительно 32 или 64 байта на блок коррекции данных, если правильно помню. В любом случае могу сказать одно — что любая самая древняя USB флешка с микроконтроллером — может метить битые страницы и обходить их. Это несомненно.

      Да поправят меня спецы в восстановлении данных.
    • +3
      Насколько я понимаю, физически память не пострадала. Грубо говоря, какие-то участки памяти «выбиваются» из-за того, что через них пролетают заряженные частицы высоких энергий, и там, где раньше были нужные вам данные, оказывается мусор. Тогда в принципе достаточно перезаписать все это дело значениями по умолчанию, потеряв, конечно, те данные, которые были в памяти на момент сбоя, и все будет работать нормально.
    • 0
      Зависит от типа контроллера. Либо он сам распределяет блоки по адресам и следит за ротацией блоков и равномерным использованием, либо контроллер тупой и этим занимается ОС. В первом случае механизмы замены сбойных блоков есть в контроллере, а во втором случае — в ОС,
  • 0
    Если я правильно понимаю сценарий происходящих событий, то скорее всего все закончится простоем и потерей части информации не переданной на Землю? Известно какой информацией вынужденны будут пожертвовать?
    Есть ли возможность передать все два гига данных на Землю и уже здесь их расшифровать? Или это неподъемный объем для существующих каналов? Есть ли у них вообще низкоуровневый доступ к флешке?
    • НЛО прилетело и опубликовало эту надпись здесь
      • 0
        Два гига передать вполне реально, но я не думаю, что там было что-то уж совсем важное и принципиально невосстановимое. Например, все камеры сохраняют изображения в собственную память, наверняка и остальные научные приборы до определенной степени автономны, так что неизвестно, что именно пропало, и пропало ли вообще что-нибудь важное ;) Подождем, пока они во всем разберутся…

        [edit] Немного промахнулся, отвечал на комментарий Mendel
        • +1
          Предыдущие дни они анализировали образцы с CheMin и SAM, поэтому могут и важные данные храниться, которые повторной фотосъемкой не восполнить. Но мне кажется они собираются переписать их на резервный комп и с него отправить.
  • НЛО прилетело и опубликовало эту надпись здесь
    • +1
      Насчет компьютеров не скажу, но можно прикинуть, насколько это опасно для людей. В википедии написано, что
      При однократном равномерном облучении всего тела и неоказании специализированной медицинской помощи смерть в результате острой лучевой болезни наступает в 50 % случаев[3]:
      — при дозе порядка 3-5 Зв из-за повреждения костного мозга в течение 30—60 суток;
      — 10 ± 5 Зв из-за повреждения желудочно-кишечного тракта и лёгких в течение 10—20 суток;
      — > 15 Зв из-за повреждения нервной системы в течение 1—5 суток.

      При этом,
      1 Зиверт = 100 бэр
      1 бэр = 1 рад

      Получается, что цифры выше нужно умножить на 100, и получим величину в радах. Так что 100000 рад — это очень много…
      • НЛО прилетело и опубликовало эту надпись здесь
      • +1
        Рады радами, но вывести микросхему из строя может даже одна-единственная частица, прилетевшая из космоса на достаточно высокой скорости. На марсе нет такого магнитного поля, как на Земле, поэтому вероятность повреждения электроники такими частицами гораздо выше.
        • +2
          А что будет с людьми, которых собираются отправить на марс?
          • 0
            Предполагается, что люди не будут круглосуточно колесить по Марсу под открытым небом. Нужна какая-нибудь база с защитным куполом.
            • 0
              Купола не сильно защищают от «сверх-разогнаных» частиц у которых энергии столько, что они даже в свинце завязнуть не могут, а наоборот выбивают из свинца частицы и бомбят живые организмы уже вместе.
              • +4
                Значит нужно искать древние каменоломни какие-нибудь подземные полости, пещеры.
              • +12
                Хочу заметить, что «сверх-разогнанных частиц» как раз таки можно особо не опасаться. Во-первых, спектр космического излучения степенной и быстро падает в высоких энергиях, соответственно таких частиц не много. А во-вторых высокоэнергичные частицы будут прошивать любое тело насквозь, слабо взаимодействуя с самим этим телом. Основную опасность для человека и техники представляют частицы «средних» энергий: 200-300 МэВ. Именно они производят максимальную ионизацию на глубинах проникновения в человеческое тело.
                Кроме того, закрываться от заряженных частиц свинцом — глупо. Свинец хорош для поглощения радиации (гамма-излучения) из-за большой массы вещества и относительной дешевизны по сравнению с другими тяжёлыми металлами. Однако, гамма-излучение в космических лучах практически отсутствует. Оно возникает уже в атмосфере. И заряженные частицы будут лишь выбивать из свинца то-самое вторичное излучение. Тут необходимо использовать водородосодержащие замедлители типа полиэтилена, парафина или банальной воды.
                • +3
                  Ну я как раз и имел в виду частицы со скоростью, достаточной для повреждения физического тела.
                  Стоит добавить, что физически защитить марсоход от воздействия таких частиц практически невозможно — он будет настолько тяжелым и настолько большим, что не сможет выполнять свою прямую задачу. Космическую электронику защищают другими путями — многократным дублированием важных элементов и специфическими алгоритмами самопроверки для выявления сбоев в работе и коррекции ошибок расчетов, полученных в результате таких сбоев. Именно поэтому возникшая ситуация загадочна. Из объяснений NASA можно сделать вывод, что повреждена файловая система, но ведь существует множество файловых систем, защищенных от локальных сбоев. Систем, в которых таблица размещения файлов дублируется в нескольких местах и крайне маловероятно, что были повреждены сразу все копии. Вот в чем загадка.
                  • 0
                    Из объяснений возможного выхода из строя блока памяти упоминается сбой «оглавления», создается такое ощущение что его не дублировали. Хотя логичнее было бы как раз его размножить много раз…
                    • +1
                      Помнится в FAT было дублирование таблицы размещения, но по факту вторая не использовалась, только специальными утилитами.
                      • 0
                        Не в FAT, а в NTFS и не полное дублирование…
                        • +1
                          В FAT самих FATов тоже две штуки.
  • –9
    Кто-то раньше, как Фобос-Грунт, кто-то позже… все там будем…
    • +7
      Может ФГ можно было бы так же вытащить, если б связь была. Марсоходу проще — он не носится на первой космической с узконаправленной антенной устремленной в небытие.
  • +58
    А всё потому, что отвлекали водителя разговорами.
  • +20
    >> перезапуск основного компьютера должен решить проблему.
    И даже на марсе это работает!
  • –8
    Что то одна микросхема как-то костыльно припаяна.
  • –3
    Примерно представляю себе, что они чувствуют. Напомнило ситуацию, когда на удаленном сервере система перешла в режим read-only из-за bad-блоков на диске. Решение было почти аналогичное fsck и перезагрузка. Но перезагружать опасно было, потому что я не знал, поднимется ли при загрузке SSH или система откажется загружаться. Поэтому тоже пытался решить проблему без перезагрузки.
    • +9
      да, почти то же самое ))
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Меня это тоже немного удивило. Видимо, пока один из компьютеров выключен, он совсем выключен. Либо они боятся, что в памяти могут оказаться неверные данные, и перестраховываются.
      • +1
        Конечно, батарейка же, не резиновая.
  • 0
    А нельзя поместить «земной» проц (какой-нить SoC) в оболочку для защиты от радиации? Не проще и гораздо производительней?
    • +3
      Нельзя. Нет таких оболочек которые защитят от быстрых частиц. От простой радиации они и так защищены, а от быстрых частиц защитная оболочка была бы в несколько раз больше всего марсохода. Поэтому делают дублирование и самопроверки как внутри микросхем так и в алгоритмах, и в схемах.
  • –1
    Всеочищающее ядерное пламя RESET.
  • +1
    Да уж стандартные способы (протереть фары и постучать по колесу) при такой удаленности врятли действенны, вот и приходится изголяться с перезагрузкой…
  • НЛО прилетело и опубликовало эту надпись здесь
    • +2
      По объяснениям больше похоже на MFT.
  • –3
    может там возникли проблемы с сертификацией ключей ПО?
  • –5
    Я удивлен что компьютера всего лишь два. Я бы минимум 4 поставил. Причем все в разных частях корпуса, вдруг метеоритом каким заденет! И кластер бы организовал, чтоб не просто дублирование но и полезной работой можно было нагрузить.
    • +7
      Конечно, а еще пусть сзади на тележке дизель-генератор катится — места на Марсе много, пусть полезную работу выполняет.
      P.S. это сарказм на тему того, что размеры, масса марсохода и ресурс источника питания — жестко лимитированы, а удвоение сложности конструкции — удлинение сроков испытания аппарата. Они туда даже камеры с зумом не поставили, потому что слишком долго тестировать пришлось бы.
      • 0
        А про дизель-генератор сзади на тележке идея хорошая!
        • НЛО прилетело и опубликовало эту надпись здесь
          • +2
            Сзади на тележке за дизель-генератором катится цистерна с соляркой, за ней — кислородный баллон. Параллельно выполняем функцию по созданию углекислого газа на марсе, следом за кислородным баллоном катится сеялка, засеивающая семена морозоустойчивых растений.
  • 0
    Эх красивые платы, интересно феолетовые чипы в BGA? Кто-нибудь в курсе?

    Переводчик радует
    Компьютеры имеют 256 килобайт EEPROM, 256 мегабайт оперативной, и 2 гигабайта флеш-памяти. Конечно, это не очень впечатляет в 2013 году…


    Меня вот лично очень впечатляет)) Учитывая какая «Большая» бывает по объёму рад-стойкая память…

    Будем надеется, что оклемается марсоход, а всем хаятелем Фобос-Грунта напомню, что цена этого чуда в 3 раза больше и возвращаться он не должен.

    К автору статьи, а где вы берёте данные на русском о марсоходе?
    • +1
      К автору статьи, а где вы берёте данные на русском о марсоходе?
      Ищу в интернете… Например про компьютеры есть статья в русской википедии. Если не могу найти чего-то на русском (или не уверен в достоверности), ищу то же самое на английском. В принципе, NASA довольно подробно обо всем рассказывает, так что найти ту или иную информацию — не проблема.
  • 0
    Мы считаем, что нам крайне не повезло – мы получили ошибки именно в тех областях памяти, которые были к ним наиболее чувствительны


    Любой «компьютерщик» 80-х-начала 90-х знает, что прежде всего на дискете сыпется FAT :(
    • 0
      Мой опыт напоминает, что все-таки не прежде всего. Перед FAT дискета постепенно обрастала бэдами, во всяком случае у меня. Да и дискеты были достаточно надежными — я свою 5" таскал в переднем кармане сумки почти целый учебный год, причем каким-то непонятным образом в тот карман затесался еще и кусок мела, с которым дискета довольно долго нормально уживалась. В общем когда дискета наконец-таки накрылась видок у нее был еще тот. Когда я принес ее нашем учителю информатики со слабой надеждой на спасение, то он взглянул на нее и спросил — «Ты что, на ней гвозди ровнял?». Но держалась она до последнего, хоть и обросла некоторым количеством сбойных блоков.
  • +1
    — Земля, Земля, Говорит Борт 13-13! У нас отказал бортовой компьютер, что делать?
    — Борт 13, борт 13, это диспетчер, слышите меня? Играйте пока на резервном. Повторяю, играйте на резервном
  • 0
    А почему нельзя тогда банально снабдить память кодами, исправляющими ошибки, при том аппаратно?
    • 0
      Можно. Но это не помогает. ECC и подобные механизмы позволяют исправлять ограниченное количество ошибочных битов. А когда прилетает пачка зараженных частиц переключиться может далеко не один бит, к тому же в обной и той же ячейке памяти.
      • 0
        А можно не ECC, можно коды Рида-Соломона. В зависимости от параметров, можно хоть 90% памяти переключить, а всё равно содержимое сохранится.
        • +1
          Поправьте меня, если я ошибаюсь, но разве ECC — это не общее название для вообще любых Error Correcting Codes, без привязки к какой-либо конкретной реализации? Т.е. это может быть и код Рида-Соломона, и простой мажоритарный дублирующий код, и контроль четности по строкам-стобцам, и даже какое-нибудь извращение типа оверсемплирующего интерполирования сплайна, узловые точки которого определяются кодируемыми значениями.

          Кстати, по поводу последнего — надо бы попробовать реализовать, если еще никто не.
        • 0
          Хм. Заманчивая идея. Итак, код Рида-Соломона позволяют исправлять t ошибок, добавив 2t проверочных символов. Если я не ошибаюсь (в полночь я вполне могу ошибаться) это означает, что ошибок должно быть меньше 50%. И это в пределе, если проверочных символов вы сделаете бесконечно много, а информации будете хранить очень мало.
          Более того, это максимально теоретически возможный предел. Ну просто чтобы исправить ошибку надо чтобы расстояние между двумя разрешенными последовательностями было больше двойной длины ошибки. Т.е. если вы допускаете ошибку в 90% длины памяти, то два валидных состояния должны отличаться на 180% длины памяти.

          Также подумайте о технической проблеме создания такой памяти.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.