Selectel опять лежит

    В 22.44 получил уведомление от метрики о недоступности сервера.
    В этот раз вместе с сервером заодно легла и их панель управления, да и весь их сайт.
    Количество падений, по-моему, превысило все допустимые границы.
    Ухожу от них, стоило сделать это много раньше…

    UPD. 23.19 стал доступен их сайт и панель управления. Свою машину обнаружил в выключенном состоянии, хотя в твиттере они писали, что проблемы только с сетью и все машины работают в штатном режиме.

    UPD2. Не смотря на доступность админки, часть виртуальных машин в дауне, действия над виртуальными машинами недоступны.
    Поделиться публикацией
    Похожие публикации
    Реклама помогает поддерживать и развивать наши сервисы

    Подробнее
    Реклама
    Комментарии 337
    • +3
      Лежит не только облако но арендованный сервак
      • +4
        Присоединяюсь… В 22:25 отказал сервер, написал тикет, а сейчас и панель не работает :(
        • +5
          Присоединяюсь. Кто посоветует хорошие выделенные Win Сервера?
          • 0
            Приходите к нам )
            • 0
              Меня тоже порядком достали такие серьезные и частые лаги.
              В итоге я поднял Proxmox и как только селектел очухается перенесу всё к себе.
              Задолбало!
            • +1
              Угу, сейчас недоступен selcdn.ru, selectel.ru, support.selectel.ru, а также виртуальный сервер :(
              • +2
                habrahabr.ru/qa/24289/
                ну и плюс твиттер
                twitter.com/i/#!/search/realtime/selectel

                Селектел ‏@selectel
                Клиентские машины (физические, виртуальные и облачные) работают, но не доступны по сети
                • +2
                  Впрочем, по фразе «selectel лежит» на хабре больше инфы нет. Что за история?
                  • –23
                    Не можно просто так взять и понять почему упал Селекте.

                    image
                  • +1
                    Проблема доступности сервисов связана со сбоем в работе сетевого оборудования. Наши специалисты занимаются устранением неполадок. Клиентские машины (физические, виртуальные и облачные) работают, но не были доступны по сети какое-то время, сейчас вроде почти все поднялось.

                    Подробности будут позже.
                    • 0
                      Фух, а то я то уж начал кирпичи класть :)
                      • +2
                        > Клиентские машины (физические, виртуальные и облачные) работают
                        Кто же их тогда ребутнул и почему после этого диски в рид-онли? o_O
                        • +2
                          Даунтайм облаков уже 2,5 часа. Выделенный сервер работает с перебоями.
                          На тикеты уже полтора часа нет ответа, хотя раньше при падениях ваши инженеры своевременно отвечали.

                          Пожалуйста, сообщите какой статус работ и вообще любую информацию — что происходит?
                        • +1
                          Вобщем то у меня все заработало
                          • +1
                            Ха, проекты пингуются, но не коннектятся к mysql по localhost)
                            • +4
                              На самом деле управление машиной в облаке не работает, ни перезапустить, ниче сделать нельзя.
                              • Та же проблема, затормазилась файловая система и упали все БД…
                              • +7
                                Виртуальный сервер лежит как минимум с 22:08, до сих пор никак не доступен. Пожалуй хватит уже терпеть :(
                                • –1
                                  попробуйте в админке зайти в консоль.
                                  • +6
                                    Зашел, сервер выключен, включить панель не дает — «Возникла проблема при совершении действия», ляпота…
                                    • 0
                                      ага, то же самое. вот так проблемы с сетью…
                                      • 0
                                        У меня в панеле один облачный сервер сам включился, а для другого как раз возникает ошибка при включении.
                                  • +19
                                    Как объяснить клиенту, что в таком клевом дата-центре авария третий раз за два неполных месяца? Ведь не поверят)
                                    • +1
                                      ну а как вы ему исходно мотивировали выбор хостера? ;)
                                      • +13
                                        Исходно я просто сказал, что за календарный год был только один факап, что является неплохим показателем в России) Летом клиент туда перешел, и вот перед нами картина маслом… у меня уже комплекс вины перед клиентом как будто его сайты у меня в сортире хостятся…
                                        • 0
                                          Аналогичная ситуация. Перенес клиента к ним, все работало хорошо, но за последние факапы крайне стыдно и неприятно. Вт и думаем, может проще было купить жирный тариф на хостинг у предыдущего, ежели брать не рабочую услугу тут.
                                          • +1
                                            На этой планете не существует хостингов, которые бы не падали.
                                            Все вопросы стабильности решаются только избыточностью и ничем больше.
                                            Поднимайте 2-3 и более одинаковых серверов в разных местах и не придется нервничать.
                                            • 0
                                              Это понятно все и банально, просто хочется какой-то более-менее стабильности. Проект небольшой, бюджет тоже, надеялись облако нам поможет контролировать расход расход финансов, дабы можно было их направить на расширение. В итоге получили абсолютно противоположную картину. Обидно.
                                              • +2
                                                Ну более-менее стабильность есть. У меня в облаке сервер с декабря 2010го.
                                                И за это время было лишь 2 падения которые затронули мой сервер. Были еще, более мелкие, но они проходили мимо меня незаметно.
                                                Конечно последний суточный факап это нечто, но даже он не заставит уйти.

                                                З.Ы. Очень хотелось бы узнать, что могло положить ДЦ(и не один) на почти сутки.
                                                • 0
                                                  Ну, отсутствие серверов в сумме пару суток за 22 месяца (пользуюсь с декабря 2010) — вполне подходит под определение «какой-то более-менее стабильности».

                                                  > надеялись облако нам поможет контролировать расход расход финансов, дабы можно было их направить на расширение. В итоге получили абсолютно противоположную картину.

                                                  Вот этого не понял. Что, расход финансов получился неконтролируемым? Тогда причем тут проблема доступности сервера?
                                                  • 0
                                                    Человек зарабатывает на своем сайте «миллионы долларов» и думаю вы сами знаете как это обычно бывает, что именно в этот день он должен был заработать второй миллион и я виновен, что посоветовал такой хостинг. Свои проекты держу на AWS, пусть дороже, но спокойне.
                                                    • 0
                                                      А что, aws не падает что-ли?
                                                      А человеку правильно посоветовали. Если у него там завязаны ценный бизнес на сайты — нечего жмотиться на избыточность. Если не ценные — то один день в год — это очень неплохая статистика, особенно за эти деньги…
                                                      • 0
                                                        Когда нибудь падает все. Проблема чисто с психологической точки зрения. Предупредил, что бывают «ситуации», что падает все. Просто человеку кажется это странным, что именно после переезда его сайта, начались даунтаймы.
                                      • +5
                                        /me читает про DNS failover.
                                        • +2
                                          Хмм. Тут товарищ утверждает, что может делать DNS failover с временем переключения в течение 1 минуты (на основе двух неудачных проверок, проводимых раз в 15 секунд), — это время для тех пользователей (браузеров), которые уважают DNS TTL, и которых якобы большинство.

                                          Кто-нибудь использовал такое?
                                          • +1
                                            Дык а в чем проблема? Если юзать внешний DNS-хостинг и хотя бы еще один зеркальный сервер, то сделать DNS failover не проблема. Это требует всего лишь лишних денег…
                                            • 0
                                              ну, это значит, что пусть себе лежит любой отдельно взятый хостер, не? :)
                                              • 0
                                                Все верно, но это — деньги и это дополнительная работа по настройке синхронизации, а так клево конечно :)
                                              • 0
                                                собственно, держать зеркальный сервер в облаке, на минимуме ресурсов, чтобы он был готов принять на себя полную нагрузку — вполне облачный use case. Вопрос еще в затратах на администрирование :)
                                                • +1
                                                  Зависит от разных факторов. Облако похожее на Selectel еще нужно найти, у многих облаков фиксированные инстансы с HDD завязанным на оперативку. Поэтому если нужно много места, то это дополнительный расход. А в заграничных облаках еще и трафик дорогой: у меня сайт ест 5 Тб трафа в месяц, если в Selectel я плачу за это ~3k рублей, то в Rackspace или Amazon это выйдет в 15-20k :( Поэтому переключение на такой зеркальный сервер влетит в крутую копейку…

                                                  Я уже склоняюсь к возврату на обычное железо, без всяких облаков. За те деньги, что я плачу за 5 Тб трафика, 2 Гб RAM и 60 Гб HDD в том же Hetzner можно взять 2 сервера с 16 Гб RAM каждый, двумя HDD по 3 Тб каждый + 100 Мбит канал на 10 Тб в месяц каждый.
                                                  • 0
                                                    алсо, тут есть еще такой параметр: сколько стоит времени выкатить (разумеется, автоматизированно по одной кнопке) новый сервер по запросу сразу после сбоя, и переключить на него DNS. Если приемлемо, то можно убрать постоянные расходы на поддержание горячего резерва.
                                                    • 0
                                                      Копию актуальных данных все равно нужно где-то держать… Высокая надежность и доступность всегда упирается в деньги, к сожалению.
                                                    • 0
                                                      За такие деньги вполне можно держать собственные сервера, и снять наконец с ушей лапшу, о облаках.
                                                      • +1
                                                        Именно это и собираюсь сделать.
                                            • +6
                                              Не смешно уже.
                                              • +18
                                                При всей моей лояльности по отношению к селектелу, не смотря на подкупающую полноту объяснений причин падения amarao — тоже прихожу к мнению, что пора бежать.
                                                На текущий момент панель управления доступна, машина выключена и нет возможности её включить.
                                                • +3
                                                  Аналогичная ситуация. Все сайты в дауне. В панель управления зайти не могу. Как бы там нибыло, но это последная капля. У меня время 2 ночи. Я спать хочу, а не в очередной раз выяснять почему сайты лежат.
                                                  • 0
                                                    В админке пишут: «Интерфейс администрирования временно недоступен, серверы продолжают работать. Просим прощения за временные неудобства.».
                                                    • 0
                                                      Я отключил старт машин (и панель), потому что в условиях нестабильной работы сети от действий клиентов больше вреда, чем пользы (для машин).

                                                      Как только будет добро от сетевиков, я запущу все виртуальные машины, которые были запущены на момент до начала аварии.
                                                      • +1
                                                        как долго еще ждать!?? а то вдохновение пропадет!!! =)))
                                                        • 0
                                                          Откровенно, мне уже хочется спать. Но — ждём. Из… хм… приятных новостей — я нашёл метод сэкономить ещё примерно 2-3% времени при старте каждой виртуальной машины.

                                                          Сейчас перепроверяю списки запуска, как только скажут, что стабилизировалось — запускаю.
                                                          • 0
                                                            Вообщем я очень терпеливый и поддерживаю вас… всякое бывает. Давайте решайте и стабилизируйте работу. =)
                                                            Лишь бы данные не похерились…
                                                            • 0
                                                              * В общем =)
                                                              • 0
                                                                Данные 100% на месте. Собственно, те немногие, кого успели перенести, даже работают (если не считать падений сети). Как только перенесём всех — будет лучше.
                                                              • +1
                                                                Машинки запустились, но одна так и не поднялась: не отвечает по консоли и ssh.
                                                                Уже работаю с вашими специалистами над этим через тикеты.
                                                                Это я просто к тому что недостаточно перезапустить автоматически виртуалки, и уйти спать.
                                                                У меня одна из двух виртуалок не работает не на логическом уровне, а вполне себе на уровне облака — она не запустилась (несмотря на зеленый индикатор), консоль не отвечает, показывает просто курсор (до первого утреннего тикета консоль вообще не открывалась).
                                                                Вам видимо надо доработать автоматический перезапуск не только чтобы он запускал машины, но и чтобы проверял запустились ли. Сейчас полдевятого утра, а последствия аварии для меня еще до сих пор актуальны и их вполне можно было устранить без моего отдельного запроса.
                                                                • 0
                                                                  Я ещё не ушёл спать. на консоли просто нажмите enter. Если не появилась — загрузитесь в rescue initrd и сделайте fsck.

                                                                  Для всех пользователей первого пула, у которых были проблемы с fsck, я её сделал (8 машин было).
                                                                  • +1
                                                                    Опять не работает сеть. Сайт Селектела тоже не загружается.
                                                                    • +1
                                                                      Насчет спать извините — выражаю сочувствие, все мы люди.
                                                                      В данную секунду у меня даже не открывается support.selectel.ru хотя я уже видел сообщение что авария устранена и надо проверить машины. Авария еще не устранена?
                                                                      Консоль появилась после исправления чего-то с вашей стороны, но навести фокус и нажать enter не помогло. Насчет загрузки в rescue initrd понял, но пока мне недоступна панель управления.
                                                                      • 0
                                                                        Через 5 минут после моего ответа у меня замерла консоль с недописанной командой, и я понял, что день у меня будет весёлый. Не менее весёлый, чем была ночь.
                                                                        • 0
                                                                          Искренне сочувствую.
                                                          • +2
                                                            Те же яйца, клиенты отрубились по таймауту в 22.07.
                                                            В 23.10 связь появилась, сервер все это время работал, но без клиентов.
                                                            В 23.56 снова пропала связь.
                                                            • +3
                                                              Действительно не смешно. У меня теперь вообще машины пропали из списка, как бы данные не повредились, потому как количество ошибок в консоли, когда удалось туда зайти на пару минут, было огромным.
                                                              • 0
                                                                Из-за проблем с сетью панелька не могла связаться с сервером API, так что списка просто не было видно.

                                                                Сбой коснулся только сети — т.е. хранилища стоят нетронутые, виртуалки просто потеряли к ним доступ. Как только сеть нормализуют, машины будут включены, для них это будет эквивалентно «принудительному отключению».
                                                              • +1
                                                                Интересно, по мунину вижу, что внеший инет упал 2 часа назад, но домашний мунин сервер все равно почти все это время мог собирать статистику с клиента на селектеле.

                                                                Видимо с падением сети падало и соединение с дисками — было несколько минут когда iowait упирался в потолок, так что каким-то серверам от этого могло поплохеть.
                                                                • SLA!? Нет, б****, не слышал…
                                                                    • Да я даже читать это не хочу, особенно 4 страницу с табличкой про 99% процентов. Мне от их компенсаций потом не жарко не холодно, доверия утрачено, до свидания, либо я им, либо клиенты моего бизнеса мне.
                                                                    • 0
                                                                      Мы выплачиваем компенсации. Не могу сказать, что это радостный процесс, и я бы предпочёл без этого.
                                                                      • 0
                                                                        Зато честно)
                                                                        • +4
                                                                          С нарушениями SLA на самом деле ситуация крайне неприятная. С одной стороны нам — это убытки (а с учётом тикающего счётчика и лежащих 3/4 пула — крайне ощутимые), с другой — клиентам от этой компенсации никакой радости.
                                                                    • +15
                                                                      Завидую терпению клиентов Селектела.
                                                                      • +1
                                                                        Особено когда выслушиваешь ожидание очереди на инглише и регулярное «Thank you for your patient», то сам удивляешься тому что оно у тебя еще не лопнуло.
                                                                      • +3
                                                                        может быть сегодня внезапно 27-ое сентярбря или просто не успели, или накосячили при подготовке к 27-му?
                                                                        monosnap.com/image/vtPYmcRHZJcKFAjwmnGWhaHYv/
                                                                        • 0
                                                                          Видась у них циска совсем погорела. Сейчас со слада везут. Вот пипец
                                                                          • +1
                                                                            Из Китая?)
                                                                            • 0
                                                                              ох! последнюю живую кошку отдали вконтактам, а остальным ждать со склада?
                                                                              надеюсь мы ошибаемся. )
                                                                            • 0
                                                                              Если бы! Как раз эти работы (на самом деле — перенос машин со старых сторов на новые) должны были предотвратить дальнейшие проблемы.

                                                                              В этой аварии те, кого успели перенести получили несколько перерывов в интернете и всё.

                                                                              Но, я надеюсь, в ближайшее время я закончу перенос и мне больше не нужно будет следить за коммитами Нила Брауна в апстрим так пристально.
                                                                            • +1
                                                                              Вроде как поднялось облако.
                                                                              Надпись «Аптайм 2 недели 9 часов 2 минуты 25 секунд» улыбнула.
                                                                              • +2
                                                                                Аптайм высчитывается как shutdown_time — now.
                                                                              • +4
                                                                                Мда… Слишком слишком часто стал падать селектел… :(
                                                                                Куда бежать??? Подскажите плиз
                                                                                • +1
                                                                                  Для себя пока наметил Hetzner, к облакам доверие подорвано окончательно, по крайней мере к российским, а западные пока дороговаты для моего трафика.
                                                                                  • +1
                                                                                    Хетцнер. Я там был два года — никаких проблем. Съезжал в селектел по финансовым причинам. Теперь вот возвращаюсь обратно. Только берите напрямую, без реселлеров всяких.
                                                                                    • 0
                                                                                      Тоже hetzner.de порекомендую
                                                                                    • +11
                                                                                      Количество падений селектела превысила для нашего проекта допустимый предел, после сегодняшнего инцидента мы уходим к другому хостеру, причем сразу на запад, и не в облако, а на выделенную машину. Извини, селектел, я долго терпел.
                                                                                      • 0
                                                                                        Куда уходите, не поделитесь?
                                                                                        • 0
                                                                                          Анализирую, пока непонятно. Мне советовали hetzner, но в процессе обсуждения с коллегами по несчастью (которые тоже в селектеле сейчас) — выяснил что hetzner не так уж хорош, и с ним много потенциальных проблем.
                                                                                          Ушел бы в амазон, но очень дорого. Поэтому будем думать и собирать советы. Буду рад, если вы поделитесь :). Ищем какой-нибудь американский (в крайнем случае европейский) надежный хостинг, менее дорогой чем амазон.
                                                                                            • 0
                                                                                              Спасибо, будем смотреть!
                                                                                              • +2
                                                                                                У leaseweb все плохо с внутренней сетью, пока не закажете свитч — обратите на это внимание.

                                                                                                Самое интересное, что если бы не гигантские проблемы с сетью и поддержка, не берущая телефон, когда это больше всего нужно, Селектел — один из лучших dedicated в Европе. Современные машины с приличной конфигурацией если заказывать кастомное железо, нормальная полоса. Но увы.
                                                                                                • 0
                                                                                                  Зато с внешней сетью у Лизвеба все хорошо + брендовое железо + охлаждение нормальное, а не как в Хецтнере — 40-45 градусов на дисках в стендбае
                                                                                              • 0
                                                                                                А какие потенциальные проблемы с хетцнером?
                                                                                                • 0
                                                                                                  Полоса всегда шарная. Могут оключить ни за что (знакомые сталкивались неоднократно). Машины — десктопы, если не сказано иначе. Нет кастомных конфигов.
                                                                                                  • 0
                                                                                                    1) Десктопы не пугают, ибо за 2 года траблов не было.
                                                                                                    2) Про отключение ни за что тоже слышал, но если абуза левая то все быстро решается (сам не сталкивался).
                                                                                                    3) А можно пруф про полосу? Нас тогда ddosили, никто вроде не жаловался из других клиентов (решилось заменой аплинка на 1G, насколько мне память не изменяет).
                                                                                                    • 0
                                                                                                      Десктопы должны пугать, попробуйте побенчить свое приложение рядом на ксеонах и на десктопных i7. В много процессов, разумеется.

                                                                                                      Про полосу — какой именно пруф? Сравните покупку полосы у Селектела или конфигуратор полосы на LeaseWeb с Хецнером. Там даже если заказывать гигабит, все равно ширина не гарантируется. Для дешевой раздачи это неплохое решение, для гарантированной нагрузки не годится.
                                                                                                      • 0
                                                                                                        Скажу честно — для моих скромных задач/проектов того что дает хетцнер будет достаточно с головой. Главное, чтобы не падало, как селектел. В остальном лично меня все устраивает. Тем более за 2000р в месяц ;) А те решения, о которых Вы пишете — стоят совершенно иных денег, да и не требуются они мне пока.
                                                                                                        • 0
                                                                                                          >> попробуйте побенчить свое приложение рядом на ксеонах и на десктопных i7. В много процессов, разумеется.
                                                                                                          А вы пробовали? Разница весьма невелика.
                                                                                                    • 0
                                                                                                      Писали что-то про б/у харды, которые быстро летят. Насколько актуально — не знаю, лишь пересказываю.
                                                                                                      • 0
                                                                                                        Спасибо, буду иметь в виду.
                                                                                                        • +1
                                                                                                          У меня на hetzner навернулся диск в их soft-raid. Все жутко тормозило, еле разобрался, в чем дело.
                                                                                                        • +4
                                                                                                          Сейчас хетцнер выдаёт айпишники в 5.0.0.0/8, а это настолько прекрасно, что у некоторых до 10% пользователей теряется.
                                                                                                          • 0
                                                                                                            В каком смысле теряется? У некоторых хостеров теряется, потому что уходят за прекрасным к хетцнеру, или у клиентов хетцнера теряется, потому что эти айпишники содержат в себе какую-то проблему?
                                                                                                          • 0
                                                                                                            Спасибо за инфу. Все веселее и веселее :(
                                                                                                        • 0
                                                                                                          Да я скорее всего в hetzner, потенциальная проблема там в общем-то одна — следить надо за винтами. За те же деньги, что и в Selectel я могу получить 3x3Tb HDD + аппаратный RAID: 2 винта ставим в RAID1, третий — под бэкапы. До облаков я на такой конфигурации (в России) просуществовал не один год без особых проблем, 2 раза менял винт в рейде при выходе из строя.

                                                                                                          В Америке хостинг очень не дешевый, особенно по трафику :(
                                                                                                          • +1
                                                                                                            • –6
                                                                                                              В очередной раз посоветую форнекс fornex.com/?server=835 (реф). 1.5 года арендую у них сервер. Аптайм 99.99%. Пару раз по непонятным причинам зависал сам сервер, но был успешно перезагружен через KVM. ДЦ в Германии (www.first-colo.net), сам хостинг зарегистрирован в Испании. Саппорт хороший.
                                                                                                              • –5
                                                                                                                Спасибо за ваши авторитетные оценки, хабраюзеры. Ведь хостинг на самом деле хороший.
                                                                                                                Алсо я не вижу ничего плохого в явно указанной реф ссылке. Кто не хочет, тот не заходит.
                                                                                                            • –3
                                                                                                              а у меня с этими ребятами очень хороший опыт: nqhost.com/
                                                                                                              + оперативно всё делают
                                                                                                              + есть русский интерфейс на сайте
                                                                                                              + хорошие цены
                                                                                                              + адекватный саппорт
                                                                                                              + сервера на выбор в США/Германии/России
                                                                                                              — немного простовато-спартанский интерфейс (хотя меня он устраивает)

                                                                                                              На счёт падений сказать ничего не могу. Сижу второй месяц, аптайм 100%
                                                                                                              • +1
                                                                                                                Не, хватит с меня VPS и VDS, только железо, только хардкор! :)
                                                                                                                • 0
                                                                                                                  Раза 3-4 в датацентр сбегаете решая проблемы с железом- передумаете ;-)
                                                                                                                  • 0
                                                                                                                    У меня за 5 лет хостинга на железном сервере, причем в России, сайт никогда столько не лежал. За все это время я 2 раза просил сменить посыпавшийся винт в RAID'е. Ни разу никуда не бегал. А за последний год в облаках — сплошной негатив и постоянные проблемы. Так что опыт есть, передумывать некуда :)
                                                                                                                    • 0
                                                                                                                      У меня у домашних серверов аптайм больше, чем у серверов на работе. Из моего опыта получается, что это нормальная ситуация. Дома разве что питание отключат, а на работе всякое может быть, то траншею роют, то железо обновляют, то на новый софт переезжают… :)
                                                                                                          • +4
                                                                                                            5 или 6 падений за последние ~4 месяца. И только один раз сервер был поднят обратно со стороны селектела, а не руками пришлось из интерфейса. Еще и все файлы разок терял.
                                                                                                            Как хорошо все начиналось, сколько описаний и подробных ответов, «киллер фич»…

                                                                                                            • +2
                                                                                                              Заметил, что одна машинка лежит, еще днем. Разбираться времени не было. Написал тикет только вечером. Утро. Просыпаюсь — легло все оставшееся.
                                                                                                              У вас удобно и недорого, но, с вашей надежностью, максимум, что у вас буду держать — тестовые машинки.
                                                                                                              • +2
                                                                                                                И только что Селектел полностью лег по сети третий раз за сутки. У нас dedicated, без облака вообще.

                                                                                                                Вот это уже рекорд.
                                                                                                                • +1
                                                                                                                  Ну и разумеется трубку не поднимают — зачем, правда? Ситуация пара месяцев назад, когда поддержка от меня узнала, что лежит один из аплинков, была как-то веселее.
                                                                                                                  • 0
                                                                                                                    у меня там вообще колок :(
                                                                                                                  • 0
                                                                                                                    Это не третий раз, это один затянувшийся процесс. Я из-за него не могу машины стартовать, которые задело. К счастью, задело только старую часть пула, новая тьфу-тьфу такие вещи переживает.
                                                                                                                  • 0
                                                                                                                    Самое интересное, что облачных аналогов Селектела в России — нет. И если мой основной VPS уже давно «живёт» в Нидерландах, то выбор недорогой локальной площадки для NS и бэкапов становится нетривиальной задачей.
                                                                                                                    • 0
                                                                                                                      Для NS советую Amazon Route 53 — очень нравится прогрессивный прайсинг, получается в итоге дешевле чем на специализированных сервисах вроде Zerigo.

                                                                                                                      Для бекапов — все та же схема с s3sync, если подходит, или Bacula в облаке угадайте где.

                                                                                                                      Вот где взять хороший dedicated за разумные деньги — это действительно проблема, и тут как раз аналогов нет.
                                                                                                                      • +1
                                                                                                                        Кстати Zerigo за 19 долл/в год вполне хватает. Но я любитель сделать еще лучше, поэтому, в дополнение, держу территориальные ns'ы для критичных проектов у Селектела.
                                                                                                                        • 0
                                                                                                                          Zerigo недавно лежал больше суток и неплохо так повалил проектов, поэтому даже остатки оттуда пришлось перенести :(
                                                                                                                          • +1
                                                                                                                            О чём и речь. В тот момент выручил Селектел и Ру-центровский secondary, сейчас Zerigo. А на случай «ядерной зимы» на скамейке запасных — Ру-центровский Secondary. А на случай… хотя кому утёрлись мои проекты в случае падения всех трёх.
                                                                                                                    • +2
                                                                                                                      Четвертый, только что сеть отвалилась в четвертый раз.
                                                                                                                      • 0
                                                                                                                        Поднялись, сегодня не спим — понятно, ждем пятого раза
                                                                                                                        • 0
                                                                                                                          Кстати, а вы проекты (пострадавшие) хостите только в селектеле, или есть какой-нибудь failover где-нибудь ещё?.. Ну, на такой случай.

                                                                                                                          Я всерьез задумался хотя бы рассчитать такой план, чтобы сначала перебросить DNS, а потом уже разбираться. Объёмы данных, впрочем, пока довольно смешные.
                                                                                                                      • 0
                                                                                                                        Долго работал с Selectel, но несколько месяцов ушел от них к Linode.

                                                                                                                        Не пожалел ни разу. Вот мои впечатления от этого прекрасного хостера.
                                                                                                                        • 0
                                                                                                                          А за что минусуете человека? Чем плох Linode?
                                                                                                                        • 0
                                                                                                                          Спасибо сетевикам. Как только сеть стабилизируют, подниму машины.
                                                                                                                          • +8
                                                                                                                            Всем вам большооооой привет. Без Селектел жизнь скучна и однообразна.
                                                                                                                            • 0
                                                                                                                              эстимейты?
                                                                                                                              • +9
                                                                                                                                +30-40 минут от момента починки сети. А вот с сетью — не знаю.

                                                                                                                                У меня restore полностью отлаженный, так что я сейчас закончил причёсывать пулы от «залипших» tapdisk'ов. Как только получу добро — будет запущена вот такая конструкция:

                                                                                                                                for pool in $pool_list do; poolwide_exec vm_restart DOWNSTART-1;done

                                                                                                                                И дальше оно строго параллельными рядами начнёт запускаться.

                                                                                                                                Я не знаю гордиться мне отлаженностью процесса запуска облака после аварии или нет. Как технарь — гордиться, как человек, представляющий облако общественности — скорее, стыдиться.

                                                                                                                                В любом случае, я надеюсь, что в ближайшие дней 10-15 я закончу перенос машин и ситуация должна нормализоваться.

                                                                                                                                • 0
                                                                                                                                  меня именно эстимейты по сети интересуют, ибо как уже говорилось выше — колоки…
                                                                                                                                  • 0
                                                                                                                                    Я так понимаю, что там сейчас идёт выяснение проблемы в режиме «должно работать, но не работает». (это спекуляции, я реальной картины не вижу, не хочу зря человека отвлекать).
                                                                                                                                  • +1
                                                                                                                                    Перенос машин куда и какая ситуация должна нормализоваться — прекращение столь частых сбоев?
                                                                                                                                    • 0
                                                                                                                                      У нас проходят серьёзные работы (в бэкграунде) по модернизации инфраструктуры облака.

                                                                                                                                      Я думаю, говорить об изменениях и сравнении «было/стало» можно будет после завершения работ.
                                                                                                                                  • 0
                                                                                                                                    По тому, что говорят, «точно должно заработать». Я уже минут 10 запускаю виртуалки.
                                                                                                                                  • +6
                                                                                                                                    Аватарка, у вас, очень «втему».
                                                                                                                                    • +5
                                                                                                                                      Если 404 показывается, значит сеть работает.
                                                                                                                                    • +1
                                                                                                                                      Доброй ночи, спасибо, что вы с нами. Отпишите потом, «что это было».
                                                                                                                                      • +1
                                                                                                                                        а от вас будет нормальный postmortem или на «сетевики молодцы» ограничимся?
                                                                                                                                        • 0
                                                                                                                                          Они ещё заняты, т.е. проблему всё ещё решают. Я попробую выяснить (завтра или послезавтра — зависит от того, сколько будут отсыпаться). Если разрешат disclose — опубликую.
                                                                                                                                          • +5
                                                                                                                                            Разрешать дисклоузить? От Селектела не было ни единого статуса в течение пяти часов — причем за это время сеть упала еще три раза. Это даже не отсутствие информирования клиентов, я не знаю как это назвать. Бесплатный хостинг какой-то. Неужели кроме инженеров нет человека, ответственного за публичный сапорт?

                                                                                                                                            Можно ли дисклоузить причину неответа на телефон суппорта, кстати?

                                                                                                                                            Зачем тогда вообще диверсифицировать бизнес от хостинга ВК если на массовые сервисы плюнуть и растереть, вот что я не могу понять.
                                                                                                                                            • +1
                                                                                                                                              в тви писали… около 11.20 PM MSK
                                                                                                                                              а дозвониться — да…
                                                                                                                                              • 0
                                                                                                                                                > в тви писали… около 11.20 PM MSK

                                                                                                                                                > не было ни единого статуса в течение пяти часов
                                                                                                                                                • 0
                                                                                                                                                  уже туплю, простите.
                                                                                                                                              • +1
                                                                                                                                                Факт аварии мы скрывать не будем, речь идёт про детальный рассказ что именно сломалось (а не просто «проблемы с сетевой инфраструктурой»). Я обычно рассказываю о глубинных причинах произошедшего, в случае сетевого оборудования ДЦ этот вопрос решать буду не я.

                                                                                                                                                Саппорт отвечает на звонки, кому-то даже я отвечал, когда инженеры затруднились ответить на вопрос. Но легко догадаться, что 10к звонящих клиентов и десяток инженеров службы поддержки — силы несопоставимые.

                                                                                                                                                Да, я думаю, что сбои с сетью могли ещё повлиять на IP-телефонию. Подробностей я совсем не знаю, так что это гипотеза.
                                                                                                                                                • 0
                                                                                                                                                  Либо повлияли, либо PBX не справлялась :)
                                                                                                                                                  Одно время сразу давался отбой.
                                                                                                                                                  • 0
                                                                                                                                                    Поскольку дозвонится голосом я все равно не могу, а вместо публичного фидбека есть инженер, который никак не относится к аварии (и на том спасибо), вы не могли бы проиграть для инженеров-сетевиков данный ролик от благодарных клиентов? Спасибо.
                                                                                                                                                    • +4
                                                                                                                                                      Вы хотите говорить во время аварии с человеком, который аварию устраняет?

                                                                                                                                                      Я вот тут вот на хабре лясы точу просто потому, что я сейчас в роли наблюдателя. А если бы от меня требовались какие-то действия, то максимум чего вы от меня бы добились — это «устраняю», или «подробности позже».

                                                                                                                                                      Очевидно, что человек, который сеть чинит, не может отвечать клиентам — каждая минута ответа на вопросы — это плюс минута к даунтайму.

                                                                                                                                                      Мы виноваты в аварии — и да, но я считаю, что техническая часть (т.е. нотис с объяснением сути проблемы в панели управления, информирование инженеров службы поддержки) сделана на нормально.
                                                                                                                                                      • +2
                                                                                                                                                        На нормально? В технической части у вас пять перебоев за шесть часов, в части поддержки клиентов — полный провал в публичной поддержке и первой линии.

                                                                                                                                                        Панель управления, очевидно, недоступна существенное время, дозвониться до первой линии невозможно, а позиция инженеров предсказуемо сводится к «скажите вообще спасибо, за то что мы (вставить нужное)» — в этом вы еще раз только что расписались. И спорить, вроде как, не о чем, потому что единственный человек в паблике к аварии отношения не имеет — красиво.

                                                                                                                                                        Это далеко не первый раз, когда при аварии никто не берет трубку, но целая ночь даунтайма у вас впервые. Судя по тому, как сервис Селектела последовательно деградирует примерно с зимы того года, то ли еще будет.

                                                                                                                                                        Из данного ночного тредика я для себя вынес, что позицию Селектела в том числе и по отношению к клиентам колоков и дедиков можно сформулировать как «с вас хватит того, что аварию мы вообще стали устранять». Это уровень бесплатного хостинга.
                                                                                                                                                        • +8
                                                                                                                                                          Во-первых, авария такого уровня на моей памяти первый раз.

                                                                                                                                                          Во-вторых, наша собственная инфраструктура затронута аварией (вот это — вполне себе повод для разбирательств с теми, кто планировал реакцию в случае глобального отказа) — так что отсутствие связи нас так же затрагивает (включая неработающие телефоны и IM внутри дата-центров).

                                                                                                                                                          В третьих — неужели мои слова тут можно интерпретировать как «с вас хватит того, что аварию мы вообще стали устранять»? Я понимаю, что в этой ситуации хочется, чтобы оно «взяло и начало работать». Нам этого тоже хочется.

                                                                                                                                                          Но в аварийных ситуациях должно быть сделано:

                                                                                                                                                          1) Дать информацию об аварии. Насколько смог — дал, с учётом, что точные причины и т.д. ещё никто, кроме устраняющего не знает — как мне кажется, достаточно подробно.

                                                                                                                                                          2) Постараться устранить в кратчайшие сроки. Именно этим сейчас заняты сетевики, плюс я жду «на подхвате», чтобы запустить тех, кто выключен в облаке.

                                                                                                                                                          3) Разбор полётов пост-фактум. Думаю, его стоит отложить всё-таки на пост-фактум, потому что сейчас я не располагаю полной информацией о произошедшем.
                                                                                                                                            • 0
                                                                                                                                              amarao, скажите пожалуйста — вам добавку к з/п платят за то, что вы лицо компании на этом ресурсе(ну прям как Ленин и партия) и вам приходится брать на себя весь возникший негатив?
                                                                                                                                              • +1
                                                                                                                                                Нет, я не могу относиться к этой деятельности как к работе. Когда мне интересно или оно меня волнует, я пишу, когда мне пофигу (типа «запустили новую суперконфигурацию дедиков с ХХХ и YYY») — я игнорирую.
                                                                                                                                            • +1
                                                                                                                                              Пятый, пятый раз отвалилась сеть.
                                                                                                                                              • 0
                                                                                                                                                Авария ещё не закончилась. Увы.
                                                                                                                                                • 0
                                                                                                                                                  Если авария в Питере, то почему встал колокейшн в ДЦ «Берзарина», Москва?
                                                                                                                                                  • 0
                                                                                                                                                    Пока не знаем. По-идее там свой роутер. (я не тот человек, который может сказать про маршрутизацию трафика на Берзарина).
                                                                                                                                                    • 0
                                                                                                                                                      Московский трафик начал ходить через 178.18.224.42.spb.peering.dataix.ru
                                                                                                                                                      • 0
                                                                                                                                                        Да и раньше до Берзарина в Москве трафик ходил через Питер.
                                                                                                                                              • +2
                                                                                                                                                Держитесь, ребят! И поднимайтесь быстрее.
                                                                                                                                                • +2
                                                                                                                                                  Забавно, у меня будет ещё одна неделя оплаченная Селектелом. Я уж подумал, неужели сбоев в сентябре не будет? А ведь первые два месяца работы, всё прекрасно работало. Сейчас, насколько я понял, всё работает. У меня сеть отвалилась в 2:00 и до 7:47 сервер был недоступен (или просто не включён, не знаю, я решил спать).
                                                                                                                                                  • +1
                                                                                                                                                    Я вспоминаю серию «Друзей», где Фиби (так ее звали?) все время получая компенсацию. Ей подарили как бонус за терпение банку колы, так в нем нашелся отрезанный палец, и ей компания в ответ прислала колы какое-то невероятное количество.

                                                                                                                                                    Если Селектел за каждое «отжимание» (упал-поднялся) подарит по неделе, негатив, конечно. будет подслащен, но серьезное что-то хостить все равно уже страшновато :(

                                                                                                                                                    В реальности же, я понимаю, каждая VPS-ка никак серьезным сервером не выглядит, упали они сотнями (если не тысячами), вряд ли будет им с руки сильно много подарков делать, это все равно деньги. С другой стороны, VPS-ки упали так, что без fsck иные и не поднялись (т.е. если человек бросил на сервер, скажем, сайт, то без «рук» сайт не поднимется) — это на «мелкий сбой» не тянет…
                                                                                                                                                  • 0
                                                                                                                                                    Облачный сервер заработал в 7:33 после девяти с половиной часов даунтайма.
                                                                                                                                                    • +2
                                                                                                                                                      А теперь снова все легло что ли? Их сайт не доступен, наши сайты недоступны.

                                                                                                                                                      Ну это уже за гранью добра и зла!
                                                                                                                                                      • 0
                                                                                                                                                        Из панели: «Увы, проблемы с сетью повторились. К сожалению, сроки пока не известны.»
                                                                                                                                                        • +2
                                                                                                                                                          Да, снова легло. Буквально через пол-часа после того, как я с последней проблемной машиной разобрался.

                                                                                                                                                          Степень моего восторга словами не описать.
                                                                                                                                                          • +2
                                                                                                                                                            Сдаётся мне, скоро Вам самому захочется «съехать»…
                                                                                                                                                        • +1
                                                                                                                                                          У них 2 проблемы: недоступность их автономки со многих направлений из мира, и глюки с облаком. Со вторым вроде они справились («никогда не говори никогда» — не последний раз это за сегодня, чувствуется), а вот «видимость» волнами идет, то «есть контакт», то нет.

                                                                                                                                                          Видимость у меня на одно из машин уже третий день то есть, то нет, так что верить в стабилизацию оснований все меньше. Вопрос про поиск альтернативы весьма актуален, да.

                                                                                                                                                          Жаль, хорошие ребята. Но за трое суток не уломать аплинки…
                                                                                                                                                          • +4
                                                                                                                                                            @Увы, проблемы с сетью повторились. К сожалению, сроки исправления пока не известны. @
                                                                                                                                                            Все, ребята, это уже ппц.
                                                                                                                                                            • +2
                                                                                                                                                              Хабр практически уже стал системой мониторинга Селектела. Интересно — действительно всем интересно как поживает селектел?