23 июня 2009 в 19:34

Робот Яндекса учитывает пожелания

Недавно на Хабре прошла дискуссия, где обсуждалась политика обхода сайтов и инцидент с роботом Яндекса у серверов uaprom.net и ruprom.net.
Спасибо всем за последовавшие советы, мы постараемся их учесть. Что касается случая с uaprom/ruprom, то данные о безобразном поведении нашего робота правдивые, но не отражают полной картины.

1. Робот Яндекса выкачал 19238 страниц с 8506 (восьми тысяч пятисот шести) поддоменов uaprom.net и с 6896 (шести тысяч восьмисот девяноста шести) поддоменов ruprom.net, а не с двух хостов, как может показаться из заметок.

2. На каждый хост (из ~ 15000) делалось не более одного обращения в 1,1 или 2 секунды (в зависимости от размера хоста).

Сейчас uaprom.net/robots.txt и ruprom.net/robots.txt установили Crawl-Delay в 0,5, благодаря чему увеличили нагрузку на своих хосты (по умолчанию Crawl-Delay 1,1 или 2 секунды).

3. Все поддомены ruprom.net и uaprom.net лежат на двух IP. Автоматические алгоритмы Яндекса определили ruprom.net и uaprom.net как хостинги (они и позиционируют себя как надежные хостинги, см. ruprom.net/tour-4 и uaprom.net/tour-4).

Для надежного хостинга, на серверах которого находится много сайтов, мы создавали нагрузку, не превышающую 12 запросов в секунду на IP.

4. User-Agent отдавался «YandexSomething» и это наша вина. Это был не новостной, а один из поисковых роботов, у которого мы забыли изменить дефолтное представление. Ошибку исправили, спасибо, робота поставили в угол.

Резюме: нагрузка создаваемая на IP хостингов ruprom.net и uaprom.net не превышала лимиты, допустимые при обходе большинства хостингов. Мы понимаем, что она может быть избыточной для небольших хостингов и постараемся лучше дифференцировать нагрузку на большие и малые хостинги. Надеемся, что сервера рунета будут встречать перевоспитанного робота благосклонно.
Александр Садовский @Sadovsky
карма
51,0
рейтинг 0,0
Самое читаемое

Комментарии (36)

  • НЛО прилетело и опубликовало эту надпись здесь
    • +1
      > Интересно, что больше: хабраэффект на robots.txt или заходы роботов?

      Это смотря в какой промежуток времени: робот ходит постоянно, а хабраэффект волной накатывает и отпускает )
  • +13
    ай ай ай робот. на воспитание гуглю дайте его… :)
    • НЛО прилетело и опубликовало эту надпись здесь
  • НЛО прилетело и опубликовало эту надпись здесь
    • +7
      А я считаю, что это очень честно со стороны Яндекса.
      • НЛО прилетело и опубликовало эту надпись здесь
        • +7
          А кто Вам сказал, что это разборки? Представители Яндекса прояснили ситуацию, сообщили, что это их вина. Впредь наука, как говорится. ;-)
          • НЛО прилетело и опубликовало эту надпись здесь
            • +1
              Вы не поверите, но нас вчера добавили в Яндекс.Каталог, оба сайта, бесплатно. Мир не без добрых людей :)
              • НЛО прилетело и опубликовало эту надпись здесь
              • 0
                Какие либо действия предпринимались? А можно ссылку на обсуждения данной ситуации?
  • +7
    Автоматические алгоритмы Яндекса определили ruprom.net и uaprom.net как хостинги (они и позиционируют себя как надежные хостинги, см. ruprom.net/tour-4 и uaprom.net/tour-4).

    Ваши роботы ещё и просканенный контент читать умеют?!
    • +9
      Yandex Skynet может быть устроен так:

      Роботы используют революционный алгоритм, в основе которого лежит постулат «Любая таблица с плюсами, минусами и звездочками является тарифной сеткой». Далее используется факт N1: «uaprom.net имеет 8506 поддоменов». На основании этого делается вывод о хостинге. Количественная оценка поддоменов служит критерием для определения надежности.

      • 0
        шутишь? ;)
  • +32
    Яндекс — молодец.
  • +5
    Порадовала оперативность (впрочем, не удивлен тем, что представители Яндекса читаю хабр), а также очень повеселил последний тег.
    • +1
      конечно же, «представители Яндекса читают хабр»
  • +3
    Ошибку исправили, спасибо, робота поставили в угол.


    • +4
      Ай-ай-ай, сами провинились, а робот отдувается :))
    • 0
      Ошибку исправили, спасибо, робота поставили в Гугол
  • +7
    Молодцы Яндекс! Обычно компании такого масштаба просто плюют на критику простых пользователей, а тут не так!
    • +3
      На Хабре не простые пользователи)
      • 0
        Ну я естественно с точки зрения денег :-) Сотня тысяч профессионалов, в том числе и с Хабра, в чистых деньгах приносит Яндексу копейки, но если игнорировать их, можно потерять будущее.
  • +2
    Прозволю себе продублировать ответ на коментарий habrahabr.ru/blogs/yandex/62609/#comment_1735999 в этом посте

    Александр, спасибо за детальный ответ, нам очень приятно, что компания Яндекс конструктивно отвечает на конструктивные пожелания.

    Я описывал ниже суть проблемы из которой было ясно что поддоменов много. Мы действительно пока не всегда готовы к нагрузке 12 запросов в секунду, так как у нас нормальной является нагрузка 2-3 запроса в пике, эту проблему мы постараемся решить с помощью nginx и ограничении количества запросов с одного IP в секунду. Стоит отметить что количество страниц в индексе (сумарно менее 200 000 страниц) не требует индексации со скоростью 12 запросов в секунду, тем более учитвая что есть актуальный sitemap с коректными last-modified датами для всех поддоменов. Google индексирует нас со скоростью 1-2 запроса в секунду сумарно и мы очень довольны качеством и актуальностью его индекса.

    В связи с этим, особенно хотелось бы пожелать Вам исполнить последние два пожелания, это был бы качественный шаг.

    Надеюсь, что выпадние из индекса из-за блокирования 7 дней YandexSomething временно и скоро разрешится, хотя пока за 5 дней прогрес только в том что скачались sitemap и главная.
    • +7
      вы меня извините, конечно, что влез, но при штатной нагрузке в 2-3 запроса в секунду правильный хостинг просто обязан быть готов к таким пикам. а ну как один из ваших клиентов сподобится повесить баннер на морде яндекса?
  • 0
    хочу посмотреть на робота в углу=))))
  • +4
    Не совсем в углу, но почему то ассоциации именно с ним )))
    • +5
      Теперь понятно, что случилось с хостингом:
      — Он ненавидел меня, потому что я с ним заговорил.
      — Заговорил? — возбужденно воскликнул Форд. — То есть как «заговорил»?
      — Очень просто. Меня охватила жуткая тоска. Я подключился к его компьютеру и подробно изложил ему свои взгляды на Вселенную.
      — И что случилось? — напряженно спросил Форд.
      — Он покончил жизнь самоубийством, — уныло сообщил Марвин и поплелся к «Золотому сердцу»
  • 0
    Друзья мои, а куда вам написать поговорить за хостинг. Насчёт допустимости, крупности и так далее. А то мы тут уже отчаялись. Мне надо представляться?
    • +2
      Представляться не надо. Напиши мне, адрес ты знаешь, я сведу тебя с правильным человеком.
      • +1
        Сегодня странный день — начался он тем что я сидел и медитировал 2 часа на лежащий свой MX и поток спама который не переваривался в принципе, а закончился вдруг контактом :) Спасибо ;)
  • 0
    По сравнению с сапой роботы яндекса — милые детишки :)
    • +2
      Да уж… 12 запросов в секунду — это 43 200 в час. В час пик такая посещаемость приходится на сайт с посещаемостью в 200-300к в день, не так уж много даже для одиночного сервера.
  • НЛО прилетело и опубликовало эту надпись здесь
  • –1
    Немного больше подумал над сутью данного разъяснения, мне кажется что мы уходим от сути проблемы, она совсем не в ненадежности нашего «не совсем хостинга».

    1. Мы не хостинг в классическом понимании, мы скорее система создания сайтов, нечто подобное ucoz.ru или narod.ru но узко заточеное под сайты визитки компаний. Графа надежность хостинга (соглашусь с коментариями, что это странное оправдание, так как врядли бот парсил нашу таблицу) в uaprom.net/tour-4 означает только что у нах нормальное оборудование, хороший up-time и хорошая скорость отдачи (в случае обычных нагрузок). У нас и есть подобие IPS, но Яндекс бот был включен в список ботов которым наша IPS доверяет, поэтому он не был отсечен.

    2. Для поддоменов вроде company.uaprom.net/robots.txt Crawl-delay Яндексу стоит в 5 сек, но даже это не поможет учитывая то, что их 15 000 (формально можно делать 3 000 запросов в секунду). Очевидно что тут нужно учитывать не субъективную надежность хостинга, а иметь обратную связь между скоростью индексации (на один IP) адреса и временем ответа, не смотря на Crawl-delay. Так как эти параметры объективно связаны, то это раз и навсегда избавит Яндекс от претензий вроде той что была предъявлена.

    3. Нам очень хотелось чтобы также Яндекс позволил отдельно блокировать разные роботы, как это делают многие другие системы. Чтобы вполне логичное блокирование YandexSomething в случае некоректного его поведения не приводило к выпаданию сайта из индекса. Также хотелось бы услышать временную оценку того, когда наши сайты будут восстановлены в индексе из-за этой ошибки (до прежних значений количества страниц основных доменов).

    4. Еще раз спасибо за публичный ответ, я думаю что несмотря на довольно негативный фон, из этой дискусии все стороны (и Яндекс и вебмастеры) могут извлечь выгоду если будут сделаны правильные выводы. Стоит отметить, что мы очень хорошо относимся к сервисам Яндекса и всячески интегрируемся с ними (Карты, Директ, РСЯ) так как они, по нашему мнению, действительно лучше аналогов.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.