0,0
рейтинг
22 июня 2009 в 16:17

Пожелания Яндексу

За более чем год работы наших сайтов, у нас появились следующие пожелания Яндексу, которые могут сделать работу этой поисковой системы более дружелюбной к интернет-сайтам которые она индексирует.
За каждым из этих пожеланий стоит отдельная история, которая аргументирует его важность, кроме того, многие из этих пожеланий довольно просто выполнить.

Используйте достаточно большой Сrawl-delay «по умолчанию»
Однажды у нас упал сайт, как оказалось робот YandexSomething скачивал до 12 страниц в секунду. Да у нас не было сrawl-delay, но это не должно разрешать роботу поисковой системы делать так много запросов в секунду, установка этого параметра по умолчанию хотя бы в 1 секунду позволила бы избежать таких проблем, те кто хотят быстрее могут настроить этот параметр, но сайты не знающие о существовании YandexSomething не должны страдать от этого.

Разделяйте User-agent:YandexSomething и Yandex/1.01.001
Нашей реакцией на DoS атаку робота было запретить его в robots.txt, тем более что поискав мы обнаружили что это какой-то новостной бот. Это было логично, но как оказалось очень глупо. Итак (кстати об этом косвенно указано в документации) это привело к тому, что нас перестал посещать и Yandex/1.01.001 (Yandex/1.03.003 ходил исправно). Об этом мы узнали через неделю от наших пользователей, в результате сайт был выкинут из Яндекса. Трафик начал падать с задержкой в 5-6 дней и поэтому мы не могли обнаружить данную оплошность. Стоит отметить что служба поддержки признала нелогичность данного поведения и обещали исправиться. Кроме того gray в твиттере подсказал, что правильнее поставить crawl-delay, что я и сделал.

Учитывайте время отдачи контента, даже если стоит crawl-delay
У нас на сайте помимо главного домена example.net используются поддомены вида компания.example.net, даже установив Сrawl-delay мы не обезопасимся от DoS атаки роботов так как robots.txt и соответственно Сrawl-delay будет разным для всех поддоменов (а их десятки тысяч в нашем случае) и, формально, робот имеет право положить сайт с любым значением задержки заходя на 10 000 сайтов одновременно. Сегодня ночью наш сайт несколько раз перезагрузился именно по этой причине, так как количество запросов в секунду втрое превышало Сrawl-delay. Не знаю как, но Google делает все корректно и мало того что не нагружает сильно сервер, так еще и скачивает страницы равномерно, мне кажется он учитывает время отдачи контента и не запрашивает паралельно много страниц с одного IP адреса, почему бы не попробовать делать это Яндексу?

Скачивайте страницы равномерно
В нашем случае, робот заходит на основной домен крайне неравномерно. Выглядит это так: робот заходит на основной домен, несколько часов очень активно индексирует и потом уходит на 10-30 часов обрабатывать поддомены. Так как на сайт постоянно добавляется информация, у нас есть специальные страницы с последними обновлениями, с которых есть ссылки на новый контент. Понятно что заходя раз в 10-30 часов робот пропускает много чего, и это приводит к жалобам пользователей, что их сайты порой не появляются в индексе Яндекса месяцами. Опять же таки Google за пару месяцев нашел эти страницы и регулярно их скачивает, как результат очень редко проходит больше 3-х дней до индексации. Понятно что месяц для того чтобы Яндекс поиндексировал сайт это не срок, но и с этим думаю можно бороться.

Будьте более лояльными и предсказуемыми по отношению к новым сайтам
Все когда-то начинали, и не на всех были сразу ссылки с топ сайтов, в нашем случае Яндексу потребовалось более 2-х месяцев чтобы начать индексировать основной домен, и это началось только после переписки с службой поддержки, судя по опыту коллег это обычное дело, даже не смотря на уникальный контент и наличие внешних ссылок. Опять таки и здесь Google ведет себя более дружелюбно, он добавлил нас почти сразу, и постепенно равномерно повышал количество страниц и скорость индексации, да мы были не высоко в поиске, но мы там были и все развивалось предсказуемо.

Целью этого списка было не показать что Яндекс плох а кто-то хорош. Яндекс — это лидер поиска в рунете, наверное наиболее технологичный и успешный проект и это многое значит, в том числе и то что многие считают его поиск хорошим, не говоря уже про то, что наличие альтернативы всегда лучше чем ее отсутствие. Просто хочется чтобы Яндекс стал еще лучше, и более ответственно относился к сайтам, существование которых во многом зависит от него. Тем более мне кажется это не очень сложно.

Я думаю у многих читателей есть что дополнить к этому списку. Возможно было бы неплохо, если бы Яндекс реализовал возможность посылать feature request с обсуждением и голосованием, лучше от этого стало бы всем. А пока это можно сделать в коментариях.

Заранее спасибо Яндексу, если что-либо из этого списка будет услышано и реализовано.
Николай Палиенко @mickolka
карма
30,0
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое

Комментарии (112)

  • –62
    Нытье какоето, для этого есть специализированные форумы и службы поддержки яндекса.
    • –31
      Полностью поддерживаю.
  • +12
    Яндекс отстаёт от Гугла на лет пять по качеству работы. Индексации иногда приходится ждать неделями, так что выручает их только брэнд.
    • +18
      ну так давайте поможем ему стать лучше, другого пути нет, пользователи свой выбор сделали.
      • +4
        Выбор в пользу google? :)
      • 0
        Я сделал другой выбор: Вообще стараюсь не обращать особого внимания на Яндекс )))

        Поставил Google Analytics и стараюсь, чтобы сайты мои были удобно доступны именно для Гугла (он находит мои сайты в тот же день, когда я их создаю). Яндекс же — по остаточному принципу.
        • 0
          повезло вам, но у нас совсем другой случай, по крайней мере в российской версии сайта, здесь без Яндекса мы никуда :(
        • +2
          А я в этом смысле везучий.
          Все мои сайты в разное время (чуть больше 10-ка) индексировались Яндексом сразу и на ура. После этого попадали в ТОПы по солидным запросам, и держались там достаточно долго.

          То же самое и с нынешним проектом — удачно проиндексированы все страницы, в выдаче на хороших местах. Все хорошо :)

          А вот с Google пока не так все радужно, но есть позитивные сдвиги
        • 0
          >Вообще стараюсь не обращать особого внимания на Яндекс )))
          Как забавно порой слышать подобные заявления. А какой выбор сделали посетители Вашего сайта?
          • +1
            Вот не скажу… у меня нишевые сайты очень.

            Но по GA — через поиск 8 из 10 пользователей, приходящих через поисковые системы, приходят через Гугл. 1 — через Яхо или Live, и 1 — через Яндекс etc.

            Сайты русскоязычные.

            P.S.: никакого SEO, кроме нормального построения ключевых слов и sitemaps, не делаю.
      • 0
        Вы ещё в соседней ветке объясните, что пользователи сделали свой выбор в пользу IE. Вместо этого там рекламируют Файрфокс :)
    • –2
      другие люди бы радовались что яндекс их сайт индексирует хорошо, а топикстартер жалуется ;)
    • 0
      У Яндекса есть свои преимущества перед Гуглом. Вы про них забываете.
      • +2
        Я их банально не знаю.

        В своей реальной жизни я всегда ищу через Google.
        • 0
          Яндекс лучше ищет русский текст. В остальном я тоже пользуюсь только Гуглом.
          • +1
            Это заблуждение, факт устарел давно, Гугл давно уже нормально ищет по русскоязычным сайтам.
            • 0
              Проверить сложно, русское радио я не слушаю. Раньше Яндекс точно лучше искал.

              Сейчас на пробу задал фразу из песни, Гугл первой ссылкой выдал сайт группы с текстом песни, второй — текст песни на каком-то сайте текстов песен, третьей — цитату из песни в каком-то бложике, дальше фигню.
              Яндекс выдал ссылки на разные сайты совсем не по теме, и только предпоследней ссылкой выдал заданную фразу (в ссылках до этого только отдельные слова), но не в тексте песни, а цитату, хотя и по теме.
  • +3
    «Сегодня ночью наш сайт несколько раз перезагрузился именно по этой причине»

    некорректная фраза.
  • –7
    Вместо того, чтобы писать столько простыни, потрудились бы прочитать мануалы по работе с поисковыми роботами Яндекса. Многие ваши проблемы отпали сами собой.
    • 0
      Например? Возможно бы отпала вторая проблема, но нужно было бы читать довольно внимательно, кроме того думаю было бы правильно позволить запрещать отдельно YandexBlog или YandexSomething учитывая их, порою черезмерный аппетит.
      • НЛО прилетело и опубликовало эту надпись здесь
    • +20
      Всем домохозяйкам, которые сделали себе блоги на вордпрессе Вы тоже будете советовать читать мануалы яндекса?
      Критика обоснована, боты должны корректно забирать информацию с подавляющей части сайтов.
  • 0
    Отдельно стоит отметить отзывчивость техподдержки. Единственный раз когда написал им получил ответ вида «мы не комментируем процесс индексирования сайтов». Впрочем, сайт и без Яндекса неплохо работал, так что обошлись без него.
    • –2
      Ну не знаю я иногда звоню в яндекс тех сапорт отвечают быстро ждать не застовляют, звоню по вопросам как раз индексации, банерной сети и нагрузок (хотя таковых не бывает)
  • –2
    В 3 из 5 пунктов упоминается Google. Может стоит кратенько сформулировать все пожелания — «Будьте как Google»?
    • +3
      «Будьте как Google» это не конструктивно, просто приводился пример другой системы которая, на мой взгляд, более правильно отрабатывает некоторые моменты.
      • +2
        Ах да, смайлик забыл в предыдущем комменте :)
        Я лично как-то далек от проблем индексации сайтов, но полезые советы из вашего опыта лишними точно не будут.
    • 0
      Чтобы все как у соседа! :)
      Как концепция похожа на правду, но надеюсь, все таки в качестве прикола.

      В офисе яндекса наблюдал работу в google аккаунте, причем развитом
      В офисе google — работу в яндекс сервисах
      В общем приколы еще те. Все совпадения имен и названий случайны, персонажи вымышлены, ни одно животное не пострадало.
  • –3
    Пожелание по качеству — просто сделайте наконец то нормальную индексацию.
    Мои сайты-блоги он не индексирует напрочь, видимо из религиозных соображений :)

    А вообще, конечно, хотелось бы, чтобы самый успешный и известный российский проект соответствовал своей рекламе. На сколько он от гуглей или яхи отстает — на 5 или 3 года — в общем то неважно. Были бы задачи поставлены и идеи сформулированы

    Из пожеланий развития — больше сервисов для умных. Дураков больше, и работать с ними выгоднее, от умных обычно дохода никакого. Но… а впрочем сами придумывайте мотивацию :)
  • +2
    > Да у нас не было сrawl-delay, но это не должно разрешать роботу поисковой системы делать так много запросов в секунду

    12 запросов в секунду — это совсем не много. Поэтому если сайт падает от яндекса — то яндекс тут не виноват.
  • +6
    Справедливости ради — 12 запросов в секунду не такое уж запредельное значение. Во всяком случае сайт не должен «ложиться». Посмотрите, например в сторону nginx, он позволяет гибко лимитировать количество запросов в секунду с одного айпи с возможностью временной блокировки айпи инициализировавшего избыточную нагрузку.
    Ключевые слова: limit_zone, limit_req_zone
    • –1
      12 в секунду, это скорость отдачи, сайт «ложился» от переполнения пула соединений с базой, так что видимо одновременно там было побольше запросов. Ну а по поводу должен/не должен. Сайт должен справляться с обычными нагрузками, с запасом, 12 запросов в секунду (не статика а динамический контент) это пока, к сожалению, для нас слишком ненормальная нагрузка, нормальная это 2-3.
      В сторону limit_zone, limit_req_zone уже смотрим спасибо за совет.
      • НЛО прилетело и опубликовало эту надпись здесь
        • –2
          нет ну я за вас рад, но нам не надо 4 тыс/секунду ну ни как, нет у нас столько пользователей пока что, а покупать дополнительно сервера, чтобы выдерживать атаки Яндекса это тупиковый ход, так как ресурсы Яндекса однозначно побольше наших.
          • НЛО прилетело и опубликовало эту надпись здесь
            • 0
              ну мы постоянно работаем над этим, просто решаем проблему по мере поступления, докупаем оборудование, оптимизируем код. Да и пользователей есть немало, просто не 12 запросов в секунду динамики а 2-3 в среднем в пике но тоже неплохо.
              • НЛО прилетело и опубликовало эту надпись здесь
                • 0
                  пул есть но он не безразмерный (именно он и переполняется кстати), главную кешируем и основные трудозатратные запросы также. Просто с DoSом бороться невозможно, только административными мерами, вроде лимита соединений.
                • +1
                  Вот нафига им ради одного бота докупать оборудование, если у них пользователей в пике меньше на полпорядка?)
        • 0
          Полностью согласен, над сайтом работать и работать. 12 в секунду это вообще не нагрузка.
      • –8
        Если ваш сайт не выдерживает 12 запросов в секунду, то либо побейте программиста, либо не используйте при разработке сайтов Zend framework, Drupal, или RubyOnRails.
        • 0
          Сервис написан на Python, и это не какой-то сайтик или еще что, а довольно таки большой и популярный проект UAprom.net (RUprom).
          • 0
            Понятно. Тогда могу посоветовать как-нибудь прересмотреть архитектуру проекта, может там убрать тяжелые неиндексируемые запросы, или кеша добавтить, и повниматльнее помсмотреть конфигурацию сервера, так как 12 запросов в секунду это очень мало, и падать в такой ситуации сервер не имеет никакого права.
            • 0
              повторюсь, но мы решаем проблемы по мере их поступления, Яндекс генерировал тогда очень тяжелые запросы, кажется к sitemap.xml файлам (их 15 000 для всех поддоменов) которые генерируются раз в неделю динамически, и это их вина что они не учитывают время ответа.
        • +1
          А что вы против Друпала имеете? 5 тыс. уников в сутки, 20-22 тыс. просмотров страниц вообще не проблема. Уверен, что и 10 тыс. уников выдержит. Возможно, вы просто не умеете его готовить либо просто модные фразы говорить любите?
          • –1
            маловато. 22 просмотра в сутки это один запрос в 4 секунды при равномерном распределении. если попытаться учесть неравномерность обращений в зависимости от времени суток и предположить что в пиковое время запросов в 10 раз больше, то все равно получим 2.5 запроса в секунду.
            так что подобная статистика совсем не аргумент.
            • 0
              опечатался, естественно имелось ввиду «22 тысячи просмотров в сутки»
              • 0
                ну так это на VDS, а не на выделенном сервере. Можно Drupal.ru привести в пример. Они тоже на VDS сидят.
          • 0
            Много делает запросов к БД, перегруженный опциями интерфейс админки, в код смотрел, не понравилось.
      • –1
        То есть, ваше требование к Яндексу — наделить поисковых роботов телепатическими способностями, чтобы они заранее знали, что ваш сайт упадет при 12 запросах в секунду, а вот соседний выдержит и сто.
        • 0
          ну Google же умеет, думаю там не надо быть телепатом просто оценивать время ответа и не создавать десятки соединений паралельно. Google индексирует страниц столько же, но их в индексе в 3 раза больше и делает это он регулярно а не набрасывается как бешеный и уходит.
  • –8
    Ради чего столько геморроя? Проще в гугле задать тот или иной вопрос, чем столько запар.
    • +8
      Задать в Google вопрос по поводу настройки сайта под работу с Яндексом? :)
  • –14
    В топку яндекс!
    Гугл — наше все!
    • +6
      Яндекс локален :)
      • –7
        С тех пор как он локален у меня скорость до него, меньше чем, когда он не локален.
        • –1
          Для меня важнее вопрос стоимости трафика, а не его скорости
  • +4
    я бы предложил яндексу поднять скорость индексирования до 100 запросов в секунду — тогда некоторые лучше заботились бы о производительности своих сайтов.
    • +2
      У Вас действительно сайты спокойно отдают по сто страниц динамики в секунду? Можно ссылки (для оценки масштаба явления)?
      • –1
        приведу ссылки — скажут что хвастаюсь
      • –1
        да и яндекс бот — это не пользователь, у которого есть персонализированная часть. страницы, общие для всех пользователей должны хорошо кэшироваться
        • 0
          Это верно, конечно… для не-юзеров многое можно упростить.
      • 0
        Аналогично, есть проект который для гостей спокойно держит сотню запросов используя только кэширование запросов к СУБД, но если заюзать в nginx его ngx_http_memcached_module то можно вообще не доводить до php запросы, тогда там уже еще на порядок быстрее всё.
        • 0
          про это я и говорю
    • +1
      бедные пользователи шаред-хостинга…
      • 0
        С чего это вы взяли, что речь идет о шаред-хостинге? Уверяю, что нет!
        • 0
          Типа яндекс-бот чует различие?)
          • 0
            Причем здесь это?

            Все сильно вцепились в фразу 12 запросов в секунду. Это ж не факт, что у них сервер падает при 12 запросах в секунду. Помимо яндекса туда еще и пользователи ходят.
    • 0
      И ввести это как дополнительную плату по двумя тарифами.
      1) нагрузочное тестирование собственного сервера
      2) нагрузочное тестирование сервера конкурента
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      ну прочитает это рядовой работник службы поддержки, ну ответит что-то стандартное, что от этого глобально изменится, а так есть шанс что кто-то заметит и постарается что-то сделать для того чтобы подобные вещи исправить (да я наивный и верю в чудеса :)). По крайней мере, если бы о моем сервисе такое написали я был бы благодарен и сделал бы все возможное чтобы воплотить улучшения в жизнь
  • 0
    Яндекс в упор не замечает новые сайты несколько месяцев. google давно индексирует, gogo от mail.ru индексирует, rambler индексирует, а яндекс «резвится» на таких бедолагах, как вышеупомянутый сайт. Почему он отправляет в песочницу?
  • +2
    Вот можно в nginx добавить:

    if ($http_user_agent ~ Yandex/* ) {
    limit_rate 20k;
    break;
    }
    • 0
      не сработает для YandexBlog и YandexSomething (лучше $http_user_agent ~ Yandex*) но в целом идея.
      Кстати, а помешает ли это ему создавать одновременно 100 соединений, каждый из которых приводит к соединению с базой, что приводит к смерти пула?
      • 0
        ух, ещё не проверял, но хиленький веб-сервачок отпустило очень хорошо, надеюсь поможет и вашему
  • НЛО прилетело и опубликовало эту надпись здесь
    • +2
      ну это совсем просто :)

      User-agent: Yandex
      Disallow: /

      только стоит ли

      • НЛО прилетело и опубликовало эту надпись здесь
        • +1
          боюсь что кроме вас эта акция никому не интересна, интернет это бизнес.
          • +2
            Интернет еще и культура и политика и искусство…
            Ажиотаж на деньги — скорее специфика сегодняшнего монетаризма
    • 0
      Самый простой способ – поместить в robots.txt следующие строчки:
      User-agent: *
      Disallow: /
      • –1
        ну это забанит вообще все роботы, лучше так не делать :)
  • –1
    у меня такая проблема точнее у знакомого с выдачей яндекса адресов содержащих кириллицу

    например вот проиндексировання страничка www.saloncardinal.ru/catalogue/countrie-Англия
    а это она на выдаче яндексом yandex.ru/yandsearch?p=1&surl=saloncardinal.ru&text=*&clid=46510 (под номером 14)

    так вот
    в самой ссылке яндекс почему-то кириллицу кодирует в CP1251
    а под ссылкой в UTF-8 (зеленым цветом строка)

    на сайте тоже используется UTF-8, поэтому если кликать по ссылке яндекса то страничка открывается не корректно
    пример
    ссылка с яндекса — www.saloncardinal.ru/catalogue/countrie-%C0%ED%E3%EB%E8%FF (CP1251)
    на сайте — www.saloncardinal.ru/catalogue/countrie-%D0%90%D0%BD%D0%B3%D0%BB%D0%B8%D1%8F (UTF-8)

    я не особо силён в таких вещах
    и не знаю с какой стороны косяк и как его исправить, факт в том что с гуглом таких проблем нет

    … прошу прощения за активные ссылки, текстом не знаю как их тут сделать
    • –3
      В URI не может быть никакой кириллицы по определению (см. RFC 3986 `Uniform Resource Identifier (URI): Generic Syntax').
      Вы пишете URI с кириллицей в Windows-1251? Хочете проблем — их есть у вас. При чем здесь Яндекс?
      Гугль обрабатывает ваши некорректные URI так, как вы подразумевали, что их нужно обрабатывать? Вам не приходило в голову, что это просто совпадение?
      • –1
        >>В URI не может быть никакой кириллицы по определению
        не может? тогда ещё раз гляньте на то что я написал выше

        допустим такой URL ".../countrie-Англия" Яндекс видит при индексации в виде "/countrie-%D0%90%D0%BD%D0%B3%D0%BB%D0%B8%D1%8F" — именно так выдаёт этот адрес веб-сервер и если воспользоваться декодером будет ясно что это юникод

        так зачем же яндекс перекодирует этот юникод в CP1251?
      • 0
        я хорошо понимаю что URL с буквами кириллицы выдает сам браузер автоматом
    • 0
      а не пробовали сразу правильную ссылку в коде указывать? чтобы поисковику не нужно было догадываться
      • 0
        правильную это какую?
  • 0
    Я вот тоже не пойму почему они Сrawl-delay «по умолчанию» не могут сделать щадящим
  • +1
    Так как на сайт постоянно добавляется информация, у нас есть специальные страницы с последними обновлениями, с которых есть ссылки на новый контент. Понятно что заходя раз в 10-30 часов робот пропускает много чего, и это приводит к жалобам пользователей, что их сайты порой не появляются в индексе Яндекса месяцами.


    Ипользуйте xml sitemap, помогает
    • 0
      sitemap есть, со всеми страничками, не помогает, может отдельно делать sitemap с недавним контентом?
      • 0
        а вы сайтмап обычный от xmlшного отличаете? я про www.sitemaps.org/ru/
        • +1
          аск :) uaprom.net/sitemap.xml более 130 000 адресов, 6 файлов
          • 0
            Яндекс.Вебмастер что говорит? Что всё сожрал и ошибок нет?
            • 0
              да, правда ему месяца 3 потребовалось на то чтобы это сделать, мы даже вроде и не меняли ничего, я мудма это глюк Вебмасера, или он просто не хотел читать ссылки с файла.
      • +1
        Не надо. Сайтмап содержит даты модификации. просто Яндекс тупой, как буратино…
        • +1
          кстати, действительно, что им мешает отслеживать по дате модификации, которую мы правильно ставим? Можно прератить это в еще одно пожелание, наряду со скачиванием sitemap чаще чем раз в месяц.
  • НЛО прилетело и опубликовало эту надпись здесь
  • 0
    Столкнулся с такой проблемой, связанной ЯндексАдресами. Любая фирма может зарегистрировать себя на сайте ЯндексАдреса, после чего в поиске будет показываться адрес фирмы и телефон, все это привязывается к карте и сайту компании. Вот так и случилось с моим продвинутым сайтом. Кто-то прописал свой адрес, к моему сайту и сейчас собирает клиентов. После письма в яндекс сказали, что нужно написать об ошибке на ЯндексАдресах. Как долго продлиться это удаление они не сказали, и даже если они удалят эти контакты, не поставят ли конкуренты снова на мой сайт свои контакты. Если кто-то сталкивался с таким, посоветуйте что делать? Заранее благодарен.
    • 0
      в случае Яндекса можно сделать валидацию сайта по аналогии как это сделано в инструментах вебмастера, без этого только писать в службу поддержки и надеться что им это надоест и они подкрутят функционал. Но вообще странно, легко ведь починить.
  • –3
    Используйте достаточно большой Сrawl-delay «по умолчанию»
    извините, у меня весьма стандартный хостинг и 100к страниц в индексе того же яндекса, может стоит взять хостинг по проще? а вообще гугло, ой, яндекс карта сайта решает эти проблемы

    Разделяйте User-agent:YandexSomething и Yandex/1.01.001
    а это зря, они там покурят и разберуться, а вам минус бот, а слить бота, ну не мне вас учить

    короче забил, унылое говно, не хочу это читать, топик зла
    з.ы. проблемы бывают у всех — важно что вы найдете решение для себя или нет, а проблемы то никуда не уйдут, вы не рес номер один в рунете
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      К сожалению, у вас классический случай, я слышал подобное от блогеров не раз. Почему так происходит, непонятно, ведь массу других блогов ничем не особо не лучше и не хуже Яндекс индексирует. Может здесь есть какая-то случайная величина, или рядом хостится дорвей, или не нравится домен? Ответ на это могут дать только специалисты писавшие алгоритм работы робота.
      • НЛО прилетело и опубликовало эту надпись здесь
        • 0
          > А как это — рядом дорвей хостится?
          на том же айпишнике или в той же подсети. или просто у любимого дорвейщиками хостера.
          • НЛО прилетело и опубликовало эту надпись здесь
            • 0
              не только пытается но и борется :) просто и дорвейщики не спят. вы просто не представляете сколько дорвеев отфильтровывается, а те что таки попадают в выдаючи составляют доли процента от общего количества скармливаемых ему.

              а чтобы что-то конкретное сказать о конкретном блоге, не попадавшем в выдачу, нужно уже смотреть именно на него, исходя из опыта работы с яндексом — это проблемы блога.
      • 0
        Рядом — смешно звучит…

        Ограничивать можно только по IP де-факто… у виртуальных серверов они разные де факто.

        У меня сайты на мастерхостовом ВПС, дорвеев рядом даже в подсетке нет.
        сайты добавил в Яндекс Вебмастер Тулз.

        два месяца не было индексации… потом написал в техсаппорт, через несколько дней проиндексировали.

        Сравните с Гуглом — проиндексировали в тот же день, хотя даже кода GA не было ещё на сайтах.
  • 0
    Путаница с названием бота — это простой баг в системе ботов яндекса.

    Вот здесь www.webplanet.ru/news/security/2009/06/19/comments/yanddos.html на веб планете писали о проблеме, там в коментах подробно она разжевана.
  • +5
    Спасибо за интересный тред и советы по политике обхода сайтов, мы постараемся их учесть. Данные о безобразном поведении нашего робота правдивые, но не отражают полной картины.

    1. Робот Яндекса выкачал 19238 страниц с 8506 (восьми тысяч пятисот шести) поддоменов uaprom.net и с 6896 (шести тысяч восьмисот девяноста шести) поддоменов ruprom.net, а не с двух хостов, как может показаться из заметок.

    2. На каждый хост (из ~ 15000) делалось не более одного обращения в 1,1 или 2 секунды (в зависимости от размера хоста).

    Сейчас uaprom.net/robots.txt и ruprom.net/robots.txt установили Crawl-Delay в 0,5, благодаря чему увеличили нагрузку на своих хосты (по умолчанию Crawl-Delay 1,1 или 2 секунды).

    3. Все поддомены ruprom.net и uaprom.net лежат на двух IP. Автоматические алгоритмы Яндекса определили ruprom.net и uaprom.net как хостинги (впрочем, сайты позиционируют себя как «надежный хостинг», см. ruprom.net/tour-4 и uaprom.net/tour-4).

    Для надежного хостинга, на серверах которого находится много сайтов, мы создавали нагрузку, не превышающую 12 запросов в секунду на IP.

    4. User-Agent отдавался «YandexSomething» и это наша вина. Это был не новостной, а один из поисковых роботов, у которого мы забыли изменить дефолтное представление. Ошибку исправили, спасибо, робота поставили в угол.

    Резюме: нагрузка создаваемая на IP хостингов ruprom.net и uaprom.net не превышала лимиты, допустимые при обходе большинства хостингов. Мы понимаем, что она может быть избыточной для небольших хостингов и постараемся лучше дифференцировать нагрузку на большие и малые хостинги. Надеемся, что сервера рунета будут встречать перевоспитанного робота благосклонно.
    • 0
      Александр, спасибо за детальный отчет, нам очень приятно, что компания Яндекс конструктивно отвечает на конструктивные пожелания.

      Я описывал ниже суть проблемы из которой было ясно что поддоменов много. Мы действительно пока не всегда готовы к нагрузке 12 запросов в секунду, так как у нас нормальной является нагрузка 2-3 запроса в пике, эту проблему мы постараемся решить с помощью nginx и ограничении количества запросов с одного IP в секунду. Стоит отметить что количество страниц в индексе (сумарно менее 200 000 страниц) не требует индексации со скоростью 12 запросов в секунду, тем более учитвая что есть актуальный sitemap с коректными last-modified датами для всех поддоменов. Google индексирует нас со скоростью 1-2 запроса в секунду сумарно и мы очень довольны качеством и актуальностью его индекса.

      В связи с этим, особенно хотелось бы пожелать Вам исполнить последние два пожелания, это был бы качественный шаг.

      Надеюсь, что выпадние из индекса из-за блокирования 7 дней YandexSomething временно и скоро разрешится, хотя пока за 5 дней прогрес только в том что скачались sitemap и главная.

    • 0
      Вам sitemap для галочки или мозг включаете?)

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.