Пожелания Яндексу

    За более чем год работы наших сайтов, у нас появились следующие пожелания Яндексу, которые могут сделать работу этой поисковой системы более дружелюбной к интернет-сайтам которые она индексирует.
    За каждым из этих пожеланий стоит отдельная история, которая аргументирует его важность, кроме того, многие из этих пожеланий довольно просто выполнить.

    Используйте достаточно большой Сrawl-delay «по умолчанию»
    Однажды у нас упал сайт, как оказалось робот YandexSomething скачивал до 12 страниц в секунду. Да у нас не было сrawl-delay, но это не должно разрешать роботу поисковой системы делать так много запросов в секунду, установка этого параметра по умолчанию хотя бы в 1 секунду позволила бы избежать таких проблем, те кто хотят быстрее могут настроить этот параметр, но сайты не знающие о существовании YandexSomething не должны страдать от этого.

    Разделяйте User-agent:YandexSomething и Yandex/1.01.001
    Нашей реакцией на DoS атаку робота было запретить его в robots.txt, тем более что поискав мы обнаружили что это какой-то новостной бот. Это было логично, но как оказалось очень глупо. Итак (кстати об этом косвенно указано в документации) это привело к тому, что нас перестал посещать и Yandex/1.01.001 (Yandex/1.03.003 ходил исправно). Об этом мы узнали через неделю от наших пользователей, в результате сайт был выкинут из Яндекса. Трафик начал падать с задержкой в 5-6 дней и поэтому мы не могли обнаружить данную оплошность. Стоит отметить что служба поддержки признала нелогичность данного поведения и обещали исправиться. Кроме того gray в твиттере подсказал, что правильнее поставить crawl-delay, что я и сделал.

    Учитывайте время отдачи контента, даже если стоит crawl-delay
    У нас на сайте помимо главного домена example.net используются поддомены вида компания.example.net, даже установив Сrawl-delay мы не обезопасимся от DoS атаки роботов так как robots.txt и соответственно Сrawl-delay будет разным для всех поддоменов (а их десятки тысяч в нашем случае) и, формально, робот имеет право положить сайт с любым значением задержки заходя на 10 000 сайтов одновременно. Сегодня ночью наш сайт несколько раз перезагрузился именно по этой причине, так как количество запросов в секунду втрое превышало Сrawl-delay. Не знаю как, но Google делает все корректно и мало того что не нагружает сильно сервер, так еще и скачивает страницы равномерно, мне кажется он учитывает время отдачи контента и не запрашивает паралельно много страниц с одного IP адреса, почему бы не попробовать делать это Яндексу?

    Скачивайте страницы равномерно
    В нашем случае, робот заходит на основной домен крайне неравномерно. Выглядит это так: робот заходит на основной домен, несколько часов очень активно индексирует и потом уходит на 10-30 часов обрабатывать поддомены. Так как на сайт постоянно добавляется информация, у нас есть специальные страницы с последними обновлениями, с которых есть ссылки на новый контент. Понятно что заходя раз в 10-30 часов робот пропускает много чего, и это приводит к жалобам пользователей, что их сайты порой не появляются в индексе Яндекса месяцами. Опять же таки Google за пару месяцев нашел эти страницы и регулярно их скачивает, как результат очень редко проходит больше 3-х дней до индексации. Понятно что месяц для того чтобы Яндекс поиндексировал сайт это не срок, но и с этим думаю можно бороться.

    Будьте более лояльными и предсказуемыми по отношению к новым сайтам
    Все когда-то начинали, и не на всех были сразу ссылки с топ сайтов, в нашем случае Яндексу потребовалось более 2-х месяцев чтобы начать индексировать основной домен, и это началось только после переписки с службой поддержки, судя по опыту коллег это обычное дело, даже не смотря на уникальный контент и наличие внешних ссылок. Опять таки и здесь Google ведет себя более дружелюбно, он добавлил нас почти сразу, и постепенно равномерно повышал количество страниц и скорость индексации, да мы были не высоко в поиске, но мы там были и все развивалось предсказуемо.

    Целью этого списка было не показать что Яндекс плох а кто-то хорош. Яндекс — это лидер поиска в рунете, наверное наиболее технологичный и успешный проект и это многое значит, в том числе и то что многие считают его поиск хорошим, не говоря уже про то, что наличие альтернативы всегда лучше чем ее отсутствие. Просто хочется чтобы Яндекс стал еще лучше, и более ответственно относился к сайтам, существование которых во многом зависит от него. Тем более мне кажется это не очень сложно.

    Я думаю у многих читателей есть что дополнить к этому списку. Возможно было бы неплохо, если бы Яндекс реализовал возможность посылать feature request с обсуждением и голосованием, лучше от этого стало бы всем. А пока это можно сделать в коментариях.

    Заранее спасибо Яндексу, если что-либо из этого списка будет услышано и реализовано.
    Метки:
    Поделиться публикацией
    Реклама помогает поддерживать и развивать наши сервисы

    Подробнее
    Реклама
    Комментарии 112
    • –62
      Нытье какоето, для этого есть специализированные форумы и службы поддержки яндекса.
      • –31
        Полностью поддерживаю.
      • +12
        Яндекс отстаёт от Гугла на лет пять по качеству работы. Индексации иногда приходится ждать неделями, так что выручает их только брэнд.
        • +18
          ну так давайте поможем ему стать лучше, другого пути нет, пользователи свой выбор сделали.
          • +4
            Выбор в пользу google? :)
            • 0
              Я сделал другой выбор: Вообще стараюсь не обращать особого внимания на Яндекс )))

              Поставил Google Analytics и стараюсь, чтобы сайты мои были удобно доступны именно для Гугла (он находит мои сайты в тот же день, когда я их создаю). Яндекс же — по остаточному принципу.
              • 0
                повезло вам, но у нас совсем другой случай, по крайней мере в российской версии сайта, здесь без Яндекса мы никуда :(
                • +2
                  А я в этом смысле везучий.
                  Все мои сайты в разное время (чуть больше 10-ка) индексировались Яндексом сразу и на ура. После этого попадали в ТОПы по солидным запросам, и держались там достаточно долго.

                  То же самое и с нынешним проектом — удачно проиндексированы все страницы, в выдаче на хороших местах. Все хорошо :)

                  А вот с Google пока не так все радужно, но есть позитивные сдвиги
                  • 0
                    >Вообще стараюсь не обращать особого внимания на Яндекс )))
                    Как забавно порой слышать подобные заявления. А какой выбор сделали посетители Вашего сайта?
                    • +1
                      Вот не скажу… у меня нишевые сайты очень.

                      Но по GA — через поиск 8 из 10 пользователей, приходящих через поисковые системы, приходят через Гугл. 1 — через Яхо или Live, и 1 — через Яндекс etc.

                      Сайты русскоязычные.

                      P.S.: никакого SEO, кроме нормального построения ключевых слов и sitemaps, не делаю.
                  • 0
                    Вы ещё в соседней ветке объясните, что пользователи сделали свой выбор в пользу IE. Вместо этого там рекламируют Файрфокс :)
                  • –2
                    другие люди бы радовались что яндекс их сайт индексирует хорошо, а топикстартер жалуется ;)
                    • 0
                      У Яндекса есть свои преимущества перед Гуглом. Вы про них забываете.
                      • +2
                        Я их банально не знаю.

                        В своей реальной жизни я всегда ищу через Google.
                        • 0
                          Яндекс лучше ищет русский текст. В остальном я тоже пользуюсь только Гуглом.
                          • +1
                            Это заблуждение, факт устарел давно, Гугл давно уже нормально ищет по русскоязычным сайтам.
                            • 0
                              Проверить сложно, русское радио я не слушаю. Раньше Яндекс точно лучше искал.

                              Сейчас на пробу задал фразу из песни, Гугл первой ссылкой выдал сайт группы с текстом песни, второй — текст песни на каком-то сайте текстов песен, третьей — цитату из песни в каком-то бложике, дальше фигню.
                              Яндекс выдал ссылки на разные сайты совсем не по теме, и только предпоследней ссылкой выдал заданную фразу (в ссылках до этого только отдельные слова), но не в тексте песни, а цитату, хотя и по теме.
                    • +3
                      «Сегодня ночью наш сайт несколько раз перезагрузился именно по этой причине»

                      некорректная фраза.
                      • –7
                        Вместо того, чтобы писать столько простыни, потрудились бы прочитать мануалы по работе с поисковыми роботами Яндекса. Многие ваши проблемы отпали сами собой.
                        • 0
                          Например? Возможно бы отпала вторая проблема, но нужно было бы читать довольно внимательно, кроме того думаю было бы правильно позволить запрещать отдельно YandexBlog или YandexSomething учитывая их, порою черезмерный аппетит.
                          • НЛО прилетело и опубликовало эту надпись здесь
                          • +20
                            Всем домохозяйкам, которые сделали себе блоги на вордпрессе Вы тоже будете советовать читать мануалы яндекса?
                            Критика обоснована, боты должны корректно забирать информацию с подавляющей части сайтов.
                          • 0
                            Отдельно стоит отметить отзывчивость техподдержки. Единственный раз когда написал им получил ответ вида «мы не комментируем процесс индексирования сайтов». Впрочем, сайт и без Яндекса неплохо работал, так что обошлись без него.
                            • –2
                              Ну не знаю я иногда звоню в яндекс тех сапорт отвечают быстро ждать не застовляют, звоню по вопросам как раз индексации, банерной сети и нагрузок (хотя таковых не бывает)
                            • –2
                              В 3 из 5 пунктов упоминается Google. Может стоит кратенько сформулировать все пожелания — «Будьте как Google»?
                              • +3
                                «Будьте как Google» это не конструктивно, просто приводился пример другой системы которая, на мой взгляд, более правильно отрабатывает некоторые моменты.
                                • +2
                                  Ах да, смайлик забыл в предыдущем комменте :)
                                  Я лично как-то далек от проблем индексации сайтов, но полезые советы из вашего опыта лишними точно не будут.
                                • 0
                                  Чтобы все как у соседа! :)
                                  Как концепция похожа на правду, но надеюсь, все таки в качестве прикола.

                                  В офисе яндекса наблюдал работу в google аккаунте, причем развитом
                                  В офисе google — работу в яндекс сервисах
                                  В общем приколы еще те. Все совпадения имен и названий случайны, персонажи вымышлены, ни одно животное не пострадало.
                                • –3
                                  Пожелание по качеству — просто сделайте наконец то нормальную индексацию.
                                  Мои сайты-блоги он не индексирует напрочь, видимо из религиозных соображений :)

                                  А вообще, конечно, хотелось бы, чтобы самый успешный и известный российский проект соответствовал своей рекламе. На сколько он от гуглей или яхи отстает — на 5 или 3 года — в общем то неважно. Были бы задачи поставлены и идеи сформулированы

                                  Из пожеланий развития — больше сервисов для умных. Дураков больше, и работать с ними выгоднее, от умных обычно дохода никакого. Но… а впрочем сами придумывайте мотивацию :)
                                  • +2
                                    > Да у нас не было сrawl-delay, но это не должно разрешать роботу поисковой системы делать так много запросов в секунду

                                    12 запросов в секунду — это совсем не много. Поэтому если сайт падает от яндекса — то яндекс тут не виноват.
                                    • +6
                                      Справедливости ради — 12 запросов в секунду не такое уж запредельное значение. Во всяком случае сайт не должен «ложиться». Посмотрите, например в сторону nginx, он позволяет гибко лимитировать количество запросов в секунду с одного айпи с возможностью временной блокировки айпи инициализировавшего избыточную нагрузку.
                                      Ключевые слова: limit_zone, limit_req_zone
                                      • –1
                                        12 в секунду, это скорость отдачи, сайт «ложился» от переполнения пула соединений с базой, так что видимо одновременно там было побольше запросов. Ну а по поводу должен/не должен. Сайт должен справляться с обычными нагрузками, с запасом, 12 запросов в секунду (не статика а динамический контент) это пока, к сожалению, для нас слишком ненормальная нагрузка, нормальная это 2-3.
                                        В сторону limit_zone, limit_req_zone уже смотрим спасибо за совет.
                                        • НЛО прилетело и опубликовало эту надпись здесь
                                          • –2
                                            нет ну я за вас рад, но нам не надо 4 тыс/секунду ну ни как, нет у нас столько пользователей пока что, а покупать дополнительно сервера, чтобы выдерживать атаки Яндекса это тупиковый ход, так как ресурсы Яндекса однозначно побольше наших.
                                            • НЛО прилетело и опубликовало эту надпись здесь
                                              • 0
                                                ну мы постоянно работаем над этим, просто решаем проблему по мере поступления, докупаем оборудование, оптимизируем код. Да и пользователей есть немало, просто не 12 запросов в секунду динамики а 2-3 в среднем в пике но тоже неплохо.
                                                • НЛО прилетело и опубликовало эту надпись здесь
                                                  • 0
                                                    пул есть но он не безразмерный (именно он и переполняется кстати), главную кешируем и основные трудозатратные запросы также. Просто с DoSом бороться невозможно, только административными мерами, вроде лимита соединений.
                                                    • +1
                                                      Вот нафига им ради одного бота докупать оборудование, если у них пользователей в пике меньше на полпорядка?)
                                              • 0
                                                Полностью согласен, над сайтом работать и работать. 12 в секунду это вообще не нагрузка.
                                              • –8
                                                Если ваш сайт не выдерживает 12 запросов в секунду, то либо побейте программиста, либо не используйте при разработке сайтов Zend framework, Drupal, или RubyOnRails.
                                                • 0
                                                  Сервис написан на Python, и это не какой-то сайтик или еще что, а довольно таки большой и популярный проект UAprom.net (RUprom).
                                                  • 0
                                                    Понятно. Тогда могу посоветовать как-нибудь прересмотреть архитектуру проекта, может там убрать тяжелые неиндексируемые запросы, или кеша добавтить, и повниматльнее помсмотреть конфигурацию сервера, так как 12 запросов в секунду это очень мало, и падать в такой ситуации сервер не имеет никакого права.
                                                    • 0
                                                      повторюсь, но мы решаем проблемы по мере их поступления, Яндекс генерировал тогда очень тяжелые запросы, кажется к sitemap.xml файлам (их 15 000 для всех поддоменов) которые генерируются раз в неделю динамически, и это их вина что они не учитывают время ответа.
                                                  • +1
                                                    А что вы против Друпала имеете? 5 тыс. уников в сутки, 20-22 тыс. просмотров страниц вообще не проблема. Уверен, что и 10 тыс. уников выдержит. Возможно, вы просто не умеете его готовить либо просто модные фразы говорить любите?
                                                    • –1
                                                      маловато. 22 просмотра в сутки это один запрос в 4 секунды при равномерном распределении. если попытаться учесть неравномерность обращений в зависимости от времени суток и предположить что в пиковое время запросов в 10 раз больше, то все равно получим 2.5 запроса в секунду.
                                                      так что подобная статистика совсем не аргумент.
                                                      • 0
                                                        опечатался, естественно имелось ввиду «22 тысячи просмотров в сутки»
                                                        • 0
                                                          ну так это на VDS, а не на выделенном сервере. Можно Drupal.ru привести в пример. Они тоже на VDS сидят.
                                                      • 0
                                                        Много делает запросов к БД, перегруженный опциями интерфейс админки, в код смотрел, не понравилось.
                                                    • –1
                                                      То есть, ваше требование к Яндексу — наделить поисковых роботов телепатическими способностями, чтобы они заранее знали, что ваш сайт упадет при 12 запросах в секунду, а вот соседний выдержит и сто.
                                                      • 0
                                                        ну Google же умеет, думаю там не надо быть телепатом просто оценивать время ответа и не создавать десятки соединений паралельно. Google индексирует страниц столько же, но их в индексе в 3 раза больше и делает это он регулярно а не набрасывается как бешеный и уходит.
                                                  • –8
                                                    Ради чего столько геморроя? Проще в гугле задать тот или иной вопрос, чем столько запар.
                                                    • +8
                                                      Задать в Google вопрос по поводу настройки сайта под работу с Яндексом? :)
                                                    • –14
                                                      В топку яндекс!
                                                      Гугл — наше все!
                                                      • +6
                                                        Яндекс локален :)
                                                        • –7
                                                          С тех пор как он локален у меня скорость до него, меньше чем, когда он не локален.
                                                          • –1
                                                            Для меня важнее вопрос стоимости трафика, а не его скорости
                                                      • +4
                                                        я бы предложил яндексу поднять скорость индексирования до 100 запросов в секунду — тогда некоторые лучше заботились бы о производительности своих сайтов.
                                                        • +2
                                                          У Вас действительно сайты спокойно отдают по сто страниц динамики в секунду? Можно ссылки (для оценки масштаба явления)?
                                                          • –1
                                                            приведу ссылки — скажут что хвастаюсь
                                                            • –1
                                                              да и яндекс бот — это не пользователь, у которого есть персонализированная часть. страницы, общие для всех пользователей должны хорошо кэшироваться
                                                              • 0
                                                                Это верно, конечно… для не-юзеров многое можно упростить.
                                                              • 0
                                                                Аналогично, есть проект который для гостей спокойно держит сотню запросов используя только кэширование запросов к СУБД, но если заюзать в nginx его ngx_http_memcached_module то можно вообще не доводить до php запросы, тогда там уже еще на порядок быстрее всё.
                                                            • +1
                                                              бедные пользователи шаред-хостинга…
                                                              • 0
                                                                С чего это вы взяли, что речь идет о шаред-хостинге? Уверяю, что нет!
                                                                • 0
                                                                  Типа яндекс-бот чует различие?)
                                                                  • 0
                                                                    Причем здесь это?

                                                                    Все сильно вцепились в фразу 12 запросов в секунду. Это ж не факт, что у них сервер падает при 12 запросах в секунду. Помимо яндекса туда еще и пользователи ходят.
                                                              • 0
                                                                И ввести это как дополнительную плату по двумя тарифами.
                                                                1) нагрузочное тестирование собственного сервера
                                                                2) нагрузочное тестирование сервера конкурента
                                                              • НЛО прилетело и опубликовало эту надпись здесь
                                                                • 0
                                                                  ну прочитает это рядовой работник службы поддержки, ну ответит что-то стандартное, что от этого глобально изменится, а так есть шанс что кто-то заметит и постарается что-то сделать для того чтобы подобные вещи исправить (да я наивный и верю в чудеса :)). По крайней мере, если бы о моем сервисе такое написали я был бы благодарен и сделал бы все возможное чтобы воплотить улучшения в жизнь
                                                                • 0
                                                                  Яндекс в упор не замечает новые сайты несколько месяцев. google давно индексирует, gogo от mail.ru индексирует, rambler индексирует, а яндекс «резвится» на таких бедолагах, как вышеупомянутый сайт. Почему он отправляет в песочницу?
                                                                  • +2
                                                                    Вот можно в nginx добавить:

                                                                    if ($http_user_agent ~ Yandex/* ) {
                                                                    limit_rate 20k;
                                                                    break;
                                                                    }
                                                                    • 0
                                                                      не сработает для YandexBlog и YandexSomething (лучше $http_user_agent ~ Yandex*) но в целом идея.
                                                                      Кстати, а помешает ли это ему создавать одновременно 100 соединений, каждый из которых приводит к соединению с базой, что приводит к смерти пула?
                                                                      • 0
                                                                        ух, ещё не проверял, но хиленький веб-сервачок отпустило очень хорошо, надеюсь поможет и вашему
                                                                    • НЛО прилетело и опубликовало эту надпись здесь
                                                                      • +2
                                                                        ну это совсем просто :)

                                                                        User-agent: Yandex
                                                                        Disallow: /

                                                                        только стоит ли

                                                                        • НЛО прилетело и опубликовало эту надпись здесь
                                                                          • +1
                                                                            боюсь что кроме вас эта акция никому не интересна, интернет это бизнес.
                                                                            • +2
                                                                              Интернет еще и культура и политика и искусство…
                                                                              Ажиотаж на деньги — скорее специфика сегодняшнего монетаризма
                                                                        • 0
                                                                          Самый простой способ – поместить в robots.txt следующие строчки:
                                                                          User-agent: *
                                                                          Disallow: /
                                                                          • –1
                                                                            ну это забанит вообще все роботы, лучше так не делать :)
                                                                        • –1
                                                                          у меня такая проблема точнее у знакомого с выдачей яндекса адресов содержащих кириллицу

                                                                          например вот проиндексировання страничка www.saloncardinal.ru/catalogue/countrie-Англия
                                                                          а это она на выдаче яндексом yandex.ru/yandsearch?p=1&surl=saloncardinal.ru&text=*&clid=46510 (под номером 14)

                                                                          так вот
                                                                          в самой ссылке яндекс почему-то кириллицу кодирует в CP1251
                                                                          а под ссылкой в UTF-8 (зеленым цветом строка)

                                                                          на сайте тоже используется UTF-8, поэтому если кликать по ссылке яндекса то страничка открывается не корректно
                                                                          пример
                                                                          ссылка с яндекса — www.saloncardinal.ru/catalogue/countrie-%C0%ED%E3%EB%E8%FF (CP1251)
                                                                          на сайте — www.saloncardinal.ru/catalogue/countrie-%D0%90%D0%BD%D0%B3%D0%BB%D0%B8%D1%8F (UTF-8)

                                                                          я не особо силён в таких вещах
                                                                          и не знаю с какой стороны косяк и как его исправить, факт в том что с гуглом таких проблем нет

                                                                          … прошу прощения за активные ссылки, текстом не знаю как их тут сделать
                                                                          • –3
                                                                            В URI не может быть никакой кириллицы по определению (см. RFC 3986 `Uniform Resource Identifier (URI): Generic Syntax').
                                                                            Вы пишете URI с кириллицей в Windows-1251? Хочете проблем — их есть у вас. При чем здесь Яндекс?
                                                                            Гугль обрабатывает ваши некорректные URI так, как вы подразумевали, что их нужно обрабатывать? Вам не приходило в голову, что это просто совпадение?
                                                                            • –1
                                                                              >>В URI не может быть никакой кириллицы по определению
                                                                              не может? тогда ещё раз гляньте на то что я написал выше

                                                                              допустим такой URL ".../countrie-Англия" Яндекс видит при индексации в виде "/countrie-%D0%90%D0%BD%D0%B3%D0%BB%D0%B8%D1%8F" — именно так выдаёт этот адрес веб-сервер и если воспользоваться декодером будет ясно что это юникод

                                                                              так зачем же яндекс перекодирует этот юникод в CP1251?
                                                                              • 0
                                                                                я хорошо понимаю что URL с буквами кириллицы выдает сам браузер автоматом
                                                                              • НЛО прилетело и опубликовало эту надпись здесь
                                                                                • 0
                                                                                  правильную это какую?
                                                                              • 0
                                                                                Я вот тоже не пойму почему они Сrawl-delay «по умолчанию» не могут сделать щадящим
                                                                                • +1
                                                                                  Так как на сайт постоянно добавляется информация, у нас есть специальные страницы с последними обновлениями, с которых есть ссылки на новый контент. Понятно что заходя раз в 10-30 часов робот пропускает много чего, и это приводит к жалобам пользователей, что их сайты порой не появляются в индексе Яндекса месяцами.


                                                                                  Ипользуйте xml sitemap, помогает
                                                                                  • 0
                                                                                    sitemap есть, со всеми страничками, не помогает, может отдельно делать sitemap с недавним контентом?
                                                                                    • 0
                                                                                      а вы сайтмап обычный от xmlшного отличаете? я про www.sitemaps.org/ru/
                                                                                      • +1
                                                                                        аск :) uaprom.net/sitemap.xml более 130 000 адресов, 6 файлов
                                                                                        • 0
                                                                                          Яндекс.Вебмастер что говорит? Что всё сожрал и ошибок нет?
                                                                                          • 0
                                                                                            да, правда ему месяца 3 потребовалось на то чтобы это сделать, мы даже вроде и не меняли ничего, я мудма это глюк Вебмасера, или он просто не хотел читать ссылки с файла.
                                                                                      • +1
                                                                                        Не надо. Сайтмап содержит даты модификации. просто Яндекс тупой, как буратино…
                                                                                        • +1
                                                                                          кстати, действительно, что им мешает отслеживать по дате модификации, которую мы правильно ставим? Можно прератить это в еще одно пожелание, наряду со скачиванием sitemap чаще чем раз в месяц.
                                                                                    • НЛО прилетело и опубликовало эту надпись здесь
                                                                                      • 0
                                                                                        Столкнулся с такой проблемой, связанной ЯндексАдресами. Любая фирма может зарегистрировать себя на сайте ЯндексАдреса, после чего в поиске будет показываться адрес фирмы и телефон, все это привязывается к карте и сайту компании. Вот так и случилось с моим продвинутым сайтом. Кто-то прописал свой адрес, к моему сайту и сейчас собирает клиентов. После письма в яндекс сказали, что нужно написать об ошибке на ЯндексАдресах. Как долго продлиться это удаление они не сказали, и даже если они удалят эти контакты, не поставят ли конкуренты снова на мой сайт свои контакты. Если кто-то сталкивался с таким, посоветуйте что делать? Заранее благодарен.
                                                                                        • 0
                                                                                          в случае Яндекса можно сделать валидацию сайта по аналогии как это сделано в инструментах вебмастера, без этого только писать в службу поддержки и надеться что им это надоест и они подкрутят функционал. Но вообще странно, легко ведь починить.
                                                                                        • –3
                                                                                          Используйте достаточно большой Сrawl-delay «по умолчанию»
                                                                                          извините, у меня весьма стандартный хостинг и 100к страниц в индексе того же яндекса, может стоит взять хостинг по проще? а вообще гугло, ой, яндекс карта сайта решает эти проблемы

                                                                                          Разделяйте User-agent:YandexSomething и Yandex/1.01.001
                                                                                          а это зря, они там покурят и разберуться, а вам минус бот, а слить бота, ну не мне вас учить

                                                                                          короче забил, унылое говно, не хочу это читать, топик зла
                                                                                          з.ы. проблемы бывают у всех — важно что вы найдете решение для себя или нет, а проблемы то никуда не уйдут, вы не рес номер один в рунете
                                                                                          • НЛО прилетело и опубликовало эту надпись здесь
                                                                                            • 0
                                                                                              К сожалению, у вас классический случай, я слышал подобное от блогеров не раз. Почему так происходит, непонятно, ведь массу других блогов ничем не особо не лучше и не хуже Яндекс индексирует. Может здесь есть какая-то случайная величина, или рядом хостится дорвей, или не нравится домен? Ответ на это могут дать только специалисты писавшие алгоритм работы робота.
                                                                                              • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                • 0
                                                                                                  > А как это — рядом дорвей хостится?
                                                                                                  на том же айпишнике или в той же подсети. или просто у любимого дорвейщиками хостера.
                                                                                                  • НЛО прилетело и опубликовало эту надпись здесь
                                                                                                    • 0
                                                                                                      не только пытается но и борется :) просто и дорвейщики не спят. вы просто не представляете сколько дорвеев отфильтровывается, а те что таки попадают в выдаючи составляют доли процента от общего количества скармливаемых ему.

                                                                                                      а чтобы что-то конкретное сказать о конкретном блоге, не попадавшем в выдачу, нужно уже смотреть именно на него, исходя из опыта работы с яндексом — это проблемы блога.
                                                                                                • 0
                                                                                                  Рядом — смешно звучит…

                                                                                                  Ограничивать можно только по IP де-факто… у виртуальных серверов они разные де факто.

                                                                                                  У меня сайты на мастерхостовом ВПС, дорвеев рядом даже в подсетке нет.
                                                                                                  сайты добавил в Яндекс Вебмастер Тулз.

                                                                                                  два месяца не было индексации… потом написал в техсаппорт, через несколько дней проиндексировали.

                                                                                                  Сравните с Гуглом — проиндексировали в тот же день, хотя даже кода GA не было ещё на сайтах.
                                                                                              • 0
                                                                                                Путаница с названием бота — это простой баг в системе ботов яндекса.

                                                                                                Вот здесь www.webplanet.ru/news/security/2009/06/19/comments/yanddos.html на веб планете писали о проблеме, там в коментах подробно она разжевана.
                                                                                                • +5
                                                                                                  Спасибо за интересный тред и советы по политике обхода сайтов, мы постараемся их учесть. Данные о безобразном поведении нашего робота правдивые, но не отражают полной картины.

                                                                                                  1. Робот Яндекса выкачал 19238 страниц с 8506 (восьми тысяч пятисот шести) поддоменов uaprom.net и с 6896 (шести тысяч восьмисот девяноста шести) поддоменов ruprom.net, а не с двух хостов, как может показаться из заметок.

                                                                                                  2. На каждый хост (из ~ 15000) делалось не более одного обращения в 1,1 или 2 секунды (в зависимости от размера хоста).

                                                                                                  Сейчас uaprom.net/robots.txt и ruprom.net/robots.txt установили Crawl-Delay в 0,5, благодаря чему увеличили нагрузку на своих хосты (по умолчанию Crawl-Delay 1,1 или 2 секунды).

                                                                                                  3. Все поддомены ruprom.net и uaprom.net лежат на двух IP. Автоматические алгоритмы Яндекса определили ruprom.net и uaprom.net как хостинги (впрочем, сайты позиционируют себя как «надежный хостинг», см. ruprom.net/tour-4 и uaprom.net/tour-4).

                                                                                                  Для надежного хостинга, на серверах которого находится много сайтов, мы создавали нагрузку, не превышающую 12 запросов в секунду на IP.

                                                                                                  4. User-Agent отдавался «YandexSomething» и это наша вина. Это был не новостной, а один из поисковых роботов, у которого мы забыли изменить дефолтное представление. Ошибку исправили, спасибо, робота поставили в угол.

                                                                                                  Резюме: нагрузка создаваемая на IP хостингов ruprom.net и uaprom.net не превышала лимиты, допустимые при обходе большинства хостингов. Мы понимаем, что она может быть избыточной для небольших хостингов и постараемся лучше дифференцировать нагрузку на большие и малые хостинги. Надеемся, что сервера рунета будут встречать перевоспитанного робота благосклонно.
                                                                                                  • 0
                                                                                                    Александр, спасибо за детальный отчет, нам очень приятно, что компания Яндекс конструктивно отвечает на конструктивные пожелания.

                                                                                                    Я описывал ниже суть проблемы из которой было ясно что поддоменов много. Мы действительно пока не всегда готовы к нагрузке 12 запросов в секунду, так как у нас нормальной является нагрузка 2-3 запроса в пике, эту проблему мы постараемся решить с помощью nginx и ограничении количества запросов с одного IP в секунду. Стоит отметить что количество страниц в индексе (сумарно менее 200 000 страниц) не требует индексации со скоростью 12 запросов в секунду, тем более учитвая что есть актуальный sitemap с коректными last-modified датами для всех поддоменов. Google индексирует нас со скоростью 1-2 запроса в секунду сумарно и мы очень довольны качеством и актуальностью его индекса.

                                                                                                    В связи с этим, особенно хотелось бы пожелать Вам исполнить последние два пожелания, это был бы качественный шаг.

                                                                                                    Надеюсь, что выпадние из индекса из-за блокирования 7 дней YandexSomething временно и скоро разрешится, хотя пока за 5 дней прогрес только в том что скачались sitemap и главная.

                                                                                                    • 0
                                                                                                      Вам sitemap для галочки или мозг включаете?)

                                                                                                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.