Sergey @NaN read-only
Пользователь
4 июля 2014 в 14:59

Яндекс не индексирует изображения с сайтов под https

Я бы хотел просто оставить тут небезызвестную картинку с .jpg на конце.

Я не мог этого предполагать, когда принимал решение запустить сайт под Extended Validation SSL.

Я не мог предполагать, что проверенный надежный источник (EV) будет худшим источником поиска изображений для яндекса.

Я не могу объяснить нашим менеджерам, почему наши отличные качественные изображения не выводятся в поиске по картинкам.

Ну почемууу???

Я не могу развидеть это тут: http://help.yandex.ru/images/indexing.xml.

Я не могу нагуглить это в яндексе и наяндексить в гугле.

Я не могу просто взять и отказаться от https.

Я не могу и просто взять и отказаться от SPDY.

Я не могу понять, как можно индексировать https контент и не индексировать изображения.

Я понимаю, что мне ни кто ни чего не должен.

Сегодня отличная пятница, а у меня отличный факап.

Удачных всем выходных!

UPD: Документация яндекса обновлена.
UPD2: картинки появились через 10 месяцев
Sergey @NaN
карма
12,0
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое

Комментарии (48)

  • +1
    А с Google все ок или тоже не индексирует?
    • +21
      С гуглом и бингом всё прекрасно.
  • +1
    Так а по http изображения доступны? В индексе есть?
    • +6
      Нет.
      Нет.
      Сайт полностью под https.
      • +2
        С http на https есть редирект? С каким кодом?
        • +6
          Да. 301, естественно.
  • 0
    А в чем собственно разница для Яндекса?
  • +3
    Может быть их картиночный бот просто не умеет https?
    • +15
      Так ведь 2014 год на дворе. HTTPS в тренде. На марс люди летают.
      Пытаюсь найти оправдание, не спроста же…
      Но не могу.
  • +3
    Привет! А подскажите, пожалуйста, а как давно у вас выкатился сайт?
    • +12
      2 месяца назад.
      Но дело не в этом. Был официальный ответ яндекса на этот вопрос. Т.е. это не мое предположение, это факт. Принципиальный. Печальный. Непонятный.
      • +4
        А что за ответ, причину назвали?
        Электричество на дешифровке больших картинок экономят? :)
      • –9
        Да, действительно, картинки, которые доступны только по https, не индексируются. Мы планируем это исправить в будущем, но нужно понимать, что пока таких сайтов очень мало, поэтому у этой задачи не самый высокий приоритет в наших планах. Важно отметить, что картинки со страниц, доступных только по https, индексируются, если сами картинки при этом открыты и по http. И сами сайты, доступные только по https, тоже индексируются.
        • 0
          А что если открыть картинки для http, скормить их роботу под соусом sitemap-image, но при этом ссылки не менять на страницах, оставить везде img src=https.

          Будут ли они ранжироваться как надо? ссылочный вес и т.п.?
          • 0
            Достаточно просто отдавать с http, и всё будет хорошо. Ссылки можно не менять. На ранжирование не повлияет.
        • +5
          Спасибо. Т.е. если я в правилах nginx укажу не ставить редирект с http на https для картинок, то робот, найдя src картинки с https «попробует» её и по хттп, и если найдет — проиндексирует?
          • +2
            Да, всё так.
        • +10
          И все-таки не пойму, как тут может быть невысокий приоритет. Изображения — часть контента.
          Фактически выходит, что яндекс индексирует в 2 раза меньше полезной информации с ресурсов, доверять которым можно в 2 раза больше.
          Ставит под сомнение качество выдачи.
          Позволит украсть картинки с https ресурсов владельцам http ресурсов и выдать за свои.

          Считаю, что данный нюанс индексации посредством оставления «норок» по http должен быть тут (http://help.yandex.ru/images/indexing.xml) однозначно.
          • 0
            Да я боюсь ответ один — в косности Яндекса в данном случае и в четком непонимании проблем пользовавтелей.

            Я не спец по поиску, конечно, и вообже живу в другой сфере (хостинг), но даже со своей недалекой колокольни могу сказать, что https/spdy 1,2,3/sni должны СРАЗУ же поддерживаться поисковиками, а уже потом должны подтягиваться кастомеры. Ибо это натуральное неприкрытое торможение или даже саботирование технологического прогресса.

            Сайт без https и БЕЗ http версии (либо в виде редирект на https) — это вполне себе реальная ситуация. А проблема с тем, что картинки с https сайты нельзя из-за варнингов (постойте, какие нафиг варнинги браузеров для EV?!) решается тем же гуглом что они фигачат картинку прямо в код в base64 :)

            Алсо, отсутствие оперативной реакции от Яндекса в виде «Вот это у нас косяк, спасибр, завтра починим» — ОГРОМНЫЙ минус им в карму. Даже больший, чем их уродский вертикальный баннер в левой части экрана.
            • +3
              Вам дали настоящий ответ, только он вам не нравится: https-only сайтов слишком мало для того, чтобы в приоритетах развития картиночного робота высоко стояла поддержка https. Да, это сделают, нет, не завтра.

              Нельзя исключить, что мы тут неправы, а приоритет у этой задачи выше. Я пока не вижу фактов, это подтверждающих, но, возможно, я не туда смотрю? Тогда подскажите, что мы проглядели, и почему это надо сделать «СРАЗУ», а не, например, «до конца года». Аргумент про «саботирование технического прогресса», извините, принять не могу.
              даже со своей недалекой колокольни могу сказать, что https/spdy 1,2,3/sni должны СРАЗУ же поддерживаться поисковиками
              Как и любое другое безусловно категоричное утверждение, это не может полностью соответствовать действительности. Например, оно определенно неверно в части spdy.
              • 0
                А добавление документации про эту «фишку» тоже — «приоритет до конца года»? :)

                Ничего личного, но 3е суток хотя бы для добавления информации на вики — вполне достаточное время.
                • +2
                  Документация скоро будет. Не волнуйтесь! Этот вопрос, безусловно важный, но в выходные ради него решили всё-таки на работу не выходить ;). А вообще — спасибо за напоминание!
        • 0
          Почти весь ecommerce заграннет в https. Вообще правило хорошего тона EVSSL и никакого http. Только рашковский тындекс отличился.
          • +1
            Попробуйте сходить на www.amazon.com.
            • +1
              Как только я влогиниваюсь — https включается и становится принудительным.

              Added: И да, там картинки отдаются после этого с https-only доменов.
              • +2
                Я залогинен, и у меня http. И все карточки товаров показывают по http, только профиль по https. И никакого EV SSL там нет.
                • 0
                  Да, Ваша правда.

                  Персонализированный www.amazon.com/gp/yourstore (туда перекидывает после влогинивания) — https-only, обычный корневой amazon.com — продолжает быть http-only.
                • 0
                  EV SSL нету, естественно, но я вообще в упор не могу понять, нахрен он может кому-то быть нужен — поэтому и забыл про него написать даже.
  • 0
    У вас https с использованием SNI?
    • +3
      не настраивался, так как TLS домен всего 1.
      Но эт не важно же.
      Важно, что картинка с адресом https://site.com/img.jpg не будет проиндексирована яндексом и не попадет в поиск по яндекс.картинкам
  • –12
    В чем проблема выложить статику на какой-нить поддомен аля static.xxx.ru и сделать его доступным по http?
    • +19
      Браузеры будут показывать предупреждения, что на защищенной странице есть незащищенный контент.
      • +2
        Браузерам показывать https, а поисковикам http.
        • +1
          Вполне возможно что сайт просто не может отдавать контент по http ибо вся логика завязана на https.
          • +2
            Что вы имеете в виду? Как я понял из статьи, используется nginx в качестве фронт-энда, а в nginx заменить http на https или наоборот не составит труда. В каком режиме работает фронт-энд, не влияет на логику сайта (бек-энд).
        • 0
          /
  • –19
    Что это за выброс и почему он не на tosrer.ru?
    • +6
      Потому что на тостере не придет в комментарии представитель яндекса
      • +3
        Можно представителям Яндекса напрямую писать в личные сообщения на хабре, их найти тут дело 10 минут. Можно писать им просто в саппорт, можно писать платонам, можно писать по контактным данным сотни всяких представителей, выступавших на конференциях, можно писать через яндекс-вебмастер, можно спросить на серче. Яндекс — не Google, вариантов с ним связаться и открыто поговорить — масса. И с ними можно конструктивно решать вопросы и я знаю это на личном опыте. А таких записей как выше про каждую крупную компанию можно настрогать несколько десятков, никто не идеален.

        А если целью поста было не решение проблемы автора, а привлечение внимания общественности к этому вопросу и поднятие шума с целью влияния на скорость работ Яндекса в этом направлении, то можно было хотя-бы оформить это иначе.

        Если хотелось сделать полезное дело и подсказать людям решение проблемы — можно было таки написать в техподдержку/представителям и получить нормальный ответ и потом выложить на хабр готовое решение.

        Давайте мыслить конструктивно.
        • 0
          Целью поста было:
          1 — решение проблемы автора
          2 — привлечение внимания общественности
          3 — поднятие шума с целью влияния на скорость работ Яндекса в этом направлении
          4 — хотелось сделать полезное дело и подсказать людям решение проблемы
          Не вижу диссонанса с манерой оформления поста.
          Просто сам факт такого поверг лично меня почти что в шок.
          • +1
            А я был почти в шоке, когда оказалось, что между последними iPhone и MacBook Pro Retina про нельзя кидать файлы по AirDrop. Я до сих пор почти в шоке от юзабилити интерфейсов Google для вебмастеров и рекламодателей (контраст с Яндексом) и от того, что в AdSense нельзя посмотреть доходы с разных каналов youtube. Я каждый день в шоке от работы всех государственных служб, в шоке от новых законов «про интернет» в РФ и еще немного в шоке от недавних событий в своей стране. Да что уж там, этот мир вообще еще может удивлять.

            К вам лично претензий нет. Был вопрос, вопрос исчерпан.

            Есть теперь вопрос к минусяторам — вы не смогли понять смысл моего вопроса и вам необходимо было развернутое объяснение довольно очевидной фразы в несколько слов или хабр перестал быть ресурсом для здравомыслящих и теперь в тренде не аргументированные отверы/критика/комментарии/пояснения, а немое жмякание кнопок? Как-то это не серьезно.
  • +6
    Да порой мне кажется что Яндекс живет своей жизнью, а интернет, своей… Но кто от этого больше страдает? Я просто не понимаю политики Яндекса в таких вопросах. Вот например около трех лет назад с развитием HTML5 все сайты начали переходить на SEO friendly and accessible url, No more #! Ну а раз сам Google отказался от #! то и индексирует одностраничные приложения без #! замечательно, без проблем, как разумеется и Bing и прочие… Годы идут, для современного мира и тем более интернета три года — это огромный срок, но Яндекс твердо стоит на своем давно устаревшем стандарте. Яндекс не собирается индексировать ваши одностраничные сайты без #!.. Вот только хочу понять как они это обосновывают для себя? Религия не позволяет что ли учитывать новые стандарты? Или позволяет, но на это у Яндекса уйдут десятилетия? Интернету что ли хуже от этого или Яндексу, что он не индексирует?
  • 0
    В общем, можете считать официальным комментарием ;).

    Для того, чтобы картинки индексировались, нужно, чтобы робот мог их скачать по http. При этом, очевидно, не нужно нарушать целостность https и класть на страницу картинки с незащищёнными http урлами. Ссылка на https картинку нормально обработается и сохранится у нас в базе. Когда придёт время, робот пойдёт качать картинку с этим же урлом, используя http протокол.

    Добавили абзац в документацию. Спасибо за обратную связь ;)
    • 0
      Слушайте, а можете пояснить, почему так получилось?
      Паук использует какую-то совсем свою, самописную, имплементацию протокола — и в ней только голому http место нашлось, без s?
  • 0
    Забавно, Тинькофф тоже без картинок остался.
    И www.edx.org тоже.
    Диджитал оушн тудаже.
    Боюсь дальше продолжать.

    Нет, оно понятно, — то, что исторически сложилось и обросло кучей всего другого менять очень сложно.
    Но, как то вот, именно в этом случае — совсем не правильно.

    Может подвинете таску как-то повыше что-ли, в приоритете то.
    Логика ведь сама подсказывает — сайты, могущие себе позволить SSL / EV SLL, с большей вероятностью могут себе позволить и более качественные, авторские работы.
  • 0
    Отлично. Минуло 3 недели, а воз и ныне там. Скоростной робот то, блин.
    Этот жестокий, жестокий мир.
    Можно узнать, как часто картиночный бот кушает джпеги?
    Или может они недостаточно приправлены exif 'ами?
    Или микроформаты ему не угодили?
    А может быть потому, что на картинках нет котят >^'.'^<?

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.