Редактор Geektimes
0,0
рейтинг
2 марта 2015 в 12:29

Google хочет измерять важность сайтов по фактам, а не ссылкам

Исследовательская команда Google опубликовала на arXiv.org статью «Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources», в которой рассматривается вопрос вычисления для определённой веб-страницы специальной репутационной характеристики Knowledge-Based Trust (KBT). Планируется, что KBT должна стать основой для будущего алгоритма поисковой машины Google, выстраивающей сайты в соответствии с их «надёжностью».

Известно, что алгоритм ссылочного ранжирования PageRank определяет важность веб-страницы как число ссылок, ведущих на неё. Реальный поиск Google учитывает ещё множество факторов, таких как наличие определённых слов на страницах сайтов, актуальность информации, местоположение пользователя, адаптивность к мобильным устройствам — всего таких факторов около 200. Считается, что обновление поискового алгоритма в сентябре 2013 года, известное как «Колибри» (Hummingbird), научило Google реагировать не только на ключевые слова, а и на контексты и образы, их сопровождающие. Прошлогоднее обновление алгоритма «Голубь» (Pigeon) привело к более релевантным результатам поиска с географически зависимой информацией.

Новый подход к ранжированию сайтов рассматривает важность веб-страницы как числовую характеристику достоверности фактов. Как и раньше, поисковый робот сканирует сайт, извлекает из него «утверждения», достоверность которых сравнивается с базой знаний Knowledge Vault. Эта база знаний, принадлежащая Google, сейчас содержит примерно 1.6 миллиарда фактов, автоматически собранных из интернета. Её главное отличие от более известной Knowledge Graph заключается в её «всеядности». Если Knowledge Graph использует в качестве источника информации заведомо надёжные Wikipedia и Freebase, то Vault «не брезгует» ничем и собирает информацию с абсолютно всех сайтов, из которых можно извлечь хотя бы что-то. На основе числа совпадений «извлечённых» фактов с хранящимися в Google Vault, и определяется достоверность ресурса.

На тестовых данных вероятностная модель, предложенная авторами работы, показала удовлетворительные результаты. Затем в автоматическом режиме были вычислены показатели KBT для 119 миллионов реальных веб-страниц. Дальнейшая проверка в ручном режиме показала, что и реальные данные вполне поддаются новой системе ранжирования. Как скоро результаты исследования затронут существующий поисковый алгоритм Google пока что неизвестно.
Евгений @jeston
карма
118,0
рейтинг 0,0
Редактор Geektimes
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое

Комментарии (7)

  • +10
    поисковый робот сканирует сайт, извлекает из него «утверждения», достоверность которых сравнивается с базой знаний Knowledge Vault
    Юмористические сайты не одобряют.
    Вот как будут ранжироваться следующие страницы?

    В отличие от обычного зайца, дикий полесский является плотоядным. Основной источник пищи — лисы и волки. Способ охоты довольно необычен: [...] подкрадывается к жертве сзади и кусает её за хвост или круп.[1]
    Когда-то техническую поддержку мира осуществляли три администратора, кита в своём деле.[2]
    Айова — состояние очень большого дискомфорта, порой сопровождающееся угнетением сознания и физиологических функций организма. Тогда говорят: «ему очень Айова» или «мне совсем Айова». Когда человеку Айова, он выглядит весьма Небраско.[3]
    1944 год. Маленький мальчик не хочет жить в немецком концлагере, а хочет быть уберменшем. Поэтому он гнёт решётки силой мысли. Пришлось немцам его отпустить, чтобы не портил казёное имущество и стал супермутантом Магнето.[4]
    Основным ареалом обитания Гитлера являются районы двух мостов Берлина — мост Юнгфернбрюкке и мост Обербраумбрюкке. Опытный ловец без труда определит по рельефу дна места его стоянок и жировок. Гитлера стоит искать в ямах, образованных в результате размывов дна течением воды, а также в завалах и коряжнике.[5]
    Дороги — наша давняя головная боль. Поэтому они будут уничтожены.[6]
    • +4
      Дороги — наша давняя головная боль. Поэтому они будут уничтожены.

      а потом и вторую проблему аналогично решим :)
      • 0
        За Россию без дураков и дорог!
  • +11
    Ооо, это может быть политически полезный апдейт: достаточно занести в базу несколько «нужных» фактов с большим весом, и сразу же пользователь на нужные запросы получает кучу «разносторонней иноформации» в виде сайтов, подтверждающих этот факт. Дальше додумывайте сами :)
    • +3
      Гугл, ты лапочка
  • 0
    Ну и получат второй иск от Бориса Моисеева, так как ещё несколько лет назад видел прототип проекта о поиске по мнениям в которых как раз выдача строилась на основании важности фактов на сайте, а для подтверждения всегда можно было посмотреть на основании чего она построена, например экспертного мнения определённого эксперта и его веса и значимости.

    Пруф о первом иске: Б.Моисеев директор российской компании «Эра водолея», является автором идеи и обладателем патента на технологию, реализующую принципы размещения контекстной рекламы. Этот патент был получен изобретателем в 1999 г, то есть за 2 года до того как эту технологию впервые применил поисковой гигант Google и затем повторили остальные компании.
  • 0
    А что, если страница и есть источник фактов, но пока без авторитета?
    P.S.
    История Галилея.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.