Как стать автором
Обновить

Какие слова Google Instant заносит в свой черный список?

Время на прочтение4 мин
Количество просмотров8.5K
Автор оригинала: Mashable.com
image
Авторы издания «2600: The Hacker Quarterly» решили составить список слов, запрещенных Живым поиском Гугла (Google Instant).

За исключением некоторых очень специфичных случаев, Гугл можно заподозрить в чем угодно, но только не в цензуре. Однако, как мы уже говорили, есть ряд слов, с которыми гигантский по объему Живой поиск отказывается иметь дело.

Мы прекрасно понимаем намерения Гугла. Его команда пытается удостовериться, что никто не увидит ссылки на порнографические или содержащие насилие ресурсы, которые могли бы принести немало беспокойств (за исключением случаев, когда вы и впрямь разыскиваете именно их). Спрошенная об этом пару недель назад Джоанна Райт из Гугла ответила, что ограничения введены с целью защиты детей.

Но легко заметить, что тем самым Гугл подвергает немалому риску собственный имидж, ибо эти пропуски в лучшем случае заведут в тупик, а в худшем – заденут вспыльчивые чувства особой категории щепетильных (и продвинутых) пользователей, которые не смогут взять в толк, по каким именно правилам работает Живой поиск Гугла.

Например, слова «бисексуал» и «лесби» находятся среди запрещенных. Наберите их в Гугле – и Живой поиск тут же остановит выдачу в своем окне вариантов поиска. И вы должны будете нажать на «Ввод», чтоб удостоверить: да, я действительно хочу узнать нечто, имеющее отношение к бисексуалам или лесбийской любви.

Почему Google блокирует эти слова?

У вас, конечно, есть возможность искать и находить в Гугле подобные слова. Вопрос лишь в том, что при их наборе Живой поиск буквально с ходу перестанет выдавать свой список вариантов, и вы должны уже самостоятельно жать на «Ввод», чтобы увидеть нужные ссылки.

Это происходит потому, что Живой поиск вообще никак не пользуется тем, что вы набрали в строке поиска, для отображения результатов. Он попросту читает данные, что были собраны на протяжении многих лет относительно всех предыдущих пользовательских поисков, пытаясь загодя предугадать, что вы намерились набрать в пустой строке. Точно тот же алгоритм положен в основу автозаполнения строки по технологии Google Suggest – в старом, не столь «мгновенном» поисковике Гугла.

И если в выпадающем окне не предлагается готовых слов и словосочетаний – после того, как вы набрали «лесби» или «жопа» – то вовсе не по той причине, что эти результаты заблокированы внутренней цензурой. Просто Гугл пытается предотвратить появление перед вами текста оскорбительного содержания, который пользователи уже искали и находили в прошлом, – в случае, если на самом деле вы ищете нечто вполне безвредное и безобидное. (Ранее мы уже вели полемику на эту тему).

Бессчетное количество пользователей ассоциируют слово «лесби» с понятием «порно», вводя словосочетания, которые не должны попасться детям на глаза. Именно поэтому алгоритм Гугла решает не вываливать вам тут же 20 ссылок на лесби-порносайты, даже если эти ссылки самые частотные в базе данных алгоритма.

Обратившись с этим вопросом к самому Гуглу, мы получили следующий комментарий от уполномоченного лица:

«Существует ряд причин, по которым вы, быть может, не увидите искомые слова на ту или иную тему. Например, мы ставим жесткий фильтр на порнографию, сцены насилия и дискриминационные сюжеты. Хотелось бы отметить, что удаление запроса из функции автозаполнения – довольно тяжкая, технологически, задача, далеко не такая простая, как всего лишь черный список запрещенных слов и фраз.

Мы получаем более миллиарда запросов ежедневно – и посему применяем алгоритмический подход к фильтрации и удалениям, который, разумеется, далеко не идеален (как и поисковый алгоритм). Но мы продолжаем усиленно работать над его усовершенствованием, внимательнейшим образом читая все ваши пожелания и возражения.

Наш алгоритм направлен не только на особые слова, но и на сложные запросы, которые на них основаны, причем на всех представленных в Гугле языках. Например, если это некое плохое слово на русском языке, мы также удаляем соответствующее сложносоставное слово, включая его транслитерацию латиницей. Кроме того, мы обращаем внимание на сам итог вашего поиска. Например, если возникает впечатление, что он является порнографическим, наш алгоритм может воспрепятствовать применению к нему опции автозаполнения, даже если сам запрос не нарушает вышеизложенных правил. На сегодняшний день наша система, разумеется, неидеальна и не столь быстродейственна, сколь хотелось бы, но мы постоянно работаем над ее улучшением».

Высокоэффективный алгоритм SafeSearch по-прежнему активен в Живом поиске. Он способен довольно действенно отфильтровывать потенциально оскорбительный контент, который может появиться после того, как пользователь жмет на «Ввод». Например, первая страница результатов, выданная на запрос о «лесби» при умеренной степени защиты, оказалась совершенно безобидной.

Да, нынешняя разработка Гугла далека от совершенства – и представители компании это подтверждают. По крайней мере, мы хотели б получить возможность вручную устанавливать параметры на некоторые широко распространенные понятия и слова, запрещенные лишь вследствие того, что иногда они бывают связаны с сексуальным, насильственным или дискриминационным контентом.

Представители Гугла утверждают, что постоянно трудятся над улучшением своей системы, однако не предоставляют ни малейших уточнений, какие именно изменения нас в будущем могут ожидать. Так что пока, ежели есть на то потребность, можете проверить полный список цензуированных слов на сайте «2006: The Hacker Quarterly».
Теги:
Хабы:
Всего голосов 50: ↑39 и ↓11+28
Комментарии64

Публикации

Истории

Ближайшие события