Как стать автором
Обновить

Частотный словарь запрещённых сайтов

Время на прочтение1 мин
Количество просмотров32K


Исследование проводилось в целях создания корпуса слов сайтов, заблокированных государственными органами Российской Федерации.


Из открытых источников был получен список ссылок, находящихся в реестре на момент проведения исследования. Всего в списке 24515 ссылок.

По каждому url мы делали get-запрос из страны, не имеющей законодательных ограничений на подобные деяния.

Ответы серверов распределились следующим образом:



Большинство сайтов вполне себе функционируют и переоценивать собственные взгляды на жизнь не собираются. Многие используют фаерволы, отсекая потенциально опасных (по их мнению) посетителей. Значительное количество просто ставит редирект на свежий белый домен.

Пара слов об «абузоустойчивости». Взглянем на распределение по tld (только 200 OK):



Не менее интересно распределение по странам, в которых физически находятся заблокированные ресурсы:





Интерактивная визуализация словаря

Статья не направлена на пропаганду чего-либо, а лишь отражает существующую реальность. Полученный материал, возможно, окажется полезным кому-либо для проведения собственных исследований.
Теги:
Хабы:
+23
Комментарии31

Публикации

Изменить настройки темы

Истории

Работа

Data Scientist
62 вакансии

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн