Как стать автором
Обновить

Mechanical Turk: теперь на 40,92% спам

Время на прочтение 2 мин
Количество просмотров 4.2K
Самый популярный сервис краудсорсинга Mechanical Turk всё больше заполняется спамом. Точнее, заданиями от спамеров. На сайте, который предлагает решение микрозаданий за микроплатежи, уже десятки проектов в стиле «Протестировать рекламу на моём сайте», «Создать аккаунт в твиттере и зафоловить меня», «Заплюсовать моё видео на Youtube», «Скачать указанное приложение», «Написать положительный отзыв» и так далее.

Студенты NYU Дан Тамир и Прия Кант решили выяснить масштаб проблемы и точно подсчитать, какую долю на MTurk занимают спамерские заказы. Для этого они использовали статистику Mechanical Turk Tracker и проанализировали рынок за сентябрь и октябрь 2010 года.

В выборку попали все новые заказы, размещённые за эти два месяца (предполагается, что постоянные заказчики не являются спамерами).

Всего за это время на рынке появилось 1733 новых заказчика, которые разместили 5842 заказа. Далее исследователи использовали те же методы краудсорсинга и дали задание публике классифицировать эти заказы как «спам» или «не спам» с приведением подробной инструкции, что считается спамом (в задании фигурируют SEO, фальшивые аккаунты, фальшивые клики, фальшивая реклама, требуются специфические действия на сайте заказчика, есть запрос на личные данные исполнителя и т.д.).

Вот что получилось.

Из 5841 проверенного задания 40,92% оказались связаны со спамом.



Затем исследователи проверили, насколько часто спамерские задания исходят от нормальных заказчиков. Оказалось — ничего подобного. Абсолютное большинство спамерских заданий исходит от заказчиков особой категории, у которых 100% заданий являются спамерскими.



По статистике, 31,83% новых заказчиков размещают исключительно спамерские задания. То есть здесь видна чёткая граница.

Итак получается, что 31,83% новых заказчиков — спамеры, а 40,92% новых заданий — чистый спам. Очевидно, что это проблема.

По качественным характеристикам спам тоже отличается от нормальных заданий. Во-первых, у спамеров в каждом наборе (HITs) меньше заданий (HIT).



Во-вторых, они оценивают работу дороже обычного (потому что не платят?). В среднем по сервису 80% заданий дешевле доллара, а у спамеров таких всего 60%.



Непонятно, почему Amazon не борется со спамом в сервисе Mechanical Turk. Ведь его достаточно легко распознавать по ключевым словам. Одно из возможных объяснений — спамеры действительно платят за выполнение заказов, и Amazon тупо получает свой процент. Судя по вышеприведённой статистике, спамеры обеспечивают около половины всех финансовых доходов сервиса.

Другое объяснение — компания Amazon забросила развитие проекта и просто не знает, что там творится, или ей всё равно. Сервис работает сам по себе в практически неизменном виде с 2005 года. Против этого варианта говорят недавнее открытие твиттера и блога MTurk.
Теги:
Хабы:
+5
Комментарии 2
Комментарии Комментарии 2

Публикации

Истории

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн