Pull to refresh
68
-0.8
Куцев Роман @kucev

Разметка данных на заказ в https://clck.ru/378Km7

Send message

Статья прям по живому задела, у нас тоже офлайн сборы самые интересные и запоминающиеся. SMM даже видео об этом сняло)

Спасибо за интересную статью! А кто у вас отвечает за сбор данных? Отправляете ли вы на объект MLщиков, или у вас есть отдельная роль, кто занимается таким сбором?

Если отдельная роль, то на сколько человек погружен в IT сферу и понимает как лучше организовать сбор, чтобы максимизировать качество собираемых данных?

А если MLщищи, то на сколько они рады таким командировкам?

В разных компаниях видел и 1 и 2 вариант, и оба кажутся не очень идеальными.

Да, автоматизация ускоряет скорость разметки, делает разметчиков более эффективными, удешевляет разметку.

При этом сам рынок разметки никуда не делся, только теперь наиболее конкурентными становятся компании, у которых помимо людей есть и используемые технологии. И компания TrainingData.Solutions - одна из таких)

Пробовали ли вы применять интерактивную сегментацию (Segment Anything, либо HRnet) для простых классов? Думаю губы, брови, глаза она бы хорошо выделяла

Почему вы решили делать разметку полигонами с перекрытием? Если сделать перекрытие 1, но ужесточить валлидацию, не будет ли это более выгодно с точки зрения скорости разметки и стоимости? Мы обычно применяем именно такой подход с перекрытием 1.

По нашему опыту: если просить разметчиков рисовать тимапы, то для них задача остается все также в постановке классической сегментации, но по полученным тиримапам довольно просто получить маттинг алгоритмически

Так в видосике сказано, что у них постобработка AI, которая улучшает качество фото. Под капотом какая-нибудь Super-Resolution моделька. Полюбас в датасете для обучения модельки были изображения луны, поэтому она хорошо запомнила как луна выглядит и с хорошим качеством ее улучшила. Не понимаю, что в этом такого удивительного и необычного?

На сколько падение качественных студентов на ВМК связано именно с глобальной тенденцией, а не с тем, что топовые всеросники стали уходить в другие вузы?

Эх, почему не было таких статей, когда я был студентом)

Да, производитель сделал линейку LHR карт, которые были дешевле и в которых был ограничен майнинг. Но весной этого года майнеры взломали LHR карты и сейчас они имеют такой же хешрейт, как и не LHR карты.

Спасибо за интересную статью!

Видел ваше задание на Толоке по разметке боксами жестов. Очень понравилась фишка, что в обучении на картинках уже был нарисован бок и толокерам нужно было только его повторить. Это прям сильно упрощало понимание задания!

В статье вы пишете, что использовали перекрытие при разметке боксов. Перекрытие кратно увеличивает стоимость разметки. Было ли у вас сравнение по качеству и стоимости разметки 2-х подходов?

1) Разметка боксами с перекрытием

2) Разметка боксами без перекрытия, но со строгой валлидацией и quality assurance

Да, хорошая идея, она много где используется. Больше всего мне реализация у https://hasty.ai/quality-control понравилась. Но мы у себя в компании на базе CVAT такую штуку реализовали и нам скрипт скидывает ссылки на таски разметчиков, у которых ответ с обученной неронкой не сошелся.

Не совсем.

В агументации мы берем уже размечанные данные и чуть-чуть искажаем их, чтобы увеличить кол-во обучающих примеров.

В синтетике мы полностью генерируем данные вместе с разметкой и пытаемся их сделать максимально похожими на данные из реального мира.

В слабой разметке у нас есть сырые неразмечанные данные. Вместо того, чтобы их самим вручную размечать, мы пишем простые правила, которые не 100% точные, но которых много. Поверх этих правил накадываем модель и обучаем ее. Получается что-то похожее на стекинг моделей, но вместо моделей первого уровня используются функции-правила, которые написаны вручную.

Добрый день. Да, вы правы. Заменил в заголовке "инструменты" на "компании". Спасибо, что обратили на это внимание.

Обзор инструементов, в которых присутствует всеми нами любимый CVAT, Lalbel Studio можно найти у меня в этих постах:

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Спасибо про интересную статью! Про последний способ читиринга не знал)

Эх, помню былые времена, когда засылал сабмиты только с нулями и только с единичками, чтобы по по формуле Байеса узнавать распределение классов в тесте и делать более точную колибровку засылаемых сабмитов)

А тексты для задачи транскрибации Crowd-Kit умеет агрегировать?

Их так и называют "разметчики", "разметчики данных". Еще есть "ассесоры", это разметчики, которые размечают интернет страницы для задачи оценки релевантности.

Оригинальная статья написана в 2018 году. К сожалению, многие инструменты из списка уже устарели. А новых и популярных, таких как labelstud.io, supervise.ly, CVAT в 2018 году еще не существовало.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity