Articles / Profile of Velikodniy / Habr

Velikodniy Jun 1 2020 at 08:53

Классификация документов: 7 практических подходов для небольших наборов данных

11 min

20K

Translation

Классификация документов или текста — это одна из важнейших задач в обработке естественного языка (natural language processing, NLP).

У нее есть множество применений, таких как классификация новостей, фильтрация спама, поиск неприемлемых комментариев и т. д.

У больших компаний нет проблем со сбором больших наборов данных, поэтому обучение модели классификации текста с нуля — вполне осуществимая задача.

Однако, для большинства реальных задач большие наборы данных — редкость, и для построения своей модели приходится проявлять смекалку.

В этой статье я расскажу о практических подходах к преобразованиям текста, которые сделают возможной классификацию документов, даже если набор данных небольшой.

Читать дальше →

Velikodniy Jun 27 2013 at 10:15

Digg Reader beta

1 min

25K

Browsers

Recovery Mode

Сегодня с утра Digg обрадовал возможностью попробовать их альтернативу закрывающемуся Google Reader-у — Digg Reader.

Читать дальше →

+25