Pull to refresh
0
Randy Cambell @samodum

User

Send message

Определяем «неправильные» слова при борьбе со спамом

Reading time 3 min
Views 6.3K
При борьбе со спамом на форуме возникла идея автоматически отлавливать слова, внешне похожие на «нормальные», но фактически отличающиеся от шаблонных, имеющихся в базе стоп-слов. Делается это путём замены кириллических символом на латиницу и наоборот. Например, «Пpoдaeм бeтoн» и «Продаем бетон» только внешне выглядят одинаково, а на самом деле они отличаются друг от друга.
Вот я и написал небольшую функцию для уменьшения энтропии Вселенной, которая определяет (если сможет) язык, на котором написано слово, и заменяет его на нормальное. Затем проверяем это слово по списку стоп-слов и принимаем решение, запрещённое оно или нет :)

(Красным цветом помечается кириллица, синим- латиница или цифры)
Код функции внутри
Total votes 61: ↑46 and ↓15 +31
Comments 32

Information

Rating
Does not participate
Location
Сербия
Registered
Activity