Pull to refresh
1
0
Send message
70% дешевых инсталлов я получаю из англоговорящей, но не богатой страны Сингапур.

про не богатую — это шутка? 4-е место в мире по ВВП на душу населения однако.
Я навскидку вижу следующие гипотезы, объясняющие этот феномен:

1. Выдуманные имена (про это уже писали выше). Причем тут много вариантов может быть — не только боты. Кому-то может не нравиться паспортное имя, кто-то может скрываться от родных и знакомых, кто-то может вести двойную жизнь (один аккаунт в отношениях, другой — в активном поиске) и т.п. И вполне вероятно, что склонность писать выдуманное имя коррелирует одновременно с большей редкостью имени и с более одиноким статусом аккаунта. (Как предельный вариант — девушка, предлагающая интимные услуги за деньги и ищущая клиентов в соцсети, практически никогда не поставит в профиле настоящее имя и практически всегда будет 'в активном поиске' или около того.)

2. Влияние семьи. Обладатели редких имен могут быть представителями этнических меньшинств (про это в статье есть) со своими культурными особенностями. А могут быть детьми, выросшими в семье, где родители предпочитают давать редкие имена — чтобы дети выделялись, например. Возможно, родительское послание «выделяйся», столь явно переданное, тоже коррелирует с одиночеством.
Для random forest и extra trees от sklearn такой возможности нет, так что пришлось переложить подбор количества деревьев на hyperopt, который, похоже, за недостаточное количество попыток с задачей полностью не справился.


В отличие от градиентного бустинга, эти алгоритмы не переобучаются с ростом числа деревьев (каждое дерево строится независимо от прошлых результатов), поэтому подбирать, собственно, нечего. Надо просто брать разумно большое количество деревьев (с учетом технических возможностей), да и все.
>Так чем больше радиус, тем больше вариантов посадки. которая растёт в геометрической прогрессии. Более >того, выводить на экран миллион мест = захламлится экран. Лучше показывать несколько точек.

Всегда можно выбрать 2-3 оптимальных по какой-то метрике.

>А я бы нет :)
Вот поэтому я и предлагаю настройку этой опции для конкретного пользователя.

>Но ведь если вы видеет, что там пробка, почему бы не заказать машину к нужному месту. Заказываете такси >на «через 10 минут, вон к тому светофору» и идёте себе пешком.
Я обычно так и делаю (смотрю из другого приложения пробки и прикидываю, куда заказать). Но и то, о чем написано в этой статье — тоже можно делать вручную, а можно автоматизировать.
А радиус в 3 минуты пешком — это технологическое ограничение? Лично я бы в некоторых случаях охотно прошел больше. Типичная ситуация: от метро до следующего перекрестка глухая пробка, а дальше свободно. Мне комфортнее (и дешевле) прогуляться пешком до того перекрестка 5-7-10 минут и сесть в такси уже там.

И, кстати, даже если это не дает выигрыша по суммарному времени, но и проигрыша тоже — то мне все равно часто приятнее идти пешком, чем в пробке стоять. Так что хотел бы в будущем видеть возможность настройки таких параметров.

Во-первых, автор обходит стороной вопрос о памяти (точнее, пишет, что раньше ресурсы процессора и памяти были дорогими, и дальше пишет только про CPU). Постепенно память становится все более узким местом — она дешевеет гораздо медленнее (в последний год в некоторых сегментах вообще подорожала), а упереться в нехватку памяти — это сразу либо резкое замедление работы (если swap есть), либо падение приложения.

Во-вторых, он сравнивает 'median hours to solve problem', и это неправильно. В реальных проектах важно среднее, а не медиана — потому что среднее учитывает те 10-20% затянувшихся задач, которые в итоге и тормозят весь проект, а медиана — нет.
Вот что хотелось бы видеть лично мне:

1. Запрос по большому набору критериев, результаты на одной станице. Например:
все туры во все безвизовые страны, продолжительностью 7-9 дней, с вылетом в пятницу вечером или субботу (на любой неделе), с питанием не меньше HB, с рейтингом гостиницы не меньше 4.0, до 15 тыс руб на человека.

2. Это вероятно не к вам как к агрегатору, но если есть возможность на это повлиять — было бы здорово указывать корректную информацию о наличии wifi в отеле. Сейчас например у вас у пяти наугад взятых турецких гостиниц написано «в номере нет, в лобби платно» — почти наверняка в реальной жизни все иначе, и мне перед бронированием приходилось это узнавать про каждую гостиницу вручную, читая отзывы.

В среднем 75% из них верят, что сверхинтеллект («машинный интеллект, серьёзно превосходящий возможности каждого человека в большинстве профессий») появится в течение 30 лет после появления ИИ человеческого уровня.

Вот эта часть меня удивляет больше всего. Что угодно могу представить, но не 30 лет застоя, когда уже достигнут человеческий уровень.
У такого применения кросс-валидации есть принципиальный недостаток. Оно игнорирует факт изменчивости рынка — в частности то, что паттерны не живут вечно. Когда мы проводим обучение скажем на данных за 2014 и 2016 годы, а тестирование на 2015 — получаем завышенную оценку качества предсказания. Более корректная методика — всегда проводить тестирование только на данных, более поздних относительно обучающего набора.

Я пробовал применять тактики типа «пообещаю себе, что поработаю всего 2 минуты, а там втянусь и буду работать и работать», «съем мороженое завтра, а сегодня возьму овощей, а на следующий день повторю», но постепенно уперся в то, что это самообман. Если я кого-то внутри себя уговариваю, что сажусь работать на 2 минуты, а сам надеюсь, что двумя минутами не ограничится — я этого кого-то каждый раз обманываю. Через некоторое время «он» перестает верить, и это перестает работать — «ага, знаем мы эти ваши две минуты».
В итоге пришел к тому, что вместо таких манипуляций лучше честно договариваться: мы работаем не 2 минуты, а полчаса, но через полчаса гарантированно прекратим эти мучения и пойдем есть мороженое.
Прогресс большой, но до «переводчики больше не нужны» еще далеко. Лично я субъективно качество машинного перевода с английского на русский оцениваю так:
1. Полный бред, ничего не понять, но иногда смешно.
2. Сильно напрягшись, можно уловить какую-то часть общего смысла
3. Можно понять, о чем речь, но все-таки проще читать англоязычный вариант, чем такой перевод.
4. Примерно одинаковые усилия нужны на чтение оригинала и перевода.
5. Перевод читается легче.

Как правило, хороший художественный перевод, сделанный профессиональным переводчиком-человеком, однозначно попадает в категорию 5. Любительский перевод технического текста (многие переводные статьи в блогах, например) — в категорию 4. А Google сейчас для меня перешел из категории 2 в 3, и пока это все.
В обоих случаях это защита от зависти. Там, где можно повлиять на ситуацию напрямую — все довольно просто, устраняется сама ситуация и не придется завидовать получившему больше, и потеря ресурсов оказывается приемлемой оплатой за избавление от зависти. Там, где повлиять нельзя, за счет отказа человек выводит себя за рамки ситуации — «раз так, я в эту вашу игру вообще не играю».
Не согласен насчет «кружок намертво привязан к преподавателю». Мы робототехнику преподаем втроем, сменяя друг друга — у этой схемы есть свои плюсы и минусы, но в целом она оказалась работоспособна.
Согласен насчет важности работы с эмоциями — вообще, преподаватель для детей помладше это фактически родительская роль, а вопросы передачи технических знаний оказываются на втором месте.
Ну и с возрастом у нас еще более противоречивая ситуация: пик интереса у 5-6 летних, для которых наша программа заведомо сложна, но им больше всех хочется попробовать. Возможно, стоит создавать отдельные группы для младших с более простой программой.
Есть какая-то связь с уровнем продавца, но не такая однозначная. У нас мелкий районный провайдер интернета принимает платежи без запроса 3D Secure, в отличие от например РЖД или Аэрофлота.
Со всем согласен, кроме вот этого признака «пришли ради заработка». На мой взгляд, это просто разные области интересов — кому-то ближе теоретическое, фундаментальное и абстрактное, кому-то — практическое воплощение в виде решений конкретных задач. Практические задачи чаще оказываются ближе к деньгам, но совсем не факт, что мотивация людей «инженерного склада» этим определяется.

А что у вас за специализация? Я понимаю, что эта статья о другом, но все-таки по-моему ключевой вопрос в том, как убедить потенциального работодателя, что ему нужно через все эти круги ада проходить ради работника не из ЕС да еще и без в/о. Лично мне было бы про эту сторону вашего опыта почитать — буду рад, если напишете статью об этом.
A data scientist is a statistician who lives in San Francisco ©
Тут в комментариях очень много написано о том, что нестандартность это хорошо, для творческого человека необходимо, что врачи могут шаблонно трактовать какой-то особый взгляд на мир как болезнь и т.п. У меня когда-то тоже было такое мнение, но по мере накопления жизненного опыта я стал меньше противопоставлять оригинальность и нормальность.
Теперь я вижу, что они не являются взаимоисключающими — это два качества, каждое из которых важно. Человек, обладающий обоими, может хорошо адаптироваться в обществе, находить взаимопонимание с «нормальными» людьми, но при этом быть нестандартным, изобретательным, видеть неочевидные аспекты и взаимосвязи там, где это имеет смысл.
Ладно базы на Луне — мы насморк толком не научились эффективно лечить. Но в информационном мире прогресс идет быстрее, чем в материальном, поэтому для задач, хорошо сводимых к вычислениям, недооценки сложности встречаются реже.
Для создания алгоритмов применяются эволюционные методы (например, генетическое программирование). В частности, есть примеры как раз успешного создания алгоритма сортировки массива. Но это относительно непопулярное ныне направление.

1

Information

Rating
Does not participate
Registered
Activity