Pull to refresh
0
0
Send message

Огромный открытый датасет русской речи версия 1.0

Reading time2 min
Views18K

image


В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.


Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать дальше →
Total votes 46: ↑41 and ↓5+36
Comments18

Введение в машинное обучение

Reading time11 min
Views238K

1.1 Введение


Благодаря машинному обучению программист не обязан писать инструкции, учитывающие все возможные проблемы и содержащие все решения. Вместо этого в компьютер (или отдельную программу) закладывают алгоритм самостоятельного нахождения решений путём комплексного использования статистических данных, из которых выводятся закономерности и на основе которых делаются прогнозы.

Технология машинного обучения на основе анализа данных берёт начало в 1950 году, когда начали разрабатывать первые программы для игры в шашки. За прошедшие десятилетий общий принцип не изменился. Зато благодаря взрывному росту вычислительных мощностей компьютеров многократно усложнились закономерности и прогнозы, создаваемые ими, и расширился круг проблем и задач, решаемых с использованием машинного обучения.

Чтобы запустить процесс машинного обучение, для начала необходимо загрузить в компьютер Датасет(некоторое количество исходных данных), на которых алгоритм будет учиться обрабатывать запросы. Например, могут быть фотографии собак и котов, на которых уже есть метки, обозначающие к кому они относятся. После процесса обучения, программа уже сама сможет распознавать собак и котов на новых изображениях без содержания меток. Процесс обучения продолжается и после выданных прогнозов, чем больше данных мы проанализировали программой, тем более точно она распознает нужные изображения.

Благодаря машинному обучению компьютеры учатся распознавать на фотографиях и рисунках не только лица, но и пейзажи, предметы, текст и цифры. Что касается текста, то и здесь не обойтись без машинного обучения: функция проверки грамматики сейчас присутствует в любом текстовом редакторе и даже в телефонах. Причем учитывается не только написание слов, но и контекст, оттенки смысла и другие тонкие лингвистические аспекты. Более того, уже существует программное обеспечение, способное без участия человека писать новостные статьи (на тему экономики и, к примеру, спорта).
Читать дальше →
Total votes 38: ↑34 and ↓4+30
Comments6

Шесть правил, которые помогут ставить достижимые цели

Reading time4 min
Views11K


Как думаете, часто ли мы достигаем собственных целей — в среднем? Статистика вас не обрадует.

Всего лишь восемь процентов людей достигают поставленных перед собой целей.

Возможно, причина в том, что многие из нас не ставят эффективных, реалистичных целей. Вместо того, чтобы хорошенько подумать о том, чего нужно достичь, мы сосредотачиваемся на том, каким образом этого достигать.

Как только удается выработать привычку ставить осмысленные, достижимые цели, работать с ними становится намного легче.

В этой статье я расскажу о шести подходах, которые помогают мне устанавливать себе цели и достигать их.

Переведено в Alconost
Читать дальше →
Total votes 10: ↑9 and ↓1+8
Comments7

Машинное обучение без Python, Anaconda и прочих пресмыкающихся

Reading time4 min
Views15K
Нет, ну я, конечно, не всерьез. Должен же быть предел, до какой степени возможно упрощать предмет. Но для первых этапов, понимания базовых концепций и быстрого «въезжания» в тему, может быть, и допустимо. А как правильно поименовать данный материал (варианты: «Машинное обучение для чайников», «Анализ данных с пеленок», «Алгоритмы для самых маленьких»), обсудим в конце.

К делу. Написал несколько прикладных программ на MS Excel для визуализации и наглядного представления процессов, которые происходят в разных методах машинного обучения при анализе данных. Seeing is believing, в конце концов, как говорят носители культуры, которая и разработала большинство этих методов (кстати, далеко не все. Мощнейший «метод опорных векторов», или SVM, support vector machine – изобретение нашего соотечественника Владимира Вапника, Московский Институт управления. 1963 год, между прочим! Сейчас он, правда, преподает и работает в США).

Три файла на обозрение
Читать дальше →
Total votes 24: ↑22 and ↓2+20
Comments14

Основной инстинкт кодера — устранить неэффективные решения отовсюду

Reading time14 min
Views6.5K


Адаптация отрывка из книги Клайва Томпсона "Кодеры: создание нового племени и пересоздание мира"

Шелли Чен работала бизнес-аналитиком в компьютерной компании, когда в 2010-м она познакомилась с Джейсоном Хо через общих знакомых. У Хо был большой рост, стройное телосложение и хитрая улыбка, и они сразу нашли общий язык. Хо был программистом, и у него была собственная компания в Сан-Франциско. Он также любил путешествовать. Менее, чем через месяц после знакомства Хо удивил Чен, купив билет на самолёт, чтобы встретиться с ней на Тайване, куда она временно переехала. Вскоре они уже обсуждали совместную поездку в Японию на четыре недели. Чен немного волновалась, поскольку они не были так хорошо знакомы. Однако она решила попытать счастья.
Читать дальше →
Total votes 25: ↑21 and ↓4+17
Comments3

Нахождение объектов на картинках

Reading time18 min
Views48K

Мы занимаемся закупкой трафика из Adwords (рекламная площадка от Google). Одна из регулярных задач в этой области – создание новых баннеров. Тесты показывают, что баннеры теряют эффективность с течением времени, так как пользователи привыкают к баннеру; меняются сезоны и тренды. Кроме того, у нас есть цель захватить разные ниши аудитории, а узко таргетированные баннеры работают лучше.


В связи с выходом в новые страны остро встал вопрос локализации баннеров. Для каждого баннера необходимо создавать версии на разных языках и с разными валютами. Можно просить это делать дизайнеров, но эта ручная работа добавит дополнительную нагрузку на и без того дефицитный ресурс.


Это выглядит как задача, которую несложно автоматизировать. Для этого достаточно сделать программу, которая будет накладывать на болванку баннера локализованную цену на "ценник" и call to action (фразу типа "купить сейчас") на кнопку. Если печать текста на картинке реализовать достаточно просто, то определение положения, куда нужно его поставить — не всегда тривиально. Перчинки добавляет то, что кнопка бывает разных цветов, и немного отличается по форме.


Этому и посвящена статья: как найти указанный объект на картинке? Будут разобраны популярные методы; приведены области применения, особенности, плюсы и минусы. Приведенные методы можно применять и для других целей: разработки программ для камер слежения, автоматизации тестирования UI, и подобных. Описанные трудности можно встретить и в других задачах, а использованные приёмы использовать и для других целей. Например, Canny Edge Detector часто используется для предобработки изображений, а количество ключевых точек (keypoints) можно использовать для оценки визуальной “сложности” изображения.


Надеюсь, что описанные решения пополнят ваш арсенал инструментов и трюков для решения проблем.


Читать дальше →
Total votes 29: ↑26 and ↓3+23
Comments5

«Как перестать гореть», или о проблемах входящего потока информации современного человека

Reading time12 min
Views52K


В 20-м веке жизнь и работа людей шли по плану. На работе (упрощая — можно представить завод) у людей имелся четкий план на неделю, на месяц, на год вперед. Упрощая: тебе надо выпилить 20 деталей. Никто не придет и не скажет, что деталей теперь надо выпилить 37, а кроме того, написать статью с размышлениями о том, почему форма этих деталей именно такая — и желательно вчера.

В обыденной жизнь людей было примерно так же: форс-мажор был реальным форс-мажором. Нет сотовых телефонов, тебе не может позвонить друг и попросить «срочно приехать помочь решить проблему», ты живешь на одном месте практически всю жизнь («переезд как пожар»), а помочь родителям вообще думал «приехать в декабре на неделю».

В этих условиях сформировался культурный код, где ты чувствуешь себя удовлетворенным, если выполнил все задачи. И это было реально. Невыполнение всех задач — отклонение от нормы.
Сейчас все иначе. Орудием труда стал интеллект, и в рабочих процессах необходимо его использовать в разных ипостасях. Современный менеджер (особенно топ-менеджер) проходит через десятки задач разного типа в течение дня. А главное — управлять количеством «входящих сообщений» человек не может. Новые задачи могут отменить старые, изменить их приоритет, изменить саму постановку старых задач. В этих условиях сформировать заранее план и потом его выполнять поэтапно практически невозможно. Ты не можешь на прилетевшую задачу «у нас срочный запрос от налоговой, надо ответить сегодня, иначе штраф» сказать «запланирую на следующую неделю».

Как с этим жить — чтобы оставалось время на жизнь вне работы? И можно ли применить какие-то рабочие алгоритмы менеджмента в повседневной, бытовой жизни? 3 месяца назад я кардинальным образом поменял всю систему постановки задач и контроля за ними. Хочу рассказать, как я к этому пришёл и что в итоге получилось. Пьеса будет в 2 частях: в первой — немножко про, если так можно выразиться, идеологию. А вторая — целиком про практику.
Читать дальше →
Total votes 68: ↑65 and ↓3+62
Comments42

Не ешь аспирин

Reading time13 min
Views79K
Жил на свете такой человек – Стивен Кови. Однажды он решил написать книгу о личной эффективности. Теперь эту книгу знают все, она называется «Семь навыков высокоэффективных людей». Она считается классикой, постоянно переиздается во всех мыслимых странах мира, за годы существования продано несколько десятков миллионов экземпляров. Сам Стивен Кови настолько разобрался в личной эффективности, что его личными консультациями не преминули воспользоваться несколько президентов, в т.ч. США.

Книжка хорошая, объемная и вдохновляющая. Уроки и принципы, изложенные в ней, часто встречаются у более поздних авторов книг и курсов. Ссылки, правда, забывают сделать, ну да ладно.

Но я не про книгу хочу поговорить, а про неожиданное открытие, которое сделал Стивен Кови, когда ее писал. Он это явление назвал «социальный аспирин».
Читать дальше →
Total votes 162: ↑130 and ↓32+98
Comments133

Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks

Reading time6 min
Views19K


Несмотря на то, что в интернете существует множество источников свободного программного обеспечения для машинного обучения, Github остается важным центром обмена информацией для всех типов инструментов с открытым исходным кодом, используемых в сообществе специалистов по машинному обучению и анализу данных.

В этой подборке собраны репозитории по машинному обучению, датасетам и Jupyter Notebooks, ранжированные по количеству звезд. В предыдущей части мы рассказывали о популярных репозиториях для изучения работ по визуализации данных и глубокому обучению.
Читать дальше →
Total votes 47: ↑45 and ↓2+43
Comments1

12 вопросов, которые стоит задать потенциальным работодателям

Reading time8 min
Views17K

Я только что завершил шестинедельный процесс трудоустройства на должность middle-senior разработчика на рынке, где сейчас ведется активная охота за талантами (Амстердам). Иными словами, я побывал на куче собеседований. Чтобы аккуратно разведать, какие компании мне больше всего подходят, я старался задавать побольше вопросов. Тут нужно найти правильный баланс, исходя из своих потребностей и того, кто с вами общается.

Если вы джуниор в поисках работы, то вы, возможно, придете к выводу, что вас на самом-то деле мало интересует, что вам ответят на все приведенные ниже вопросы — вам бы хоть куда-нибудь устроиться. Но даже в этом случае, решите для себя, какие моменты для вас будут стоп-сигналами и спрашивайте с расчетом на то, чтобы всплыла нужная информация. Если есть что-то, что может вас заставить отказаться от вакансии, лучше узнать об этом до того, как примете предложение о работе.
Читать дальше →
Total votes 26: ↑25 and ↓1+24
Comments10

«Умный дом» — переосмысление

Reading time10 min
Views58K
На Хабре уже было несколько публикаций о том, как айтишники строят себе дома и что из этого получается.

Хочу поделиться своим опытом («тестовый проект»).

Постройка собственного дома (особенно, если еще и своими силами) — крайне объемный кусок информации, поэтому я свое повествование буду вести больше про ИТ-системы (мы же все-таки сейчас на Хабре, а не на ФХ, хотя там тема тоже есть).
Читать дальше →
Total votes 50: ↑48 and ↓2+46
Comments193

Модульные боты-муравьи с памятью

Reading time15 min
Views19K

Одним из проектов, которые я долго мечтал реализовать, были модульные боты задач с памятью. Конечная цель проекта заключалась в создании мира с существами, способными действовать независимо и коллективно.

Раньше я уже программировал генераторы миров, поэтому хотел заселить мир простыми ботами, использующими ИИ, определяющим их поведение и взаимодействия. Таким образом, благодаря влиянию акторов на мир можно было увеличить его детализацию.

Я уже реализовал базовую систему конвейера задач на Javascript (потому что это упростило мою жизнь), но мне хотелось чего-то более надёжного и масштабируемого, поэтому этот проект я написал на C++. На это меня сподвиг конкурс по реализации процедурного сада в сабреддите /r/proceduralgeneration (отсюда и соответствующая тема).

В моей системе симуляция состоит из трёх компонентов: мира, населения и связывающих их набора действий. Следовательно, мне нужно было создать три модели, о которых я расскажу в этой статье.

Для увеличения сложности я хотел, чтобы акторы сохраняли информацию о предыдущем опыте взаимодействия с миром и использовали знания об этих взаимодействиях в будущих действиях.
Читать дальше →
Total votes 55: ↑54 and ↓1+53
Comments11

Обучение моделей TensorFlow с помощью Службы машинного обучения Azure

Reading time5 min
Views3.2K

Для глубокого обучения нейронных сетей (DNN) с помощью TensorFlow служба «Машинное обучение Azure» предоставляет пользовательский класс TensorFlow средства оценки Estimator. Средство оценки TensorFlow в пакете Azure SDK (не следует путать с классом tf.estimator.Estimator) позволяет легко отправлять задания обучения TensorFlow для одноузловых и распределенных запусков в вычислительных ресурсах Azure.


Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments2

Распознавание номеров. Как мы получили 97% точности для Украинских номеров. Часть 2

Reading time7 min
Views60K
Nomeroff Net numberplate detection OCR example


Продолжаем рассказ о том как распознавать номерные знаки для тех кто умеет писать приложение «hello world» на python-е! В этой части научимся тренировать модели, которые ищут регион заданного объекта, а также узнаем как написать простенькую RNN-сеть, которая будет справляться с чтением номера лучше чем некоторые коммерческие аналоги.
В этой части я расскажу как тренировать Nomeroff Net под Ваши данные, как получить высокое качество распознавания, как настроить поддержку GPU и ускорить все на порядок…
Читать дальше →
Total votes 48: ↑43 and ↓5+38
Comments100

Простой Telegram-бот на Python за 30 минут

Reading time4 min
Views1.2M
На Хабре, да и не только, про ботов рассказано уже так много, что даже слишком. Но заинтересовавшись пару недель назад данной темой, найти нормальный материал у меня так и не вышло: все статьи были либо для совсем чайников и ограничивались отправкой сообщения в ответ на сообщение пользователя, либо были неактуальны. Это и подтолкнуло меня на написание статьи, которая бы объяснила такому же новичку, как я, как написать и запустить более-менее осмысленного бота (с возможностью расширения функциональности).

Читать дальше →
Total votes 35: ↑29 and ↓6+23
Comments22

Фильму «Офисное пространство» 20 лет: как он изменил наши рабочие места

Reading time6 min
Views21K

В 1999 году фильм мастерски спародировал одновременно рутинную и нелепую офисную жизнь. Что с тех пор поменялось?




"Офисное пространство" стал характерным фильмом, высмеивающим корпоративную банальность. В феврале ему исполнилось 20 лет, и если пересмотреть его сегодня, становится видно, насколько изменилась офисная культура – и насколько осталась прежней.

В фильме, автором сценария и режиссёром которого был Майк Джадж, рассказывается история Питера Гиббонса, молодого программиста из фирмы с обобщённым названием Initech. У него маленькая зарплата, он чувствует себя сломленным и считает свою работу бессмысленной, и разочарование в работе в итоге вдохновляет его на бунт против его начальников и корпоративной Америки.
Читать дальше →
Total votes 42: ↑39 and ↓3+36
Comments16

Добро пожаловать в Кремниевую долину

Reading time6 min
Views41K
image

Как я стала частью этой системы

Мне повезло, я живу в Кремниевой долине. Здесь я родилась, выросла и в настоящее время работаю продакт-менеджером в Google. Здесь отличная погода, низкий уровень преступности, и хорошее финансирование у школ. У взрослых есть хорошая непыльная работа, а детям открыты миллионы возможностей. Здесь люди наслаждаются суширрито по 15 долларов и запивают их 6-долларовым кофе третьей волны. Улицы заполнены теслами и беспилотными автомобилями.
Читать дальше →
Total votes 120: ↑94 and ↓26+68
Comments197

Виртуальный Джинн на 8 марта — или как удивить своих сотрудниц в самый весенний день

Reading time5 min
Views15K


Завтра по всему миру мы будем отмечать самый женский день в году. И это прекрасно! Но это значит, что сегодня — день, когда мы поздравляем наших дорогих сотрудниц. И каждый год мы (мужская часть трудового коллектива) думаем, как бы сделать это по-особенному… Цветы, вечерний банкет — все эти милые банальности приятны, но в 21-м веке всем хочется чего-то технологичненького и современненького.

Вот мы в Just AI думали-думали и таки придумали! Под катом — уже готовый туториал, который вы тоже можете запустить прямо сейчас и превратить обычное 8 марта в море позитива!
Читать дальше →
Total votes 21: ↑19 and ↓2+17
Comments7

Удалённая работа у здорового (?) работодателя

Reading time7 min
Views32K
В 2019 году удаленная работа в ИТ уже давно никого не удивляет — она ​​воспринимается как один из доступных способов организации команды. Почитать об этом можно в восторженных отзывах работников, слегка хвастливых рассказах работодателей, скучных аналитических статьях рекрутеров и даже в совершенно неожиданных местах (Cosmopolitan не даст соврать). Однако найти информацию о причинах, побудивших конкретного работодателя начать экспериментировать, и честных результатах уже гораздо сложнее — а ведь именно на эти данные хочется опереться, раздумывая над внедрением нововведений в свою команду. Эта статья призвана попытаться заполнить этот пробел.
Читать дальше →
Total votes 78: ↑77 and ↓1+76
Comments140

Пять советов о том, как научиться спокойно принимать обратную связь на работе

Reading time6 min
Views20K


Выслушивать замечания всегда нелегко. Вы тратите время и прикладываете огромные усилия, а потом кто-то уничтожает своей критикой все результаты работы.

Когда всякий результат дается кровью и потом, я стараюсь, чтобы «крови» было поменьше: избегаю того, что может быть неприятным, и стараюсь это предотвратить. Но если речь об обратной связи, сто́ит немножко потерпеть — в этом случае дискомфорт я люблю (ну или стараюсь любить).

Не поймите превратно: критика никогда не безболезненна. Это и беспокойство, и страх, и тревога.

«Ко мне станут относиться хуже?»
«Если мой код плох, не подумают ли, что я недостаточно умен?»
«О нет! Теперь все знают, что я в седьмом классе завалил тест по истории».


Не волнуйтесь — такая реакция совершенно естественна!

По словам Кимберли Лейтч, лицензированного клинического социального работника из компании Talkspace, получение обратной связи вызывает стрессовую реакцию — из-за суждения, которое часто исходит от человека, обладающего властными полномочиями.

Получается, если это естественный ответ организма на обратную связь и критику, то мы обречены? Как можно преодолеть такую инстинктивную реакцию?

Я не буду приукрашивать правду и обманывать — это сложно, но возможно: столкнувшись с надвигающимся страхом критики, вполне можно сохранять полный контроль над собой. Приведенные далее пять советов помогут отложить свой психологический щит и научиться принимать отрицательные и положительные замечания с распростертыми объятиями.

Переведено в Alconost
Читать дальше →
Total votes 27: ↑20 and ↓7+13
Comments13
1
23 ...

Information

Rating
Does not participate
Location
Нижний Новгород, Нижегородская обл., Россия
Date of birth
Registered
Activity