Pull to refresh
0
0
Send message

Как сделать проект по распознаванию рукописных цифр с дообучением онлайн. Гайд для не совсем начинающих

Reading time57 min
Views34K
Привет, Хабр! В последнее время машинное обучение и data science в целом приобретают все большую популярность. Постоянно появляются новые библиотеки и для тренировки моделей машинного обучения может потребоваться совсем немного кода. В такой ситуации можно забыть, что машинное обучение — не самоцель, а инструмент для решения какой-либо задачи. Мало сделать работающую модель, не менее важно качественно презентовать результаты анализа или сделать работающий продукт.

Я хотел бы рассказать о том, как создал проект по распознаванию рукописного ввода цифр с моделями, которые дообучаются на нарисованных пользователями цифрах. Используется две модели: простая нейронная сеть (FNN) на чистом numpy и сверточная сеть (CNN) на Tensorflow. Вы сможете узнать, как сделать практически с нуля следующее:

  • создать простой сайт с использованием Flask и Bootstrap;
  • разместить его на платформе Heroku;
  • реализовать сохранение и загрузку данных с помощью облака Amazon s3;
  • собрать собственный датасет;
  • натренировать модели машинного обучения (FNN и CNN);
  • сделать возможность дообучения этих моделей;
  • сделать сайт, который сможет распознавать нарисованные изображения;

Для полного понимания проекта желательно знать как работает deep learning для распознавания изображений, иметь базовые знания о Flask и немного разбираться в HTML, JS и CSS.
Читать дальше →
Total votes 27: ↑26 and ↓1+25
Comments9

Обзор 98 одноплатных компьютеров. Часть 1

Reading time14 min
Views137K
Часть 1
Часть 2
Часть 3
Часть 4

От переводчика: Предлагаю вашему вниманию перевод отчёта по одноплатным компьютерам, который был опубликован на сайте LinuxGizmos.com. В отчёт включены краткие описания 98 плат стоимостью до 200 долларов. В отчёте такие платы называют «хакерскими», чтобы подчеркнуть их пригодность для различного творчества.
Так как объем информации весьма велик, я разбил перевод на несколько частей.

Также хочу предупредить, что под катом очень много картинок!

Итак, часть 1.



КДПВ

В течение последнего года, LinuxGizmos сообщал о дюжинах новых одноплатных компьютерах с открытыми спецификациями, дружественных к разработчикам и «хакерам», на которых можно запустить Linux и Android. Мы добавили их в наш каталог вместе со старыми платами. Платы, попавшие в наш обзор, стоят меньше 200 долларов без учёта пересылки, доступны для доставки в июле этого года, и удовлетворяют нашим (весьма гибким) критериям открытости.
Читать дальше →
Total votes 29: ↑28 and ↓1+27
Comments34

Microsoft открывает систему AirSim для тренировки ИИ для управления беспилотниками

Reading time4 min
Views7.7K


Люди и животные при движении ориентируются относительно быстро, избегая препятствий в почти что рефлекторно. Кроме того, если человек не может сходу преодолеть очередную проблему на своем пути — например, открыть дверь с необычной ручкой, то за несколько секунд или минут обдумывания проблема решается и дверь, как правило, поддается. В следующий раз эта ручка уже не составит проблем. Речь, конечно, не только о дверях и ручках, а о решении подобных ситуаций в целом.

Кроме того, люди (равно, как и некоторые животные) могут предсказать, какое препятствие появится в течение последующих пары секунд или даже минут. Видя на своем пути киоск с газетами, человек понимает, что через 10-20 секунд его нужно обогнуть. С роботами (включая беспилотные автомобили и летающие аппараты) все сложнее. Для того, чтобы они умели решать свои проблемы самостоятельно, их нужно обучать. Корпорация Microsoft в числе прочих организаций занимается этой проблематикой и делает кое-какие успехи.
Total votes 15: ↑13 and ↓2+11
Comments14

Вероятностное улучшение фотографий по нескольким пикселям: модель Google Brain

Reading time4 min
Views26K

Пример работы нейросети после обучения на базе лиц знаменитостей. Слева — исходный набор изображений 8×8 пикселей на входе нейросети, в центре — результат интерполяции до 32×32 пикселей по предсказанию модели. Справа — реальные фотографии лиц знаменитостей, уменьшенные до 32×32, с которых были получены образцы для левой колонки

Можно ли повышать разрешение фотографий до бесконечности? Можно ли генерировать правдоподобные картины на основе 64 пикселей? Логика подсказывает, что это невозможно. Новая нейросеть от Google Brain считает иначе. Она действительно повышает разрешение фотографий до невероятного уровня.

Такое «сверхповышение» разрешения не является восстановлением исходного изображения по копии низкого разрешения. Это синтез правдоподобной фотографии, которая вероятно могла быть исходным изображением. Это вероятностный процесс.
Трафик
Total votes 42: ↑37 and ↓5+32
Comments72

Нейросеть научилась определять возраст мозга по МРТ

Reading time4 min
Views8.6K
image

С возрастом когнитивные способности человека снижаются. Нейробиологам давно известно, что это снижение коррелирует с физическими изменениями в головном мозге. Увидеть первые признаки старения или даже определить возраст мозга можно с помощью МРТ, а разница между возрастом мозга и хронологическим возрастом человека помогает выявить нейродегенеративные заболевания на начальных стадиях.

Такой анализ зачастую является очень долгим, поскольку данные МРТ нужно детально обработать, прежде чем запустить автоматизированные процессы распознавания старения: удалить с изображения кости черепа, разделить серое и белое вещество и другие ткани, а также удалить артефакты изображения, включая различные способы сглаживания изображения. Вся обработка может занять более 24 часов, и это препятствие для врачей, надеющихся принимать во внимание возраст головного мозга пациента в процессе клинической диагностики. Ученые из Королевского колледжа в Лондоне нашли способ ускорить этот процесс.
Читать дальше →
Total votes 12: ↑11 and ↓1+10
Comments5

Проект FlyAI: искусственный интеллект обеспечивает существование колонии мух

Reading time3 min
Views13K


Вот уже месяц жизнь колонии мух, расположенной в городе Дулут, Миннесота, США, полностью зависит от работы программного обеспечения. Речь идет о самообучающейся слабой форме ИИ, которая целиком и полностью обеспечивает жизнь насекомых внутри специального сосуда. В частности, ИИ предоставляет мухам питание (сухое молоко с сахаром) и воду.

Жизнь насекомых зависит от того, насколько корректно компьютер идентифицирует объект, находящийся перед камерами. Если система определит этот объект, как муху и решит, что насекомым нужна подпитка, они ее получат. В случае ошибки мухи не получат питания и воды и будут страдать (насколько это возможно для мух) от голода и жажды в течение длительного времени. Сам проект получил название FlyAI, это некая пародия на управляемое при помощи компьютера поселение людей. Во всяком случае, так все это видит автор проекта.
Total votes 22: ↑21 and ↓1+20
Comments11

DeepMind открыло бесплатный доступ к виртуальной среде машинного обучения

Reading time4 min
Views19K


На днях представители подразделения DeepMind (сейчас входит в состав холдинга Alphabet) сообщили о предоставлении бесплатного доступа разработчикам к исходному коду платформы DeepMind Lab. Это сервис машинного обучения на базе Quake III, который предназначен для обучения искусственного интеллекта. А именно — научиться решать задачи в трехмерном пространстве без вмешательства человека. Основой платформы является движок игры Quake III Arena.

Внутри игрового мира ИИ получает форму сферы и возможность летать, изучая окружающее пространство. Цель, которую ставят перед собой разработчики — научить слабую форму ИИ «понимать», что происходит и реагировать на различные ситуации, происходящие в виртуальном мире. «Персонаж» может выполнять ряд действий, перемещаться по лабиринту, изучать ближайшее окружение.
Total votes 15: ↑15 and ↓0+15
Comments13

Аугментация (augmentation, “раздутие”) данных для обучения нейронной сети на примере печатных символов

Reading time8 min
Views50K

На хабре уже есть множество статей, посвященных распознаванию образов методами обучения машин, таких как нейронные сети, машины опорных векторов, случайные деревья. Все они требуют значительного количества примеров для обучения и настройки параметров. Создание обучающей и тестовой баз изображений адекватного объема для них — весьма нетривиальная задача. Причем речь идет не о технических трудностях сбора и хранения миллиона изображений, а об извечной ситуации, когда на первом этапе разработки системы у вас есть полторы картинки. Кроме того, следует понимать, что состав обучающей базы может влиять на качество получающейся системы распознавания больше, чем все остальные факторы. Несмотря на это, в большинстве статей этот немаловажный этап разработки полностью опущен.

Если вам интересно узнать про все это — добро пожаловать под кат.
Читать дальше →
Total votes 13: ↑11 and ↓2+9
Comments11

Машинный слух. Нейросеть SoundNet обучили распознавать объекты по звуку

Reading time3 min
Views15K

Слева: попытка распознать место действия и объекты только по звуку. Справа: реальный источник звука

В последнее время нейросети добились немалого прогресса в области распознавания объектов и сцен на видео. Такие достижения стали возможны благодаря обучению на массивных наборах данных с размеченными объектами (например, см. работу "Learning deep features for scene recognition using places database". NIPS, 2014). Глядя на фотографии или видеоролики, компьютер может практически безошибочно определить место действия, выбрав одно подходящее описание из 401 сцены, например, «захламлённая кухня», «стильная кухня», «спальня подростка» и т.д. А вот в области понимания звуков нейросети пока не демонстрировали такого прогресса. Специалисты из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института исправили этот недостаток, разработав систему машинного обучения SoundNet.
Читать дальше →
Total votes 19: ↑18 and ↓1+17
Comments5

[ В закладки ] Зоопарк архитектур нейронных сетей. Часть 1

Reading time10 min
Views92K


Это первая часть, вот вторая.
За всеми архитектурами нейронных сетей, которые то и дело возникают последнее время, уследить непросто. Даже понимание всех аббревиатур, которыми бросаются профессионалы, поначалу может показаться невыполнимой задачей.

Поэтому я решил составить шпаргалку по таким архитектурам. Большинство из них — нейронные сети, но некоторые — звери иной породы. Хотя все эти архитектуры подаются как новейшие и уникальные, когда я изобразил их структуру, внутренние связи стали намного понятнее.
Читать дальше →
Total votes 51: ↑50 and ↓1+49
Comments14

Нейросеть предсказывает 1 секунду будущего по фотографии

Reading time4 min
Views29K

Генеративная состязательная нейросеть, оптимизированная для видеообработки, способна показать, что случится в следующую секунду

Умение предсказать ближайшее будущее — важный навык для любого человека. Скорости человеческой реакции недостаточно, чтобы в реальном времени реагировать на окружающие события, поэтому мы предсказываем их в постоянном режиме с вероятностью, близкой к 100%. Спортсмены знают, куда полетит мяч. Бизнесмены знают, когда собеседник протянет руку для рукопожатия. Мы предсказываем траекторию автомобилей на дороге и ближайшие действия людей по выражению лица и предмету в руках.

Искусственному интеллекту тоже необходимо знать будущее. Он должен понимать, какие события приведут к какому результату, чтобы избежать очевидных оплошностей и планировать свои действия. Группа исследователей из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института обучает нейросеть предсказывать будущее, тренируя её на миллионах видеороликов.
Читать дальше →
Total votes 43: ↑35 and ↓8+27
Comments34

DeepMind набирает специалистов для защиты от сильного ИИ

Reading time4 min
Views14K


Лондонская научно-исследовательская компания DeepMind (собственность Google) специализируется на передовых разработках Искусственного интеллекта, который в перспективе может развиться в форму сильного Искусственного интеллекта. Согласно теории, сильный ИИ, возможно, будет способен мыслить и осознавать себя, сопереживать (чувствовать). При этом он будет обладать следующими свойствами.

  • Принятие решений, использование стратегий, решение головоломок и действия в условиях неопределенности.
  • Представление знаний, включая общее представление о реальности.
  • Планирование.
  • Обучение.
  • Общение на естественном языке.
  • Объединение этих способностей для достижения общих целей.

Очевидно, что программа с такой функциональностью может действовать непредсказуемо для разработчиков. Собственно, она специально будет запрограммирована на автономную работу. Поэтому очень важно заранее предусмотреть необходимые меры безопасности.
Total votes 16: ↑15 and ↓1+14
Comments111

Нейросеть Google Translate составила единую базу смыслов человеческих слов

Reading time4 min
Views97K

«Универсальный язык» нейронной сети Google Neural Machine Translation (GNMT). На левой иллюстрации разными цветами показаны кластеры значений каждого слова, справа внизу — смыслы слова, полученные для него из разных человеческих языков: английского, корейского и японского

За последние десять лет система автоматического перевода текстов Google Translate выросла с нескольких языков до 103, а сейчас она переводит 140 млрд слов ежедневно. В сентябре сообщалось, что разработчики приняли решение полностью перевести сервис Google Translate на глубинное обучение. У этого подхода есть много преимуществ. Перевод становится гораздо лучше. Более того, система может переводить тексты на языки, для которых никогда не видела переводов, то есть не обучалась специально для этой языковой пары.
Читать дальше →
Total votes 55: ↑51 and ↓4+47
Comments164

Оптимизация нейросетевой платформы Caffe для архитектуры Intel

Reading time22 min
Views9.8K
Современные программы, претендующие на звание эффективных, должны учитывать особенности аппаратного обеспечения, на котором они будут исполняться. В частности, речь идёт о многоядерных процессорах, например, таких, как Intel Xeon и Intel Xeon Phi, о больших размерах кэш-памяти, о наборах инструкций, скажем, Intel AVX2 и Intel AVX-512, позволяющих повысить производительность вычислений.


Еле удержались, чтобы не пошутить про руссиано)

Вот, например, Caffe – популярная платформа для разработки нейронных сетей глубокого обучения. Её создали в Berkley Vision and Learning Center (BVLC), она пришлась по душе сообществу независимых разработчиков, которые вносят посильный вклад в её развитие. Платформа живёт и развивается, доказательство тому – статистика на странице проекта в GitHub. Caffe называют «быстрой открытой платформой для глубокого обучения». Можно ли ускорить такой вот «быстрый» набор инструментов? Задавшись этим вопросом, мы решили оптимизировать Caffe для архитектуры Intel.
Читать дальше →
Total votes 26: ↑25 and ↓1+24
Comments2

Нейросеть читает по губам 46,8% слов по телевизору, человек — только 12,4%

Reading time4 min
Views10K

Кадры четырёх передач, по которым обучалась программа, а также слово "afternoon", произнесённое двумя разными дикторами

Две недели назад рассказывалось о нейросети LipNet, которая показала рекордное качество 93,4% распознавания человеческой речи по губам. Уже тогда предполагалось множество применений для такого рода компьютерных систем: медицинские слуховые аппараты нового поколения с распознаванием речи, системы для беззвучных лекций в публичных местах, биометрическая идентификация, системы скрытой передачи информации для шпионажа, распознавание речи по видеоряду с камер наблюдения и т.д. И вот сейчас специалисты из Оксфордского университета совместно с сотрудником Google DeepMind поведали о собственных разработках в этой области.
Читать дальше →
Total votes 20: ↑19 and ↓1+18
Comments17

Как искусственный интеллект меняет рынок чипов

Reading time4 min
Views13K


Менее, чем за 12 часов, три разных человека предложили мне деньги за то, чтобы я час разговаривал с незнакомым человеком по телефону.

Все они сказали, что им понравилась моя статья про то, как Google создаёт новый компьютерный чип для ИИ, и все они упрашивали меня обсудить эту тему с их клиентом. Каждый описал своего клиента как менеджера большого хедж-фонда, но не назвал его имени.

Запросы пришли от так называемых экспертных сетей – исследовательских фирм, связывающих инвесторов с людьми, которые могут помочь первым понять определённые рынки и обеспечить конкурентное преимущество (иногда, судя по всему, через инсайдерскую информацию). Эти экспертные сети желали, чтобы я объяснил, как ИИ-процессор от Google повлияет на рынок чипов. Но сначала они потребовали подписать для них соглашение о неразглашении. Я отказался.
Читать дальше →
Total votes 23: ↑19 and ↓4+15
Comments13

Нейросеть LipNet читает по губам с точностью 93,4%

Reading time4 min
Views35K

Командир Дэйв Боумен и второй пилот Фрэнк Пул, не доверяя компьютеру, решили отключить его от управления кораблём. Для этого они совещаются в звукоизолированной комнате, но HAL 9000 читает их разговор по губам. Кадр из фильма «Космическая одиссея 2001 года»

Чтение по губам играет важную роль в общении. Ещё эксперименты 1976 года показали, что люди «слышат» совершенно другие фонемы, если наложить неправильный звук на движение губ (см. "Hearing lips and seeing voices", Nature 264, 746-748, 23 December 1976, doi: 10.1038/264746a0).

С практической точки зрения чтение по губам — важный и полезный навык. Можно понимать собеседника не выключая музыку в наушниках, читать разговоры всех людей в поле зрения (например, всех пассажиров в зале ожидания), прослушивать людей в бинокль или подзорную трубу. Область применения навыка очень широка. Освоивший его профессионал без труда найдёт высокооплачиваемую работу. Например, в сфере безопасности или конкурентной разведке.
Читать дальше →
Total votes 25: ↑24 and ↓1+23
Comments9

Toshiba представила нейроморфный процессор с низким энергопотреблением

Reading time4 min
Views11K

Японская компания Toshiba заявила о своем вкладе в развитие Интернета вещей и анализа больших данных. На этот раз она разработала нейроморфный процессор с очень низким энергопотреблением для нейронных сетей с временной задержкой (TDNN). Эта сеть состоит из большого количества модулей, в которых используется не цифровая, а аналоговая обработка данных.
Читать дальше →
Total votes 14: ↑13 and ↓1+12
Comments20

Исследователи из MIT научили нейронные сети аргументировать свои решения

Reading time9 min
Views20K


В последнее время нейросети показывали себя прекрасно во многих прикладных задачах. Они искали закономерности в данных, которые использовались для классификации и прогнозирования. Нейросети с кажущейся легкостью распознавали объекты в цифровых изображениях или, «прочитав» отрывок текста, резюмировали его тему. Однако никто не мог рассказать, какие преобразования проходили вводимые данные для получения того или иного решения. Даже авторы сетей владели данными на входе и информацией на выходе. И если рассматривать визуальные данные, то иногда даже можно автоматизировать опыты по выяснению, на какие составляющие изображений реагирует нейросеть. А с системами обработки текста процесс более сложный. В чем сложность понимания человеческого языка машиной вы можете прочитать ниже.

В лаборатории CSAIL (лаборатории информатики и искусственного интеллекта) Массачусетского технологического института исследователи нейросетей сделали так, что теперь «виртуальный мозг» в дополнение к решению выдает и его обоснование. Они обучали два модуля одной нейросети одновременно. Данными для обучения были текстовые отрывки. Результаты порадовали: компьютер думал, как и человек, в 95% случаев. И все же, прежде, чем запустить новый метод нейросетей в активное пользование, потребуется дополнительная настройка и доработка.

Почему картинки обрабатывать легче, чем текст? Можно ли будет беспилотным автомобилям ездить свободно, позволительно ли заменять живого доктора запрограммированным интеллектом, внутри которого бессчетное количество нейронов? Приближает ли это нас к сознательным машинам в реальной жизни? Компьютерные модели нейронных сетей ведут себя так же, как и человеческий мозг, но им пока не разрешали принимать решения, затрагивающие жизни людей. Чтобы изменить это, специалистам понадобилось время и теперь мы можем узнать, как нейросеть приходит к итоговым значениям.
Читать дальше →
Total votes 25: ↑22 and ↓3+19
Comments45

Глубокое обучение для новичков: распознаем рукописные цифры

Reading time11 min
Views103K

Представляем первую статью в серии, задуманной, чтобы помочь быстро разобраться в технологии глубокого обучения; мы будем двигаться от базовых принципов к нетривиальным особенностям с целью получить достойную производительность на двух наборах данных: MNIST (классификация рукописных цифр) и CIFAR-10 (классификация небольших изображений по десяти классам: самолет, автомобиль, птица, кошка, олень, собака, лягушка, лошадь, корабль и грузовик).



Читать дальше →
Total votes 39: ↑35 and ↓4+31
Comments5
1
23 ...

Information

Rating
Does not participate
Registered
Activity