Articles / Bookmarks / Profile of DaylightIsBurning / Habr

How to become an author

@DaylightIsBurning

User

Profile Publications 1Comments 2.6KBookmarks 163

boygenius Nov 29 2021 at 14:13

Обзор архитектуры AlphaFold 2

39 min

6.4K

Algorithms*Machine learning*Open Data Science corporate blogBiotechnologiesArtificial Intelligence

В данном обзоре мы подробно рассмотрим нейронную сеть AlphaFold 2 от компании DeepMind, с помощью которой недавно был совершен прорыв в одной из важных задач биологии и медицины: определении трехмерной структуры белка по его аминокислотной последовательности.

В первых трех разделах обзора описывается задача, формат входных данных и общая архитектура AlphaFold 2. Далее, начиная с раздела «Input feature embeddings», описываются детали архитектуры. В разделе «Резюме» кратко суммируется основная информация из обзора.

Читать далее

+52

LuchS-lynx Sep 6 2021 at 15:53

Проброс видеокарты в ноутбуке. Laptop GPU Passthrough

10 min

22K

Configuring Linux*System administration*Virtualization*Video cardsLaptops

Tutorial

Technotext 2021

… или как из игрового ноутбука средствами виртуализации сохранить игровую систему!
Если Вы рассматриваете ноутбук/ПК не только как игровую станцию, а еще и как хост для виртуальных машин, но при этом иногда нужно поиграть/поработать с 3d, то это возможно!

Добро пожаловать под cut.

Читать дальше →

+22

skillfactory_school Nov 5 2020 at 16:36

21 канал на YouTube, где вы можете бесплатно изучить ИИ, машинное обучение и Data Science

5 min

25K

Python*Skillfactory corporate blogMachine learning*Artificial IntelligenceData Engineering*

Translation

Мы уже не раз делились в своем блоге полезными материалами для развития (их список можно найти в конце этого поста). Сегодня продолжаем это начинание и специально перед стартом новых потоков курсов по Data Analytics и Data Science представляем подборку YT-каналов по Data Science, искусственному интеллекту и машинному обучению, существование многих из которых неочевидно: например, представлен канал ArXiv Insights, посвящённый научным работам, и Google Cloud Platform.

Приятного чтения!

+17

ru_vds Sep 19 2020 at 16:16

Программисту. 10 ценных GitHub-репозиториев

3 min

44K

Website development*Programming*GitHub*RUVDS.com corporate blog

Translation

GitHub — это платформа, дающая программистам отличные инструменты для организации работы над кодом. Но в GitHub-репозиториях, помимо кода, можно найти массу ценных учебных материалов. Я, например, занимаюсь разработкой ПО и постоянно ищу репозитории, которые могут чем-то мне пригодиться. Вот 10 моих любимых GitHub-проектов.

Читать дальше →

+37

lucky_rydar Aug 15 2020 at 16:26

Boost.Compute или параллельные вычисления на GPU/CPU. Часть 1

4 min

7.5K

Tutorial

Вступление

Привет, Хабр!

По моим меркам я уже достаточно давно пишу код на C++, но до этого времени ещё не сталкивался с задачами, связанными с параллельными вычислениями. Я не увидел ни одной статьи о библиотеке Boost.Compute, поэтому эта статья будет именно о ней.

Читать дальше →

+10

pxeno Aug 12 2020 at 18:00

5 алгоритмов регрессии в машинном обучении, о которых вам следует знать

7 min

39K

VK corporate blogAlgorithms*Machine learning*

Translation

Источник: Vecteezy

Да, линейная регрессия не единственная

Быстренько назовите пять алгоритмов машинного обучения.

Вряд ли вы назовете много алгоритмов регрессии. В конце концов, единственным широко распространенным алгоритмом регрессии является линейная регрессия, главным образом из-за ее простоты. Однако линейная регрессия часто неприменима к реальным данным из-за слишком ограниченных возможностей и ограниченной свободы маневра. Ее часто используют только в качестве базовой модели для оценки и сравнения с новыми подходами в исследованиях.

Команда Mail.ru Cloud Solutions перевела статью, автор которой описывает 5 алгоритмов регрессии. Их стоит иметь в своем наборе инструментов наряду с популярными алгоритмами классификации, такими как SVM, дерево решений и нейронные сети.

Читать дальше →

+29

Bombaaste Aug 5 2020 at 15:56

Первые практические шаги в искусственном интеллекте для молодого специалиста

1 min

2.5K

IBM corporate blogCloud services*Artificial Intelligence

Здравствуйте, друзья!

Компания IBM предлагает вам поучаствовать в онлайн вебинаре.

6 августа (четверг)

Буквально за полтора часа у вас появится возможность разобраться в интересующих вас вопросах для дальнейшего создания собственных проектов.

13:00 Александр Гаврин, Solution IT Architect.
Мастер-класс по созданию чат-бота с подключением к телеграмму.
13:45 Александр Халиков, Технический эксперт IBM Automation.
Бизнес-логика в IBM Cloud Pak for Automation и как с ней работать

Описание
Как строить бизнес-логику без кода, развернуть приложение IBM Cloud Pak for Automation с нуля в облаке и подключить к нему ваши сервисы

Регистрация в облаке -
Вебинар

+2

skillfactory_school Jul 6 2020 at 17:02

Использование C и C++ в Data Science для новичков

11 min

21K

Programming*C++*C*Skillfactory corporate blogStudying in IT

Translation

Решим классическую задачу Data Science на C99 и C++11.

В то время как такие языки как Python и R становятся все более популярными для науки о данных, C и C++ могут быть сильным выбором для эффективного решения задач в Data Science. В этой статье мы будем использовать C99 и C++11 для написания программы, работающей с квартетом Энскомба, о котором я расскажу далее.

О своей мотивации к постоянному изучению языков я написал в статье, посвященной Python и GNU Octave, которую стоит прочитать. Все программы предназначены для командной строки, а не для графического интерфейса пользователя (GUI). Полные примеры доступны в репозитории polyglot_fit.

Задача по программированию

Программа, которую вы напишете в этой серии:

Считывает данные из CSV-файла
Интерполирует данные прямой линией (т.е., f(x)=m ⋅ x + q).
Записывает результат в файл изображения

Читать дальше →

+3

Vszlo93 Jul 3 2020 at 19:27

9 ключевых алгоритмов машинного обучения простым языком

15 min

81K

Algorithms*Big Data*Machine learning*

Привет, Хабр! Представляю вашему вниманию перевод статьи «9 Key Machine Learning Algorithms Explained in Plain English» автора Nick McCullum.

Машинное обучение (МО) уже меняет мир. Google использует МО предлагая и показывая ответы на поисковые запросы пользователей. Netflix использует его, чтобы рекомендовать вам фильмы на вечер. А Facebook использует его, чтобы предложить вам новых друзей, которых вы можете знать.

Машинное обучение никогда еще не было настолько важным и, в тоже время, настолько трудным для изучения. Эта область полна жаргонов, а количество разных алгоритмов МО растет с каждым годом.

Эта статья познакомит вас с фундаментальными концепциями в области машинного обучения. А конкретнее, мы обсудим основные концепции 9ти самых важных алгоритмов МО на сегодняшний день.

Читать дальше →

+12

azTotMD Jun 26 2020 at 14:27

Перенос молекулярной динамики на CUDA. Часть I: Основы

22 min

7.3K

Concurrent computing*Popular sciencePhysicsChemistry

Цель данной статьи – поднять вопросы распараллеливания кода программы для численного моделирования методом молекулярной динамики (МД) с помощью технологии CUDA. Зачем это вообще нужно, ведь уже существуют программные пакеты по МД, работающие в том числе и на CUDA? Дело в том, что я развиваю свою собственную концепцию «непостоянного поля сил» (non-constant force field), которая не реализована в существующих МД-программах.

Переделывать чужой код под эти нужды – довольно неблагодарное занятие, поэтому я взялся перенести уже написанный свой последовательный код и заодно поделится некоторыми размышлениями. Кроме того, это ответ на часто мелькающий здесь комментарий к статьям по CUDA, вроде этого .

Итак, что же такое молекулярная динамика? На Хабре уже есть несколько постов на эту тему, например здесь или вот здесь. Кратко, МД – это метод, позволяющий моделировать движение множества частиц (в том числе атомов, ионов, молекул) и рассчитывать коллективные свойства системы, зависящие от этого движения. Как это работает? Допустим для множества из N частиц заданы некоторые начальные координаты, скорости, массы и (главное!) законы взаимодействия между ними. Изменяем координаты согласно скоростям. На основе законов взаимодействия вычисляем силы, действующие между частицами. Раз знаем силу и массу – знаем ускорение. Поправляем скорость с учетом ускорения. И снова переходим к изменению координат. И так повторяем тысячи раз, пока ~~не надоест~~ не наберем достаточную статистику.

+29

skillfactory_school Jun 22 2020 at 11:30

Data Science «на пальцах». Статистика — это наука менять свой взгляд на вещи в условиях неопределенности

8 min

7.9K

Mathematics*Skillfactory corporate blogStudying in ITPopular science

Translation

Сотрудница Google объясняет статистику «на пальцах» для «гуманитариев», которые хотят стать Data Scientists.

Что такое статистика? Какой-то устаревший способ погрязнуть в данных. Ага. На 100% технически правильное определение. Теперь давайте посмотрим, что есть статистика как дисциплина.

Статистика — это наука о том, как менять свои представления.

Принимать решения, основываясь на фактах (параметрах), и так достаточно сложно, но — проклятие! — иногда у нас даже фактов нужных нет. Вместо этого то, что мы знаем (выборка), отличается от того, что мы хотели бы знать (совокупность). Вот что значит попасть в неопределенность.

Статистика — это наука о том, как менять свои решения в условиях неопределенности. Как вы можете думать? Выбирать действия по умолчанию или следовать по пути априорных убеждений. Но что делать, если у вас в голове чистый лист? Почитайте лучше это.

Байесианцы меняют свое мнение насчет представлений.

Байесовская статистика — это школа мысли, которая использует данные, чтобы обновить ваше представление. Байесианцы предпочитают сообщать результаты, используя доверительный интервал (два числа, которые интерпретируются как “Я считаю, что ответ находится где-то между этим и этим”).

Читать дальше →

0

PetrPavlovich May 19 2020 at 16:15

3 ловушки, в которые попадают начинающие Data Scientists

5 min

9.7K

Big Data*Mathematics*OTUS corporate blog

Вот что может случиться, если плохо знаешь математику.

Привет! Это Петр Лукьянченко, автор и руководитель онлайн-курсов «Математика для Data Science» в OTUS. Мы на занятиях любим все иллюстрировать кейсами, поэтому здесь тоже каждую проблему, с которой сталкиваются новички, буду начинать с примера.

История №1. Однажды, когда я еще работал тимлидом в отделе аналитики в Ламоде, мне показали выкладку, сделанную стажером. Он взял данные о том, сколько времени пользователь двигает мышкой в онлайн-магазине, и количество товаров, которые тот покупает. И построил между ними зависимость, где корреляция достигала почти 0,95. Проще говоря, он «доказал», что чем больше человек двигает мышкой, тем больше покупает. Обрадовавшись такому открытию, ребята сразу предложили модифицировать сайт магазина, чтобы заставить пользователей проводить больше времени, перемещая мышку, в расчете тем самым повысить продажи.

Что произошло и кому верить — цифрам или здравому смыслу, который подсказывает, что где-то здесь явно закралась ошибка?

Читать дальше →

+13

PetrPavlovich Jan 28 2020 at 19:53

Методы регрессионного анализа в Data Science

5 min

19K

Big Data*Mathematics*OTUS corporate blog

Накануне запуска курса «Математика для Data Science. Продвинутый курс» мы провели открытый вебинар на тему «Методы регрессионного анализа в Data Science». На нём познакомились с понятием линейных регрессий, изучили, где и как их можно применять на практике, а также узнали, какие темы и разделы математического анализа, линейной алгебры и теории вероятностей используются в этой области. Преподаватель — Петр Лукьянченко, преподаватель НИУ ВШЭ, руководитель технологических проектов.

Если мы говорим о математике в контексте Data Science, мы можем выделить три наиболее часто решаемые задачи (хотя задач, разумеется, больше):

Читать дальше →

+10

ValdikSS Nov 19 2019 at 06:15

Выявляем процессы с дисковой активностью в Linux

13 min

75K

Configuring Linux*System administration*

TL;DR: статья рассказывает об удобном, быстром и надежном способе определения Linux-программ, записывающих данные на диск, что помогает в выявлении большой или аномально частой нагрузки на дисковую подсистему, а также позволяет оценить накладные расходы файловой системы. Это особенно актуально для SSD в ПК, EMMC и Flash-памяти в одноплатных компьютерах.
В ходе написания статьи обнаружилось, что запись нескольких килобайт данных на файловую систему BTRFS приводит к записи 3 мегабайт реальных данных на диск.

Введение

«Ой, ерунда, ячейки памяти на современных SSD выйдут из строя через десятки лет обычного использования, не стоит об этом беспокоиться, и уж тем более переносить swap, виртуальные машины и папку профиля браузера на HDD» — типичный ответ на вопрос о надежности твердотельных накопителей c гарантированными ≈150 TBW. Если прикинуть, сколько типичное ПО может писать данных, то кажется, что 10-20 ГБ в сутки — уже большая цифра, пусть будет максимум 40 ГБ, куда уж больше. При таких цифрах ответ вполне разумен — нужно 10 лет, чтобы достичь гарантированных значений по количеству перезаписи ячеек, при 40 ГБ записанных данных ежедневно.
Однако за 6 лет я пользуюсь уже третьим SSD: у первого вышел из строя контроллер, а второй начал перемещать данные между ячейками несколько раз в день, что оборачивалось 30-секундными задержками в обслуживании записи.

После 7 месяцев использования нового SSD я решил проверить количество записанных данных, как их сообщает сам диск через SMART.
19.7 ТБ.
Всего за 7 месяцев я использовал 13% от гарантированного количества записанных данных, притом, что он настроен в соответствии с рекомендациями по выравниваю разделов и настройке ФС, swap у меня почти не используется, диски виртуальных машин размещены на HDD!

Читать дальше →

+115

antex_dom Nov 19 2019 at 18:13

Умный Дом — голосовое управление в три шага. Raspberry + HomeKit

4 min

25K

Development for Raspberry Pi*Smart House

Уважаемые друзья!

Мы решили поделиться с Вами бюджетным готовым решением, надеемся Вы оцените наши старания. Решение проверенное, рабочее. Во вложении можно скачать все файлы программ и настройки. Отдаем все бесплатно.

Умный дом для заказчика в основном «игрушка» которым можно похвастаться перед друзьями, но эти игры стоят не малых усилий интеграторам!

Речь пойдет о некоторых проблемах и решениях, связанных именно с освещением в доме, как о неотъемлемом блоке «умного дома».

Проблема 1: Если система централизованная, то в случае сбоя центрального контроллера программа не может управлять реле включения света.

Решение: Использовать распределенные модули управления с внутренней логикой, по нашему опыту одним из самых зарекомендовавших себя устройств в этом — программируемое реле ПР200 производства компании ОВЕН. Советуем использовать версию 220в, т.к. бытовые выключатели рассчитаны именно на это напряжение и будет меньше проблем с логической «единицей» на дискретном входе.

Это устройство имеет 8 каналов (реле) которые можно запрограммировать с использованием внутренней логики (как распределенную систему), дополнительно подключаются еще модули расширения 2шт. по 8 каналов, но тут есть риск остаться без большего количество управляемых светильников при выходе из строя самого ПР200 (8 каналов против 24), если соберетесь экономить, подумайте!

Несмотря на то, что программу выглядит просто, к ней мы шли несколько лет не по своей вине, компания Овен относительно недавно (после появления ПР200) добавила возможность управлять сетевой переменной как с наружи, так и изнутри.

Читать дальше →

+11

MaxRokatansky Nov 18 2019 at 15:47

Улучшаем квантовые вычисления, применяя классическое машинное обучение

5 min

3.3K

Machine learning*OTUS corporate blogQuantum technologies

Translation

В преддверии старта нового потока по курсу «Нейронные сети на Python» подготовили для вас перевод интересной статьи.

Одна из самых главных проблем в реализации нового поколения квантовых компьютеров заключается в их самой базовой конситуэнте: кубите. Кубиты могут взаимодействовать с любыми объектами в непосредственной близости, которые переносят энергию близко к их собственным блуждающим фотонам (т.е. нежелательные электромагнитные поля, фононы (механические колебания квантового устройства) или квантовые дефекты (неровности на поверхности чипа, появившиеся на этапе производства), которые могут непредсказуемо менять состояние кубитов самостоятельно.

Читать дальше →

+17

zverolyub Oct 4 2019 at 13:01

Как сервера договариваются друг с другом: алгоритм распределённого консенсуса Raft

9 min

30K

System Analysis and Design*Algorithms*Mathematics*Distributed systems*Dodo Engineering corporate blog

Когда кластеры достигают размеров в сотни, а иногда и тысячи машин, возникает вопрос о согласованности состояний серверов относительно друг друга. Алгоритм распределённого консенсуса Raft даёт самые строгие гарантии консистентности из возможных. В этой статье мы рассмотрим Raft с точки зрения инженера и постараемся ответить на вопросы «Как?» и «Почему?» он работает.

Читать дальше →

+31

darsus Sep 23 2019 at 13:17

Структура Data Science-проекта с высоты птичьего полета

6 min

11K

Data Mining*Big Data*

Как узнать наверняка, что внутри у колобка?
Может, ты его проглотишь, а внутри него река? © Таня Задорожная

Что такое Data Science сегодня, кажется, знают уже не только дети, но и домашние животные. Спроси любого котика, и он скажет: статистика, Python, R, BigData, машинное обучение, визуализация и много других слов, в зависимости от квалификации. Но не все котики, а также те, кто хочет стать специалистом по Data Science, знают, как именно устроен Data Science-проект, из каких этапов он состоит и как каждый из них влияет на конечный результат, насколько ресурсоемким является каждый из этапов проекта. Для ответа на эти вопросы как правило служит методология. Однако бОльшая часть обучающих курсов, посвященных Data Science, ничего не говорит о методологии, а просто более или менее последовательно раскрывает суть упомянутых выше технологий, а уж со структурой проекта каждый начинающий Data Scientist знакомится на собственном опыте (и граблях). Но лично я люблю ходить в лес с картой и компасом и мне нравится заранее представлять план маршрута, которым двигаешься. После некоторых поисков неплохую методологию мне удалось найти у IBM — известного производителя гайдов и методик по управлению чем угодно.

Читать дальше →

+12

blognetology Sep 11 2019 at 12:24

Что почитать и посмотреть для старта в Data Science: книги, словари и курсы

3 min

20K

Python*SQL*Нетология corporate blogStatistics in IT

Подборка ресурсов по математике, статистике и программированию для начинающих Дата Сайентистов. Ознакомьтесь с материалами, если вы планируете учиться на онлайн-курсах. Так вы опередите одногруппников, а заодно прокачаете полезный навык — изучать дополнительные материалы самостоятельно.

Читать дальше →

+15

izvolov Jul 30 2019 at 11:32

CMake и C++ — братья навек

11 min

78K

Open source*C++*IT Infrastructure*Designing and refactoring*Build automation*

Tutorial

Дружба навек

В процессе разработки я люблю менять компиляторы, режимы сборки, версии зависимостей, производить статический анализ, замерять производительность, собирать покрытие, генерировать документацию и т.д. И очень люблю CMake, потому что он позволяет мне делать всё то, что я хочу.

Многие ругают CMake, и часто заслуженно, но если разобраться, то не всё так плохо, а в последнее время очень даже неплохо, и направление развития вполне позитивное.

В данной заметке я хочу рассказать, как достаточно просто организовать заголовочную библиотеку на языке C++ в системе CMake, чтобы получить следующую функциональность:

Сборку;
Автозапуск тестов;
Замер покрытия кода;
Установку;
Автодокументирование;
Генерацию онлайн-песочницы;
Статический анализ.

Кто и так разбирается в плюсах и си-мейке может просто скачать шаблон проекта и начать им пользоваться.

Читать дальше →

+46

1

2 3 ...