Pull to refresh
2
0.4
Дмитрий Померанцев @pda0

User

Send message

Как учить большие языковые модели (теоретический туториал)

Level of difficultyMedium
Reading time1 min
Views4.7K

Обзорное видео с доклада об особенностях обучения LLM для тех, кто в теме ML/DL, но хочет расширить кругозор в области работы с большими языковыми моделями. На основе личного опыта и обзора множества научных статей и инструментов. Ссылка на презентацию прилагается.

Смотреть
Total votes 5: ↑5 and ↓0+5
Comments1

Зоозве: эволюция орбиты квазиспутника Венеры

Reading time3 min
Views2.7K

В этом видео показывается эволюция орбиты астероида Зоозве, квазиспутника Венеры, за 500 лет. Очень необычно выглядит его траектория относительно горячей планеты. Но гораздо сильнее вас удивит его траектория относительно Земли! Смотрите с субтитрами на русском языке.

Читать далее и смотреть видео с субтитрами
Total votes 20: ↑21.5 and ↓-1.5+23
Comments11

Rolldown — новый сборщик на основе Rollup

Reading time3 min
Views1.4K

Rollup - это лучший и наиболее полный сборщик на сегодняшний день. Он опередил свое время, став первопроходцем в таких ключевых концепциях, как tree shaking, и до сих пор ему нет равных в этом отношении. Когда Эван Ю представил Vite - Rollup был краеугольным камнем процесса сборки. Плагины Vite - это (по большей части) плагины Rollup.

Читать далее
Total votes 6: ↑4.5 and ↓1.5+3
Comments0

GigaAM: класс открытых моделей для обработки звучащей речи

Level of difficultyMedium
Reading time10 min
Views6.1K

Салют, Хабр! Ранее мы в SberDevices анонсировали предобученную на русском языке модель GigaAM (Giga Acoustic Model) и её дообученные состояния под распознавание речи (GigaAM-CTC) и определение эмоций (GigaAM-Emo). Сегодня же делимся с сообществом весами моделей и примерами использования.

Приглашаем под кат погрузиться в self-supervised learning для звучащей речи и оценить возможности предобученных моделей!

Читать далее
Total votes 23: ↑26.5 and ↓-3.5+30
Comments17

Shiva — Open Source проект на Rust для парсинга и генерации документов любого типа

Level of difficultyMedium
Reading time3 min
Views9.4K

Идея проекта возникла у меня во время работы над проектом поисковика документов. Существует такая библиотека, как Apache Tika, написанная на Java, которая умеет парсить документы различных типов. Чтобы мой поисковик работал, он должен уметь извлекать текст из документов разных типов (PDF, DOC, XLS, HTML, XML, JSON и т. д.). Сам поисковик я писал на Rust. Но, к сожалению, в мире Rust нет библиотеки, которая умела бы парсить документы всех типов.

Читать далее
Total votes 29: ↑26 and ↓3+23
Comments31

Логи в файлах: написал своё приложение для просмотра структурированных логов

Level of difficultyEasy
Reading time5 min
Views4.4K

Не каждому проекту нужно децентрализованное логирование. В моём случае, оказалось проще хранить логи в .json файлах формата Compact Log Event Format (CLEF). Мне нужно было простое и бесплатное решение для просмотра логов.

Читать далее
Total votes 10: ↑10.5 and ↓-0.5+11
Comments12

Автоматизированная торговля акциями с использованием глубокого обучения с подкреплением

Level of difficultyMedium
Reading time7 min
Views11K

В этой статье мы начинаем рассматривать практическое применение библиотеки FinRL для построения торгового агента. В предыдущей статье мы вкратце рассмотрели библиотеку FinRL, предоставляемые ей возможности моделирования рынка и обучения торговых агентов на основании алгоритмов обучения с подкреплением.

Это вторая статья нашего обучающего цикла и в ней мы построим примитивного агента, который анализирует поступающие данные о стоимости позиции на рынке и пытается предсказать будущую цену. Вполне очевидно, что результат такого примитивного агента будет весьма далек от приемлемого уровня, но этот шаг поможет нам создать модель рынка с помощью библиотеки FinRL, обучить агента и быть готовыми к построению более сложных и осмысленных моделей.

Читать далее
Total votes 23: ↑20 and ↓3+17
Comments12

Десять основных упражнений для предотвращения болей в спине у программистов

Reading time5 min
Views9.1K
Привет всем коллегам-программистам! Давайте углубимся в тему, которая имеет не меньшую важность, чем дебаггинг того дурацкого фрагмента кода, с которым вы столько воюете – тему вашего здоровья, а если конкретнее – предотвращения болей в спине. Речь не о затекающих время от времени мышцах, а о глубокой, настойчивой, ноющей боли, которая является последствием написания кода в режиме марафона. Под катом вы найдете десять упражнений, которые станут для вас палочкой-выручалочкой и сделают вашу спину такой же крепкой, как ваш код.
Читать дальше →
Total votes 26: ↑22.5 and ↓3.5+19
Comments12

Превращаем голосовое сообщение в структурированную заметку

Level of difficultyEasy
Reading time2 min
Views1.6K

Вы когда-нибудь оказывались в ситуации, когда голова была полна идей, но записать их нет возможности? Тогда вы знаете, как бывает сложно быстро и качественно зафиксировать свои мысли. А может вам знакома ситуация, когда собеседник записывает голосовое сообщение на 5 минут с описанием какого-нибудь проекта, и вам приходится переслушивать его снова и снова, чтобы понять все детали. Столкнувшись с этим, я решил сделать Telegram-бота, который может превратить голосовое сообщение в структурированную заметку.

Читать далее
Total votes 6: ↑0 and ↓6-6
Comments3

OpenWrt отмечает 20 лет выпуском собственного маршрутизатора

Reading time3 min
Views21K


В 2024 году опенсорсному проекту OpenWrt исполняется 20 лет. Разработчики решили отпраздновать этот юбилей дизайном нативного маршрутизатора OpenWrt One/AP-24.XY. Пока что это идея, предложенная на обсуждение сообществу.

В целом, преимущества свободной прошивки OpenWrt для маршрутизаторов хорошо известны. Это улучшенная безопасность и надёжность работы устройства, продвинутые функции блокировки рекламы, точечное перенаправление трафика по спискам доменов (например, для РФ внутри страны, для РФ снаружи и пр.), установка любых необходимых программ под Linux и др.

С выходом нативного маршрутизатора на рынке появится своего рода базовая референсная модель с идеальной программно-аппаратной совместимостью.
Читать дальше →
Total votes 41: ↑41 and ↓0+41
Comments46

Основы литья под давлением: проектирование литых деталей

Level of difficultyEasy
Reading time7 min
Views6.2K

Дисклеймер: это достаточно вольный перевод статьи с protolabs.com, в который мы добавили немного отсебятины. Но не просто так, а для лучшего понимания, потому что соотношение терминов «там» и «здесь» — отдельный адский котелок. Заметите что-то не то (или у вас так не говорят), без стеснения отпишитесь в комментариях, исправим вместе.

Таблица тоже будет
Total votes 22: ↑22 and ↓0+22
Comments6

Краткий обзор токенизаторов: что это такое и зачем это надо?

Level of difficultyEasy
Reading time9 min
Views3.2K

Представьте себе, что вы читаете книгу и хотите найти все места, где упоминается слово «кот». Не знаю, зачем вам это, но пока остановимся на том, что вы это хотите. Вот очень надо.

Так как это сделать?

Вы можете просто пролистать книгу и прочитать ее с начала до конца, буквально вручную находя всех котиков, но… Это может занять много времени и усилий. Гораздо проще будет воспользоваться индексом в конце книги, где перечислены все места, где упоминается слово «кот». Проблема в том, что в обычной печатной книге такого нет, а вот если вы читаете электронку — да, вполне. Можно воспользоваться поиском по слову.

Но это вы так можете, а вот компьютеры — нет.

Компьютеры не могут просто прочитать текст и понять, что он означает. Они нуждаются в помощи токенизаторов, которые преобразуют текст в набор токенов, или отдельных единиц информации, которые можно анализировать и обрабатывать.

Токенизация — это первый шаг в обработке текстовых данных. Без токенизации компьютеры не смогли бы понимать текст и находить в нем полезную информацию. Токенизаторы помогают преобразовать текст в данные, которые можно анализировать и использовать для решения различных задач, таких как классификация текстов, распознавание речи, машинный перевод и многие другие.

Токенизаторы, подобно электронным поисковым системам для текста, помогают компьютерам эффективно найти и организовать нужную информацию, так же как электронные индексы в электронных книгах облегчают поиск конкретных фраз. Без них компьютерам было бы гораздо сложнее «понимать» и анализировать текстовые данные.

Читать далее
Total votes 8: ↑7 and ↓1+6
Comments2

5 механических клавиатур, на которые стоит обратить внимание в 2024 году

Reading time4 min
Views26K

Клавиатуры — основной рабочий инструмент для большинства читателей Хабра. Чем лучше клавиатура, тем эффективнее можно выполнять работу — будь то кодинг или текст. И не отвлекаться на проблемы с аксессуарами. Каждый месяц производители из разных стран выпускают хорошие новые модели — пришло время оценить несколько интересных новинок. Все самое интересное — под катом!
Читать дальше →
Total votes 44: ↑38.5 and ↓5.5+33
Comments84

Кратко про Nameko Python

Level of difficultyEasy
Reading time5 min
Views6.8K

Привет, Хабр!

Nameko, как фреймворк для Python, предлагает удобные абстракции и инструменты для создания микросервисов, ориентированных на сообщения и события.

С Nameko можно получить не только инструмент для создания микросервисов, но и платформу для реализации распределенных систем с поддержкой Dependency Injection, позволяющей легко интегрировать различные компоненты приложения.

Читать далее
Total votes 15: ↑13 and ↓2+11
Comments2

Как избавляться от ошибок в английском языке. Окаменелые ошибки

Reading time3 min
Views11K

Fossilized errors - "заученные" ошибки. Когда студент повторяет их вновь и вновь и не воспринимает их, как ошибку. Если это грамматическая ошибка, то правило может быть знакомым, но из-за того, что студента не исправляли, ошибка отложилась в памяти и осталась со студентом, несмотря на то, что его уровень английского языка уже вырос. Если это ошибка произношения, то скорее всего изначально не было выучено правильное произношение слова. Иногда ошибка - калька с русского языка, которая для русскоговорящего собеседника (а иногда и преподавателя тоже)не звучит, как ошибка.

Заученные ошибки у каждого свои, но уже с самого начала изучения английского языка наблюдаются сложности со следующими словами и фразами:

"I'm agree" => "I agree";

"I late" = > I'm late";

"I very like it" => I like it very much";

"ruble" (ошибочно читается, как "рабл" => "рубл" (если имеется в виду валюта);

"police" (с ошибочным ударением на первый слог) => ударение на второй слог;

"key" (ошибочно читается, как "кей")=> "ки";

I feel myself.... => I feel (без myself);

"hOtel" => hotEl ( с ударением на второй слог);

"on the picture" => "in the picture";

"advices" => "advice".

Майкл Свон, автор учебников по грамматике, пишет, что "даже студенты с высоким уровнем языка допускают одни и те же ошибки". Он приводит список типичных грамматических ошибок для студентов разных уровней в своем учебнике "Practical English Usage" (третье издание). Рекомендую с ним ознакомиться. Хотя в то же время, изучение чужих ошибок не очень эффективно. Вы можете найти большое количество видео по типу "а вы знаете, как читать эти слова", в которых приводятся сложная лексика, которая вам, во-первых, может быть никогда и не понадобится, а во-вторых - ее сложно будет запомнить. В английском языке, как мы знаем, про фактически любое слово можно сказать, что оно читается не так как пишется и, следовательно, оно "интересное" и его "заранее нужно запомнить".

Читать далее
Total votes 15: ↑10 and ↓5+5
Comments20

Obsidian. Путь от простой структуры к сложной и обратно. Часть 2

Level of difficultyMedium
Reading time9 min
Views12K

Первая часть статьи описывает возростание сложности системы, за счёт постоянного увеличения сбора метрик, задач и конечно же используемых плагинов

Закончилось это всё не очень хорошо, так заполнение "ежедневной рутины" усложнилось настолько, что заполнять её уже не хотелось. Поэтому критической задачей стало упрощение (идём обратно) в местах где сложность излишняя и автоматизация в местах, где есть лишние 2-3 клика.

Попробуем теперь всё упросить...

P.S. Как у любого новоиспечённого автора, у меня после написания первой статьи появился тг-канал. Милости прошу. Там пишу чаще, проще и более свободно. Формат статьи всё-таки сдерживает в каких-то рамках повествования.

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments5

Obsidian. Путь от простой структуры к сложной и обратно. Часть 1

Level of difficultyEasy
Reading time6 min
Views23K

Я постоянно пишу заметки. В общей сложности занимаюсь этим уже 4+ года. Сперва был приверженцем бумажных заметок, так как мало информации "для изучения" туда попадало. Потом появилась потребность в навигации в своих записях, поэтому ушёл в цифру.

Сначала пробовал ноуш для личных записей + Confluence для записей по личным проектам + Saved Messages в тг для ссылок .
Оказалось сложно и не удобно. Год назад открыл для себя Obsidian.

Перенёс туда всю инфу со всех пространств и было ОК несколько месяцев. Но информация всё копилась и копилась.

И тут пришло время усложнений и планирования...

Читать далее
Total votes 12: ↑7 and ↓5+2
Comments24

Памятка: 15 фраз для стендапов на английском языке

Level of difficultyEasy
Reading time2 min
Views5.1K

Работая с зарубежными коллегами, вам наверняка придётся участвовать в стендапах — коротких ежедневных встречах, на которых IT-специалисты рассказывают о выполненных задачах, проблемах и планах на сегодня. Делать это на английском сложнее, чем на родном языке, но, к счастью, стендапы обычно проходят по шаблонам, и основные конструкции можно выучить.

Меня зовут Наталья Зеленова, я методист курсов английского для работы в IT в Яндекс Практикуме. В этой памятке я приведу 15 фраз, которые можно использовать в разных ситуациях, — сохраните в закладки, чтобы структурировать свою речь на стендапе и чувствовать себя увереннее.

Читать далее
Total votes 14: ↑10 and ↓4+6
Comments7

DIY клавиатура из фанеры

Level of difficultyEasy
Reading time8 min
Views14K

Давно хотел клавиатуру под себя, но даже в кастомных механиках мне не хватало кастомности. Смены цвета кнопок или звука переключателей было недостаточно. Поэтому я собрал клавиатуру с нуля.

Читать далее
Total votes 72: ↑71 and ↓1+70
Comments33

Как сделать клавиатуру на сдвиговом регистре SN74HC165N для ESP32 (Arduino framework) с использованием FreeRTOS

Level of difficultyMedium
Reading time11 min
Views6.4K

У каждого новичка рано или поздно возникает необходимость увеличить количество портов ввода-вывода для своего проекта и МК. В моем случае — ESP32 devboard. По крайней мере, на ней все тестировалось, а расширение портов планировалось на кастомной плате с тем же модулем esp32-WROOM на борту. В детали схемотехники и распиновки для моего случая вдаваться не будем, тема статьи — реализация клавиатуры на SN74HC165N в Arduino-фреймворке для esp32 с использованием функционала freeRTOS в проекте (т.е. будем писать код с планировщиком и задачами, а не в одном цикле, так же известном как «Round Robin»).

Если вы уже добрались до freeRTOS, думаю, как подключать кнопку и проводки на breadboard мне объяснять вам не требуется, поэтому кратко и по делу: расскажу, как получилось у меня. Решение, наверное, не оптимальное — буду рад услышать ваше мнение, если получилось сделать лучше. Работаю над своим первым проектом в электронике. В свое время не нашел подходящей информации на эту тему, что и сподвигло меня на написание статьи.

Полный код примера:

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments16
1
23 ...

Information

Rating
1,659-th
Location
Химки, Москва и Московская обл., Россия
Date of birth
Registered
Activity