Обзорное видео с доклада об особенностях обучения LLM для тех, кто в теме ML/DL, но хочет расширить кругозор в области работы с большими языковыми моделями. На основе личного опыта и обзора множества научных статей и инструментов. Ссылка на презентацию прилагается.
User
Зоозве: эволюция орбиты квазиспутника Венеры
В этом видео показывается эволюция орбиты астероида Зоозве, квазиспутника Венеры, за 500 лет. Очень необычно выглядит его траектория относительно горячей планеты. Но гораздо сильнее вас удивит его траектория относительно Земли! Смотрите с субтитрами на русском языке.
Rolldown — новый сборщик на основе Rollup
Rollup - это лучший и наиболее полный сборщик на сегодняшний день. Он опередил свое время, став первопроходцем в таких ключевых концепциях, как tree shaking, и до сих пор ему нет равных в этом отношении. Когда Эван Ю представил Vite - Rollup был краеугольным камнем процесса сборки. Плагины Vite - это (по большей части) плагины Rollup.
GigaAM: класс открытых моделей для обработки звучащей речи
Салют, Хабр! Ранее мы в SberDevices анонсировали предобученную на русском языке модель GigaAM (Giga Acoustic Model) и её дообученные состояния под распознавание речи (GigaAM-CTC) и определение эмоций (GigaAM-Emo). Сегодня же делимся с сообществом весами моделей и примерами использования.
Приглашаем под кат погрузиться в self-supervised learning для звучащей речи и оценить возможности предобученных моделей!
Shiva — Open Source проект на Rust для парсинга и генерации документов любого типа
Идея проекта возникла у меня во время работы над проектом поисковика документов. Существует такая библиотека, как Apache Tika, написанная на Java, которая умеет парсить документы различных типов. Чтобы мой поисковик работал, он должен уметь извлекать текст из документов разных типов (PDF, DOC, XLS, HTML, XML, JSON и т. д.). Сам поисковик я писал на Rust. Но, к сожалению, в мире Rust нет библиотеки, которая умела бы парсить документы всех типов.
Логи в файлах: написал своё приложение для просмотра структурированных логов
Не каждому проекту нужно децентрализованное логирование. В моём случае, оказалось проще хранить логи в .json файлах формата Compact Log Event Format (CLEF). Мне нужно было простое и бесплатное решение для просмотра логов.
Автоматизированная торговля акциями с использованием глубокого обучения с подкреплением
В этой статье мы начинаем рассматривать практическое применение библиотеки FinRL для построения торгового агента. В предыдущей статье мы вкратце рассмотрели библиотеку FinRL, предоставляемые ей возможности моделирования рынка и обучения торговых агентов на основании алгоритмов обучения с подкреплением.
Это вторая статья нашего обучающего цикла и в ней мы построим примитивного агента, который анализирует поступающие данные о стоимости позиции на рынке и пытается предсказать будущую цену. Вполне очевидно, что результат такого примитивного агента будет весьма далек от приемлемого уровня, но этот шаг поможет нам создать модель рынка с помощью библиотеки FinRL, обучить агента и быть готовыми к построению более сложных и осмысленных моделей.
Десять основных упражнений для предотвращения болей в спине у программистов
Превращаем голосовое сообщение в структурированную заметку
Вы когда-нибудь оказывались в ситуации, когда голова была полна идей, но записать их нет возможности? Тогда вы знаете, как бывает сложно быстро и качественно зафиксировать свои мысли. А может вам знакома ситуация, когда собеседник записывает голосовое сообщение на 5 минут с описанием какого-нибудь проекта, и вам приходится переслушивать его снова и снова, чтобы понять все детали. Столкнувшись с этим, я решил сделать Telegram-бота, который может превратить голосовое сообщение в структурированную заметку.
OpenWrt отмечает 20 лет выпуском собственного маршрутизатора
В 2024 году опенсорсному проекту OpenWrt исполняется 20 лет. Разработчики решили отпраздновать этот юбилей дизайном нативного маршрутизатора OpenWrt One/AP-24.XY. Пока что это идея, предложенная на обсуждение сообществу.
В целом, преимущества свободной прошивки OpenWrt для маршрутизаторов хорошо известны. Это улучшенная безопасность и надёжность работы устройства, продвинутые функции блокировки рекламы, точечное перенаправление трафика по спискам доменов (например, для РФ внутри страны, для РФ снаружи и пр.), установка любых необходимых программ под Linux и др.
С выходом нативного маршрутизатора на рынке появится своего рода базовая референсная модель с идеальной программно-аппаратной совместимостью.
Основы литья под давлением: проектирование литых деталей
Дисклеймер: это достаточно вольный перевод статьи с protolabs.com, в который мы добавили немного отсебятины. Но не просто так, а для лучшего понимания, потому что соотношение терминов «там» и «здесь» — отдельный адский котелок. Заметите что-то не то (или у вас так не говорят), без стеснения отпишитесь в комментариях, исправим вместе.
Краткий обзор токенизаторов: что это такое и зачем это надо?
Представьте себе, что вы читаете книгу и хотите найти все места, где упоминается слово «кот». Не знаю, зачем вам это, но пока остановимся на том, что вы это хотите. Вот очень надо.
Так как это сделать?
Вы можете просто пролистать книгу и прочитать ее с начала до конца, буквально вручную находя всех котиков, но… Это может занять много времени и усилий. Гораздо проще будет воспользоваться индексом в конце книги, где перечислены все места, где упоминается слово «кот». Проблема в том, что в обычной печатной книге такого нет, а вот если вы читаете электронку — да, вполне. Можно воспользоваться поиском по слову.
Но это вы так можете, а вот компьютеры — нет.
Компьютеры не могут просто прочитать текст и понять, что он означает. Они нуждаются в помощи токенизаторов, которые преобразуют текст в набор токенов, или отдельных единиц информации, которые можно анализировать и обрабатывать.
Токенизация — это первый шаг в обработке текстовых данных. Без токенизации компьютеры не смогли бы понимать текст и находить в нем полезную информацию. Токенизаторы помогают преобразовать текст в данные, которые можно анализировать и использовать для решения различных задач, таких как классификация текстов, распознавание речи, машинный перевод и многие другие.
Токенизаторы, подобно электронным поисковым системам для текста, помогают компьютерам эффективно найти и организовать нужную информацию, так же как электронные индексы в электронных книгах облегчают поиск конкретных фраз. Без них компьютерам было бы гораздо сложнее «понимать» и анализировать текстовые данные.
5 механических клавиатур, на которые стоит обратить внимание в 2024 году
Клавиатуры — основной рабочий инструмент для большинства читателей Хабра. Чем лучше клавиатура, тем эффективнее можно выполнять работу — будь то кодинг или текст. И не отвлекаться на проблемы с аксессуарами. Каждый месяц производители из разных стран выпускают хорошие новые модели — пришло время оценить несколько интересных новинок. Все самое интересное — под катом!
Кратко про Nameko Python
Привет, Хабр!
Nameko, как фреймворк для Python, предлагает удобные абстракции и инструменты для создания микросервисов, ориентированных на сообщения и события.
С Nameko можно получить не только инструмент для создания микросервисов, но и платформу для реализации распределенных систем с поддержкой Dependency Injection, позволяющей легко интегрировать различные компоненты приложения.
Как избавляться от ошибок в английском языке. Окаменелые ошибки
Fossilized errors - "заученные" ошибки. Когда студент повторяет их вновь и вновь и не воспринимает их, как ошибку. Если это грамматическая ошибка, то правило может быть знакомым, но из-за того, что студента не исправляли, ошибка отложилась в памяти и осталась со студентом, несмотря на то, что его уровень английского языка уже вырос. Если это ошибка произношения, то скорее всего изначально не было выучено правильное произношение слова. Иногда ошибка - калька с русского языка, которая для русскоговорящего собеседника (а иногда и преподавателя тоже)не звучит, как ошибка.
Заученные ошибки у каждого свои, но уже с самого начала изучения английского языка наблюдаются сложности со следующими словами и фразами:
"I'm agree" => "I agree";
"I late" = > I'm late";
"I very like it" => I like it very much";
"ruble" (ошибочно читается, как "рабл" => "рубл" (если имеется в виду валюта);
"police" (с ошибочным ударением на первый слог) => ударение на второй слог;
"key" (ошибочно читается, как "кей")=> "ки";
I feel myself.... => I feel (без myself);
"hOtel" => hotEl ( с ударением на второй слог);
"on the picture" => "in the picture";
"advices" => "advice".
Майкл Свон, автор учебников по грамматике, пишет, что "даже студенты с высоким уровнем языка допускают одни и те же ошибки". Он приводит список типичных грамматических ошибок для студентов разных уровней в своем учебнике "Practical English Usage" (третье издание). Рекомендую с ним ознакомиться. Хотя в то же время, изучение чужих ошибок не очень эффективно. Вы можете найти большое количество видео по типу "а вы знаете, как читать эти слова", в которых приводятся сложная лексика, которая вам, во-первых, может быть никогда и не понадобится, а во-вторых - ее сложно будет запомнить. В английском языке, как мы знаем, про фактически любое слово можно сказать, что оно читается не так как пишется и, следовательно, оно "интересное" и его "заранее нужно запомнить".
Obsidian. Путь от простой структуры к сложной и обратно. Часть 2
Первая часть статьи описывает возростание сложности системы, за счёт постоянного увеличения сбора метрик, задач и конечно же используемых плагинов
Закончилось это всё не очень хорошо, так заполнение "ежедневной рутины" усложнилось настолько, что заполнять её уже не хотелось. Поэтому критической задачей стало упрощение (идём обратно) в местах где сложность излишняя и автоматизация в местах, где есть лишние 2-3 клика.
Попробуем теперь всё упросить...
P.S. Как у любого новоиспечённого автора, у меня после написания первой статьи появился тг-канал. Милости прошу. Там пишу чаще, проще и более свободно. Формат статьи всё-таки сдерживает в каких-то рамках повествования.
Obsidian. Путь от простой структуры к сложной и обратно. Часть 1
Я постоянно пишу заметки. В общей сложности занимаюсь этим уже 4+ года. Сперва был приверженцем бумажных заметок, так как мало информации "для изучения" туда попадало. Потом появилась потребность в навигации в своих записях, поэтому ушёл в цифру.
Сначала пробовал ноуш для личных записей + Confluence для записей по личным проектам + Saved Messages в тг для ссылок .
Оказалось сложно и не удобно. Год назад открыл для себя Obsidian.
Перенёс туда всю инфу со всех пространств и было ОК несколько месяцев. Но информация всё копилась и копилась.
И тут пришло время усложнений и планирования...
Памятка: 15 фраз для стендапов на английском языке
Работая с зарубежными коллегами, вам наверняка придётся участвовать в стендапах — коротких ежедневных встречах, на которых IT-специалисты рассказывают о выполненных задачах, проблемах и планах на сегодня. Делать это на английском сложнее, чем на родном языке, но, к счастью, стендапы обычно проходят по шаблонам, и основные конструкции можно выучить.
Меня зовут Наталья Зеленова, я методист курсов английского для работы в IT в Яндекс Практикуме. В этой памятке я приведу 15 фраз, которые можно использовать в разных ситуациях, — сохраните в закладки, чтобы структурировать свою речь на стендапе и чувствовать себя увереннее.
DIY клавиатура из фанеры
Давно хотел клавиатуру под себя, но даже в кастомных механиках мне не хватало кастомности. Смены цвета кнопок или звука переключателей было недостаточно. Поэтому я собрал клавиатуру с нуля.
Как сделать клавиатуру на сдвиговом регистре SN74HC165N для ESP32 (Arduino framework) с использованием FreeRTOS
У каждого новичка рано или поздно возникает необходимость увеличить количество портов ввода-вывода для своего проекта и МК. В моем случае — ESP32 devboard. По крайней мере, на ней все тестировалось, а расширение портов планировалось на кастомной плате с тем же модулем esp32-WROOM на борту. В детали схемотехники и распиновки для моего случая вдаваться не будем, тема статьи — реализация клавиатуры на SN74HC165N в Arduino-фреймворке для esp32 с использованием функционала freeRTOS в проекте (т.е. будем писать код с планировщиком и задачами, а не в одном цикле, так же известном как «Round Robin»).
Если вы уже добрались до freeRTOS, думаю, как подключать кнопку и проводки на breadboard мне объяснять вам не требуется, поэтому кратко и по делу: расскажу, как получилось у меня. Решение, наверное, не оптимальное — буду рад услышать ваше мнение, если получилось сделать лучше. Работаю над своим первым проектом в электронике. В свое время не нашел подходящей информации на эту тему, что и сподвигло меня на написание статьи.
Полный код примера:
Information
- Rating
- 1,659-th
- Location
- Химки, Москва и Московская обл., Россия
- Date of birth
- Registered
- Activity