Articles / Bookmarks / Profile of alexander2000 / Habr

How to become an author

@alexander2000^{read⁠-⁠only}

User

Profile Bookmarks 37

paulo737 Jan 6 2014 at 21:03

Мини-сервер на основе CubieBoard2. Эстетично, дёшево и практично

3 min

35K

Configuring Linux*

В продолжение статьи «Танцы с бубнами в новогоднюю ночь или вторая жизнь старых машин» хотел бы поделиться своими мнениями и планами по поводу проекта домашнего сервера с эстетичным внешним видом и малыми затратами на обслуживание: электроэнергия, администрирование, шум, занимаемое рабочее пространство.

А поводом к статье стала история создания своего домашнего мини-сервера. Я являюсь счастливым обладателем этого чуда. Чуть более месяца назад успешно был произведен его запуск. У него скромные характеристики. Процессор — Intel Pentium IV 3,06 ГГц, системная шина 533 Гц, ОЗУ 1,5 Гб и так далее… Скромные показатели. Но мне вполне достаточно. Плюсов выделенного сервера не буду называть, все это хорошо понимают. Вот его фото для любителей посмотреть…

Но пришлось столкнуться и с рядом проблем. Это домашний компьютер. Где его разместить, так чтобы никому не мешал? Те, кто оставлял на ночь компьютер во включенном состоянии меня поймут. Как бы не бесшумно он работал, всё равно его отчётливо слышно и это начинает раздражать.

Читать дальше →

-9

ainu Jun 9 2010 at 11:29

Установка node.js на Linux, FreeBSD, Windows

6 min

84K

Website development*

node.js — серверный асинхронный Javascript, превосходный инструмент для создания серверной части COMET приложений, в частности, для игрушек, чатов, и других высоконагруженных проектов, использующий синтаксис Javascript, прекомпилируемый в машинный код, работающий на скорости, сравнимой с кодом на C++, очень быстрый, способный держать 10 — 12 тысяч подключений, и не создающий отдельного процесса/не интерпретирующий себя заново/не запускающий процесс при каждом новом клиенте. Использует в качестве основы V8 — движок Javascript от Google. Удобные возможности, можно установить значение переменной при одном посетителе, и считать это значение при ответе другому.
Обращаю внимание на то, что если вы не программировали, например, на Python или Ruby, только на PHP, не обходите его стороной, это не ещё один незнакомый язык. И в этом его преимущество — Javascript — знакомый язык, особенно для тех, кто программировал на PHP+Javascript, но PHP не позволял очень многих вещей, особенно в связке с Apache, например, аплоад файлов с полосой загрузки (без Flash), возможность низкоуровневого управления сетью (возможность написать, например, клиента или сервер Mysql или прокси-сервер вроде nginx).
О гибкости языка говорит тот факт, что расширения для работы с MySQL, например, написаны на самом Javascript.
Я планировал написать статью с описанием этой замечательной системы, с примерами, но на момент чтения читателю хорошо бы иметь под рукой установленную версию node.js. Поэтому этот пост о том, как установить node.js, в том числе и на Windows, что актуально в связи с недавним появлением порта под cygwin. (Да, есть информация о том, где скачать node.exe)

Читать дальше →

+56

Mart_Slaaf Mar 30 2014 at 01:33

4 способa свободного скачивания суточной и пошаговой информации с фондовых бирж США

2 min

45K

Translation

В оригинале способов было 6, но часть из них автор перевода не смог заставить работать, и потому упоминать смысла не видит.

Несколько месяцев назад я делал пост о том, где найти ретроспективные данные о рынках США на момент закрытия, и перечислил 10 сайтов, которые предоставляют эту информацию бесплатно. (10 ways to download historical stock quotes data for free).

Пошаговая и суточная информация так же находится в свободном сетевом доступе. Сегодня я расскажу о четырех местах, где вы можете скачать хронологические данные. Некоторые сайты популярны, о некоторых вы вероятно никогда не слышали.

Начнем с наиболее известных

Читать дальше →

+12

SLY_G Feb 16 2014 at 02:39

Взлом сервиса Kickstarter

1 min

25K

Information Security*

Как стало известно, 12 февраля официальные представители службы охраны правопорядка связались с командой Kickstarter, чтобы сообщить им о взломе их проекта. Некие хакеры получили доступ к персональным данным зарегистрированных пользователей.

Читать дальше →

+26

fingoldo Mar 14 2014 at 00:53

Быстрая генерация массивов случайных чисел для задач имитационного моделирования, статистического оценивания и создания повторной выборки

9 min

17K

High performance*Concurrent computing*

Tutorial

Имитационное моделирование с использованием методов Монте-Карло в наше время используется практически во всех областях операционной деятельности, где требуется многократное принятие решений по итогам анализа поступающих из внешнего мира данных. При этом важную роль начинает играть качество, производительность и доступность генераторов случайных чисел, использующихся для придания абстрактному методу черт реальной задачи, решаемой специалистом. Как я недавно выяснил, этот вопрос начинает играть решающее значение при переходе к параллельному программированию… Вы тоже столкнулись с этой проблемой, и хотите знать, как в Windows можно быстро получить массивы случайных чисел с нужным распределением?

Читать дальше →

+16

Myshov Aug 27 2013 at 01:00

10 самых быстрых суперкомпьютеров в картинках

1 min

14K

High performance*

AIS подготовила инфографику, показывающую 10 самых быстрых суперкомпьютеров списка «TOP500».

Проект «TOP500» с 1993 года дважды в год представляет обновлённый список самых быстрых суперкомпьютеров в мире — первый раз в июне на International Supercomputing Conference и второй раз в ноябре на ACM/IEEE Supercomputing Conference. Производительность суперкомпьютеров сравнивается на базе результатов, полученных с помощью пакета LINPACK Benchmark.

UPD: В источнике есть ошибка — у K Computer не хватает 5 Петафлоп. В текущей версии я исправил ошибку.

Трафик ~2.1 Мб

Читать дальше →

0

marks Dec 20 2013 at 22:55

Инструментарий суперкомпьютера IBM Watson стал доступным для разработчиков в виде «облака»

2 min

22K

High performance*IBM corporate blog

Суперкомпьютер Watson, созданный стараниями специалистов корпорации IBM, уже не раз «светился» на Хабре. Собственно, в этом нет ничего удивительного, поскольку подобные системы способны выполнять сложнейшие задачи, которые ставятся перед суперкомпьютерами учеными, медиками, военными. Однако, системы такого класса являются практически закрытыми, поскольку доступ к ним ограничен весьма узким кругом лиц.

Читать дальше →

+34

kuznetsovin Oct 11 2013 at 17:58

Введение в визуализацию данных при анализе с помощью Pandas

6 min

53K

Доброго времени суток, уважаемые читатели.
Как обещалось в предыдущей статье, сегодня я продолжу рассказ о модуле pandas и анализе данных на языке Python. В данной статье хотелось бы затронуть тему быстрой визуализации данных результатов анализа. В этом нам помогут библиотека для визуализации данных matplotlib и среда разработки Spyder.

Читать дальше →

+20

kuznetsovin Oct 25 2013 at 10:22

Строим простую картограмму Pandas+Vincent

7 min

17K

Добрый день, уважаемые читатели.
В прошлой статье было описано ввдение в визулизацию данных с Pandas и matplotlib. Сегодня же хотелось бы показать еще один способ отображения результатов анализа с помощью Vincent, который так же очень просто интегрируется с Pandas, хотя и займет это чуть больше действий, чем в случае с matplotlib.

Читать дальше →

+2

kuznetsovin Nov 14 2013 at 10:59

Основы анализа данных на python с использованием pandas+sklearn

9 min

172K

Добрый день уважаемые читатели. В сегодняшней посте я продолжу свой цикл статей посвященный анализу данных на python c помощью модуля Pandas и расскажу один из вариантов использования данного модуля в связке с модулем для машинного обучения scikit-learn. Работа данной связки будет показана на примере задачи про спасенных с "Титаника". Данное задание имеет большую популярность среди людей, только начинающих заниматься анализом данных и машинным обучением.

Читать дальше →

+24

kuznetsovin Dec 2 2013 at 15:07

Пример решения задачи кредитного скоринга c помощью связки python+pandas+scikit-learn

12 min

81K

Python*Data Mining*

Введение

Добрый день, уважаемые читатели.
Недавно, бродя по просторам глобальной паутины, я наткнулся на турнир, который проводился банком ТКС в начале этого года. Ознакомившись с заданиями, я решил проверить свои навыки в анализе данных на них.
Начать проверку я решил с задачи о скоринге (Задание №3). Для ее решения я, как всегда, использовал Python с аналитическими модулями pandas и scikit-learn.

Читать дальше →

+15

kuznetsovin Dec 9 2013 at 16:20

Введение в анализ текстовой информации с помощью Python и методов машинного обучения

9 min

64K

Python*Data Mining*

Введение

Сегодня я продолжу рассказ о применении методов анализа данных и машинного обучения на практических примерах. В прошлой статье мы с вами разбирались с задачей кредитного скоринга. Ниже я попытаюсь продемонстрировать решение другой задачи с того же турнира, а именно «Задачи о паспортах» (Задание №2).
При решении будут показаны основы анализа текстовой информации, а также ее кодирование для построения модели с помощью Python и модулей для анализа данных (pandas, scikit-learn, pymorphy).

Читать дальше →

+38

kuznetsovin Oct 9 2013 at 17:10

Введение в анализ данных с помощью Pandas

3 min

236K

Сегодня речь пойдет о пакете Pandas. Данный пакет делает Python мощным инструментом для анализа данных. Пакет дает возможность строить сводные таблицы, выполнять группировки, предоставляет удобный доступ к табличным данным, а при наличии пакета matplotlib дает возможность рисовать графики на полученных наборах данных. Далее будут показаны основы работы с пакетом, такие как загрузка данных, обращение к полям, фильтрация и построение сводных.

Читать дальше →

+37

kuznetsovin Dec 17 2013 at 08:36

Пример решения задачи множественной регрессии с помощью Python

6 min

124K

Python*Data Mining*

Введение

Добрый день, уважаемые читатели.
В прошлых статьях, на практических примерах, мной были показаны способы решения задач классификации (задача кредитного скоринга) и основ анализа текстовой информации (задача о паспортах). Сегодня же мне бы хотелось коснуться другого класса задач, а именно восстановления регрессии. Задачи данного класса, как правило, используются при прогнозировании.
Для примера решения задачи прогнозирования, я взял набор данных Energy efficiency из крупнейшего репозитория UCI. В качестве инструментов по традиции будем использовать Python c аналитическими пакетами pandas и scikit-learn.

Читать дальше →

+19

kuznetsovin Jan 28 2014 at 00:10

Построение модели SARIMA с помощью Python+R

7 min

57K

Python*Data Mining*R*

Введение

Добрый день, уважаемые читатели.
После написания предыдущего поста про анализ временных рядов на Python, я решил исправить замечания, которые были указаны в комментариях, но при их исправлении я столкнулся с рядом проблем, например при построении сезонной модели ARIMA, т.к. подобной функции а пакете statsmodels я не нашел. В итоге я решил использовать для этого функции из R, а поиски привели меня к библиотеке rpy2 которая позволяетиспользовать функции из библиотек упомянутого языка.
У многих может возникнуть вопрос «зачем это нужно?», ведь проще просто взять R и выполнить всю работу в нем. Я полность согласен с этим утверждением, но как мне кажется, если данные требуют предварительной обработки, то ее проще произвести на Python, а возможности R использовать при необходимости именно для анализа.
Кроме этого, будет показано как интегрировать результаты выдачи работы функции R в IPython Notebook.

Читать дальше →

+17

kuznetsovin Dec 24 2013 at 12:01

Анализ временных рядов с помощью python

8 min

186K

Python*Data Mining*

Добрый день, уважаемые читатели.
В сегодняшней статье, я попытаюсь описать процесс анализа временных рядов с помощью python и модуля statsmodels. Данный модуль предоставляет широкий набор средств и методов для проведения статистического анализа и эконометрики. Я попытаюсь показать основные этапы анализа таких рядов, в заключении мы построим модель ARIMA.
Для примера взяты реальные данные по товарообороту одного из складских комплексов Подмосковья.

Читать дальше →

+30

DMwarden Jan 15 2014 at 16:35

Как живется Data Mining компании: задачи и исследования

4 min

17K

Data Mining*Big Data*DM Labs corporate blog

Привет, Хабр!

~~Наконец дошли руки~~ Пришло время рассказать, чем занимается наша компания DM Labs в области анализа данных, помимо образовательной деятельности (о ней мы уже писали 1).

За прошлый год мы начали плотно сотрудничать с институтом роботехники fortiss при Техническом университете Мюнхена (TUM) (совместно учим роботов не убивать людей), выпустили прототип антифрод системы, участвовали в международных конференциях по машинному обучению, и, самое главное, смогли сформировать сильную команду аналитиков.

Теперь DM Labs объединяет в себе уже три направления: исследовательскую лабораторию, разработку готовых коммерческих решений и обучение. В сегодняшнем посте мы расскажем о них подробнее, подведем итоги прошедшего года и поделимся целями на будущее.

Читать дальше →

+19

danilchenko Dec 20 2012 at 10:49

Параллелим R

3 min

12K

Tutorial

Введение

Сейчас практически невозможно представить себе мир без параллельных вычислений. Параллелят все и вся, даже у мобильных телефонов теперь несколько ядер, а значит… ну вы понимаете. Но давайте поговорим не о мобильных приложениях, а о более полезных и интересных вещах. О машинном обучении. Тема тоже модная, разрекламированная, про машинное обучение слышали даже домохозяйки и только ленивый еще не трогал это руками. Для машинного обучения, и если быть более точным, для статистических расчетов есть множество разных фреймворков, на мой вкус лучший из них – R (да простят меня поклонники Octave). И речь пойдет именно о нем.

Disclaimer:
я не претендую на особую строгость изложения, моя задача донести до читателей общую мысль.

Читать дальше →

+20

kablag Feb 5 2013 at 19:36

Пример ускорения расчётов в R путём многопоточности

4 min

9.8K

Введение

Как следует из Википедии:

R — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU.

Данный язык, в настоящее время, нашёл широкое применение во многих практических и чисто научных областях. Однако, исторически сложилось, что скорость многих ресурсоёмких вычислений оставляет желать лучшего. Тема параллельных вычислений в R на habrahabr уже поднималась. В этой статье я попытаюсь показать применение подобного подхода на конкретном примере с использованием пакета для многопоточных вычислений — parallel.

Читать дальше →

+12

chersanya Jan 10 2013 at 18:46

Визуализация статистики использования компьютера с R

6 min

21K

Python*Data Mining*R*

Думаю, многим интересно (хотя бы из любопытства), как именно они используют свой компьютер: самые нажимаемые кнопки, пройденное мышью расстояние, среднее время работы и другую информацию. В этой статье я расскажу один из вариантов того, как можно собрать такую информацию и затем представить её в виде интерактивных графиков. Все описанные действия производились на ноутбуке с ОС Debian Wheezy, Python 2.7.3, R 2.15.

Подробнее, с картинками и ссылками

+39

1