Как стать автором
Обновить
11.2

Инфографика

Визуализация данных

Сначала показывать
Порог рейтинга
Уровень сложности

6 принципов эффективной визуализации данных

Время на прочтение 6 мин
Количество просмотров 15K

Ключевые принципы создания полезных и информативных графиков


Визуализация данных является важным этапом в процессе постижения науки о данных. Здесь вы представляете свои результаты и сообщаете о них в графическом формате, который является интуитивно понятным и лёгким для понимания.

Визуализация данных требует большой работы, большой труд по очистке и анализу уходит на перегонку и превращение грязных данных в красивые графики и диаграммы. Но даже с подготовленными данными всё равно приходится придерживаться определённых принципов или методологий, чтобы создать полезную, информативную графику.

Тем не менее при написании этой статьи я черпал вдохновение в книге Эдварда Тафта «Beautiful Evidence», которая содержит шесть принципов, посвящённых тому, как сделать графики данных полезными. Именно эти принципы отделяют полезные графики от бесполезных.

Эта статья также в значительной степени вдохновлена книгой Роджера Д. Пенга «Exploratory Data Analysis in R» Она доступна бесплатно на Bookdown, и вы можете прочитать её, чтобы узнать больше о EDA.

Давайте ближе познакомимся с этими принципами.


Пример визуализации данных на Our World in Data
Приятного чтения!
Всего голосов 32: ↑26 и ↓6 +20
Комментарии 12

Моя музыка 2020 года в картинках и графиках

Время на прочтение 7 мин
Количество просмотров 13K

Я взял плейлист «Мой 2020», который сделала Яндекс-музыка, добавил туда немного метаданных о песнях, а потом посчитал статистику и узнал, какие у меня любимые группы и жанры, песни каких лет мне больше всего нравятся и какие слова встречаются в текстах наиболее часто. Нарисовал результаты на графиках, а ещё оформил статью так, как будто это серьёзное исследование. Помогали мне язык программирования R с пакетами ggplot2, tm и wordcloud2.

Узнать результаты исследования
Всего голосов 30: ↑30 и ↓0 +30
Комментарии 3

Как я анализировал свои поездки на такси

Время на прочтение 4 мин
Количество просмотров 8.4K

Всякий раз, как я езжу на такси мне на почту приходит отчет о поездке с разной информацией. В частности они содержат дату, время поездки, модель автомобиля и ФИО водителя. Меня посетила идея - проанализировить отчеты от яндекс такси и вытащить из них максимум интересной информации. Вам наверняка тоже всегда было интересно сколько раз вы ездили на одной и той же машине ил сколько раз вас возил один и тот же водитель?

Задача, которая здесь описана может быть хорошим упражнением для начинающих аналитиков. Тут будет всё: и python c pandas и парсинг HTML и регулярные выражегия и базы данных c SQL.

Читать далее
Всего голосов 23: ↑23 и ↓0 +23
Комментарии 9

Опыт использования транслятора OberonJS для создания редактора интерактивных моделей

Время на прочтение 6 мин
Количество просмотров 2.2K

Занимательное дело — создавать образовательные модели. Приятно видеть, что человек понял что-то, взаимодействуя с твоей программой. Начинал делать модели в Matlab, пробовал использовать Flash и язык ActionScript, пока не узнал про Блэкбокс и Оберон, который идеально лёг на моё представление о том, сколько вообще язык программирования должен занимать в голове у специалиста предметной области. Однако в 21-веке люди просто боятся запускать компилированные приложения, и антивирусы часто дают ложно-положительные срабатывания. Как быть? Для дистрибуции образовательных приложений нужно было использовать браузерные технологии JavaScript и HTML5. В публикации разбирается, как удалось объединить Оберон и HTML5 canvas для создания интерактивных моделей онлайн.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 27

Истории

Продажа «корочек». Стоимость сертификатов в инфобезе и маршрут их получения

Время на прочтение 3 мин
Количество просмотров 10K

Security Certification Progression Chart 7.0, октябрь 2020 года

Специалист по информационной безопасности Пол Джерими (Paul Jerimy) проделал большую работу — и составил обширную схему с порядком получения сертификатов во всех областях ИБ: Security Certification Progression Chart. На сегодняшний день она включает в себя 362 программы сертификации.

Похоже, сертификация стала отдельным бизнесом, где учебные центры и центры сертификации думают не столько о проверке знаний специалистов, сколько о прибыли.

Стоимость некоторых сертификатов превышает разумные пределы. Для каждого сертификата в таблице указана стоимость его получения, а также предполагаемые дорожные расходы. Таким образом можно примерно вычислить, сколько стоит собрать все необходимые «корочки» и пройти этот путь до конца.
Читать дальше →
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 12

Визуализация сложных данных с использованием D3 и React

Время на прочтение 9 мин
Количество просмотров 13K

Существует много возможныx вариантов реализации сложных графиков в ваших проектах. Я за несколько лет попробовал все возможные варианты. Сначала это были готовые библиотеки типа AmCharts 4. AmCharts сразу же оказался большим и неповоротливым. После этого были более гибкие и дружелюбные библиотеки, такие как Recharts. Recharts был поначалу очень хорош, но со временем сложные фичи создавались такими костылями, которые даже показывать стыдно, а какие-то фичи и вовсе были невозможны в реализации. Таким образом, я пришел к D3 и решаю на нем любые задачи, связанные с графиками. Иногда это занимает немного больше времени по сравнению с готовыми инструментами. Но остается одно неоспоримое преимущество – мы всегда знаем, что никогда не упремся в рамки и ваш код не захочется отправить в помойку через пару месяцев.


Какая цель этой статьи? Я хочу рассказать вам про крутой инструмент и о том, как его максимально эффективно использовать в связке с React. Мы последовательно разберем универсальный рецепт для построения компонентов любой сложности.


Всего голосов 10: ↑10 и ↓0 +10
Комментарии 14

Исследование узнаваемости работодателей в ИТ

Время на прочтение 6 мин
Количество просмотров 13K
Всем привет! Недавно мы провели исследование технобренда hh.ru и решили поделиться его результатами. У нас стояла задача выяснить, насколько популярен hh среди аудитории ИТ-специалистов как потенциальный работодатель. Но поскольку себя нужно с чем-то сравнивать — в исследовании также спрашивали про ряд других компаний на рынке. Под катом получился некий helicopter view на рынок труда в ИТ. 


Читать дальше →
Всего голосов 28: ↑27 и ↓1 +26
Комментарии 15

Как выбрать красивые цвета для вашей инфографики

Время на прочтение 10 мин
Количество просмотров 38K


Очень трудно выбрать хорошие цвета для инфографики. Постараемся разобраться с этой проблемой.

Прочитав эту статью, вы почувствуете себя более уверенно в выборе цвета. А если у вас вообще нет чувства цвета, то это просто рекомендации по хорошим сочетаниям. Поговорим о распространённых цветовых ошибках, которые нас окружают повсеместно, и как их избежать.

Статья не поможет найти хорошие градиенты или оттенки. Она предназначена для подбора красивых, чётких цветов для различных категорий информации (например, континентов, отраслей промышленности, видов птиц) в линейных, круговых, полосковых диаграммах и так далее.
Всего голосов 46: ↑45 и ↓1 +44
Комментарии 6

Сколько зарабатывает аналитик данных: обзор зарплат и вакансий в 2020

Время на прочтение 9 мин
Количество просмотров 112K

Привет, Хабр! 28 сентября Skillfactory запускает новый поток курса Data Analyst, поэтому мы решили сделать широкий обзор рынка вакансий, которые предлагают сегодня компании.

Действительно ли профессия аналитика данных может приносить до «300к/наносек»? Какие умения требуют работодатели от аналитиков и что вообще нужно знать, чтобы стать востребованным и высокооплачиваемым спецом? Какие возможности для роста предлагает рынок сегодня?

Мы проанализировали 450 вакансий на должность аналитика данных в России и за рубежом и собрали результаты в этой статье.
Читать дальше →
Всего голосов 29: ↑22 и ↓7 +15
Комментарии 10

Кому на Руси жить хорошо? Как мы искали самый “зеленый” город с помощью OpenStreetMap и Overpass API

Время на прочтение 9 мин
Количество просмотров 4.4K
У каждой карты есть легенда: именно она говорит читателю о том, что и каким образом на ней обозначено. Домам соответствуют многоугольники серого цвета, дорогам — отрезки и кривые, территории парков и скверов заливаются светло-зеленым и украшаются пиктограммой дерева. А к некоторым картам добавляют полезное приложение — список этих самых дорог с протяженностью, количество парков, лавочек и мусорных урн.

Когда мы готовились к автоматизации работы местных муниципальных служб, мы обратили внимание на использование картографии, которое мы сочли действительно мощным и эффективным инструментом для решения широкого кластера задач. На карте можно отображать актуальную информацию о местоположении объектов, маршруты движения уборочной техники, транспорта, план работы и тепловую карту с проблемными и “здоровыми” участками.

Использование картографии в целом помогает ускорить время реакции и принятия решений по экстренным вопросам, упрощает процесс планирования и прогнозирования, а главное — вся информация доступна в максимально наглядном виде.

В ходе работы с одним из заказчиков перед нами возникла интересная задача — подсчитать количество объектов на карте по категориям.

Найти


Определить самый “зеленый” город в ЦФО по совокупности следующих данных: количество лавочек, урн и парков.

Дано


Картография. В качестве плацдарма мы выбрали OpenStreetMap (далее — OSM) по весьма простой причине — Open Source.

Решение


Существует несколько подходов к решению поставленной задачи. К примеру, мы можем использовать PostgreSQL для осуществление запросов к базе данных OSM и получения необходимых данных, или использовать QGIS — систему для создания, анализа и публикации геопространственной информации. Однако, мы нашли более элегантный и эффективный способ — Overpass API.
Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 12

Коротко: рынок труда в разработке после Covid

Время на прочтение 4 мин
Количество просмотров 25K
Что происходит на рынке труда спустя полгода с начала локдауна, какие отрасли восстанавливаются, сколько вакансий открыто для разработчиков? Под катом посмотрим на реакцию ИТ-сферы на «ковидную» весну, сравним июль прошлого года с нынешним по количеству вакансий и узнаем о зарплатах. Обзор максимально сжатый, в 10 минут уложимся.


Читать дальше →
Всего голосов 28: ↑27 и ↓1 +26
Комментарии 12

Программное формирование мультисессии Adobe Audition с аудиозаписями телефонных звонков

Время на прочтение 31 мин
Количество просмотров 2.3K
В предыдущей статье я писал про формирование векторной графики SVG с диаграммой телефонных звонков, напоминающей диаграмму Ганта. Информацию о телефонных звонках я брал из детализации, которую скачивал через личный кабинет на сайте мобильного оператора. Дело было почти четыре года назад. В настоящее время у меня появилась идея сделать проект посложнее: построить мультисессию в звуковом редакторе Adobe Audition 1.5 из аудиозаписей телефонных разговоров. При этом эти аудиозаписи расположить в мультисессии строго в соответствии по времени, а так же по датам, которым будут соответствовать треки. При этом визуально такая мультисессия будет напоминать ту же диаграмму, что и строилась в предыдущей статье. Кроме того, будет возможность оперативного масштабирования и прослушивания записей телефонных разговоров, как в «миксе», так и в режиме «соло» по дням.
Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 5

Формирование диаграммы телефонных звонков в SVG формате при помощи Excel

Время на прочтение 11 мин
Количество просмотров 5K
В данной статье описывается, как с помощью программы Microsoft Excel обрабатывать информацию из детализации телефонных вызовов, получая на выходе векторную диаграмму, которая наглядно отражает данные телефонные вызовы во времени и по дням. Сама по себе данная диаграмма напоминает диаграмму Ганта, которая чаще всего применяется для иллюстрации плана работ по какому-либо проекту.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 7

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн
PG Bootcamp 2024
Дата 16 апреля
Время 09:30 – 21:00
Место
Минск Онлайн
EvaConf 2024
Дата 16 апреля
Время 11:00 – 16:00
Место
Москва Онлайн

Интерактивные финансовые данные в 20 строках кода

Время на прочтение 9 мин
Количество просмотров 10K
Статьи на финансовые темы появляются на Хабре регулярно. Во многих из них в качестве источника первичных данных используется неофициально открытое API Yahoo finance. В этой статье я покажу три способа добыть данные (включая Yahoo) а также как напилить из них простое вэб-приложение в 20 строк и выдать его клиенту, не умеющему в CLI.


Читать дальше →
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 1

Строительный сектор вымирает. Кризис COVID-19, растущие проблемы и новые возможности

Время на прочтение 8 мин
Количество просмотров 21K
Строительная отрасль — огромна, «устойчива», стара как мир, и потребляет до 10% всех используемых в мире денег. В среднем можно считать, что каждый десятый трудоспособный человек в мире так или иначе связан со строительной отраслью. Строительная отрасль отчасти является драйвером экономики, на ней завязано много внутренних процессов. И хотя строительный сектор скорее подстраивается, чем влияет на развитие нашей жизни — вклад этой отрасли в развитие общественных процессов нельзя недооценивать.

С 2000 года в строительной отрасли во всем мире наблюдается устойчивая тенденция к сокращению числа занятых в строительстве и кризис 2008 года особенно сильно ударив по строительному сектору, усилил отток специалистов из отрасли.

  • Куда же движется строительный сектор сейчас?
  • Сколько людей после кризиса 2020 года покинут строительную отрасль?
  • Куда двигаться Data Analysts и разработчикам после того как большинство процессов в финансовой и машиностроительной отрасли будут автоматизированы?


Содержание:




Кризис строительной отрасли в Европе


Строительная отрасль остается одним из наиболее важных секторов экономики в Европе, представляя около 10% ВВП и 50,5% валового накопления основного капитала, обеспечивая 20 миллионов прямых рабочих мест только в ЕС.

Кризис 2008 года сильно ударил по строительной отрасли Европы. Греция пострадала больше всех и потеряла 80% своей строительной промышленности в период с 2010 по 2013 годы. В остальных странах ЕС произошел внезапный спад производства — от -54,4% в Литве в 2009 году до почти стабильных уровней активности в Германии и Австрии.
Кризисы сглаживают всплеск активности в докризисные годы.

Читать дальше →
Всего голосов 12: ↑7 и ↓5 +2
Комментарии 46

Инфографика средствами Excel и PowerPoint. Часть 2

Время на прочтение 12 мин
Количество просмотров 20K
Не жди поездку в Гагры!
Давид Маркович, сериал «Ликвидация»

Всем привет!

За время карантина все, наверное, не по разу прочитали о том, как плодотворно А.С. Пушкин провел свой период «заточения», названный впоследствии «Болдинской осенью», поэтому не буду объяснять, что именно меня сподвигло написать следующую статью об инфографике средствами MS Office.

К тому же, мне есть что вам еще рассказать, ведь я более 10 лет преподаю и руковожу группой разработки учебных материалов в учебном центре «Сетевая Академия ЛАНИТ», а также являюсь автором курса по инфографике.

В первой статье я привела несколько примеров использования иконок в диаграммах вместо легенды и для визуализации итогового значения. Предлагаю продолжить тему под просмотр фильмов. За последние пару недель я пересмотрела больше кино, чем за целый год, и это натолкнуло меня на мысль объединить рассматриваемые примеры в группы и подобрать для каждой группы название фильма, с каким они у меня ассоциируются. 

Читать дальше →
Всего голосов 65: ↑65 и ↓0 +65
Комментарии 9

Расчеты по банковским картам в торговле — создание открытого датасета и инфографики в Google Data Studio

Время на прочтение 3 мин
Количество просмотров 1.8K
Это моя первая публикация на Хабре. Я интересуюсь и отчасти практикую дата-журналистику и хотел бы поделится с вами инфографикой, иллюстрирующую расчеты по банковским картам в торговле. А также расшарить открытый датасет в Data.World, и рассказать о создании этого проекта.

Итак, итоговая инфографика:



Ссылка на тот же отчет в гораздо более интересном интерактивном виде
Ссылка на открытый датасет (требуется регистрация на Data.World).

Кстати, к сожалению, не удалось встроить отчет в публикацию на Хабре ни через iframe, ни через тег oembed.
Читать дальше →
Всего голосов 10: ↑8 и ↓2 +6
Комментарии 2

Кибермишени 2019 как тренды 2020 – хакеры сменили фокус

Время на прочтение 6 мин
Количество просмотров 3.8K

Каждый год мы фиксируем рост количества киберинцидентов: хакеры придумывают новые инструменты или модифицируют уже имеющиеся. Каким был 2019? На первый взгляд, без неожиданностей: объем инцидентов вырос на целых 30% и составил более 1,1 млн случаев. Но если копнуть глубже, то становится очевидно: в погоне за «легкими» деньгами злоумышленники сместили фокус на новые мишени. Вообще внешних атак стало больше – их доля выросла до 58% (годом ранее была 54%). При этом доля сложных атак увеличилась в разы: 55% событий были выявлены с помощью сложных интеллектуальных средств защиты (в 2018 таких инцидентов было 28%). Базовые средства защиты в подобных ситуациях бессильны. Ниже мы расскажем, с какими опасностями компании столкнулись в минувшем году и чего ждать в ближайшем будущем.
Читать дальше →
Всего голосов 21: ↑21 и ↓0 +21
Комментарии 0

«Пандемия» научных публикаций о COVID-19

Время на прочтение 15 мин
Количество просмотров 19K
В современном информационном обществе любые социально-важные процессы, которые к тому же влияют на безопасность и здоровье граждан, сопровождаются потоком ложной информации. Чем больше участников процесса и чем сложнее предметная область, тем шире пространство для манипуляций и распространения дезинформации. Такая дезинформация может быть опаснее явления, породившего угрозу.



Информация о заболевании COVID-19 на сегодняшний день доминирует над любой другой и сопровождается большим количеством ложной информации. В связи с этим возникает потребность в достоверных сведениях, которые при определённом навыке можно получить из рецензируемых научных журналов.

Многие электронные научных библиотеки и журналы (такие как National Center for Immunization and Respiratory Diseases, JAMA Network, Elsevier) на своих сайтах организовали специальные разделы публикаций о коронавирусе SARS-CoV-2. Однако по данной теме в день выходит более 10 научных статей. Разобраться в таком потоке информации непросто. Если наиболее цитируемая публикация про коронавирус с 2003 года за 18 лет привлекла более 3400 источников (по оценке Google Scholar), то на статью Clinical features of patients infected with 2019 novel coronavirus in Wuhan ссылаются уже более 900 источников, при том, что данная статья вышла лишь месяц назад! Эту ситуацию можно назвать «пандемией» научных статей о COVID-19.

Попробуем структурировать поток публикаций и выявить в нём интересные закономерности. Из-за отсутствия специальных знаний в области медицины, в настоящей статье приводятся лишь результаты библиометрического анализа, без попыток интерпретации выявленных фактов в контексте вирусологии.
Читать дальше →
Всего голосов 26: ↑23 и ↓3 +20
Комментарии 37

Инфографика средствами Excel и PowerPoint

Время на прочтение 16 мин
Количество просмотров 35K
«Какой толк в книге, — подумала Алиса, — если в ней нет ни картинок, ни разговоров?»
Льюис Кэрролл, «Алиса в Стране чудес»

Всем привет!

Мы уже привыкли к тому, что все чаще информацию нам стараются подать с элементами инфографики. Визуальные материалы воспринимаются и запоминаются быстрее, чем символьные. Образы подтягивают в нашем мозге эмоции и аналогии, с символами все намного сложнее.

К визуализации данных в СМИ, интернет-ресурсах, печатных изданиях часто привлекают дизайнеров и художников. Но нередко инфографика нужна в более «скромных» ситуациях — например, для представления информации в отчетах организации или отдела, подведения итогов этапа или проекта, анализа результатов определенного периода. Для этих целей привлечение дизайнеров может быть слишком затратно по финансам и времени. 

Я работаю преподавателем и руководителем группы разработки учебных материалов в учебном центре «Сетевая Академия ЛАНИТ» более 10 лет и, когда провожу разработанный нами курс по инфографике, то обычно начинаю так: «Наш курс не для дизайнеров, а для тех сотрудников, которым нужно научиться правильно применять доступные средства для быстрого и качественного представления данных».

И в статье будет не про космические корабли, бороздящие просторы вселенной, а про кастрюли…

Источник
Читать дальше →
Всего голосов 66: ↑65 и ↓1 +64
Комментарии 28

Вклад авторов