Пользователь
0,0
рейтинг
1 июня 2012 в 19:40

Статистика Хабрахабра

Почти неделя прошла с исполнения хабрахабру 6 лет. Было бы очень интересно посмотреть на графики роста показателей сайта. Т.к. стандартная статистика малоинформативная, решено было собрать всю информацию своими руками и проанализировать. И так, почти неделя парсинга и сбора информации и получены следующие интересные данные(скрытые/удаленные посты/пользователи и их комментарии не учтены):
  • Больше всего постов написал alizar — 4298, рекорд 12 постов в день поставлен 18 октября 2006
  • Больше всего комментариев написал VolCh — 19323, установив личный рекорд 27 июля 2011 года в количестве 140 комментариев.
  • Больше всех опубликовал постов в день freetonik —21 топик 26 августа 2007
  • Максимальная активность хабры в день — опубликовано 105 топиков: 18 февраля 2010 и 22 июня 2008 года.
  • Максимальная активность хабры в месяц — опубликовано 2055 топиков в марте 2010
  • Среднее значение кармы: +7,83
  • Средний рейтинг топика: +24,75
  • Всего комментариев: 3 703 022.
  • Средний рейтинг комментария: +0,98
  • Максимальное количество оставленных комментариев — 1 июля 2011 в количестве 4936 штук.
  • 25% из всех опубликованных топиков были перенесены в черновики
  • Самый комментируемый топик habrahabr.ru/post/123157 собрал 2252 комментария

Красивые графики, методы измерения, база с полученными данными, «хаброаномалии» — все это под катом.


y — количество публикуемых топиков в месяц; x — временная шкала, 1 деление — месяц

y — количество публикуемых комментариев в месяц; x — временная шкала, 1 деление — месяц

y — количество регистраций пользователей в месяц; x — временная шкала, 1 деление — месяц
Ответ на вопрос, чем обусловлен такой провал по количеству регистраций начавшийся в августе 2008 и достигший минимума в сентябре (1 регистрация за месяц), я не нашел. Возможно пользователей, зарегистрированных в этот период массово забанили/перевели в read-only.

y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — час
Данный график был получен путем подсчета количества опубликованных топиков в данный час за 6 лет. Если брать меньшие рамки, возможно сдвижения графика.

y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — сутки

y — средняя итоговая оценка топиков за все время; x — временная шкала, 1 деление — сутки
Как оказалось, больше плюсов набирают топики опубликованные на выходных. Возможно это связано с тем, что на выходных их публикуют в два раза меньше.


y — количество пользователей с количеством топиков, указанных в х шкале; x — количество топиков пользователя
Как ни грустно, но чуть больше половины пользователей не опубликовало ни одного топика.

y — количество пользователей с количеством комментариев, указанных в х шкале; x — количество комментариев пользователя
Как видно из графика, около 15% пользователей постят 1-5 комментария и прекращают свою активность.


y — количество пользователей с количеством кармы, указанной в х шкале; x — количество кармы пользователя
20% пользователей имеют нулевую карму. Радует перевес количества пользователей в положительной части.

Как считалось


Т.к. прямого доступа к БД хабры нет, то пришлось искать обходные пути. Если вы замечали, то у каждого топика есть его номер в адресной строке, т.е. мы можем просмотреть самую первую запись на хабре habrahabr.ru/post/1. Решение пришло быстро, надо перебрать все опубликованные топики, начиная с 1 и заканчивая 144 400 номером(на тот момент последний топик, у которого уже истек срок голосования). Из них существуют 121 641 топика, из которых 25 949 перемещены в черновики и еще несколько сотен оказались пустыми, наподобие этого: habrahabr.ru/company/muk/blog/119653. Все топики были сохранены в файлы для дальнейшего парсинга, заняли почти 10Гб. Далее каждый топик парсился следующим образом: брался автор топика, рейтинг, дата публикации, после этого парсились комментарии, из них брался автор, рейтинг комментария и дата. У нас получилось три таблицы. После получения всех пользователей необходимо было получить для каждого значение его кармы и рейтинг. При таком подходе посчитались все, кто хотя бы раз запостил пост или оставил комментарий. Все это выкачивалось и парсилось около недели в круглосуточном режиме. Софтинка для парсинга писалась в процессе поступления данных. Частота запросов к хабру не превышало 1 запроса в секунду.
Структура БД:

Скачать дамп базы (MSSQL backup) можно здесь (132Мб):

Хаброаномалии


Во время парсинга обнаружилась целая куча аномалий:

P.S. Принимаю предложения по построению интересных графиков на основе полученной информации.

Добавлено:

y — количество постов пользователей, зарегистрированные в указанной х шкале; x — временная шкала, 1 деление — месяц
Из этой диаграммы следует, что больше всего написали топиков пользователи зарегистрировавшееся до середины 2008 года.


было бы очень интересно видеть еще такие данные:
* средний рейтинг топиков по часам (по дням есть, но так интереснее)
* среднее количества голосов за топик по часам по времени создания топика
* среднее количество комментариев на топики по часам именно по времени создания топика

такая информация может дать представление о том когда лучше публиковать, чтобы получить максимальную активность.

а вообще интересно было бы еще видеть суммарную статистику по тэгам и хабам, но я так понимаю что парсер придется запускать заново.





Есть раздел «Лучшее за все время». было бы интересно посмотреть на «Худшее за все время». habrahabr.ru/post/145045/#comment_4873731

Самые заминусованные топики:

Самые заминусованные комментарии:

Самые заминусованные пользователи (по карме):



Десятка первонахов по комментариям:


Замечу, что средний рейтинг первого комментария +3,59, тогда как средний рейтинг всех комментариев +0,98


Самый волнующий комментарий
Вячеслав @vyacheslav_ka
карма
126,7
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое

Комментарии (134)

  • 0
    Хм, я думал везде будет экспонента, тем более с открытием реги. В 2012 по июнь или май?
    • 0
      По апрель, т.к. информацию начал собирать еще в мае + у топиков не окончился срок голосования.
    • 0
      Забыл еще добавить, что read-only пользователи не учитывались при сборе статистики.
      • +2
        А интересно было бы узнать, сколько юзеров было за забором до реги.
  • +3
    Если не секрет, почему в черновики ушла предыдущая публикация, а эта была написана заново?
    • +4
      Предыдущая была случайно опубликована в очень уж черновом варианте: без ссылок и с недописанными частями.
  • НЛО прилетело и опубликовало эту надпись здесь
  • +7
    > Больше всего комментариев написал VolCh — 19323
    OMG
    • +6
      Какое же это «ОМГ»? Довольно скромное число. На иных форумах звание «флудер» дают только на числах порядка «100 000».
    • +23
      Даже не знаю, радоваться или огорчаться в связи с таким сомнительным рекордом.
      • 0
        такими темпами можно и наверстать же
        • +1
          Э-э-э… Что наверстать?
          • +3
            НУ с такими темпами — все что угодно :)
          • +1
            Например, интенсивность. Сейчас всего лишь 1 комментарий в 2 часа с момента вашей регистрации на Хабре.
          • 0
            Таки набил ещё 1к комментов за один день?))
            • +2
              Данные явно не вчерашние :)
              • +3
                Ой, да лааадно тебе, оправдыватся! Все поняли, что ты статистикодрочер! =)
                • +3
                  Спалил Ж)
                • +1
                  новый вид спорта на хабре? главное засветился!))
  • +9
    > Ответ на вопрос, чем обусловлен такой провал по количеству регистраций начавшийся в августе 2008 и достигший минимума в сентябре (1 регистрация за месяц), я не нашел.

    Вроде как именно тогда ввели регистрацию по инвайтам, отсюда и провал
    • +6
      Кстати, взлет регистраций в июле 2009-го связан с акцией, когда для получения инвайта нужно было установить IE8 с хабронадстрокой
  • +1
    Пользователи, которые вроде бы и есть, но и в тоже время их нет
    Это же заблокированные
    • +1
      Но у заблокированных тогда на месте их комментариев появляется надпись про нло прилетевшее и оставившее надпись. Разве не так?
      • +1
        Не у всех. Обычно бывает в профиле 404, а комментарии на месте (по крайней мере, я последнее время давно НЛО не видел). В чём различие, не знаю.
        • +2
          Возможно, начиная с какого-то времени решили не превращать старые обсуждения в решето?
    • +1
      Это деактивированные пользователи
      • +4
  • +1
    А ведь данные о пользователях сейчас закрыли, поэтому Вы, наверное, не смогли получить полные сведения о регистрациях, а только тех посетителей, ссылки на персональные страницы которых нашли на сайте. Верно?
    • 0
      Получены данные всех, кто хотя бы раз написал комментарий или пост и не является заблокированным или переведенным в read-only.
      • 0
        Тогда это, наверное, надо упомянуть под графиком, что данные о регистрациях неполны. (Ещё можно было бы прочитать тех, кого пригласили из страниц пригласивших.)
  • +1
    Ответ на вопрос, чем обусловлен такой провал по количеству регистраций начавшийся в августе 2008 и достигший минимума в сентябре (1 регистрация за месяц), я не нашел.

    Утверждать не буду, но тогда, кажется, ввели регистрацию по инвайтам
    • +4
      Эх, новички… Уже и не помнят, что когда-то на хабре никто и знать не знал богомерзкого слова «инвайт»:(
  • +19
    Я ужасен.
    Впервые попал на хабр и подумал – а не запостить ли мне все свои подкасты разом? :)
    • +2
      Зато прославился))
      • 0
        Главное чтобы никто не захотел теперь побить рекорд.
  • +1
    Жалко, что нет доступа к базе хабры. Было бы интересно глянуть распределение «кто больше всех плюсует/минусует комментарии/топики/карму» с графиками распределения между «добрыми» и «злыми». :)
  • +4
    P.S. Принимаю предложения по построению интересных графиков на основе полученной информации.

    Абсцисса — (количество или суммарный рейтинг) (постов или комментариев), ордината — (карма или рейтинг). Каждый пользователь — точка.
    • 0
      кстати да, было бу интересно увидеть и другие разрезы «облаков», глядишь и кластеризация выявится какая нибудь.
  • +1
    Насчёт пользователей из прошлого:
    public class OldUsers
    {
    public static void main ( String[] args )
    {
    Date date = new Date ( 0 );
    SimpleDateFormat sdf = new SimpleDateFormat ();
    System.out.println ( sdf.format ( date ) );
    }
    }


    И на выходе…
    01.01.70 3:00


    Думаю, это должно навести на мысли ;)
    • +8
      А тэг «code» всё такой же бесполезный :(
    • +3
      3:00, видимо, из-за смещения часового пояса?
    • НЛО прилетело и опубликовало эту надпись здесь
  • 0
    Ещё один интересный вопрос, ответ на который Вы узнали и сможете выдать страшную тайну.

    Вот смотрите, идём на habrahabr.ru/posts/collective/ и нажимаем «Последняя страница». Сейчас там ничего интересного нет, а раньше красовалась надпись Внутреннего Голоса: «Подкаст не может быть хорошим». Сообщения эти не сопровождаются ссылками, поэтому не мог просмотреть страницу и комментарии и получить очень хорошую авторитетную ссылку :). Но, просмотрев пару десятков первых номеров, его не нашёл. Попадалось ли Вам такое сообщение? Каков его номер?
    • +1
      Хм, нашёл другую аномалию. На предпоследней странице (ссылка, которая скоро станет неактуальной) есть топик «Иван Сагалаев о микроформатах», на странице постов указано, что есть 25 комментариев. Внутри ни одного.
      • +1
        Да, такое часто встречал, из за этой аномалии около 4 часов дебажил софтину, не мог разобраться почему он возвращает неправильное количество комментариев.
    • 0
      Я же не вручную 120к постов перебирал:). Хотя таких топиков не встречал.
  • +2
    Извиняюсь, пора бы мне уже запомнить, что работает только «source»…

    public class NewTopicPage extends WebPanel
    {
        public static void main ( String[] args )
        {
            Date date = new Date ( 0 );
            SimpleDateFormat sdf = new SimpleDateFormat ();
            System.out.println ( sdf.format ( date ) );
        }
    }
    • +1
      Ну, вообще-то, code тоже работает, только назначение у него другое.
      • +1
        А подо что он конкретно нужен/работает?
  • +2
    Комментарий к несуществующей статье прям в точку)
    • +2
      Комментарий свежий, кто-то сегодня прикольнулся.
  • +3
    Поразительно, тоже где то месяц назад пришла идея, а не скачать ли и не проанализировать ли хабр, но руки пока так и не дошли.

    Постройте еще график доли пользоателей, голосовавших за топики в каждый конкретный день.

    Ну и скаое то интересное — зависимости:
    • как влиятет успех предыдущего поста на успех следущего и как это зависит от рейтинга/кармы пользователя
    • как заивисит рейтинг топика от времени публикации/хаба/рейтинга пользователя
    • как зависит активность пользователя от его рейтинга и даты регистрации
    ну и прочее.
  • +1
    > предложения по построению интересных графиков

    Точечную диаграмму зависимости: «средняя длина статьи / количество статей» (обе шкалы логарифмические) по каждому автору. И диаметр точки — количество с одинаковыми данными, интервалы по Х подобрать (по Y будут ровные ряды). Авторы — точки, а по их плотности будет видно, каких авторов больше, сколько пишут в среднем.
    • 0
      К сожалению, нет информации по длине статьи.
      • +1
        Распарсить скачанную статью, нет?
        • +1
          В базе нет текста скачанных статей.
  • 0
    А как Вы (не только автор поста, но и пользователи) оцениваете текущее качество контента по сравнению с 2011, 2010, 2009 годами? Хабр развивается или забивается шлаком?
    • 0
      Качество оценить сложно будет. Судя по количественным показателям: развитие достигло пика и стабилизировалось.
      • 0
        Есть раздел «Лучшее за все время». было бы интересно посмотреть на «Худшее за все время».
        • +6
          «Лучшее за все время»: Стив Джобс умер:( O_o
        • 0
          вы смотрите по постам самых заминусованных юзеров :)
          БолженОС — думаю самый худший пост за все время
  • 0
    Чем и как парсели, если не секрет?
    • 0
      Написал свою софтинку.
      • 0
        А какой язык использзовали?
  • +3
    Интересно, сколько в среднем выдают на гора товарищи alizar, jeston, marks, veveve, ilya42 (на тему: http://pipes.yahoo.com/pipes/pipe.info?_id=ec2b7ff0cbe06c1b1f40763eb7a5b6bc).
  • +4
    >Как ни грустно, но чуть больше половины пользователей не опубликовало ни одного топика.

    Было бы грустно, если бы опубликовали, но при этом не разбирались в теме. Пусть лучше пишут более опытные товарищи…

    За обзорность Спасибо. Очень познавательно вышло.
    • +5
      Интересно, сколько из этих не написавших ныли про «желтизну» Alizar :)
      • +5
        Сколько их этих не написавших ныли про то, что хабр уже не тот, и они бы намного лучше бы топики писали.
        • +2
          А топ первонахов реально собрать?
      • +4
        Если честно, я так и не понял, в чем суть претензий к Ализару.

        Многие известные мне новости науки и технологий с американских ресурсов в рунете появлялись и появляются первым делом, или вообще исключительно, в его переводе.
        • 0
          Да так, людям заняться нечем, возмущаются его переводами, хотя сами ни разу и не пытались что-либо перевести
        • 0
          Не только Ализар, таких тут несколько. Обычно они переводят желтуху, либо непроверенные данные, либо что-то заурядное, но с зазывающим заголовком. Мн лично не нравится терять кучу времени на отсеивание подобных топиков (не интересно, а для новостей есть специализированные издания) — пришлось писать фильтры для rss. Но это дело вкуса и gtd.)
        • +1
          В основном претензии состоят в том, что:
          -Информация первоисточника иногда перевирается\недоговаривается\преподносится однобоко в целях привлечения аудитории
          -Из-за большого числа постов некоторые из них теряют важные детали (нюансы перевода, ссылки, комментарии и правки автора оригинала)

          В результате читатель получается одним из трёх слепцов, который держит слона то ли за хвост, то ли за ногу, то ли за хобот и пытается делать вывод о том, что такое этот слон.
          Но спасибо, ему, конечно, за то, что пытается нести информацию не-англоговорящим читателям.
        • 0
          Вдобавок, он допускает кучу ошибок в русском языке. На сообщения об ошибках в личку никак не реагирует.
        • –2
          Может ализар это бот — генератор контента? Порою с размахом такой рандом выдает…
          • +1
            0 постов.
            • –2
              Лучше что-то, чем ничего, даже если это что-то только что висело на заборе? Аднака…
    • 0
      Если только чуть больше половины — Парето с его 80/20 вертится в гробу:)
  • +1
    В «Лучшем за все время» отображаются самые заплюсованные посты, а интересно, какой самый заплюсованный комментарий — не со списком порносайтов ли в помощь челу, который жаловался, что что-то где-то заблочили?:)
    • 0
      Это был самый заплюсованый комментарий за всю историю, в теме про закрытый порнолаб. Сейчас самый заплюсованный habrahabr.ru/post/123195/#comment_4043460
      • 0
        Ага, вот его следы. Оказывается, самый заплюсованный не со ссылками, а с комментарием к ним юзверя sedictor:
        Если вы видите много ссылок фиолетового цвета, то у меня плохие новости для вас. +622!

        habrahabr.ru/post/118370/#comment_3859518

        • 0
          О, и я засветился.
      • +1
        искал тот самый комментарий.
        набрал «porno» в поске…
        =)

        а в самом низу страницы, внутренний голос:
        «Эрик, ну сделайте там наконец Google Porno, народ жаждет!»

        я уже молчу о «pornohabr», который выпал в search suggestion
        • +2
          • 0
            Как вы умудрились?
            • 0
              Так он автор этого комментария.
              PS И снова ни одной фиолетовой…
              • 0
                Автор nForce, а vyacheslav_ka добавил его в избранное, при том что пост недоступен.
            • +1
              Если хотите иметь этот комментарий у себя в избранном, то выполните в консоли:

              $.post('/json/favorites/', {tt: '3', ti: '3854405', action: 'add'})
              
  • НЛО прилетело и опубликовало эту надпись здесь
    • +1
      Это еще был не слив. Реальный слив был в другом хабрапосте с единственным текстом «Идите нах*й», когда за обычный плюс без всяких комментариев банили на 1000 дней до 2014 года.
  • +3
    Какой приятный ровный график появления топиков по часам!

    Интересно, почему вдруг в начале 2010-го случился резкий обвал кол-ва топиков и комментариев, и до сих пор не поднялось до этого уровня?
    • +12
      НЯП, тогда с главной заоффтопили целую кучу блогов (теперь хабов): «Я умный», «Будущее здесь», «Научно-популярное».

      Помню, как после этого геноцида специально отслеживал, что новость о разработке в IBM мемристора или какой-то другой потенциально вкусной технологии на хабре так и не появилась, зато наверх повылазили обзоры каких-то быдлосмартфонов для среднего класса нижнего уровня.
  • +1
    Хаброаномалии

    Вот еще аномалия — у меня в профиле отмечено, что я работаю в РПЦ, но её уже удалили :(
  • 0
    Учитывая, что с хабра выпилили топ комментариев, очень порадовала бы Ваша версия топа. Особенно в виде периодически обновляемой страницы.
    • +6
      Тоже не можете найти коммент со списком порносайтов?
  • +1
    мать вашу! пошел взглянуть на самые заминусованные топики и опомнился только через два часа(
  • 0
    > Из этой диаграммы следует, что больше всего написали топиков пользователи зарегистрировавшееся до середины 2008 года
    Этому есть объяснение. Во-первых, провал графика (и другие его части) схож с графиком количества регистраций пользователей в месяц. Во-вторых, 2006 год столь большой, потому что alizar зарегистрирован 11 июня 2006 в 20:02, а статей сами знаете у него сколько. Таким образом, можно сделать вывод, что много написали потому, что пользователей в этот период зарегистрировано много. С другой стороны логично, пользователи давно на хабре, статей у них и должно быть больше.
    • +1
      Тогда, наверное, стоит делить на количество регистраций. График будет более показательным.
  • +4
    Самые заминусованные пользователи (по карме):
    quadregus -641
    egorinsk -402
    gigawatt -333
    Himari -299
    almaz -260

    Пользователю egorinsk можно официально присудить звание «главный антикармадрочер». На протяжении лет, находясь в глубоком минусе, написать больше 5000 (!) комментариев, многие из которых — огромный развёрнутый грамотный аргументированный троллинг на разнообразные темы. Я восхищён стойкостью этого человека.

    Остальные герои топа-задом-наперёд гораздо менее примечательны.

    P.S. Хочу статистику по пользователям с самым большим количеством заминусованных комментариев и топиков. Одно дело добиться минусов несколькими «меткими» комментариями и другое дело — постоянно вызывать несогласие собеседников.
    • +1
      … и не подвергнуться при этом абдукции НЛО, как пресловутый karma ака sixapart:)
  • +1
    Ещё можно было бы связать карму и количество голосов за карму (можно вывести график количества голосов в одних координатах с распределением кармы), а также рейтинг комментария и количество голосов за него.
  • +2
    ааа! Меня посчитали! )

  • +1
    Явно виден боковой флэт в жизни ресурса со склонностью к нисходящему тренду. Все это связано с системой голосований. Пользователю не хочется постить, чтобы получить минуса в карму, а подстриваться под непредсказуемые пожелания юзеров — нормальный человек не станет. Вот и сидят с нулевыми кармами, иногда почитывая опусы других. Ресурс, впрочем. крепко занял свою узкую нишу и это устраивает всех, так что пусть все остается как есть. Автору +1, интересная стата собрана, тем более с аномалиями
    • +4
      Больше всего удручает, что карма сама медленно не восстанавливается со временем. В результате каждый интересный, сатирический и может быть спорный комментарий мне приносит чуть-чуть негативной кармы (позитивной конечно тоже, но на 1-2 голоса меньше, чем негативной). Ну скажите, зачем нам скучные комментарии, которые нравятся абсолютно всем? И если я провёл на Хабре 2010-2011 годы под эгидой «не больше 1 комментария в час», то 2012 начался с «не больше 1 комментария в день» (как я понял это -30 кармы), по планам Хабра к 2015 году я стану рид-онли. =T_T=
      • 0
        По большому счету тут гуманитарию и читать нечего и общаться не с кем. Больше техническое сообщество. Так что лично для меня это небольшая потеря. Так, изредко читаю о том о сем. На 95% ресурс не мой.
    • 0
      Ещё забавно видеть забаненными народ с баджами «Легенда». Раз — и топиков не стало.
      • 0
        Да уж, сменилась политика Хабра, сменились и «звезды».
  • 0
    Решение пришло быстро, надо перебрать все опубликованные топики, начиная с 1 и заканчивая 144 400 номером
    Оооо, частота нашего ретранслятора :)
  • +3
    было бы очень интересно видеть еще такие данные:
    * средний рейтинг топиков по часам (по дням есть, но так интереснее)
    * среднее количества голосов за топик по часам по времени создания топика
    * среднее количество комментариев на топики по часам именно по времени создания топика

    такая информация может дать представление о том когда лучше публиковать, чтобы получить максимальную активность.

    а вообще интересно было бы еще видеть суммарную статистику по тэгам и хабам, но я так понимаю что парсер придется запускать заново.
    • +2
      Добавил что было.
      • 0
        А просто количество комментариев под часам и дням не сложно будет?
  • 0
    Почему вы скрыли разметку оси ординат на графиках активности?
  • 0
    habrahabr.ru/post/119754/#comment_3918136 -203 (Изображение в комментарии потеряно

    Помню этот комментарий, там была картинка, типа саркастичный демотиватор, мужчины с КДПВ.
  • +1
    Пользователи, зарегистрировавшиеся в далеком 1970 году

    [CHUCK_NORRIS_MODE]Я пользовался Хабрахабром, когда он ещё даже не существовал.[/CHUCK_NORRIS_MODE]
    • 0
      Да ладно, Хабр не существовал… Взглянем на дату рождения: 1 января 1988 :)
  • 0
    подскажите, пожалуйста, каким в туле строили такие красивые графики?
    • 0
      MS Word 2010.
  • 0
    Судя по статистике, больше всего на хабре не любят шуточки про пхп.
  • 0
    У кого сейчас самая большая карма? А за все время?

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.