Статистика Хабрахабра

    Почти неделя прошла с исполнения хабрахабру 6 лет. Было бы очень интересно посмотреть на графики роста показателей сайта. Т.к. стандартная статистика малоинформативная, решено было собрать всю информацию своими руками и проанализировать. И так, почти неделя парсинга и сбора информации и получены следующие интересные данные(скрытые/удаленные посты/пользователи и их комментарии не учтены):
    • Больше всего постов написал alizar — 4298, рекорд 12 постов в день поставлен 18 октября 2006
    • Больше всего комментариев написал VolCh — 19323, установив личный рекорд 27 июля 2011 года в количестве 140 комментариев.
    • Больше всех опубликовал постов в день freetonik —21 топик 26 августа 2007
    • Максимальная активность хабры в день — опубликовано 105 топиков: 18 февраля 2010 и 22 июня 2008 года.
    • Максимальная активность хабры в месяц — опубликовано 2055 топиков в марте 2010
    • Среднее значение кармы: +7,83
    • Средний рейтинг топика: +24,75
    • Всего комментариев: 3 703 022.
    • Средний рейтинг комментария: +0,98
    • Максимальное количество оставленных комментариев — 1 июля 2011 в количестве 4936 штук.
    • 25% из всех опубликованных топиков были перенесены в черновики
    • Самый комментируемый топик habrahabr.ru/post/123157 собрал 2252 комментария

    Красивые графики, методы измерения, база с полученными данными, «хаброаномалии» — все это под катом.


    y — количество публикуемых топиков в месяц; x — временная шкала, 1 деление — месяц

    y — количество публикуемых комментариев в месяц; x — временная шкала, 1 деление — месяц

    y — количество регистраций пользователей в месяц; x — временная шкала, 1 деление — месяц
    Ответ на вопрос, чем обусловлен такой провал по количеству регистраций начавшийся в августе 2008 и достигший минимума в сентябре (1 регистрация за месяц), я не нашел. Возможно пользователей, зарегистрированных в этот период массово забанили/перевели в read-only.

    y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — час
    Данный график был получен путем подсчета количества опубликованных топиков в данный час за 6 лет. Если брать меньшие рамки, возможно сдвижения графика.

    y — усредненное количество публикуемых в данное время топиков; x — временная шкала, 1 деление — сутки

    y — средняя итоговая оценка топиков за все время; x — временная шкала, 1 деление — сутки
    Как оказалось, больше плюсов набирают топики опубликованные на выходных. Возможно это связано с тем, что на выходных их публикуют в два раза меньше.


    y — количество пользователей с количеством топиков, указанных в х шкале; x — количество топиков пользователя
    Как ни грустно, но чуть больше половины пользователей не опубликовало ни одного топика.

    y — количество пользователей с количеством комментариев, указанных в х шкале; x — количество комментариев пользователя
    Как видно из графика, около 15% пользователей постят 1-5 комментария и прекращают свою активность.


    y — количество пользователей с количеством кармы, указанной в х шкале; x — количество кармы пользователя
    20% пользователей имеют нулевую карму. Радует перевес количества пользователей в положительной части.

    Как считалось


    Т.к. прямого доступа к БД хабры нет, то пришлось искать обходные пути. Если вы замечали, то у каждого топика есть его номер в адресной строке, т.е. мы можем просмотреть самую первую запись на хабре habrahabr.ru/post/1. Решение пришло быстро, надо перебрать все опубликованные топики, начиная с 1 и заканчивая 144 400 номером(на тот момент последний топик, у которого уже истек срок голосования). Из них существуют 121 641 топика, из которых 25 949 перемещены в черновики и еще несколько сотен оказались пустыми, наподобие этого: habrahabr.ru/company/muk/blog/119653. Все топики были сохранены в файлы для дальнейшего парсинга, заняли почти 10Гб. Далее каждый топик парсился следующим образом: брался автор топика, рейтинг, дата публикации, после этого парсились комментарии, из них брался автор, рейтинг комментария и дата. У нас получилось три таблицы. После получения всех пользователей необходимо было получить для каждого значение его кармы и рейтинг. При таком подходе посчитались все, кто хотя бы раз запостил пост или оставил комментарий. Все это выкачивалось и парсилось около недели в круглосуточном режиме. Софтинка для парсинга писалась в процессе поступления данных. Частота запросов к хабру не превышало 1 запроса в секунду.
    Структура БД:

    Скачать дамп базы (MSSQL backup) можно здесь (132Мб):

    Хаброаномалии


    Во время парсинга обнаружилась целая куча аномалий:

    P.S. Принимаю предложения по построению интересных графиков на основе полученной информации.

    Добавлено:

    y — количество постов пользователей, зарегистрированные в указанной х шкале; x — временная шкала, 1 деление — месяц
    Из этой диаграммы следует, что больше всего написали топиков пользователи зарегистрировавшееся до середины 2008 года.


    было бы очень интересно видеть еще такие данные:
    * средний рейтинг топиков по часам (по дням есть, но так интереснее)
    * среднее количества голосов за топик по часам по времени создания топика
    * среднее количество комментариев на топики по часам именно по времени создания топика

    такая информация может дать представление о том когда лучше публиковать, чтобы получить максимальную активность.

    а вообще интересно было бы еще видеть суммарную статистику по тэгам и хабам, но я так понимаю что парсер придется запускать заново.





    Есть раздел «Лучшее за все время». было бы интересно посмотреть на «Худшее за все время». habrahabr.ru/post/145045/#comment_4873731

    Самые заминусованные топики:

    Самые заминусованные комментарии:

    Самые заминусованные пользователи (по карме):



    Десятка первонахов по комментариям:


    Замечу, что средний рейтинг первого комментария +3,59, тогда как средний рейтинг всех комментариев +0,98


    Самый волнующий комментарий
    Метки:
    Поделиться публикацией
    Похожие публикации
    Комментарии 134
    • 0
      Хм, я думал везде будет экспонента, тем более с открытием реги. В 2012 по июнь или май?
      • 0
        По апрель, т.к. информацию начал собирать еще в мае + у топиков не окончился срок голосования.
      • 0
        Забыл еще добавить, что read-only пользователи не учитывались при сборе статистики.
        • +2
          А интересно было бы узнать, сколько юзеров было за забором до реги.
    • +3
      Если не секрет, почему в черновики ушла предыдущая публикация, а эта была написана заново?
      • +4
        Предыдущая была случайно опубликована в очень уж черновом варианте: без ссылок и с недописанными частями.
    • НЛО прилетело и опубликовало эту надпись здесь
    • +7
      > Больше всего комментариев написал VolCh — 19323
      OMG
      • +6
        Какое же это «ОМГ»? Довольно скромное число. На иных форумах звание «флудер» дают только на числах порядка «100 000».
      • +23
        Даже не знаю, радоваться или огорчаться в связи с таким сомнительным рекордом.
        • 0
          такими темпами можно и наверстать же
          • +1
            Э-э-э… Что наверстать?
            • +3
              НУ с такими темпами — все что угодно :)
            • +1
              Например, интенсивность. Сейчас всего лишь 1 комментарий в 2 часа с момента вашей регистрации на Хабре.
            • 0
              Таки набил ещё 1к комментов за один день?))
              • +2
                Данные явно не вчерашние :)
                • +3
                  Ой, да лааадно тебе, оправдыватся! Все поняли, что ты статистикодрочер! =)
                  • +3
                    Спалил Ж)
                  • +1
                    новый вид спорта на хабре? главное засветился!))
    • +9
      > Ответ на вопрос, чем обусловлен такой провал по количеству регистраций начавшийся в августе 2008 и достигший минимума в сентябре (1 регистрация за месяц), я не нашел.

      Вроде как именно тогда ввели регистрацию по инвайтам, отсюда и провал
      • +6
        Кстати, взлет регистраций в июле 2009-го связан с акцией, когда для получения инвайта нужно было установить IE8 с хабронадстрокой
    • +1
      Пользователи, которые вроде бы и есть, но и в тоже время их нет
      Это же заблокированные
      • +1
        Но у заблокированных тогда на месте их комментариев появляется надпись про нло прилетевшее и оставившее надпись. Разве не так?
        • +1
          Не у всех. Обычно бывает в профиле 404, а комментарии на месте (по крайней мере, я последнее время давно НЛО не видел). В чём различие, не знаю.
          • +2
            Возможно, начиная с какого-то времени решили не превращать старые обсуждения в решето?
      • +1
        Это деактивированные пользователи
    • +1
      А ведь данные о пользователях сейчас закрыли, поэтому Вы, наверное, не смогли получить полные сведения о регистрациях, а только тех посетителей, ссылки на персональные страницы которых нашли на сайте. Верно?
      • 0
        Получены данные всех, кто хотя бы раз написал комментарий или пост и не является заблокированным или переведенным в read-only.
        • 0
          Тогда это, наверное, надо упомянуть под графиком, что данные о регистрациях неполны. (Ещё можно было бы прочитать тех, кого пригласили из страниц пригласивших.)
    • +1
      Ответ на вопрос, чем обусловлен такой провал по количеству регистраций начавшийся в августе 2008 и достигший минимума в сентябре (1 регистрация за месяц), я не нашел.

      Утверждать не буду, но тогда, кажется, ввели регистрацию по инвайтам
      • +4
        Эх, новички… Уже и не помнят, что когда-то на хабре никто и знать не знал богомерзкого слова «инвайт»:(
    • +19
      Я ужасен.
      Впервые попал на хабр и подумал – а не запостить ли мне все свои подкасты разом? :)
      • +2
        Зато прославился))
        • 0
          Главное чтобы никто не захотел теперь побить рекорд.
    • +1
      Жалко, что нет доступа к базе хабры. Было бы интересно глянуть распределение «кто больше всех плюсует/минусует комментарии/топики/карму» с графиками распределения между «добрыми» и «злыми». :)
    • +4
      P.S. Принимаю предложения по построению интересных графиков на основе полученной информации.

      Абсцисса — (количество или суммарный рейтинг) (постов или комментариев), ордината — (карма или рейтинг). Каждый пользователь — точка.
      • 0
        кстати да, было бу интересно увидеть и другие разрезы «облаков», глядишь и кластеризация выявится какая нибудь.
    • +1
      Насчёт пользователей из прошлого:
      public class OldUsers
      {
      public static void main ( String[] args )
      {
      Date date = new Date ( 0 );
      SimpleDateFormat sdf = new SimpleDateFormat ();
      System.out.println ( sdf.format ( date ) );
      }
      }


      И на выходе…
      01.01.70 3:00


      Думаю, это должно навести на мысли ;)
      • +8
        А тэг «code» всё такой же бесполезный :(
      • +3
        3:00, видимо, из-за смещения часового пояса?
      • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Ещё один интересный вопрос, ответ на который Вы узнали и сможете выдать страшную тайну.

      Вот смотрите, идём на habrahabr.ru/posts/collective/ и нажимаем «Последняя страница». Сейчас там ничего интересного нет, а раньше красовалась надпись Внутреннего Голоса: «Подкаст не может быть хорошим». Сообщения эти не сопровождаются ссылками, поэтому не мог просмотреть страницу и комментарии и получить очень хорошую авторитетную ссылку :). Но, просмотрев пару десятков первых номеров, его не нашёл. Попадалось ли Вам такое сообщение? Каков его номер?
      • +1
        Хм, нашёл другую аномалию. На предпоследней странице (ссылка, которая скоро станет неактуальной) есть топик «Иван Сагалаев о микроформатах», на странице постов указано, что есть 25 комментариев. Внутри ни одного.
        • +1
          Да, такое часто встречал, из за этой аномалии около 4 часов дебажил софтину, не мог разобраться почему он возвращает неправильное количество комментариев.
      • 0
        Я же не вручную 120к постов перебирал:). Хотя таких топиков не встречал.
    • +2
      Извиняюсь, пора бы мне уже запомнить, что работает только «source»…

      public class NewTopicPage extends WebPanel
      {
          public static void main ( String[] args )
          {
              Date date = new Date ( 0 );
              SimpleDateFormat sdf = new SimpleDateFormat ();
              System.out.println ( sdf.format ( date ) );
          }
      }
      • +1
        Ну, вообще-то, code тоже работает, только назначение у него другое.
    • +2
      Комментарий к несуществующей статье прям в точку)
      • +2
        Комментарий свежий, кто-то сегодня прикольнулся.
    • +3
      Поразительно, тоже где то месяц назад пришла идея, а не скачать ли и не проанализировать ли хабр, но руки пока так и не дошли.

      Постройте еще график доли пользоателей, голосовавших за топики в каждый конкретный день.

      Ну и скаое то интересное — зависимости:
      • как влиятет успех предыдущего поста на успех следущего и как это зависит от рейтинга/кармы пользователя
      • как заивисит рейтинг топика от времени публикации/хаба/рейтинга пользователя
      • как зависит активность пользователя от его рейтинга и даты регистрации
      ну и прочее.
    • +1
      > предложения по построению интересных графиков

      Точечную диаграмму зависимости: «средняя длина статьи / количество статей» (обе шкалы логарифмические) по каждому автору. И диаметр точки — количество с одинаковыми данными, интервалы по Х подобрать (по Y будут ровные ряды). Авторы — точки, а по их плотности будет видно, каких авторов больше, сколько пишут в среднем.
      • 0
        К сожалению, нет информации по длине статьи.
        • +1
          Распарсить скачанную статью, нет?
          • +1
            В базе нет текста скачанных статей.
    • 0
      А как Вы (не только автор поста, но и пользователи) оцениваете текущее качество контента по сравнению с 2011, 2010, 2009 годами? Хабр развивается или забивается шлаком?
      • 0
        Качество оценить сложно будет. Судя по количественным показателям: развитие достигло пика и стабилизировалось.
        • 0
          Есть раздел «Лучшее за все время». было бы интересно посмотреть на «Худшее за все время».
          • +6
            «Лучшее за все время»: Стив Джобс умер:( O_o
          • 0
            вы смотрите по постам самых заминусованных юзеров :)
            БолженОС — думаю самый худший пост за все время
    • 0
      Чем и как парсели, если не секрет?
    • +3
      Интересно, сколько в среднем выдают на гора товарищи alizar, jeston, marks, veveve, ilya42 (на тему: http://pipes.yahoo.com/pipes/pipe.info?_id=ec2b7ff0cbe06c1b1f40763eb7a5b6bc).
    • +4
      >Как ни грустно, но чуть больше половины пользователей не опубликовало ни одного топика.

      Было бы грустно, если бы опубликовали, но при этом не разбирались в теме. Пусть лучше пишут более опытные товарищи…

      За обзорность Спасибо. Очень познавательно вышло.
      • +5
        Интересно, сколько из этих не написавших ныли про «желтизну» Alizar :)
        • +5
          Сколько их этих не написавших ныли про то, что хабр уже не тот, и они бы намного лучше бы топики писали.
          • +2
            А топ первонахов реально собрать?
        • +4
          Если честно, я так и не понял, в чем суть претензий к Ализару.

          Многие известные мне новости науки и технологий с американских ресурсов в рунете появлялись и появляются первым делом, или вообще исключительно, в его переводе.
          • 0
            Да так, людям заняться нечем, возмущаются его переводами, хотя сами ни разу и не пытались что-либо перевести
          • 0
            Не только Ализар, таких тут несколько. Обычно они переводят желтуху, либо непроверенные данные, либо что-то заурядное, но с зазывающим заголовком. Мн лично не нравится терять кучу времени на отсеивание подобных топиков (не интересно, а для новостей есть специализированные издания) — пришлось писать фильтры для rss. Но это дело вкуса и gtd.)
          • +1
            В основном претензии состоят в том, что:
            -Информация первоисточника иногда перевирается\недоговаривается\преподносится однобоко в целях привлечения аудитории
            -Из-за большого числа постов некоторые из них теряют важные детали (нюансы перевода, ссылки, комментарии и правки автора оригинала)

            В результате читатель получается одним из трёх слепцов, который держит слона то ли за хвост, то ли за ногу, то ли за хобот и пытается делать вывод о том, что такое этот слон.
            Но спасибо, ему, конечно, за то, что пытается нести информацию не-англоговорящим читателям.
          • 0
            Вдобавок, он допускает кучу ошибок в русском языке. На сообщения об ошибках в личку никак не реагирует.
          • –2
            Может ализар это бот — генератор контента? Порою с размахом такой рандом выдает…
            • +1
              0 постов.
              • –2
                Лучше что-то, чем ничего, даже если это что-то только что висело на заборе? Аднака…
      • 0
        Если только чуть больше половины — Парето с его 80/20 вертится в гробу:)
    • +1
      В «Лучшем за все время» отображаются самые заплюсованные посты, а интересно, какой самый заплюсованный комментарий — не со списком порносайтов ли в помощь челу, который жаловался, что что-то где-то заблочили?:)
      • 0
        Это был самый заплюсованый комментарий за всю историю, в теме про закрытый порнолаб. Сейчас самый заплюсованный habrahabr.ru/post/123195/#comment_4043460
        • 0
          Ага, вот его следы. Оказывается, самый заплюсованный не со ссылками, а с комментарием к ним юзверя sedictor:
          Если вы видите много ссылок фиолетового цвета, то у меня плохие новости для вас. +622!

          habrahabr.ru/post/118370/#comment_3859518

        • +1
          искал тот самый комментарий.
          набрал «porno» в поске…
          =)

          а в самом низу страницы, внутренний голос:
          «Эрик, ну сделайте там наконец Google Porno, народ жаждет!»

          я уже молчу о «pornohabr», который выпал в search suggestion
    • НЛО прилетело и опубликовало эту надпись здесь
      • +1
        Это еще был не слив. Реальный слив был в другом хабрапосте с единственным текстом «Идите нах*й», когда за обычный плюс без всяких комментариев банили на 1000 дней до 2014 года.
    • +3
      Какой приятный ровный график появления топиков по часам!

      Интересно, почему вдруг в начале 2010-го случился резкий обвал кол-ва топиков и комментариев, и до сих пор не поднялось до этого уровня?
      • +12
        НЯП, тогда с главной заоффтопили целую кучу блогов (теперь хабов): «Я умный», «Будущее здесь», «Научно-популярное».

        Помню, как после этого геноцида специально отслеживал, что новость о разработке в IBM мемристора или какой-то другой потенциально вкусной технологии на хабре так и не появилась, зато наверх повылазили обзоры каких-то быдлосмартфонов для среднего класса нижнего уровня.
    • +1
      Хаброаномалии

      Вот еще аномалия — у меня в профиле отмечено, что я работаю в РПЦ, но её уже удалили :(
    • 0
      Учитывая, что с хабра выпилили топ комментариев, очень порадовала бы Ваша версия топа. Особенно в виде периодически обновляемой страницы.
      • +6
        Тоже не можете найти коммент со списком порносайтов?
    • +1
      мать вашу! пошел взглянуть на самые заминусованные топики и опомнился только через два часа(
    • 0
      > Из этой диаграммы следует, что больше всего написали топиков пользователи зарегистрировавшееся до середины 2008 года
      Этому есть объяснение. Во-первых, провал графика (и другие его части) схож с графиком количества регистраций пользователей в месяц. Во-вторых, 2006 год столь большой, потому что alizar зарегистрирован 11 июня 2006 в 20:02, а статей сами знаете у него сколько. Таким образом, можно сделать вывод, что много написали потому, что пользователей в этот период зарегистрировано много. С другой стороны логично, пользователи давно на хабре, статей у них и должно быть больше.
      • +1
        Тогда, наверное, стоит делить на количество регистраций. График будет более показательным.
    • +4
      Самые заминусованные пользователи (по карме):
      quadregus -641
      egorinsk -402
      gigawatt -333
      Himari -299
      almaz -260

      Пользователю egorinsk можно официально присудить звание «главный антикармадрочер». На протяжении лет, находясь в глубоком минусе, написать больше 5000 (!) комментариев, многие из которых — огромный развёрнутый грамотный аргументированный троллинг на разнообразные темы. Я восхищён стойкостью этого человека.

      Остальные герои топа-задом-наперёд гораздо менее примечательны.

      P.S. Хочу статистику по пользователям с самым большим количеством заминусованных комментариев и топиков. Одно дело добиться минусов несколькими «меткими» комментариями и другое дело — постоянно вызывать несогласие собеседников.
      • +1
        … и не подвергнуться при этом абдукции НЛО, как пресловутый karma ака sixapart:)
    • +1
      Ещё можно было бы связать карму и количество голосов за карму (можно вывести график количества голосов в одних координатах с распределением кармы), а также рейтинг комментария и количество голосов за него.
    • +2
      ааа! Меня посчитали! )

    • +1
      Явно виден боковой флэт в жизни ресурса со склонностью к нисходящему тренду. Все это связано с системой голосований. Пользователю не хочется постить, чтобы получить минуса в карму, а подстриваться под непредсказуемые пожелания юзеров — нормальный человек не станет. Вот и сидят с нулевыми кармами, иногда почитывая опусы других. Ресурс, впрочем. крепко занял свою узкую нишу и это устраивает всех, так что пусть все остается как есть. Автору +1, интересная стата собрана, тем более с аномалиями
      • +4
        Больше всего удручает, что карма сама медленно не восстанавливается со временем. В результате каждый интересный, сатирический и может быть спорный комментарий мне приносит чуть-чуть негативной кармы (позитивной конечно тоже, но на 1-2 голоса меньше, чем негативной). Ну скажите, зачем нам скучные комментарии, которые нравятся абсолютно всем? И если я провёл на Хабре 2010-2011 годы под эгидой «не больше 1 комментария в час», то 2012 начался с «не больше 1 комментария в день» (как я понял это -30 кармы), по планам Хабра к 2015 году я стану рид-онли. =T_T=
        • 0
          По большому счету тут гуманитарию и читать нечего и общаться не с кем. Больше техническое сообщество. Так что лично для меня это небольшая потеря. Так, изредко читаю о том о сем. На 95% ресурс не мой.
      • 0
        Ещё забавно видеть забаненными народ с баджами «Легенда». Раз — и топиков не стало.
        • 0
          Да уж, сменилась политика Хабра, сменились и «звезды».
    • 0
      Решение пришло быстро, надо перебрать все опубликованные топики, начиная с 1 и заканчивая 144 400 номером
      Оооо, частота нашего ретранслятора :)
    • +3
      было бы очень интересно видеть еще такие данные:
      * средний рейтинг топиков по часам (по дням есть, но так интереснее)
      * среднее количества голосов за топик по часам по времени создания топика
      * среднее количество комментариев на топики по часам именно по времени создания топика

      такая информация может дать представление о том когда лучше публиковать, чтобы получить максимальную активность.

      а вообще интересно было бы еще видеть суммарную статистику по тэгам и хабам, но я так понимаю что парсер придется запускать заново.
      • +2
        Добавил что было.
        • 0
          А просто количество комментариев под часам и дням не сложно будет?
    • 0
      Почему вы скрыли разметку оси ординат на графиках активности?
    • 0
      habrahabr.ru/post/119754/#comment_3918136 -203 (Изображение в комментарии потеряно

      Помню этот комментарий, там была картинка, типа саркастичный демотиватор, мужчины с КДПВ.
    • +1
      Пользователи, зарегистрировавшиеся в далеком 1970 году

      [CHUCK_NORRIS_MODE]Я пользовался Хабрахабром, когда он ещё даже не существовал.[/CHUCK_NORRIS_MODE]
      • 0
        Да ладно, Хабр не существовал… Взглянем на дату рождения: 1 января 1988 :)
    • 0
      подскажите, пожалуйста, каким в туле строили такие красивые графики?
    • 0
      Судя по статистике, больше всего на хабре не любят шуточки про пхп.
    • 0
      У кого сейчас самая большая карма? А за все время?

    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.