Средняя длина слова у разных авторов

    Пока никто не сказал: «Зачем придумывать велосипед?», и в этот велосипед не полетели помидоры, сразу говорю, что средняя длина русского слова давно посчитана и составляет 5.28 символа. Вот ссылка на источник. А этот топик меня сподвигло написать следующее. При обсуждении моего предыдущего поста хабраюзеры stetzen и alienator высказали предположение, что средняя длина слова у различных авторов будет отличаться в зависимости от их стиля изложения, а может быть каких-то анатомических различий, уж не знаю. Кстати, попробуйте угадать среднюю длину чего больше всего ищут в гугле. В общем я решил проверить так ли это на самом деле.

    Ниже лежит исходник программы, которая считает общее количество слов в тексте, а также среднюю длину слова. Программа написана на perl.

    use strict;
    use locale;
    use POSIX qw (locale_h);
    setlocale(LC_CTYPE, 'ru_RU.CP1251');
    setlocale(LC_ALL, 'ru_RU.CP1251');
    open (TEXT, "<text.txt");
    undef $/;
    my $text = <TEXT>;
    close(TEXT);
    my @words = $text =~ m/[А-Я]+/ig;
    open(OUT, ">out.txt");
    my ($count, $sum);
    foreach(@words){
    $count++;
    $sum += length($_);
    }
    print OUT "Всего слов: $count\nСредняя длина слова: ".($sum/$count);
    close(OUT);


    Практически все тексты, которыми я пользовался взяты с библиотеки Мошкова. Вот что у меня получилось.

    image

    Выводы, на сколько отличается средняя длина слова у разных авторов делайте сами.
    Поделиться публикацией
    Реклама помогает поддерживать и развивать наши сервисы

    Подробнее
    Реклама
    Комментарии 21
    • +4
      А что, если усовершенствовать и сделать подобное для анализа постов/комментариев хабраюзеров?
      Ввел имя, отметил галочкой посты или комментарии или всё вместе, и получил всё сразу или даже в виде графика по времени.
      • +1
        Я думаю все дело в волшебных пузырьках предлогах. Кто-то использует чаще, а кто-то реже.
        • 0
          Поддерживаю, я бы добавил в скрипт стоп-слова или не считал слова длиной 1-2 символа. Думаю, результат изменится.
          • +3
            Зачем? Предлоги — тоже слова, не надо их дискриминировать!!!
        • +8
          В общем, у всех примерно одинаково в пределах статистической погрешности.
          • 0
            Моя жена сказала так: «Чем старше, тем короче»
          • 0
            Интерестно было бы проанилизировать тектсы из разных областей, мне кажется средний размер слова будет меняться в зависимости от тематики, причем самый большой может оказаться у юридических текстов.
            • +11
              Арбитражный процессуальный кодекс Российской Федерации.
              Всего слов: 51601
              Средняя длина слова: 6.93

              • 0
                >> cамый большой может оказаться у юридических текстов.

                Скорее в справочниках по органической химии или фармакологии.
              • +4
                Стало интересно, и решил для сравнения проанализировать пару книг из современной бульварной литературы.
                Дарья Донцова:
                Дама с коготками — Всего слов: 148785, Средняя длина слова: 4.72
                Дантисты тоже плачут — Всего слов: 140221, Средняя длина слова: 4.76
                Эта горькая сладкая месть — Всего слов: 128249, Средняя длина слова: 4.84

                Вероятно, существует зависимость между средней длиной слова и качеством текста.
                • НЛО прилетело и опубликовало эту надпись здесь
                  • 0
                    Я немного другой смысл вкладывал в слово «качество». Укаждого автора свой словарный запас, у Пушкина, насколько я помню со школьной скамьи, около 22 тысяч слов, мы же используем гораздо меньше слов, и, в основном, используем более короткие слова.
                    • НЛО прилетело и опубликовало эту надпись здесь
                  • НЛО прилетело и опубликовало эту надпись здесь
                    • 0
                      Я вот о чем подумал. Вряд ли существует подобный критерий. Ни по средней длине слова, ни по словарному запасу. Вот например у Пушкина словарный запас выше чем у других писателей, но секрет его успеха вовсе не в этом. Большой словарный запас — это всего лишь инструмент и им еще надо уметь пользоваться. Можно быть ходячей энциклопедией, иметь огромный словарный запас, но не уметь связать двух слов.
                    • 0
                      а я всё жду, когда наконец появится топик с «цепями Маркова» и нам предложат сгенерированный машиной текст, стилистически подобный авторскому :)
                      • 0
                        В 1984-ом уже была похожая)
                        • 0
                          Да, но я это к тому, что такие программки в реальности существуют уже (сам писал), и, кстати, активно используются в различных областях. Теперь жду появления примера здесь, раз «тема» пошла :)
                      • +1
                        Никаких полезных выводов из простых средних значений сделать не получится. Взгляните хотя бы на этот пример — habrahabr.ru/blogs/statistics/91128/#habracut
                        • 0
                          Вы бы посмотрели, какую аналитику произведений сделали люди для сайта Фантлаб…

                          В свое время и я занимался анализом текстов: распознавание авторства, статистика (частотная таблица слов, длин предложений, слов, букв и т.п.). Не считаю, что вы тут уж прямо супервещь создали.
                          • 0
                            ма-аленький нюанс на будущее — сортировочку бы…

                            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.