5 мая 2010 в 12:21

Средняя длина слова у разных авторов

Пока никто не сказал: «Зачем придумывать велосипед?», и в этот велосипед не полетели помидоры, сразу говорю, что средняя длина русского слова давно посчитана и составляет 5.28 символа. Вот ссылка на источник. А этот топик меня сподвигло написать следующее. При обсуждении моего предыдущего поста хабраюзеры stetzen и alienator высказали предположение, что средняя длина слова у различных авторов будет отличаться в зависимости от их стиля изложения, а может быть каких-то анатомических различий, уж не знаю. Кстати, попробуйте угадать среднюю длину чего больше всего ищут в гугле. В общем я решил проверить так ли это на самом деле.

Ниже лежит исходник программы, которая считает общее количество слов в тексте, а также среднюю длину слова. Программа написана на perl.

use strict;
use locale;
use POSIX qw (locale_h);
setlocale(LC_CTYPE, 'ru_RU.CP1251');
setlocale(LC_ALL, 'ru_RU.CP1251');
open (TEXT, "<text.txt");
undef $/;
my $text = <TEXT>;
close(TEXT);
my @words = $text =~ m/[А-Я]+/ig;
open(OUT, ">out.txt");
my ($count, $sum);
foreach(@words){
$count++;
$sum += length($_);
}
print OUT "Всего слов: $count\nСредняя длина слова: ".($sum/$count);
close(OUT);


Практически все тексты, которыми я пользовался взяты с библиотеки Мошкова. Вот что у меня получилось.

image

Выводы, на сколько отличается средняя длина слова у разных авторов делайте сами.
Олег Савватеев @Savvateev
карма
9,0
рейтинг 0,0
Самое читаемое

Комментарии (21)

  • +4
    А что, если усовершенствовать и сделать подобное для анализа постов/комментариев хабраюзеров?
    Ввел имя, отметил галочкой посты или комментарии или всё вместе, и получил всё сразу или даже в виде графика по времени.
  • +1
    Я думаю все дело в волшебных пузырьках предлогах. Кто-то использует чаще, а кто-то реже.
    • 0
      Поддерживаю, я бы добавил в скрипт стоп-слова или не считал слова длиной 1-2 символа. Думаю, результат изменится.
      • +3
        Зачем? Предлоги — тоже слова, не надо их дискриминировать!!!
  • +8
    В общем, у всех примерно одинаково в пределах статистической погрешности.
    • 0
      Моя жена сказала так: «Чем старше, тем короче»
  • 0
    Интерестно было бы проанилизировать тектсы из разных областей, мне кажется средний размер слова будет меняться в зависимости от тематики, причем самый большой может оказаться у юридических текстов.
    • +11
      Арбитражный процессуальный кодекс Российской Федерации.
      Всего слов: 51601
      Средняя длина слова: 6.93

    • 0
      >> cамый большой может оказаться у юридических текстов.

      Скорее в справочниках по органической химии или фармакологии.
  • +4
    Стало интересно, и решил для сравнения проанализировать пару книг из современной бульварной литературы.
    Дарья Донцова:
    Дама с коготками — Всего слов: 148785, Средняя длина слова: 4.72
    Дантисты тоже плачут — Всего слов: 140221, Средняя длина слова: 4.76
    Эта горькая сладкая месть — Всего слов: 128249, Средняя длина слова: 4.84

    Вероятно, существует зависимость между средней длиной слова и качеством текста.
    • НЛО прилетело и опубликовало эту надпись здесь
      • 0
        Я немного другой смысл вкладывал в слово «качество». Укаждого автора свой словарный запас, у Пушкина, насколько я помню со школьной скамьи, около 22 тысяч слов, мы же используем гораздо меньше слов, и, в основном, используем более короткие слова.
        • НЛО прилетело и опубликовало эту надпись здесь
    • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Я вот о чем подумал. Вряд ли существует подобный критерий. Ни по средней длине слова, ни по словарному запасу. Вот например у Пушкина словарный запас выше чем у других писателей, но секрет его успеха вовсе не в этом. Большой словарный запас — это всего лишь инструмент и им еще надо уметь пользоваться. Можно быть ходячей энциклопедией, иметь огромный словарный запас, но не уметь связать двух слов.
  • 0
    а я всё жду, когда наконец появится топик с «цепями Маркова» и нам предложат сгенерированный машиной текст, стилистически подобный авторскому :)
    • 0
      В 1984-ом уже была похожая)
      • 0
        Да, но я это к тому, что такие программки в реальности существуют уже (сам писал), и, кстати, активно используются в различных областях. Теперь жду появления примера здесь, раз «тема» пошла :)
  • +1
    Никаких полезных выводов из простых средних значений сделать не получится. Взгляните хотя бы на этот пример — habrahabr.ru/blogs/statistics/91128/#habracut
  • 0
    Вы бы посмотрели, какую аналитику произведений сделали люди для сайта Фантлаб…

    В свое время и я занимался анализом текстов: распознавание авторства, статистика (частотная таблица слов, длин предложений, слов, букв и т.п.). Не считаю, что вы тут уж прямо супервещь создали.
  • 0
    ма-аленький нюанс на будущее — сортировочку бы…

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.