Много званых
Apr. 23rd, 2016 08:18 pmГоворят, свой знаменитый принцип Вильфредо Парето сначала сформулировал на огороде, когда обнаружил, что 80% всех горошин приходится на 20% стручков – и лишь потом углядел ту же закономерность в итальянском землевладении.

Слева – иллюстрация принципа Парето
из Encyclopedia of Human Thermodynamics,
а справа – распределение комментариев к моему журналу
Еще один пример вездесущей степеннóй зависимости – распределение числа комментариев в моем ЖЖ, построенное программкой ljArchive. По горизонтальной оси – ники (неразличимые в таком масштабе), а по вертикальной – число комментариев каждого.
Имеет ли смысл вопрос, почему столь разные системы проявляют одну и ту же численную закономерность?

из Encyclopedia of Human Thermodynamics,
а справа – распределение комментариев к моему журналу
no subject
Date: 2016-04-24 02:29 pm (UTC)Там, например, явно присутствует некое плечо на уровне 200 комментариев - может, это не шум, а закономерность? Кроме того, хотя в таком масштабе этого не видно, программа на самом деле считает не только "входящие" комментарии, но и "выходящие", т.е., сколько ответных комментариев написала каждому комментатору я сама - а это тоже интересный материал для анализа ;)
"Когда же величина является результатом не сложения, а произведения множества случайных факторов, распределенной по нормальному закону является не сама величина, а её логарифм"
Да, но это ведь тоже математическое описание, только выраженное в других терминах, а можно ли усмотреть тут какой-то общий "физический механизм"? Иными словами, почему в некоторых случаях сила влияющих факторов складывается, а в других - умножается?
no subject
Date: 2016-04-24 03:03 pm (UTC)А когда зависимости случайного изменения от текущего размера нет (например, если при игре в рулетку мы каждый раз ставим не фиксированную долю того, что у нас есть, а просто фиксированную сумму - скажем, один жетон), тогда результат большого числа случайных изменений будет описываться не логнормальным, а просто нормальным распределением.
А что именно показано на графике? Число комментариев данного автора вообще за все время? Или за какой-то отрезок времени? И имеются ли в виду комментарии к отдельной статье или вообще все комментарии?
no subject
Date: 2016-04-24 05:05 pm (UTC)ljArchive считает число комментариев каждого автора, написанных им за все время существования журнала, и число ответных комментариев этому автору от хозяина журнала. Там есть и еще две интересные функции: подсчет частоты выхода постов по дням, месяцам и годам, и список наиболее часто употребляемых слов (только в текстах постов или в постах и комментариях вместе).
Но самая полезная функция, ради которой, собственно, я и завела эту программку - это отличный поиск по блогу! Поскольку сам ЖЖ странным образом начисто игнорирует эту потребность своих пользователей, то ljArchive - настоящее спасение. Правда, он ищет, конечно, не в самом блоге, а в его архиве, но и это сильно помогает - хотя бы вспомнить, какую метку ты поставил к искомому тексту ;) Да, и у него есть функция обновления архива одной кнопкой. Одним словом, я его очень рекомендую!
Исходя из того, что Вы написали о логнормальном распределении, наличие именно такой формы у распределения комментариев означает, что вероятность написания нового комментария увеличивается в зависимости от того, сколько уже было написано каждым автором прежде? Интересный вывод ;)
no subject
Date: 2016-04-25 12:54 am (UTC)Что касается числа комментариев, то произведение случайных факторов мне кажется здравой моделью. Первый фактор - доля свободного времени. У кого-то это - десять минут в день, а у кого-то другого - несколько часов. Другой фактор - интересы. Одному интересна лишь одна тема, а другому - много разных тем. Третий фактор - степень общительности. Четвертый - способность поддержать достаточно длинную дискуссию. И так далее. Имеет место и эффект текущего размера: чем больше собеседников человек нашел, тем больше его переписка и тем больше в нее вовлекается новых собеседников.