Много званых
Apr. 23rd, 2016 08:18 pmГоворят, свой знаменитый принцип Вильфредо Парето сначала сформулировал на огороде, когда обнаружил, что 80% всех горошин приходится на 20% стручков – и лишь потом углядел ту же закономерность в итальянском землевладении.

Слева – иллюстрация принципа Парето
из Encyclopedia of Human Thermodynamics,
а справа – распределение комментариев к моему журналу
Еще один пример вездесущей степеннóй зависимости – распределение числа комментариев в моем ЖЖ, построенное программкой ljArchive. По горизонтальной оси – ники (неразличимые в таком масштабе), а по вертикальной – число комментариев каждого.
Имеет ли смысл вопрос, почему столь разные системы проявляют одну и ту же численную закономерность?

из Encyclopedia of Human Thermodynamics,
а справа – распределение комментариев к моему журналу
no subject
Date: 2016-04-24 02:14 pm (UTC)no subject
Date: 2016-04-24 02:29 pm (UTC)Там, например, явно присутствует некое плечо на уровне 200 комментариев - может, это не шум, а закономерность? Кроме того, хотя в таком масштабе этого не видно, программа на самом деле считает не только "входящие" комментарии, но и "выходящие", т.е., сколько ответных комментариев написала каждому комментатору я сама - а это тоже интересный материал для анализа ;)
"Когда же величина является результатом не сложения, а произведения множества случайных факторов, распределенной по нормальному закону является не сама величина, а её логарифм"
Да, но это ведь тоже математическое описание, только выраженное в других терминах, а можно ли усмотреть тут какой-то общий "физический механизм"? Иными словами, почему в некоторых случаях сила влияющих факторов складывается, а в других - умножается?
no subject
Date: 2016-04-24 03:03 pm (UTC)А когда зависимости случайного изменения от текущего размера нет (например, если при игре в рулетку мы каждый раз ставим не фиксированную долю того, что у нас есть, а просто фиксированную сумму - скажем, один жетон), тогда результат большого числа случайных изменений будет описываться не логнормальным, а просто нормальным распределением.
А что именно показано на графике? Число комментариев данного автора вообще за все время? Или за какой-то отрезок времени? И имеются ли в виду комментарии к отдельной статье или вообще все комментарии?
no subject
Date: 2016-04-24 05:05 pm (UTC)ljArchive считает число комментариев каждого автора, написанных им за все время существования журнала, и число ответных комментариев этому автору от хозяина журнала. Там есть и еще две интересные функции: подсчет частоты выхода постов по дням, месяцам и годам, и список наиболее часто употребляемых слов (только в текстах постов или в постах и комментариях вместе).
Но самая полезная функция, ради которой, собственно, я и завела эту программку - это отличный поиск по блогу! Поскольку сам ЖЖ странным образом начисто игнорирует эту потребность своих пользователей, то ljArchive - настоящее спасение. Правда, он ищет, конечно, не в самом блоге, а в его архиве, но и это сильно помогает - хотя бы вспомнить, какую метку ты поставил к искомому тексту ;) Да, и у него есть функция обновления архива одной кнопкой. Одним словом, я его очень рекомендую!
Исходя из того, что Вы написали о логнормальном распределении, наличие именно такой формы у распределения комментариев означает, что вероятность написания нового комментария увеличивается в зависимости от того, сколько уже было написано каждым автором прежде? Интересный вывод ;)
no subject
Date: 2016-04-25 12:54 am (UTC)Что касается числа комментариев, то произведение случайных факторов мне кажется здравой моделью. Первый фактор - доля свободного времени. У кого-то это - десять минут в день, а у кого-то другого - несколько часов. Другой фактор - интересы. Одному интересна лишь одна тема, а другому - много разных тем. Третий фактор - степень общительности. Четвертый - способность поддержать достаточно длинную дискуссию. И так далее. Имеет место и эффект текущего размера: чем больше собеседников человек нашел, тем больше его переписка и тем больше в нее вовлекается новых собеседников.
no subject
Date: 2016-04-25 12:49 pm (UTC)no subject
Date: 2016-04-25 02:17 pm (UTC)no subject
Date: 2016-04-25 11:11 pm (UTC)Кажется, я основательно ввела Вас в заблуждение ;) ljArchive - это программа, которая архивирует Ваш блог для записи его на Вашем компьютере. А далее она уже работает с этим архивом - главное, у нее есть хороший поиск, которого нет у самого ЖЖ, и вообще-то я ее использую именно для этого. Но дополнительно у нее есть еще несколько утилит, одна из которых - вычисление вот этого самого распределния комментариев.
Возможно, ljArchive может архивировать и чужие блоги, но я этого не пробовала. Если может, то для проверки гипотезы можно было бы заархивировать блог кого-нибудь из первой десятки рейтинга и посмотреть, как распределяются комментарии у него. Мое предсказание - его кривая будет более пологой, чем моя, но проверять - что-то лень ;)
no subject
Date: 2016-04-25 10:53 pm (UTC)Вики вроде бы пишет, что логнормальное и степенное распределение - это не одно и тоже:
"For example log-normal distributions are often mistaken for power-law distributions: a data set drawn from a lognormal distribution will be approximately linear for large values (corresponding to the upper tail of the lognormal being close to a power law), but for small values the lognormal will drop off significantly (bowing down), corresponding to the lower tail of the lognormal being small (there are very few small values, rather than many small values in a power law)."
no subject
Date: 2016-04-26 12:46 am (UTC)https://blog.luminoso.com/2012/02/09/twitter-followers-do-not-obey-a-power-law-or-paul-krugman-is-wrong/
no subject
Date: 2016-04-26 01:04 pm (UTC)Правда, автор совершенно не касается причин появления именно степенных распределений, а то ведь произведение случайных факторов дает логнормальное. Статья по моей ссылке вроде обещает что-то об этом, но она слишком специальная для меня :( Примечательно, однако, даже само название журнала, где она помещена ;)
no subject
Date: 2016-04-26 02:10 pm (UTC)http://preprints.lebedev.ru/wp-content/uploads/2011/12/037.pdf
Кстати, там в списке литературы мне понравилась одна статья:
https://mipt.ru/students/organization/mezhpr/upload/abe/podlazov-arpemk6jkfm.pdf
no subject
Date: 2016-04-27 01:01 am (UTC)А вот во второй статье речь идет о той самой criticality, которой оперирует и автор статьи о фракталах в нейрофизиологии (http://arxiv.org/pdf/0910.2741.pdf). Поскольку я не знаю, что это такое, то мне трудно было понять там хоть что-нибудь :( Может быть, Вам она покажется более внятной?
no subject
Date: 2016-04-27 02:33 am (UTC)