egovoru: (Default)
[personal profile] egovoru

Говорят, свой знаменитый принцип Вильфредо Парето сначала сформулировал на огороде, когда обнаружил, что 80% всех горошин приходится на 20% стручков – и лишь потом углядел ту же закономерность в итальянском землевладении.


Еще один пример вездесущей степеннóй зависимости – распределение числа комментариев в моем ЖЖ, построенное программкой ljArchive. По горизонтальной оси – ники (неразличимые в таком масштабе), а по вертикальной – число комментариев каждого.

Имеет ли смысл вопрос, почему столь разные системы проявляют одну и ту же численную закономерность?


Слева – иллюстрация принципа Парето
из Encyclopedia of Human Thermodynamics,
а справа – распределение комментариев к моему журналу

Date: 2016-04-24 02:14 pm (UTC)
From: [identity profile] alex-new-york.livejournal.com
Самым простым объяснением наблюдения Парето (20/80) является концепция логнормального распределения. Нормальное (гауссово) распределение какой-то величины возникает, если величина является результатом сложения множества разных случайных факторов. Когда же величина является результатом не сложения, а произведения множества случайных факторов, распределенной по нормальному закону является не сама величина, а её логарифм, что обычно приводит к результатам, довольно близким к правилу 20/80, хотя конкретные числа могут и несколько отличаться, в зависимости от параметров распределения (как и в реальной жизни, где правило 20/80 выполняется лишь приблизительно).

Date: 2016-04-24 02:29 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Надо сказать, что распределение комментариев скорее напоминает не 80/20, а 90/10 - степень функции должна быть не меньше 3, а то и выше. К сожалению, в ljArchiv не предусмотрен вывод текстового файла, а то можно было бы провести более детальное исследование.

Там, например, явно присутствует некое плечо на уровне 200 комментариев - может, это не шум, а закономерность? Кроме того, хотя в таком масштабе этого не видно, программа на самом деле считает не только "входящие" комментарии, но и "выходящие", т.е., сколько ответных комментариев написала каждому комментатору я сама - а это тоже интересный материал для анализа ;)

"Когда же величина является результатом не сложения, а произведения множества случайных факторов, распределенной по нормальному закону является не сама величина, а её логарифм"

Да, но это ведь тоже математическое описание, только выраженное в других терминах, а можно ли усмотреть тут какой-то общий "физический механизм"? Иными словами, почему в некоторых случаях сила влияющих факторов складывается, а в других - умножается?

Date: 2016-04-24 03:03 pm (UTC)
From: [identity profile] alex-new-york.livejournal.com
Произведение случайных факторов является полезной моделью, когда изменения величины пропорциональны её величине. Например, ежегодное изменение размера бизнеса является определенной долей этого размера, положительной или отрицательной, в зависимости от экономической результативности его деятельности. Или, к примеру, изменение средней массы тела представителей какого-то биологического вида на протяжении нескольких поколений, является долей этого веса, положительной или отрицательной. Поэтому у мыши эта доля измеряется в граммах, а у кита - в тоннах.

А когда зависимости случайного изменения от текущего размера нет (например, если при игре в рулетку мы каждый раз ставим не фиксированную долю того, что у нас есть, а просто фиксированную сумму - скажем, один жетон), тогда результат большого числа случайных изменений будет описываться не логнормальным, а просто нормальным распределением.

А что именно показано на графике? Число комментариев данного автора вообще за все время? Или за какой-то отрезок времени? И имеются ли в виду комментарии к отдельной статье или вообще все комментарии?
Edited Date: 2016-04-24 03:16 pm (UTC)

Date: 2016-04-24 05:05 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"А что именно показано на графике?"

ljArchive считает число комментариев каждого автора, написанных им за все время существования журнала, и число ответных комментариев этому автору от хозяина журнала. Там есть и еще две интересные функции: подсчет частоты выхода постов по дням, месяцам и годам, и список наиболее часто употребляемых слов (только в текстах постов или в постах и комментариях вместе).

Но самая полезная функция, ради которой, собственно, я и завела эту программку - это отличный поиск по блогу! Поскольку сам ЖЖ странным образом начисто игнорирует эту потребность своих пользователей, то ljArchive - настоящее спасение. Правда, он ищет, конечно, не в самом блоге, а в его архиве, но и это сильно помогает - хотя бы вспомнить, какую метку ты поставил к искомому тексту ;) Да, и у него есть функция обновления архива одной кнопкой. Одним словом, я его очень рекомендую!

Исходя из того, что Вы написали о логнормальном распределении, наличие именно такой формы у распределения комментариев означает, что вероятность написания нового комментария увеличивается в зависимости от того, сколько уже было написано каждым автором прежде? Интересный вывод ;)
Edited Date: 2016-04-24 05:29 pm (UTC)

Date: 2016-04-25 12:54 am (UTC)
From: [identity profile] alex-new-york.livejournal.com
Большое спасибо, я как раз искал сервис поиска в ЖЖ!

Что касается числа комментариев, то произведение случайных факторов мне кажется здравой моделью. Первый фактор - доля свободного времени. У кого-то это - десять минут в день, а у кого-то другого - несколько часов. Другой фактор - интересы. Одному интересна лишь одна тема, а другому - много разных тем. Третий фактор - степень общительности. Четвертый - способность поддержать достаточно длинную дискуссию. И так далее. Имеет место и эффект текущего размера: чем больше собеседников человек нашел, тем больше его переписка и тем больше в нее вовлекается новых собеседников.

Date: 2016-04-25 12:49 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Подумала, что, наверное, самый важный фактор, влияющий на характер распределения - это малость отношения числа тех, кто включил меня в число друзей и, значит, регулярно читает мои тексты, и общего числа пользователей ЖЖ. Из последних каждый может случайно зайти в журнал и оставить там один комментарий, потеряв всякий интерес к журналу сразу после этого. Поскольку число их очень велико, они и дают длинный "хвост" распределения. А вот каждый из малого числа моих друзей, разумеется, и оставляет основное число комментариев ;)
Edited Date: 2016-04-25 12:50 pm (UTC)

Date: 2016-04-25 02:17 pm (UTC)
From: [identity profile] alex-new-york.livejournal.com
А график построен для Вашего конкретного журнала? А я думал - для всего ЖЖ. Да, тогда все становится на свои места :) И, наверное, Вы правы: длинный хвост немногословных посетителей - это именно те, кто не принадлежит к числу друзей. Интересно было бы построить два распределения: одно - для друзей, другое - для остальных. И сравнить.

Date: 2016-04-25 11:11 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"А график построен для Вашего конкретного журнала?"

Кажется, я основательно ввела Вас в заблуждение ;) ljArchive - это программа, которая архивирует Ваш блог для записи его на Вашем компьютере. А далее она уже работает с этим архивом - главное, у нее есть хороший поиск, которого нет у самого ЖЖ, и вообще-то я ее использую именно для этого. Но дополнительно у нее есть еще несколько утилит, одна из которых - вычисление вот этого самого распределния комментариев.

Возможно, ljArchive может архивировать и чужие блоги, но я этого не пробовала. Если может, то для проверки гипотезы можно было бы заархивировать блог кого-нибудь из первой десятки рейтинга и посмотреть, как распределяются комментарии у него. Мое предсказание - его кривая будет более пологой, чем моя, но проверять - что-то лень ;)

Date: 2016-04-25 10:53 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"Самым простым объяснением наблюдения Парето (20/80) является концепция логнормального распределения"

Вики вроде бы пишет, что логнормальное и степенное распределение - это не одно и тоже:

"For example log-normal distributions are often mistaken for power-law distributions: a data set drawn from a lognormal distribution will be approximately linear for large values (corresponding to the upper tail of the lognormal being close to a power law), but for small values the lognormal will drop off significantly (bowing down), corresponding to the lower tail of the lognormal being small (there are very few small values, rather than many small values in a power law)."

Date: 2016-04-26 12:46 am (UTC)
From: [identity profile] alex-new-york.livejournal.com
Да, это два несколько разных распределения. Вот тут, кстати, их сравнивают применительно к похожей статистике:

https://blog.luminoso.com/2012/02/09/twitter-followers-do-not-obey-a-power-law-or-paul-krugman-is-wrong/

Date: 2016-04-26 01:04 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Спасибо, очень интересно! (И, главное, куда более понятно, чем та статья (http://www.eecs.harvard.edu/~michaelm/postscripts/im2004a.pdf), которую нашла я сама ;)

Правда, автор совершенно не касается причин появления именно степенных распределений, а то ведь произведение случайных факторов дает логнормальное. Статья по моей ссылке вроде обещает что-то об этом, но она слишком специальная для меня :( Примечательно, однако, даже само название журнала, где она помещена ;)

Date: 2016-04-26 02:10 pm (UTC)
From: [identity profile] alex-new-york.livejournal.com
О причинах вот тут, например, рассуждают:

http://preprints.lebedev.ru/wp-content/uploads/2011/12/037.pdf

Кстати, там в списке литературы мне понравилась одна статья:

https://mipt.ru/students/organization/mezhpr/upload/abe/podlazov-arpemk6jkfm.pdf
Edited Date: 2016-04-26 02:10 pm (UTC)

Date: 2016-04-27 01:01 am (UTC)
From: [identity profile] egovoru.livejournal.com
Спасибо, очень интересно! В первой статье разбирают ситуацию, очень близкую к нашей: в магазине ведь тоже существует малое число постоянных лояльных покупателей (аналогия тех, кто имеет данный журнал в друзьях) и большое число всех потенциальных покупателей, которые могут случайно забрести в магазин и сделать там одиночную случайную покупку. Жаль, ljArchive не позволяет экспортировать численные данные, а то можно было бы с ними поиграться ;)

А вот во второй статье речь идет о той самой criticality, которой оперирует и автор статьи о фракталах в нейрофизиологии (http://arxiv.org/pdf/0910.2741.pdf). Поскольку я не знаю, что это такое, то мне трудно было понять там хоть что-нибудь :( Может быть, Вам она покажется более внятной?

Date: 2016-04-27 02:33 am (UTC)
From: [identity profile] alex-new-york.livejournal.com
Концепция самоорганизованной критичности - это рассуждения о некоторых общих свойствах систем вроде нейронной сети. Представьте себе многослойную нейронную сеть, в которой сигналы, попадающие на нейрон могут привести к его срабатыванию и посылке сигналов от него на нейроны следующего слоя. Если усредненный эффективный коэффициент передачи сигнала больше единицы, то число сработавших нейронов слой за слоем будет лавинообразно нарастать, и вместо полезного результата на выходе будет срабатывание всех нейронов конечного слоя. Если же усредненный эффективный коэффициент передачи сигнала меньше единицы, то число сработавших нейронов будет уменьшаться слой за слоем, и на выходе не будет ничего. Из этого можно сделать вывод, что "цепная реакция распространения сигнала" в нейронной сети должна находиться на пороге критичности: коэффициент передачи сигнала должен быть близок к единице. В такой ситуации дерево сработавших нейронов будет иметь фрактальную структуру и обладать интересными статистическими свойствами.
Edited Date: 2016-04-27 02:38 am (UTC)

Profile

egovoru: (Default)
egovoru

January 2026

S M T W T F S
    123
456 78910
111213 14151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 14th, 2026 10:38 pm
Powered by Dreamwidth Studios