egovoru: (Default)
[personal profile] egovoru

Говорят, свой знаменитый принцип Вильфредо Парето сначала сформулировал на огороде, когда обнаружил, что 80% всех горошин приходится на 20% стручков – и лишь потом углядел ту же закономерность в итальянском землевладении.


Еще один пример вездесущей степеннóй зависимости – распределение числа комментариев в моем ЖЖ, построенное программкой ljArchive. По горизонтальной оси – ники (неразличимые в таком масштабе), а по вертикальной – число комментариев каждого.

Имеет ли смысл вопрос, почему столь разные системы проявляют одну и ту же численную закономерность?


Слева – иллюстрация принципа Парето
из Encyclopedia of Human Thermodynamics,
а справа – распределение комментариев к моему журналу

Date: 2016-04-24 07:29 am (UTC)
From: [identity profile] dralkin.livejournal.com
Думаю, что вопрос имеет смысл. Надо только подумать, какой.

Date: 2016-04-24 12:25 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Я имела в виду, означает ли одинаковая численная закономерность и некую общность "физических механизмов", и если да, то какую? Какая общность физических механизмов может быть у процесса созревания гороха и комментирования в ЖЖ? На первый взгляд тут вроде бы нет ничего общего ;)

Date: 2016-04-24 04:20 pm (UTC)
From: [identity profile] dralkin.livejournal.com
да, я понял ваш вопрос.
Но я думаю, что общность заключена не в "физических механизмах" того или иного явления, а в том способе получения знания, который мы применяем.

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-24 05:07 pm (UTC) - Expand

(no subject)

From: [identity profile] dralkin.livejournal.com - Date: 2016-04-25 05:43 am (UTC) - Expand

Date: 2016-04-24 07:52 am (UTC)
From: [identity profile] a-gorb.livejournal.com
”Имеет ли смысл вопрос, почему столь разные системы проявляют одну и ту же численную закономерность?”
Имеет. Ведь вот распределение Гаусса, которое встречается может быть даже чаще, чем распределение Парето, имеет такого рода обоснование.

Date: 2016-04-24 08:58 am (UTC)
From: [identity profile] sergeyoho.livejournal.com
Между этими двумя распределениями, как я понимаю, сложные отношения. (Если точнее, между нормальным распределением и семейством “heavy-tailed distributions”. Распределение Парето – член этого семейства.)

Нассим Талеб часть известной книги про «Чёрных лебедей» посвящает атаке на использование гауссовских моделей в экономике. Получают, пишет, Нобелевки за далёкую от жизни математику. А потом фонды, консультируемые лауреатами, дают дуба.

Date: 2016-04-24 09:25 am (UTC)
From: [identity profile] a-gorb.livejournal.com
”далёкую от жизни математику”
В этом не математика виновата:)
Ведь 2+2=4, но 2 литра воды + 2 литра спирта не дадут 4 литров смеси.

(no subject)

From: [identity profile] sergeyoho.livejournal.com - Date: 2016-04-24 09:35 am (UTC) - Expand

Date: 2016-04-24 02:31 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"А потом фонды, консультируемые лауреатами, дают дуба"

Недаром же говорят, что "жизнь сложнее всяких схем" ;)

(no subject)

From: [identity profile] dralkin.livejournal.com - Date: 2016-04-24 04:27 pm (UTC) - Expand

Date: 2016-04-24 12:20 pm (UTC)
From: [identity profile] egovoru.livejournal.com
А скажите, пожалуйста, что же это за обоснование? (Я, может, и знала это в студенческое время, но сейчас не могу сообразить :( И каково обоснование для степенного распределения? Последнее ведь еще и основа фракталов, так что, поняв, почему появляются такие зависимости, мы бы, наверное, узнали и то, почему вокруг нас так много фракталов :)

Жаль, ljArchive не позволяет экспортировать данные в текстовом формате, а то можно было бы определить, что это за степень - выглядит как довольно высокая.

Date: 2016-04-25 07:06 pm (UTC)
From: [identity profile] a-gorb.livejournal.com
”А скажите, пожалуйста, что же это за обоснование?”
Центральная предельная теорема. Сумма большого числа случайных величин, из которых ни одна не доминирует, имеет распределение близкое к Гауссову.

”И каково обоснование для степенного распределения?”
А я не знаю, специально этим вопросом не занимался:)
Где-то слышал, что степенное распределение может возникать в нелинейных динамических системах со случайным воздействием.

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-25 10:59 pm (UTC) - Expand

(no subject)

From: [identity profile] a-gorb.livejournal.com - Date: 2016-04-30 07:55 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-30 12:46 pm (UTC) - Expand

Date: 2016-04-24 02:14 pm (UTC)
From: [identity profile] alex-new-york.livejournal.com
Самым простым объяснением наблюдения Парето (20/80) является концепция логнормального распределения. Нормальное (гауссово) распределение какой-то величины возникает, если величина является результатом сложения множества разных случайных факторов. Когда же величина является результатом не сложения, а произведения множества случайных факторов, распределенной по нормальному закону является не сама величина, а её логарифм, что обычно приводит к результатам, довольно близким к правилу 20/80, хотя конкретные числа могут и несколько отличаться, в зависимости от параметров распределения (как и в реальной жизни, где правило 20/80 выполняется лишь приблизительно).

Date: 2016-04-24 02:29 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Надо сказать, что распределение комментариев скорее напоминает не 80/20, а 90/10 - степень функции должна быть не меньше 3, а то и выше. К сожалению, в ljArchiv не предусмотрен вывод текстового файла, а то можно было бы провести более детальное исследование.

Там, например, явно присутствует некое плечо на уровне 200 комментариев - может, это не шум, а закономерность? Кроме того, хотя в таком масштабе этого не видно, программа на самом деле считает не только "входящие" комментарии, но и "выходящие", т.е., сколько ответных комментариев написала каждому комментатору я сама - а это тоже интересный материал для анализа ;)

"Когда же величина является результатом не сложения, а произведения множества случайных факторов, распределенной по нормальному закону является не сама величина, а её логарифм"

Да, но это ведь тоже математическое описание, только выраженное в других терминах, а можно ли усмотреть тут какой-то общий "физический механизм"? Иными словами, почему в некоторых случаях сила влияющих факторов складывается, а в других - умножается?

Date: 2016-04-24 03:03 pm (UTC)
From: [identity profile] alex-new-york.livejournal.com
Произведение случайных факторов является полезной моделью, когда изменения величины пропорциональны её величине. Например, ежегодное изменение размера бизнеса является определенной долей этого размера, положительной или отрицательной, в зависимости от экономической результативности его деятельности. Или, к примеру, изменение средней массы тела представителей какого-то биологического вида на протяжении нескольких поколений, является долей этого веса, положительной или отрицательной. Поэтому у мыши эта доля измеряется в граммах, а у кита - в тоннах.

А когда зависимости случайного изменения от текущего размера нет (например, если при игре в рулетку мы каждый раз ставим не фиксированную долю того, что у нас есть, а просто фиксированную сумму - скажем, один жетон), тогда результат большого числа случайных изменений будет описываться не логнормальным, а просто нормальным распределением.

А что именно показано на графике? Число комментариев данного автора вообще за все время? Или за какой-то отрезок времени? И имеются ли в виду комментарии к отдельной статье или вообще все комментарии?
Edited Date: 2016-04-24 03:16 pm (UTC)

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-24 05:05 pm (UTC) - Expand

(no subject)

From: [identity profile] alex-new-york.livejournal.com - Date: 2016-04-25 12:54 am (UTC) - Expand

Date: 2016-04-25 12:49 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Подумала, что, наверное, самый важный фактор, влияющий на характер распределения - это малость отношения числа тех, кто включил меня в число друзей и, значит, регулярно читает мои тексты, и общего числа пользователей ЖЖ. Из последних каждый может случайно зайти в журнал и оставить там один комментарий, потеряв всякий интерес к журналу сразу после этого. Поскольку число их очень велико, они и дают длинный "хвост" распределения. А вот каждый из малого числа моих друзей, разумеется, и оставляет основное число комментариев ;)
Edited Date: 2016-04-25 12:50 pm (UTC)

Date: 2016-04-25 02:17 pm (UTC)
From: [identity profile] alex-new-york.livejournal.com
А график построен для Вашего конкретного журнала? А я думал - для всего ЖЖ. Да, тогда все становится на свои места :) И, наверное, Вы правы: длинный хвост немногословных посетителей - это именно те, кто не принадлежит к числу друзей. Интересно было бы построить два распределения: одно - для друзей, другое - для остальных. И сравнить.

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-25 11:11 pm (UTC) - Expand

Date: 2016-04-25 10:53 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"Самым простым объяснением наблюдения Парето (20/80) является концепция логнормального распределения"

Вики вроде бы пишет, что логнормальное и степенное распределение - это не одно и тоже:

"For example log-normal distributions are often mistaken for power-law distributions: a data set drawn from a lognormal distribution will be approximately linear for large values (corresponding to the upper tail of the lognormal being close to a power law), but for small values the lognormal will drop off significantly (bowing down), corresponding to the lower tail of the lognormal being small (there are very few small values, rather than many small values in a power law)."

Date: 2016-04-26 12:46 am (UTC)
From: [identity profile] alex-new-york.livejournal.com
Да, это два несколько разных распределения. Вот тут, кстати, их сравнивают применительно к похожей статистике:

https://blog.luminoso.com/2012/02/09/twitter-followers-do-not-obey-a-power-law-or-paul-krugman-is-wrong/

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-26 01:04 pm (UTC) - Expand

(no subject)

From: [identity profile] alex-new-york.livejournal.com - Date: 2016-04-26 02:10 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-27 01:01 am (UTC) - Expand

(no subject)

From: [identity profile] alex-new-york.livejournal.com - Date: 2016-04-27 02:33 am (UTC) - Expand

Date: 2016-04-24 04:23 pm (UTC)
From: [identity profile] vls-smolich.livejournal.com
А ещё существует утверждение что 95% человечества -- идиоты.
А в более цивилизованной форме говорят о том, что только 5% способны создавать и осмысливать новую информацию.
И если это так, то распределение Парето в процессе эволюции приобретает всё более радикальный характер.

Date: 2016-04-24 05:19 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Да и на графике распределения комментариев видно, что соотношение скорее не 80/20, а 90/10 ;) Интересно, какой конкретно степени соответвует каждое соотношение? (Подсчитать вроде бы легко, но что-то неохота этим заниматься ;) Судя по немалой крутизне графика комментариев, степень их распределения не меньше 3, а то и больше. Посмотрим, как оно будет меняться со временем ;)

Что же касается того, что распределение интеллекта в человеческой популяции становится со временем все более крутым, так ведь недаром в Евангелии сказано: "Кто имеет, тому дано будет, а кто не имеет, у того отнимется и то, что он думает иметь" ;)

Физический же смысл, видимо, в том, что это увеличение крутизны распределения - результат продолжающейся специализации функций отдельных элементов внутри системы; а это, действительно - столбовая дорога всякой эволюции ;)
Edited Date: 2016-04-24 05:38 pm (UTC)

Date: 2016-04-25 05:54 am (UTC)
From: [identity profile] dralkin.livejournal.com
//Физический же смысл, видимо, в том, что это увеличение крутизны распределения - результат продолжающейся специализации функций отдельных элементов внутри системы//

Как я понял по гор. оси там юзеры. Причем юзеры жж, а не вообще любые. А в жж на коммуникацию наложены спец.ограничения - обсуждение особым образом структурировано - в виде дерева с ветками. Ане просто поток, как в твиттере, скажем. Это тоже нужно учитывать. Т.е. исли и можно говорить в данном случае оспециализации функций внутри системы, то система эта - жж с его структурой комментирования. Т.е. в конечном счете вывод наш должен быть о жж, в сравнении напр., с фб, вк и пр. Другие системы коммуникации могут дать другие совершенно распределения.

пс.
В случае ljArchive, мы имеем дело, как я понимаю, с функциями коммуникативной системы жж. А в общем случае (для разл. систем), надо бы понять, как мы будем сравнивать их функции. Особенно если учесть, что эти функции определяются, исходя из структуры организующей общение (дерево, поток и пр.). Т.е. понятие "коммент" будет различных в разных соцсетях.
А про горох не знаю. Думать надо.

ппс.
Ну, и дальше надо понять, в каком смысле (каким будем оперировать образом, т.е. на каком основании) мы будем соотносить систему "горох" и "соцсеть". В таком ключе думаю.
Здесь смысл=образ=основание. А достаточное оно будет или нет зависит от ясности нашего представления.
Edited Date: 2016-04-25 07:12 am (UTC)

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-25 12:13 pm (UTC) - Expand

Date: 2016-04-25 07:31 am (UTC)
From: [identity profile] dralkin.livejournal.com
Наверное, интересный вывод можно было бы сделать, если сравнить "паттерны" (не знаю, как точно назвать) распределений различных групп параметров для разных соцсетей. Скажем, по отдельности параметры несравнимы (т.к. структуры разные), но если составить их в группы, то паттерны групп оказываются чем-то похожи между собой.

Но это так - пальцем в небо. Сначала идея нужна. Как говорил Кант: "Мы не можем знать о предмете больше, чем сами в него вложили". Впрочем, и "пальцем в небо" работает на коротких дистанциях.

пс.
Например, можно ввести сложный параметр, типа число-комментов/ср.длина-коммента или число-комментов/возраст.юзера - и посмотреть, как распределяются параметры по юзерам в соцсетях.
Edited Date: 2016-04-25 10:59 am (UTC)

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-25 12:20 pm (UTC) - Expand

(no subject)

From: [identity profile] dralkin.livejournal.com - Date: 2016-04-25 12:32 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-25 12:42 pm (UTC) - Expand

(no subject)

From: [identity profile] dralkin.livejournal.com - Date: 2016-04-25 01:14 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-25 01:25 pm (UTC) - Expand

(no subject)

From: [identity profile] dralkin.livejournal.com - Date: 2016-04-25 01:49 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-25 11:16 pm (UTC) - Expand

(no subject)

From: [identity profile] dralkin.livejournal.com - Date: 2016-04-26 02:28 pm (UTC) - Expand

Date: 2016-04-25 10:19 am (UTC)
From: [identity profile] dralkin.livejournal.com
Здесь еще надо понимать, что юзер Имярек в системе не есть реальный человек. Это некий объект (внутри системы), которому атрибутируются изменения параметров (ввод имени, новый коммент и т.п.). Эти параметры могут изменятся только по строго заданным (внутри системы) правилам. От конфигурации правил может сильно зависеть активность пользователя в системе.
Пусть это будет нашей гипотезой - связь активности (напр. распределение комментов) от конфигурации правил для возможных действий пользователя. Я предполагаю, что изменить распределение комментов (сделать менее крутым напр.) можно через изменение конфигурации правил. Грубо говоря, где правила проще - там кривая более пологая.
Edited Date: 2016-04-25 10:21 am (UTC)

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-25 12:37 pm (UTC) - Expand

(no subject)

From: [identity profile] dralkin.livejournal.com - Date: 2016-04-25 01:05 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-25 01:24 pm (UTC) - Expand

(no subject)

From: [identity profile] dralkin.livejournal.com - Date: 2016-04-25 02:00 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-04-25 11:13 pm (UTC) - Expand

(no subject)

From: [identity profile] vls-smolich.livejournal.com - Date: 2016-04-26 05:07 pm (UTC) - Expand

Date: 2016-05-03 08:16 am (UTC)
From: [identity profile] almakedonskij.livejournal.com
большинство ников в жж либо боты, либо трупаки-репостеры )

Date: 2016-05-03 12:15 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Но ведь боты вроде бы тоже оставляют "комментарии"? Я вообще с их деятельностью плохо знакома :)

Что же касается репостеров, то их доля в числе обычных комментариев - по крайней мере в моем журнале - ничтожно мала. Я, признаться, в деятельности репостеров не вижу много смысла - для этого ведь есть отдельная кнопка "add to memories"? Но копка репоста, наверное, удобнее ;)

(no subject)

From: [identity profile] almakedonskij.livejournal.com - Date: 2016-05-03 06:14 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-05-04 11:38 am (UTC) - Expand

(no subject)

From: [identity profile] almakedonskij.livejournal.com - Date: 2016-05-04 02:46 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-05-04 11:36 pm (UTC) - Expand

(no subject)

From: [identity profile] almakedonskij.livejournal.com - Date: 2016-05-05 06:00 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-05-05 12:09 pm (UTC) - Expand

(no subject)

From: [identity profile] almakedonskij.livejournal.com - Date: 2016-05-05 12:22 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-05-05 11:03 pm (UTC) - Expand

(no subject)

From: [identity profile] almakedonskij.livejournal.com - Date: 2016-05-06 08:13 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-05-06 11:41 am (UTC) - Expand

(no subject)

From: [identity profile] almakedonskij.livejournal.com - Date: 2016-05-07 11:14 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-05-07 01:07 pm (UTC) - Expand

(no subject)

From: [identity profile] almakedonskij.livejournal.com - Date: 2016-05-08 05:51 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-05-08 12:04 pm (UTC) - Expand

(no subject)

From: [identity profile] almakedonskij.livejournal.com - Date: 2016-05-08 03:07 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2016-05-08 03:23 pm (UTC) - Expand

(no subject)

From: [identity profile] almakedonskij.livejournal.com - Date: 2016-05-08 07:06 pm (UTC) - Expand

Date: 2016-06-13 05:47 am (UTC)
From: [identity profile] p2004r.livejournal.com
По моему есть смысл считать только комментарии постов "первого уровня".

Date: 2016-06-13 12:22 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Такой функции в этой программке, увы, нет. Но и по существу я, наверное, с Вами не соглашусь: мне кажется, что, если пост вызывает длительное содержательное обсуждение даже с одним собеседником - это важно. Я гонюсь не столько за количеством, сколько за качеством беседы ;)

Profile

egovoru: (Default)
egovoru

January 2026

S M T W T F S
    123
456 78910
11121314151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 14th, 2026 12:27 pm
Powered by Dreamwidth Studios