egovoru: (Default)
[personal profile] egovoru

Говорят, свой знаменитый принцип Вильфредо Парето сначала сформулировал на огороде, когда обнаружил, что 80% всех горошин приходится на 20% стручков – и лишь потом углядел ту же закономерность в итальянском землевладении.


Еще один пример вездесущей степеннóй зависимости – распределение числа комментариев в моем ЖЖ, построенное программкой ljArchive. По горизонтальной оси – ники (неразличимые в таком масштабе), а по вертикальной – число комментариев каждого.

Имеет ли смысл вопрос, почему столь разные системы проявляют одну и ту же численную закономерность?


Слева – иллюстрация принципа Парето
из Encyclopedia of Human Thermodynamics,
а справа – распределение комментариев к моему журналу

Page 1 of 3 << [1] [2] [3] >>

Date: 2016-04-24 07:29 am (UTC)
From: [identity profile] dralkin.livejournal.com
Думаю, что вопрос имеет смысл. Надо только подумать, какой.

Date: 2016-04-24 07:52 am (UTC)
From: [identity profile] a-gorb.livejournal.com
”Имеет ли смысл вопрос, почему столь разные системы проявляют одну и ту же численную закономерность?”
Имеет. Ведь вот распределение Гаусса, которое встречается может быть даже чаще, чем распределение Парето, имеет такого рода обоснование.

Date: 2016-04-24 08:58 am (UTC)
From: [identity profile] sergeyoho.livejournal.com
Между этими двумя распределениями, как я понимаю, сложные отношения. (Если точнее, между нормальным распределением и семейством “heavy-tailed distributions”. Распределение Парето – член этого семейства.)

Нассим Талеб часть известной книги про «Чёрных лебедей» посвящает атаке на использование гауссовских моделей в экономике. Получают, пишет, Нобелевки за далёкую от жизни математику. А потом фонды, консультируемые лауреатами, дают дуба.

Date: 2016-04-24 09:25 am (UTC)
From: [identity profile] a-gorb.livejournal.com
”далёкую от жизни математику”
В этом не математика виновата:)
Ведь 2+2=4, но 2 литра воды + 2 литра спирта не дадут 4 литров смеси.

Date: 2016-04-24 09:35 am (UTC)
From: [identity profile] sergeyoho.livejournal.com
Ну им же за экономику дают премию. Если б им давали премию Филдса - это было б внутреннее дело математиков.

Date: 2016-04-24 12:20 pm (UTC)
From: [identity profile] egovoru.livejournal.com
А скажите, пожалуйста, что же это за обоснование? (Я, может, и знала это в студенческое время, но сейчас не могу сообразить :( И каково обоснование для степенного распределения? Последнее ведь еще и основа фракталов, так что, поняв, почему появляются такие зависимости, мы бы, наверное, узнали и то, почему вокруг нас так много фракталов :)

Жаль, ljArchive не позволяет экспортировать данные в текстовом формате, а то можно было бы определить, что это за степень - выглядит как довольно высокая.

Date: 2016-04-24 12:25 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Я имела в виду, означает ли одинаковая численная закономерность и некую общность "физических механизмов", и если да, то какую? Какая общность физических механизмов может быть у процесса созревания гороха и комментирования в ЖЖ? На первый взгляд тут вроде бы нет ничего общего ;)

Date: 2016-04-24 02:14 pm (UTC)
From: [identity profile] alex-new-york.livejournal.com
Самым простым объяснением наблюдения Парето (20/80) является концепция логнормального распределения. Нормальное (гауссово) распределение какой-то величины возникает, если величина является результатом сложения множества разных случайных факторов. Когда же величина является результатом не сложения, а произведения множества случайных факторов, распределенной по нормальному закону является не сама величина, а её логарифм, что обычно приводит к результатам, довольно близким к правилу 20/80, хотя конкретные числа могут и несколько отличаться, в зависимости от параметров распределения (как и в реальной жизни, где правило 20/80 выполняется лишь приблизительно).

Date: 2016-04-24 02:29 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Надо сказать, что распределение комментариев скорее напоминает не 80/20, а 90/10 - степень функции должна быть не меньше 3, а то и выше. К сожалению, в ljArchiv не предусмотрен вывод текстового файла, а то можно было бы провести более детальное исследование.

Там, например, явно присутствует некое плечо на уровне 200 комментариев - может, это не шум, а закономерность? Кроме того, хотя в таком масштабе этого не видно, программа на самом деле считает не только "входящие" комментарии, но и "выходящие", т.е., сколько ответных комментариев написала каждому комментатору я сама - а это тоже интересный материал для анализа ;)

"Когда же величина является результатом не сложения, а произведения множества случайных факторов, распределенной по нормальному закону является не сама величина, а её логарифм"

Да, но это ведь тоже математическое описание, только выраженное в других терминах, а можно ли усмотреть тут какой-то общий "физический механизм"? Иными словами, почему в некоторых случаях сила влияющих факторов складывается, а в других - умножается?

Date: 2016-04-24 02:31 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"А потом фонды, консультируемые лауреатами, дают дуба"

Недаром же говорят, что "жизнь сложнее всяких схем" ;)

Date: 2016-04-24 03:03 pm (UTC)
From: [identity profile] alex-new-york.livejournal.com
Произведение случайных факторов является полезной моделью, когда изменения величины пропорциональны её величине. Например, ежегодное изменение размера бизнеса является определенной долей этого размера, положительной или отрицательной, в зависимости от экономической результативности его деятельности. Или, к примеру, изменение средней массы тела представителей какого-то биологического вида на протяжении нескольких поколений, является долей этого веса, положительной или отрицательной. Поэтому у мыши эта доля измеряется в граммах, а у кита - в тоннах.

А когда зависимости случайного изменения от текущего размера нет (например, если при игре в рулетку мы каждый раз ставим не фиксированную долю того, что у нас есть, а просто фиксированную сумму - скажем, один жетон), тогда результат большого числа случайных изменений будет описываться не логнормальным, а просто нормальным распределением.

А что именно показано на графике? Число комментариев данного автора вообще за все время? Или за какой-то отрезок времени? И имеются ли в виду комментарии к отдельной статье или вообще все комментарии?
Edited Date: 2016-04-24 03:16 pm (UTC)

Date: 2016-04-24 04:20 pm (UTC)
From: [identity profile] dralkin.livejournal.com
да, я понял ваш вопрос.
Но я думаю, что общность заключена не в "физических механизмах" того или иного явления, а в том способе получения знания, который мы применяем.

Date: 2016-04-24 04:23 pm (UTC)
From: [identity profile] vls-smolich.livejournal.com
А ещё существует утверждение что 95% человечества -- идиоты.
А в более цивилизованной форме говорят о том, что только 5% способны создавать и осмысливать новую информацию.
И если это так, то распределение Парето в процессе эволюции приобретает всё более радикальный характер.

Date: 2016-04-24 04:27 pm (UTC)
From: [identity profile] dralkin.livejournal.com
мне больше нравится: «жизнь обгоняет мечту, товарищ лейтенант» ))

Date: 2016-04-24 05:05 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"А что именно показано на графике?"

ljArchive считает число комментариев каждого автора, написанных им за все время существования журнала, и число ответных комментариев этому автору от хозяина журнала. Там есть и еще две интересные функции: подсчет частоты выхода постов по дням, месяцам и годам, и список наиболее часто употребляемых слов (только в текстах постов или в постах и комментариях вместе).

Но самая полезная функция, ради которой, собственно, я и завела эту программку - это отличный поиск по блогу! Поскольку сам ЖЖ странным образом начисто игнорирует эту потребность своих пользователей, то ljArchive - настоящее спасение. Правда, он ищет, конечно, не в самом блоге, а в его архиве, но и это сильно помогает - хотя бы вспомнить, какую метку ты поставил к искомому тексту ;) Да, и у него есть функция обновления архива одной кнопкой. Одним словом, я его очень рекомендую!

Исходя из того, что Вы написали о логнормальном распределении, наличие именно такой формы у распределения комментариев означает, что вероятность написания нового комментария увеличивается в зависимости от того, сколько уже было написано каждым автором прежде? Интересный вывод ;)
Edited Date: 2016-04-24 05:29 pm (UTC)

Date: 2016-04-24 05:07 pm (UTC)
From: [identity profile] egovoru.livejournal.com
А чем же различаются способы получения знания, дающие нам степенное распределение и, скажем, нормальное, Гауссово?

Date: 2016-04-24 05:19 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Да и на графике распределения комментариев видно, что соотношение скорее не 80/20, а 90/10 ;) Интересно, какой конкретно степени соответвует каждое соотношение? (Подсчитать вроде бы легко, но что-то неохота этим заниматься ;) Судя по немалой крутизне графика комментариев, степень их распределения не меньше 3, а то и больше. Посмотрим, как оно будет меняться со временем ;)

Что же касается того, что распределение интеллекта в человеческой популяции становится со временем все более крутым, так ведь недаром в Евангелии сказано: "Кто имеет, тому дано будет, а кто не имеет, у того отнимется и то, что он думает иметь" ;)

Физический же смысл, видимо, в том, что это увеличение крутизны распределения - результат продолжающейся специализации функций отдельных элементов внутри системы; а это, действительно - столбовая дорога всякой эволюции ;)
Edited Date: 2016-04-24 05:38 pm (UTC)

Date: 2016-04-25 12:54 am (UTC)
From: [identity profile] alex-new-york.livejournal.com
Большое спасибо, я как раз искал сервис поиска в ЖЖ!

Что касается числа комментариев, то произведение случайных факторов мне кажется здравой моделью. Первый фактор - доля свободного времени. У кого-то это - десять минут в день, а у кого-то другого - несколько часов. Другой фактор - интересы. Одному интересна лишь одна тема, а другому - много разных тем. Третий фактор - степень общительности. Четвертый - способность поддержать достаточно длинную дискуссию. И так далее. Имеет место и эффект текущего размера: чем больше собеседников человек нашел, тем больше его переписка и тем больше в нее вовлекается новых собеседников.

Date: 2016-04-25 05:43 am (UTC)
From: [identity profile] dralkin.livejournal.com
Чем технически различаются объяснил ниже alex_new_york.
А по существу чем - не знаю. Надо вопрос основательно формулировать сначала - так, чтобы "технические" различения выполнялись на каком-то одном основании. Сейчас таким основанием является метод тыка - подгонка модели к реальности, физической там, социальной и пр.

Date: 2016-04-25 05:54 am (UTC)
From: [identity profile] dralkin.livejournal.com
//Физический же смысл, видимо, в том, что это увеличение крутизны распределения - результат продолжающейся специализации функций отдельных элементов внутри системы//

Как я понял по гор. оси там юзеры. Причем юзеры жж, а не вообще любые. А в жж на коммуникацию наложены спец.ограничения - обсуждение особым образом структурировано - в виде дерева с ветками. Ане просто поток, как в твиттере, скажем. Это тоже нужно учитывать. Т.е. исли и можно говорить в данном случае оспециализации функций внутри системы, то система эта - жж с его структурой комментирования. Т.е. в конечном счете вывод наш должен быть о жж, в сравнении напр., с фб, вк и пр. Другие системы коммуникации могут дать другие совершенно распределения.

пс.
В случае ljArchive, мы имеем дело, как я понимаю, с функциями коммуникативной системы жж. А в общем случае (для разл. систем), надо бы понять, как мы будем сравнивать их функции. Особенно если учесть, что эти функции определяются, исходя из структуры организующей общение (дерево, поток и пр.). Т.е. понятие "коммент" будет различных в разных соцсетях.
А про горох не знаю. Думать надо.

ппс.
Ну, и дальше надо понять, в каком смысле (каким будем оперировать образом, т.е. на каком основании) мы будем соотносить систему "горох" и "соцсеть". В таком ключе думаю.
Здесь смысл=образ=основание. А достаточное оно будет или нет зависит от ясности нашего представления.
Edited Date: 2016-04-25 07:12 am (UTC)

Date: 2016-04-25 07:31 am (UTC)
From: [identity profile] dralkin.livejournal.com
Наверное, интересный вывод можно было бы сделать, если сравнить "паттерны" (не знаю, как точно назвать) распределений различных групп параметров для разных соцсетей. Скажем, по отдельности параметры несравнимы (т.к. структуры разные), но если составить их в группы, то паттерны групп оказываются чем-то похожи между собой.

Но это так - пальцем в небо. Сначала идея нужна. Как говорил Кант: "Мы не можем знать о предмете больше, чем сами в него вложили". Впрочем, и "пальцем в небо" работает на коротких дистанциях.

пс.
Например, можно ввести сложный параметр, типа число-комментов/ср.длина-коммента или число-комментов/возраст.юзера - и посмотреть, как распределяются параметры по юзерам в соцсетях.
Edited Date: 2016-04-25 10:59 am (UTC)

Date: 2016-04-25 10:19 am (UTC)
From: [identity profile] dralkin.livejournal.com
Здесь еще надо понимать, что юзер Имярек в системе не есть реальный человек. Это некий объект (внутри системы), которому атрибутируются изменения параметров (ввод имени, новый коммент и т.п.). Эти параметры могут изменятся только по строго заданным (внутри системы) правилам. От конфигурации правил может сильно зависеть активность пользователя в системе.
Пусть это будет нашей гипотезой - связь активности (напр. распределение комментов) от конфигурации правил для возможных действий пользователя. Я предполагаю, что изменить распределение комментов (сделать менее крутым напр.) можно через изменение конфигурации правил. Грубо говоря, где правила проще - там кривая более пологая.
Edited Date: 2016-04-25 10:21 am (UTC)

Date: 2016-04-25 12:13 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"Причем юзеры жж, а не вообще любые"

Нет, кажется, ljArchive включает и внешних юзеров - фейсбучных и т.д. - если они оставляют комментарий в моем журнале. Но у меня таких немного.

"Т.е. в конечном счете вывод наш должен быть о жж, в сравнении напр., с фб, вк и пр. Другие системы коммуникации могут дать другие совершенно распределения"

Это гипотеза вполне фальсифицируемая, но проверка ее "вручную" была бы слишком трудоемкой. Может, для фейсбука уже тоже есть подобные служебные программы - ведь ФБ куда более популярен, чем ЖЖ? Было бы действительно интересно сравнить. Я, однако, рискну предположить, что распределения получатся сходные по типу.

"(на каком основании) мы будем соотносить систему "горох" и "соцсеть"

По-видимому, в обоих случаях можно говорить о вероятности события, только для гороха это будет наличие горошины в конкретном стручке, а для ЖЖ - написание комментария конкретным пользователем.

Date: 2016-04-25 12:20 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"Например, можно ввести сложный параметр, типа число-комментов/ср.длина-коммента или число-комментов/возраст.юзера - и посмотреть, как распределяются параметры по юзерам в соцсетях"

Да, это интересная идея, но анализировать такие вещи "вручную" слишком трудоемко: нужно соответствующее программное обеспечение. К тому же, "возраст юзера" - информация, далеко не всегда доступная, как и, например, его образовательный уровень - а это ведь тоже очень многообещающий параметр для учета ;)

Вот здесь (http://davydov-index.livejournal.com/927361.html) есть статистика по целому ряду параметров, в частности, пол, возраст, география, среднее число сообщений и т.д. для самых популярных соцсетей - м.б., Вам будет интересно.

А в самом ljArchive есть еще две утилиты: подсчет частоты выхода постов и частоты используемых слов в постах отдельно или в постах и комментариях вместе.
Edited Date: 2016-04-25 12:27 pm (UTC)

Date: 2016-04-25 12:32 pm (UTC)
From: [identity profile] dralkin.livejournal.com
спасибо, посмотрю.

Я имею в виду "сложный" параметр, который объединяет несколько других. Чтобы одним числом выразить связку. Напр. произведение числа комментов данного юзера на среднюю длину коммента этого же юзера (или средневзвешенную, наверное). И потом посмотреть распределение параметра по всем комментаторам.
Главное понять, что мы ожидаем увидеть. Иначе ничего понять не сможем )) Ключа к пониманию не будет.
Page 1 of 3 << [1] [2] [3] >>

Profile

egovoru: (Default)
egovoru

January 2026

S M T W T F S
    123
456 78910
111213 14151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 14th, 2026 03:50 pm
Powered by Dreamwidth Studios