Много званых
Apr. 23rd, 2016 08:18 pmГоворят, свой знаменитый принцип Вильфредо Парето сначала сформулировал на огороде, когда обнаружил, что 80% всех горошин приходится на 20% стручков – и лишь потом углядел ту же закономерность в итальянском землевладении.

Слева – иллюстрация принципа Парето
из Encyclopedia of Human Thermodynamics,
а справа – распределение комментариев к моему журналу
Еще один пример вездесущей степеннóй зависимости – распределение числа комментариев в моем ЖЖ, построенное программкой ljArchive. По горизонтальной оси – ники (неразличимые в таком масштабе), а по вертикальной – число комментариев каждого.
Имеет ли смысл вопрос, почему столь разные системы проявляют одну и ту же численную закономерность?

из Encyclopedia of Human Thermodynamics,
а справа – распределение комментариев к моему журналу
no subject
Date: 2016-04-24 07:29 am (UTC)no subject
Date: 2016-04-24 07:52 am (UTC)Имеет. Ведь вот распределение Гаусса, которое встречается может быть даже чаще, чем распределение Парето, имеет такого рода обоснование.
no subject
Date: 2016-04-24 08:58 am (UTC)Нассим Талеб часть известной книги про «Чёрных лебедей» посвящает атаке на использование гауссовских моделей в экономике. Получают, пишет, Нобелевки за далёкую от жизни математику. А потом фонды, консультируемые лауреатами, дают дуба.
no subject
Date: 2016-04-24 09:25 am (UTC)В этом не математика виновата:)
Ведь 2+2=4, но 2 литра воды + 2 литра спирта не дадут 4 литров смеси.
no subject
Date: 2016-04-24 09:35 am (UTC)no subject
Date: 2016-04-24 12:20 pm (UTC)Жаль, ljArchive не позволяет экспортировать данные в текстовом формате, а то можно было бы определить, что это за степень - выглядит как довольно высокая.
no subject
Date: 2016-04-24 12:25 pm (UTC)no subject
Date: 2016-04-24 02:14 pm (UTC)no subject
Date: 2016-04-24 02:29 pm (UTC)Там, например, явно присутствует некое плечо на уровне 200 комментариев - может, это не шум, а закономерность? Кроме того, хотя в таком масштабе этого не видно, программа на самом деле считает не только "входящие" комментарии, но и "выходящие", т.е., сколько ответных комментариев написала каждому комментатору я сама - а это тоже интересный материал для анализа ;)
"Когда же величина является результатом не сложения, а произведения множества случайных факторов, распределенной по нормальному закону является не сама величина, а её логарифм"
Да, но это ведь тоже математическое описание, только выраженное в других терминах, а можно ли усмотреть тут какой-то общий "физический механизм"? Иными словами, почему в некоторых случаях сила влияющих факторов складывается, а в других - умножается?
no subject
Date: 2016-04-24 02:31 pm (UTC)Недаром же говорят, что "жизнь сложнее всяких схем" ;)
no subject
Date: 2016-04-24 03:03 pm (UTC)А когда зависимости случайного изменения от текущего размера нет (например, если при игре в рулетку мы каждый раз ставим не фиксированную долю того, что у нас есть, а просто фиксированную сумму - скажем, один жетон), тогда результат большого числа случайных изменений будет описываться не логнормальным, а просто нормальным распределением.
А что именно показано на графике? Число комментариев данного автора вообще за все время? Или за какой-то отрезок времени? И имеются ли в виду комментарии к отдельной статье или вообще все комментарии?
no subject
Date: 2016-04-24 04:20 pm (UTC)Но я думаю, что общность заключена не в "физических механизмах" того или иного явления, а в том способе получения знания, который мы применяем.
no subject
Date: 2016-04-24 04:23 pm (UTC)А в более цивилизованной форме говорят о том, что только 5% способны создавать и осмысливать новую информацию.
И если это так, то распределение Парето в процессе эволюции приобретает всё более радикальный характер.
no subject
Date: 2016-04-24 04:27 pm (UTC)no subject
Date: 2016-04-24 05:05 pm (UTC)ljArchive считает число комментариев каждого автора, написанных им за все время существования журнала, и число ответных комментариев этому автору от хозяина журнала. Там есть и еще две интересные функции: подсчет частоты выхода постов по дням, месяцам и годам, и список наиболее часто употребляемых слов (только в текстах постов или в постах и комментариях вместе).
Но самая полезная функция, ради которой, собственно, я и завела эту программку - это отличный поиск по блогу! Поскольку сам ЖЖ странным образом начисто игнорирует эту потребность своих пользователей, то ljArchive - настоящее спасение. Правда, он ищет, конечно, не в самом блоге, а в его архиве, но и это сильно помогает - хотя бы вспомнить, какую метку ты поставил к искомому тексту ;) Да, и у него есть функция обновления архива одной кнопкой. Одним словом, я его очень рекомендую!
Исходя из того, что Вы написали о логнормальном распределении, наличие именно такой формы у распределения комментариев означает, что вероятность написания нового комментария увеличивается в зависимости от того, сколько уже было написано каждым автором прежде? Интересный вывод ;)
no subject
Date: 2016-04-24 05:07 pm (UTC)no subject
Date: 2016-04-24 05:19 pm (UTC)Что же касается того, что распределение интеллекта в человеческой популяции становится со временем все более крутым, так ведь недаром в Евангелии сказано: "Кто имеет, тому дано будет, а кто не имеет, у того отнимется и то, что он думает иметь" ;)
Физический же смысл, видимо, в том, что это увеличение крутизны распределения - результат продолжающейся специализации функций отдельных элементов внутри системы; а это, действительно - столбовая дорога всякой эволюции ;)
no subject
Date: 2016-04-25 12:54 am (UTC)Что касается числа комментариев, то произведение случайных факторов мне кажется здравой моделью. Первый фактор - доля свободного времени. У кого-то это - десять минут в день, а у кого-то другого - несколько часов. Другой фактор - интересы. Одному интересна лишь одна тема, а другому - много разных тем. Третий фактор - степень общительности. Четвертый - способность поддержать достаточно длинную дискуссию. И так далее. Имеет место и эффект текущего размера: чем больше собеседников человек нашел, тем больше его переписка и тем больше в нее вовлекается новых собеседников.
no subject
Date: 2016-04-25 05:43 am (UTC)А по существу чем - не знаю. Надо вопрос основательно формулировать сначала - так, чтобы "технические" различения выполнялись на каком-то одном основании. Сейчас таким основанием является метод тыка - подгонка модели к реальности, физической там, социальной и пр.
no subject
Date: 2016-04-25 05:54 am (UTC)Как я понял по гор. оси там юзеры. Причем юзеры жж, а не вообще любые. А в жж на коммуникацию наложены спец.ограничения - обсуждение особым образом структурировано - в виде дерева с ветками. Ане просто поток, как в твиттере, скажем. Это тоже нужно учитывать. Т.е. исли и можно говорить в данном случае оспециализации функций внутри системы, то система эта - жж с его структурой комментирования. Т.е. в конечном счете вывод наш должен быть о жж, в сравнении напр., с фб, вк и пр. Другие системы коммуникации могут дать другие совершенно распределения.
пс.
В случае ljArchive, мы имеем дело, как я понимаю, с функциями коммуникативной системы жж. А в общем случае (для разл. систем), надо бы понять, как мы будем сравнивать их функции. Особенно если учесть, что эти функции определяются, исходя из структуры организующей общение (дерево, поток и пр.). Т.е. понятие "коммент" будет различных в разных соцсетях.
А про горох не знаю. Думать надо.
ппс.
Ну, и дальше надо понять, в каком смысле (каким будем оперировать образом, т.е. на каком основании) мы будем соотносить систему "горох" и "соцсеть". В таком ключе думаю.
Здесь смысл=образ=основание. А достаточное оно будет или нет зависит от ясности нашего представления.
no subject
Date: 2016-04-25 07:31 am (UTC)Но это так - пальцем в небо. Сначала идея нужна. Как говорил Кант: "Мы не можем знать о предмете больше, чем сами в него вложили". Впрочем, и "пальцем в небо" работает на коротких дистанциях.
пс.
Например, можно ввести сложный параметр, типа число-комментов/ср.длина-коммента или число-комментов/возраст.юзера - и посмотреть, как распределяются параметры по юзерам в соцсетях.
no subject
Date: 2016-04-25 10:19 am (UTC)Пусть это будет нашей гипотезой - связь активности (напр. распределение комментов) от конфигурации правил для возможных действий пользователя. Я предполагаю, что изменить распределение комментов (сделать менее крутым напр.) можно через изменение конфигурации правил. Грубо говоря, где правила проще - там кривая более пологая.
no subject
Date: 2016-04-25 12:13 pm (UTC)Нет, кажется, ljArchive включает и внешних юзеров - фейсбучных и т.д. - если они оставляют комментарий в моем журнале. Но у меня таких немного.
"Т.е. в конечном счете вывод наш должен быть о жж, в сравнении напр., с фб, вк и пр. Другие системы коммуникации могут дать другие совершенно распределения"
Это гипотеза вполне фальсифицируемая, но проверка ее "вручную" была бы слишком трудоемкой. Может, для фейсбука уже тоже есть подобные служебные программы - ведь ФБ куда более популярен, чем ЖЖ? Было бы действительно интересно сравнить. Я, однако, рискну предположить, что распределения получатся сходные по типу.
"(на каком основании) мы будем соотносить систему "горох" и "соцсеть"
По-видимому, в обоих случаях можно говорить о вероятности события, только для гороха это будет наличие горошины в конкретном стручке, а для ЖЖ - написание комментария конкретным пользователем.
no subject
Date: 2016-04-25 12:20 pm (UTC)Да, это интересная идея, но анализировать такие вещи "вручную" слишком трудоемко: нужно соответствующее программное обеспечение. К тому же, "возраст юзера" - информация, далеко не всегда доступная, как и, например, его образовательный уровень - а это ведь тоже очень многообещающий параметр для учета ;)
Вот здесь (http://davydov-index.livejournal.com/927361.html) есть статистика по целому ряду параметров, в частности, пол, возраст, география, среднее число сообщений и т.д. для самых популярных соцсетей - м.б., Вам будет интересно.
А в самом ljArchive есть еще две утилиты: подсчет частоты выхода постов и частоты используемых слов в постах отдельно или в постах и комментариях вместе.
no subject
Date: 2016-04-25 12:32 pm (UTC)Я имею в виду "сложный" параметр, который объединяет несколько других. Чтобы одним числом выразить связку. Напр. произведение числа комментов данного юзера на среднюю длину коммента этого же юзера (или средневзвешенную, наверное). И потом посмотреть распределение параметра по всем комментаторам.
Главное понять, что мы ожидаем увидеть. Иначе ничего понять не сможем )) Ключа к пониманию не будет.