egovoru: (Default)
[personal profile] egovoru

Говорят, свой знаменитый принцип Вильфредо Парето сначала сформулировал на огороде, когда обнаружил, что 80% всех горошин приходится на 20% стручков – и лишь потом углядел ту же закономерность в итальянском землевладении.


Еще один пример вездесущей степеннóй зависимости – распределение числа комментариев в моем ЖЖ, построенное программкой ljArchive. По горизонтальной оси – ники (неразличимые в таком масштабе), а по вертикальной – число комментариев каждого.

Имеет ли смысл вопрос, почему столь разные системы проявляют одну и ту же численную закономерность?


Слева – иллюстрация принципа Парето
из Encyclopedia of Human Thermodynamics,
а справа – распределение комментариев к моему журналу

Date: 2016-04-24 05:19 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Да и на графике распределения комментариев видно, что соотношение скорее не 80/20, а 90/10 ;) Интересно, какой конкретно степени соответвует каждое соотношение? (Подсчитать вроде бы легко, но что-то неохота этим заниматься ;) Судя по немалой крутизне графика комментариев, степень их распределения не меньше 3, а то и больше. Посмотрим, как оно будет меняться со временем ;)

Что же касается того, что распределение интеллекта в человеческой популяции становится со временем все более крутым, так ведь недаром в Евангелии сказано: "Кто имеет, тому дано будет, а кто не имеет, у того отнимется и то, что он думает иметь" ;)

Физический же смысл, видимо, в том, что это увеличение крутизны распределения - результат продолжающейся специализации функций отдельных элементов внутри системы; а это, действительно - столбовая дорога всякой эволюции ;)
Edited Date: 2016-04-24 05:38 pm (UTC)

Date: 2016-04-25 05:54 am (UTC)
From: [identity profile] dralkin.livejournal.com
//Физический же смысл, видимо, в том, что это увеличение крутизны распределения - результат продолжающейся специализации функций отдельных элементов внутри системы//

Как я понял по гор. оси там юзеры. Причем юзеры жж, а не вообще любые. А в жж на коммуникацию наложены спец.ограничения - обсуждение особым образом структурировано - в виде дерева с ветками. Ане просто поток, как в твиттере, скажем. Это тоже нужно учитывать. Т.е. исли и можно говорить в данном случае оспециализации функций внутри системы, то система эта - жж с его структурой комментирования. Т.е. в конечном счете вывод наш должен быть о жж, в сравнении напр., с фб, вк и пр. Другие системы коммуникации могут дать другие совершенно распределения.

пс.
В случае ljArchive, мы имеем дело, как я понимаю, с функциями коммуникативной системы жж. А в общем случае (для разл. систем), надо бы понять, как мы будем сравнивать их функции. Особенно если учесть, что эти функции определяются, исходя из структуры организующей общение (дерево, поток и пр.). Т.е. понятие "коммент" будет различных в разных соцсетях.
А про горох не знаю. Думать надо.

ппс.
Ну, и дальше надо понять, в каком смысле (каким будем оперировать образом, т.е. на каком основании) мы будем соотносить систему "горох" и "соцсеть". В таком ключе думаю.
Здесь смысл=образ=основание. А достаточное оно будет или нет зависит от ясности нашего представления.
Edited Date: 2016-04-25 07:12 am (UTC)

Date: 2016-04-25 12:13 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"Причем юзеры жж, а не вообще любые"

Нет, кажется, ljArchive включает и внешних юзеров - фейсбучных и т.д. - если они оставляют комментарий в моем журнале. Но у меня таких немного.

"Т.е. в конечном счете вывод наш должен быть о жж, в сравнении напр., с фб, вк и пр. Другие системы коммуникации могут дать другие совершенно распределения"

Это гипотеза вполне фальсифицируемая, но проверка ее "вручную" была бы слишком трудоемкой. Может, для фейсбука уже тоже есть подобные служебные программы - ведь ФБ куда более популярен, чем ЖЖ? Было бы действительно интересно сравнить. Я, однако, рискну предположить, что распределения получатся сходные по типу.

"(на каком основании) мы будем соотносить систему "горох" и "соцсеть"

По-видимому, в обоих случаях можно говорить о вероятности события, только для гороха это будет наличие горошины в конкретном стручке, а для ЖЖ - написание комментария конкретным пользователем.

Date: 2016-04-25 07:31 am (UTC)
From: [identity profile] dralkin.livejournal.com
Наверное, интересный вывод можно было бы сделать, если сравнить "паттерны" (не знаю, как точно назвать) распределений различных групп параметров для разных соцсетей. Скажем, по отдельности параметры несравнимы (т.к. структуры разные), но если составить их в группы, то паттерны групп оказываются чем-то похожи между собой.

Но это так - пальцем в небо. Сначала идея нужна. Как говорил Кант: "Мы не можем знать о предмете больше, чем сами в него вложили". Впрочем, и "пальцем в небо" работает на коротких дистанциях.

пс.
Например, можно ввести сложный параметр, типа число-комментов/ср.длина-коммента или число-комментов/возраст.юзера - и посмотреть, как распределяются параметры по юзерам в соцсетях.
Edited Date: 2016-04-25 10:59 am (UTC)

Date: 2016-04-25 12:20 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"Например, можно ввести сложный параметр, типа число-комментов/ср.длина-коммента или число-комментов/возраст.юзера - и посмотреть, как распределяются параметры по юзерам в соцсетях"

Да, это интересная идея, но анализировать такие вещи "вручную" слишком трудоемко: нужно соответствующее программное обеспечение. К тому же, "возраст юзера" - информация, далеко не всегда доступная, как и, например, его образовательный уровень - а это ведь тоже очень многообещающий параметр для учета ;)

Вот здесь (http://davydov-index.livejournal.com/927361.html) есть статистика по целому ряду параметров, в частности, пол, возраст, география, среднее число сообщений и т.д. для самых популярных соцсетей - м.б., Вам будет интересно.

А в самом ljArchive есть еще две утилиты: подсчет частоты выхода постов и частоты используемых слов в постах отдельно или в постах и комментариях вместе.
Edited Date: 2016-04-25 12:27 pm (UTC)

Date: 2016-04-25 12:32 pm (UTC)
From: [identity profile] dralkin.livejournal.com
спасибо, посмотрю.

Я имею в виду "сложный" параметр, который объединяет несколько других. Чтобы одним числом выразить связку. Напр. произведение числа комментов данного юзера на среднюю длину коммента этого же юзера (или средневзвешенную, наверное). И потом посмотреть распределение параметра по всем комментаторам.
Главное понять, что мы ожидаем увидеть. Иначе ничего понять не сможем )) Ключа к пониманию не будет.

Date: 2016-04-25 12:42 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"произведение числа комментов данного юзера на среднюю длину коммента этого же юзера (или средневзвешенную, наверное)"

Это можно было бы легко подсчитать в подходящей "внешней" программе, если бы а) ljARchive выдавал численную информацию, а не только графическую; б) если бы он считал еще и длину комментария, а не только их число. Может, надо написать его разработчикам? Даже один первый пункт был бы уже достижением, т.к. можно было бы сравнивать кривые распределения в разные периоды и т.д.

Date: 2016-04-25 01:14 pm (UTC)
From: [identity profile] dralkin.livejournal.com
//Может, надо написать его разработчикам?//

все это у них есть, почти наверняка ))
просто делиться не хотят.

Я нек. время назад увлекся (по работе) веб-статистикой, в смысле использования Яндекс Метрики и Гугл Аналитикса для сбора данных по трафику на сайтах. Очень!

Date: 2016-04-25 01:25 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"Я нек. время назад увлекся (по работе) веб-статистикой"

Ну и как, удалось заметить что-то интересное?

Date: 2016-04-25 01:49 pm (UTC)
From: [identity profile] dralkin.livejournal.com
конечно!
Иной раз залезу в статистику утром, а вылажу вечером ))

Фактически ты получаешь дополнительные глаза. Вплоть до движения мышки по экрану (это в Метрике).
Но дело не в мышке - а в постановке задачи. Мне, например, движение мышки не нужно. Я его не смотрю. Но можно так поставить вопрос, что мышка станет важна.

Правда, тут еще нужен сайт, с регулярным трафиком - тогда интересно.
А если посещаемость микроскопическая, то смысла нет. В жж напр, есть возможность подключить аналитику Гугла (Метрику тоже можно, кажется). Но при малой посещаемости - ниочем. Я вот себе ничего не ставил.

Date: 2016-04-25 11:16 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"В жж напр, есть возможность подключить аналитику Гугла"

Да, я знаю об этой возможности, но пока что-то недостаточно ею вдохновилась, чтобы ставить у себя ;) Этот ljArchive более прицельно заточен под нужды ЖЖ :)

Date: 2016-04-26 02:28 pm (UTC)
From: [identity profile] dralkin.livejournal.com
попробую как-нибудь

Date: 2016-04-25 10:19 am (UTC)
From: [identity profile] dralkin.livejournal.com
Здесь еще надо понимать, что юзер Имярек в системе не есть реальный человек. Это некий объект (внутри системы), которому атрибутируются изменения параметров (ввод имени, новый коммент и т.п.). Эти параметры могут изменятся только по строго заданным (внутри системы) правилам. От конфигурации правил может сильно зависеть активность пользователя в системе.
Пусть это будет нашей гипотезой - связь активности (напр. распределение комментов) от конфигурации правил для возможных действий пользователя. Я предполагаю, что изменить распределение комментов (сделать менее крутым напр.) можно через изменение конфигурации правил. Грубо говоря, где правила проще - там кривая более пологая.
Edited Date: 2016-04-25 10:21 am (UTC)

Date: 2016-04-25 12:37 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"Грубо говоря, где правила проще - там кривая более пологая"

То есть, изменится показатель функции - но ведь не сам тип распределения? А речь идет именно о типе, общем характере зависимости.

Что же касается простоты правил: а разве комментирование в ЖЖ представляет собой какие-то сложности? Но я согласна с Вами, что некий отбор здесь все же идет: во-первых, охотнее пишут комментарии те, кому вообще легко выражать свои мысли на письме - а таковы далеко не все люди: некоторым сам процесс письма создает дискомфорт.

Далее, много комментариев оставляют те, кто читает конкретный журнал регулярно - то есть, френды - у кого он есть в ленте. Понятно, что число тех, кто добавил меня в друзья, неизмеримо мало по сравнению с общим числом пользователей ЖЖ, каждый из которых может случайно забрести в мой журнал и оставить там один случайный комментарий, после этого потеряв к журналу всякий интерес - эти-то и составляют длинный "хвост" распределения. Вероятно, вот это малое соотношение между числом друзей и общего числа пользователей и есть основной фактор, задающий тип распределения.
Edited Date: 2016-04-25 12:51 pm (UTC)

Date: 2016-04-25 01:05 pm (UTC)
From: [identity profile] dralkin.livejournal.com
согласен.
наличие френдов оч.важный фактор (м.б. даже преобладающий), кот. увеличивает вероятность появления коммента.
Кстати, интересно посмотреть какая доля из эти 80% являются френдами друг друга. Только непонятно, как такое посмотреть. Метрика какая-то нужна сложная.
По такому параметру можно было бы выбросить из распределения (или в отдельную кучку отложить) "ботоподобных" юзеров - с малым числом взаимных френдов и высокой плотностью комментирования.

Но, как бы это ни было нам интересно, мы НИЧЕГО не узнаем, если не обозначим себе цель. Иначе мы просто завязнем в этих числах.

пс.
собственно, концепция "френд(ства)", как я понимаю, есть одно из системных правил для конфигурирования поведения (комментирования) юзера в соцсети.
Edited Date: 2016-04-25 01:08 pm (UTC)

Date: 2016-04-25 01:24 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"Кстати, интересно посмотреть какая доля из эти 80% являются френдами друг друга"

В моем журнале - достаточно большая: я стараюсь включать в друзья тех, кто оставляет у меня много комментариев, если их собственный журнал мне хоть сколько-нибудь интересен ;)

"ботоподобных" юзеров - с малым числом взаимных френдов и высокой плотностью комментирования"

У меня таких читателей нет ;)

Date: 2016-04-25 02:00 pm (UTC)
From: [identity profile] dralkin.livejournal.com
ой!
кажется, я понял ((

ljArchive показывает, как распределены комменты юзеров у вас в журнале. А я было подумал, что показано распределение по комментам для всех юзеров жж.

В таком случае, мне кажется, картинка распределения нам вообще ничего не показывает. С таким же успехом там мог быть нарисован дед мороз. Точнее показывает, но настолько узкий и частный случай, что сделать из него обобщающие выводы будет очень затруднительно.
Здесь чистой воды иллюзия. Вам будет казаться, что вы делаете выводы про себя и про своих комментаторов. А на самом деле, у вас просто слишком маленькая выборка.

Date: 2016-04-25 11:13 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Кажется, я основательно ввела Вас в заблуждение ;) ljArchive - это программа, которая архивирует Ваш блог для записи его на Вашем компьютере. А далее она уже работает с этим архивом - главное, у нее есть хороший поиск, которого нет у самого ЖЖ, и вообще-то я ее использую именно для этого. Но дополнительно у нее есть еще несколько утилит, одна из которых - вычисление вот этого самого распределения комментариев.

Date: 2016-04-26 05:07 pm (UTC)
From: [identity profile] vls-smolich.livejournal.com
Да, у меня ощущение, что это именно какая-то сепарация.

Profile

egovoru: (Default)
egovoru

January 2026

S M T W T F S
    123
456 78910
111213 14151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 14th, 2026 04:26 pm
Powered by Dreamwidth Studios