Да, цепи могут быть прекрасны
Jul. 17th, 2024 09:00 am«Неистовый Андрей», как окрестили его российские газеты, опубликовал в них более 20 писем по волновавшим его общественным вопросам. Самый громкий скандал разразился в 1912 году, когда Марков обратился в Священный Синод с просьбой... отлучить его от Церкви, в знак протеста против отлучения Льва Толстого несколькими годами раньше. Протестовал он и против исключения Горького из Академии наук, а также против присвоения звания почетного академика членам царской фамилии, никак иначе себя не проявившим.
Судя по всему, знаменитые марковские цепи тоже родились из публичного спора, который их автор затеял с другим академиком, ультра-консервативным Павлом Алексеевичем Некрасовым. Тот попытался прилечь «закон больших чисел» для доказательства постулируемой христианством свободы воли. По этому закону, большая совокупность независимых индивидуальных событий (бросаний монетки) дает предсказуемый средний результат. А раз так, провозгласил Некрасов, то из предсказуемого поведения толпы следует, что составляющие ее люди действуют независимо друг от друга, совершая свой собственный выбор.
Логическая ошибка этого утверждения видна невооруженным глазом: eсли всякий раз после поедания гуляша у меня начинается изжога, то это еще не значит, что любая моя изжога – результат поедания гуляша. Марков нашел контрпример, опровергающий рассуждения Некрасова – последовательность зависимых друг от друга переменных, тем не менее дающую предсказуемый результат. А цепью ее называют потому, что каждая переменная зависит только от предыдущей в последовательности, а не от всей своей предыстории.

за своим рабочим столом в начале 20-го века
(фото из биографической статьи Гелия Башарина с соавт.,
из которой, кажется, и Элленберг почерпнул свои сведения :)
Несмотря на презрение к прикладной математике, Марков опробовал свои цепи, анализируя русскую классику. Простой вопрос: какова вероятность того, что за гласной буквой в тексте будет следовать тоже гласная? Оказывается, это сильно зависит от конкретного произведения: для «Евгения Онегина» эта вероятность – только 12.8%, а вот для «Детских годов Багрова-внука» – аж целых 55.2%! (Похоже, Аксаков злоупотреблял прилагательными вроде «длинношеее» :)

Не кто иной, как Клод Шеннон первым догадался, что марковские цепи можно использовать не только для анализа, но и для создания текстов. И все заверте... приведя, в конечном счете, к появлению ChatGPT :)
Спасибо уважаемой
zlata_gl за информацию о книжке Элленберга – там есть еще много интересного!
no subject
Date: 2024-07-17 02:01 pm (UTC)LiveJournal categorization system detected that your entry belongs to the following categories: Литература (https://www.livejournal.com/category/literatura?utm_source=frank_comment), Общество (https://www.livejournal.com/category/obschestvo?utm_source=frank_comment).
If you think that this choice was wrong please reply this comment. Your feedback will help us improve system.
Frank,
LJ Team
no subject
Date: 2024-07-17 08:48 pm (UTC)no subject
Date: 2024-07-17 10:43 pm (UTC)На русский язык эта книжка тоже переведена под редакцией Михаила Сергеевича Гельфанда, что уже само по себе признак высокого качества ))
no subject
Date: 2024-07-18 05:18 am (UTC)Я прежде прочла и другую книжку (https://egovoru.livejournal.com/103058.html) Элленберга, тоже довольно занимательную.
no subject
Date: 2024-07-18 05:35 am (UTC)Вот на Озоне (https://www.ozon.ru/product/forma-realnosti-skrytaya-geometriya-strategii-informatsii-obshchestva-biologii-i-vsego-ostalnogo-1024931009) эта книга. А на Литресе (https://www.litres.ru/author/jordan-ellenberg/) обе его книги есть.
PS На Озоне обе книги (https://www.ozon.ru/person/ellenberg-dzhordan-140283511/category/knigi-16500/) тоже ))
no subject
Date: 2024-07-18 02:01 pm (UTC)no subject
Date: 2024-07-18 08:18 am (UTC)no subject
Date: 2024-07-18 02:07 pm (UTC)Опечаталась в первой версии - я имела в виду выше доля гласных, конечно.
no subject
Date: 2024-07-18 12:03 pm (UTC)Уж если детерминизм, так никаких случайных событий не бывает! (Чем заодно опровергается и дарвиновская теория).
no subject
Date: 2024-07-18 02:09 pm (UTC)no subject
Date: 2024-07-18 02:19 pm (UTC)no subject
Date: 2024-07-18 02:49 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2024-07-18 01:51 pm (UTC)"Простой вопрос: какова вероятность того, что за гласной буквой в тексте будет следовать тоже гласная? Оказывается, это сильно зависит от конкретного произведения"
Вася кинул монетку 100 раз, и у него 55 раз выпала решка. Петя кинул монетку 100 раз, и у него решка выпала 47 раз. Простой вопрос: какова вероятность того, что при подкидывании монетки выпадет решка? Оказывается, это зависит от конкретного опыта. Например, Вася был щедр на решки, и у него эта вероятность составляет 55%. Кажется, всё верно в этих рассуждениях?-)
no subject
Date: 2024-07-18 02:13 pm (UTC)no subject
Date: 2024-07-18 02:38 pm (UTC)"Так ведь писатель не выбирает следующую букву, подбрасывая монетку?"
Тем более. Что позволяет называть эти проценты "вероятностью", которая суть теоретическая характеристика степени некой случайной возможности?
no subject
Date: 2024-07-18 02:54 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2024-07-18 06:33 pm (UTC)Это частный случай - марковская цепь первого порядка, порядок может быть более высоким или переменным.
no subject
Date: 2024-07-18 07:32 pm (UTC)А знаете ли этот датский сервер? Мне их алгоритм кажется лучшим из существующих, по крайней мере для наших белков - его предсказания близко совпадают с реальными структурами.
no subject
Date: 2024-07-18 09:58 pm (UTC)Да. Вот пример влияния порядка марковской модели на точность предсказания кодирующих участков в геномной последовательности. Очень хорошо видно, как качество модели растет при повышении порядка от 0 до 2, а потом перестает расти. В этом случае это видимо связано с размером кодона.
Группа из DTU — классики жанра, и TMHMM (а теперь DeepTMHMM) — один из стандартов. Другая похожая новая программа https://github.com/BernhoferM/TMbed тоже обещает высокое качество предсказаний. Авторы пропустили через нее все полмиллиона белков из SwissProt, т.е., если Ваш белок есть в SwissProt, можно сразу посмотреть предсказание в github'е.
Если Вам действительно важно знать где находятся ТМ участки белка, может оказаться очень полезным попытаться предсказать их несколькими качественными программами (в дополнение к упомянутым, это OCTOPUS, BOCTOPUS, SPOCTOPUS, TMSEG, TOPCONS2, SCAMPI2, TmAlphaFold и т.д., если нужно я могу прислать более полный список). Там где наблюдается консенсус между разными предсказателями, вероятность правильного предсказания выше. И наоборот ;)
(no subject)
From:no subject
Date: 2024-07-19 06:44 pm (UTC)no subject
Date: 2024-07-19 07:39 pm (UTC)(no subject)
From:no subject
Date: 2024-07-19 08:59 pm (UTC)no subject
Date: 2024-07-19 09:04 pm (UTC)Марковский анализ текстов имеет широкое практическое применение - отсылаю Вас к комментарию (https://egovoru.livejournal.com/219177.html?thread=22213673#t22213673) уважаемого riftsh, который понимает в предмете гораздо больше меня.
no subject
Date: 2024-07-19 09:07 pm (UTC)no subject
Date: 2024-07-19 09:10 pm (UTC)