egovoru: (Default)
[personal profile] egovoru

Много лет я пользуюсь сервером Датского технического университета, позволяющего предсказывать трансмембранные альфа-спирали в аминокислотных последовательностях белков, используя скрытые марковские модели. Мне и близко не хватает образования, чтобы понять, как это работает, но азы излагает Джордан Элленберг в своей книжке, посвященной прикладной математике (уважаемый [livejournal.com profile] mynine подсказал, что есть и русский перевод). Сам Андрей Андреевич Марков парадоксальным образом презирал прикладные исследования и считал, что, например, Карл Пирсон, основатель математической статистики, не сделал ничего, заслуживающего упоминания :)


«Неистовый Андрей», как окрестили его российские газеты, опубликовал в них более 20 писем по волновавшим его общественным вопросам. Самый громкий скандал разразился в 1912 году, когда Марков обратился в Священный Синод с просьбой... отлучить его от Церкви, в знак протеста против отлучения Льва Толстого несколькими годами раньше. Протестовал он и против исключения Горького из Академии наук, а также против присвоения звания почетного академика членам царской фамилии, никак иначе себя не проявившим.

Судя по всему, знаменитые марковские цепи тоже родились из публичного спора, который их автор затеял с другим академиком, ультра-консервативным Павлом Алексеевичем Некрасовым. Тот попытался прилечь «закон больших чисел» для доказательства постулируемой христианством свободы воли. По этому закону, большая совокупность независимых индивидуальных событий (бросаний монетки) дает предсказуемый средний результат. А раз так, провозгласил Некрасов, то из предсказуемого поведения толпы следует, что составляющие ее люди действуют независимо друг от друга, совершая свой собственный выбор.

Логическая ошибка этого утверждения видна невооруженным глазом: eсли всякий раз после поедания гуляша у меня начинается изжога, то это еще не значит, что любая моя изжога – результат поедания гуляша. Марков нашел контрпример, опровергающий рассуждения Некрасова – последовательность зависимых друг от друга переменных, тем не менее дающую предсказуемый результат. А цепью ее называют потому, что каждая переменная зависит только от предыдущей в последовательности, а не от всей своей предыстории.


«Неистовый» Андрей Марков с женой Марией
за своим рабочим столом в начале 20-го века
(фото из биографической статьи Гелия Башарина с соавт.,
из которой, кажется, и Элленберг почерпнул свои сведения :)

Несмотря на презрение к прикладной математике, Марков опробовал свои цепи, анализируя русскую классику. Простой вопрос: какова вероятность того, что за гласной буквой в тексте будет следовать тоже гласная? Оказывается, это сильно зависит от конкретного произведения: для «Евгения Онегина» эта вероятность – только 12.8%, а вот для «Детских годов Багрова-внука» – аж целых 55.2%! (Похоже, Аксаков злоупотреблял прилагательными вроде «длинношеее» :)


Иллюстрация из книжки Джордана Элленберга, схематически представляющая марковские цепи для двух произведений классической русской литературы: наверху – Пушкин, внизу – Аксаков

Не кто иной, как Клод Шеннон первым догадался, что марковские цепи можно использовать не только для анализа, но и для создания текстов. И все заверте... приведя, в конечном счете, к появлению ChatGPT :)

Спасибо уважаемой [livejournal.com profile] zlata_gl за информацию о книжке Элленберга – там есть еще много интересного!

Date: 2024-07-17 02:01 pm (UTC)
From: [identity profile] lj-frank-bot.livejournal.com
Hello!
LiveJournal categorization system detected that your entry belongs to the following categories: Литература (https://www.livejournal.com/category/literatura?utm_source=frank_comment), Общество (https://www.livejournal.com/category/obschestvo?utm_source=frank_comment).
If you think that this choice was wrong please reply this comment. Your feedback will help us improve system.
Frank,
LJ Team

Date: 2024-07-17 08:48 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Нет, Фрэнк, это ты попал в просак - с основе своей это "Математика"!

Date: 2024-07-17 10:43 pm (UTC)
From: [identity profile] mynine.livejournal.com

На русский язык эта книжка тоже переведена под редакцией Михаила Сергеевича Гельфанда, что уже само по себе признак высокого качества ))

Date: 2024-07-18 05:18 am (UTC)
From: [identity profile] egovoru.livejournal.com
А дайте, пожалуйста, ссылку - я добавлю ее к тексту поста?

Я прежде прочла и другую книжку (https://egovoru.livejournal.com/103058.html) Элленберга, тоже довольно занимательную.
Edited Date: 2024-07-18 05:19 am (UTC)

Date: 2024-07-18 05:35 am (UTC)
From: [identity profile] mynine.livejournal.com

Вот на Озоне (https://www.ozon.ru/product/forma-realnosti-skrytaya-geometriya-strategii-informatsii-obshchestva-biologii-i-vsego-ostalnogo-1024931009) эта книга. А на Литресе (https://www.litres.ru/author/jordan-ellenberg/) обе его книги есть.
PS На Озоне обе книги (https://www.ozon.ru/person/ellenberg-dzhordan-140283511/category/knigi-16500/) тоже ))

Edited Date: 2024-07-18 05:37 am (UTC)

Date: 2024-07-18 02:01 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Спасибо, добавила ссылку к посту!

Date: 2024-07-18 08:18 am (UTC)
From: [identity profile] green-fr.livejournal.com
Статистика гласных напомнила мне, как мы играли в итальянский scrabble, но с французами, поэтому слова писали по-французски. А статистика букв в коробке была заточена под итальянский. Поэтому я в конце оказался с рукой из 7 фишек, 6 из которых были буквами "O". Мы ещё поржали, можно ли выставить фразу Санта-Клауса (ho-ho-ho по-французски читается как o-o-o).

Date: 2024-07-18 02:07 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Да, в итальянском определенно доля гласных выше, чем, наверное, в любом другом европейском языке - потому он и кажется нам особенно благозвучным. Но я никогда не слышала, как звучит гавайский или другие полинезийские языки, где, как я понимаю, доля гласных еще выше. Наверное, он вообще покажется нам райской музыкой? :)

Опечаталась в первой версии - я имела в виду выше доля гласных, конечно.
Edited Date: 2024-07-18 02:08 pm (UTC)

Date: 2024-07-18 12:03 pm (UTC)
From: [identity profile] verum-corpus.livejournal.com
А разве отрицатели свободы воли не отрицают случайность выпадения монетки?
Уж если детерминизм, так никаких случайных событий не бывает! (Чем заодно опровергается и дарвиновская теория).

Date: 2024-07-18 02:09 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Так ведь академик Некрасов, наоборот, настаивал, что свобода воли имеется, и хотел доказать ее математически :)

Date: 2024-07-18 02:19 pm (UTC)
From: [identity profile] verum-corpus.livejournal.com
Возможно, он указывал на то, что если существует случайное выпадение монеты, то не может не быть и свободной воли. Это действительно кажется бесспорным.

Date: 2024-07-18 02:49 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Что Некрасов говорил, не берусь судить, но связывание свободы воли со случайностью всегда казалось мне малопродуктивным. В том-то и дело, что, имея свободу воли, мы действуем как раз не случайно, а так, как считаем нужным, произвольно (от слова "произвол"). Мне свобода воли представляется чем-то прямо противоположным случайности.

(no subject)

From: [identity profile] verum-corpus.livejournal.com - Date: 2024-07-18 03:20 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-18 04:02 pm (UTC) - Expand

(no subject)

From: [identity profile] verum-corpus.livejournal.com - Date: 2024-07-18 04:24 pm (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-18 06:03 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-18 07:29 pm (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-18 08:08 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-18 09:07 pm (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-18 10:14 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-19 06:05 am (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-19 06:49 am (UTC) - Expand

(no subject)

From: [identity profile] skogar.livejournal.com - Date: 2024-07-19 05:47 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-19 06:03 am (UTC) - Expand

(no subject)

From: [identity profile] skogar.livejournal.com - Date: 2024-07-19 06:18 am (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-19 07:04 am (UTC) - Expand

(no subject)

From: [identity profile] skogar.livejournal.com - Date: 2024-07-19 07:07 am (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-19 07:44 am (UTC) - Expand

(no subject)

From: [identity profile] skogar.livejournal.com - Date: 2024-07-19 07:47 am (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-19 07:55 am (UTC) - Expand

(no subject)

From: [identity profile] skogar.livejournal.com - Date: 2024-07-19 07:57 am (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-19 10:48 am (UTC) - Expand

(no subject)

From: [identity profile] skogar.livejournal.com - Date: 2024-07-19 10:52 am (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-19 11:31 am (UTC) - Expand

(no subject)

From: [identity profile] skogar.livejournal.com - Date: 2024-07-19 12:22 pm (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-19 12:32 pm (UTC) - Expand

(no subject)

From: [identity profile] skogar.livejournal.com - Date: 2024-07-19 12:33 pm (UTC) - Expand

Date: 2024-07-18 01:51 pm (UTC)
From: [identity profile] serge no (from livejournal.com)

"Простой вопрос: какова вероятность того, что за гласной буквой в тексте будет следовать тоже гласная? Оказывается, это сильно зависит от конкретного произведения"


Вася кинул монетку 100 раз, и у него 55 раз выпала решка. Петя кинул монетку 100 раз, и у него решка выпала 47 раз. Простой вопрос: какова вероятность того, что при подкидывании монетки выпадет решка? Оказывается, это зависит от конкретного опыта. Например, Вася был щедр на решки, и у него эта вероятность составляет 55%. Кажется, всё верно в этих рассуждениях?-)

Date: 2024-07-18 02:13 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Так ведь писатель не выбирает следующую букву, подбрасывая монетку? Он сознательно подбирает слова. Результаты Маркова показывают, что Пушкин и Аксаков выбирают разные слова. Конечно, может, сам язык уже эволюционировал за время от одного произведения до другого, но это вряд ли, потому что это время достаточно короткое. Я склоняюсь к тому, что это отражает либо индивидуальные особенности авторов, либо разницу между стихами и прозой, и в принципе это легко проверить.
Edited Date: 2024-07-18 02:17 pm (UTC)

Date: 2024-07-18 02:38 pm (UTC)
From: [identity profile] serge no (from livejournal.com)

"Так ведь писатель не выбирает следующую букву, подбрасывая монетку?"


Тем более. Что позволяет называть эти проценты "вероятностью", которая суть теоретическая характеристика степени некой случайной возможности?

Date: 2024-07-18 02:54 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Вероятностью эти цифры называют, как я понимаю, потому, что они позволяют предсказать, какая буква будет идти за любой произвольно избранной. То есть, сначала анализируют некую тренировочную совокупность (слов определенного произведения или белковых последовательностей) и высчитывают эти цифры, а потом берут некое новое слово (и конкретную букву в нем) или последовательность и утверждают, что с этой вероятностью за этой буквой будет идти гласная - или с такой-то вероятностью этот участок последовательности будет альфа-спиральным. Собственно, этот тот же самый принцип, что и у ChatGPT.

(no subject)

From: [identity profile] serge no - Date: 2024-07-18 05:44 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-18 07:42 pm (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-18 07:52 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-18 09:04 pm (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-18 09:45 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-19 01:37 pm (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-19 04:11 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-19 05:19 pm (UTC) - Expand

(no subject)

From: [identity profile] serge no - Date: 2024-07-19 06:33 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-19 06:41 pm (UTC) - Expand

(no subject)

From: [identity profile] riftsh.livejournal.com - Date: 2024-07-19 07:37 pm (UTC) - Expand

(no subject)

From: [identity profile] cmt96.livejournal.com - Date: 2024-07-19 09:06 pm (UTC) - Expand

Date: 2024-07-18 06:33 pm (UTC)
From: [identity profile] riftsh.livejournal.com
> каждая переменная зависит только от предыдущей в последовательности

Это частный случай - марковская цепь первого порядка, порядок может быть более высоким или переменным.

Date: 2024-07-18 07:32 pm (UTC)
From: [identity profile] egovoru.livejournal.com
А что это означает - что следующий элемент зависит не от одного, а от нескольких предыдущих переменных? Вы наверняка с работаете с такими алгоритмами.

А знаете ли этот датский сервер? Мне их алгоритм кажется лучшим из существующих, по крайней мере для наших белков - его предсказания близко совпадают с реальными структурами.

Date: 2024-07-18 09:58 pm (UTC)
From: [identity profile] riftsh.livejournal.com

Да. Вот пример влияния порядка марковской модели на точность предсказания кодирующих участков в геномной последовательности. Очень хорошо видно, как качество модели растет при повышении порядка от 0 до 2, а потом перестает расти. В этом случае это видимо связано с размером кодона.




Группа из DTU — классики жанра, и TMHMM (а теперь DeepTMHMM) — один из стандартов. Другая похожая новая программа https://github.com/BernhoferM/TMbed тоже обещает высокое качество предсказаний. Авторы пропустили через нее все полмиллиона белков из SwissProt, т.е., если Ваш белок есть в SwissProt, можно сразу посмотреть предсказание в github'е.


Если Вам действительно важно знать где находятся ТМ участки белка, может оказаться очень полезным попытаться предсказать их несколькими качественными программами (в дополнение к упомянутым, это OCTOPUS, BOCTOPUS, SPOCTOPUS, TMSEG, TOPCONS2, SCAMPI2, TmAlphaFold и т.д., если нужно я могу прислать более полный список). Там где наблюдается консенсус между разными предсказателями, вероятность правильного предсказания выше. И наоборот ;)


(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-19 06:12 am (UTC) - Expand

Date: 2024-07-19 06:44 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Другой комментатор задал вопрос, на который я не знаю, как ответить (вот ссылка (https://egovoru.livejournal.com/219177.html?thread=22212393#t22212393)). Как я понимаю, сам текст - это не марковская цепь; цепь - это модель текста. Не могли бы Вы ответить автору вопроса в той ветке? Заранее большое спасибо!

Date: 2024-07-19 07:39 pm (UTC)
From: [identity profile] riftsh.livejournal.com
Ответил вкратце (если я правильно понял вопрос).

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2024-07-19 09:00 pm (UTC) - Expand

Date: 2024-07-19 08:59 pm (UTC)
From: [identity profile] cmt96.livejournal.com
По неоднократному выражению от [livejournal.com profile] ivanov_petrov, «тут действительно что-то антропологическое»… Примером прикладного исследования Вы приводите забавную шутку (про гласные), которая заведомо не может иметь никакой практической пользы и приводится лишь ради своей забавности… Она, конечно, неглубокая, но всё-таки нельзя ей отказать в изяществе… То есть, видимо, этого аспекта реальности Вы каким-то образом совсем не чувствуете…

Date: 2024-07-19 09:04 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"которая заведомо не может иметь никакой практической пользы и приводится лишь ради своей забавности"

Марковский анализ текстов имеет широкое практическое применение - отсылаю Вас к комментарию (https://egovoru.livejournal.com/219177.html?thread=22213673#t22213673) уважаемого riftsh, который понимает в предмете гораздо больше меня.

Date: 2024-07-19 09:07 pm (UTC)
From: [identity profile] cmt96.livejournal.com
Да, да, "что-то антропологическое" — именно в таком случае и возникают такие ответы в стиле "про Фому и про Ерёму". :)

Date: 2024-07-19 09:10 pm (UTC)
From: [identity profile] cmt96.livejournal.com
Я думаю, если бы такой "антропологической" разницы (в самом же образе мироощущения) между нами не было, то Вы бы без труда поняли смысл моего комментария… А так, как видите, это у Вас не вышло, хотя Вы и хотели. :)

Profile

egovoru: (Default)
egovoru

January 2026

S M T W T F S
    123
456 78910
11121314151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 14th, 2026 09:07 am
Powered by Dreamwidth Studios