egovoru: (Default)
[personal profile] egovoru

Применение количественных методов к анализу литературных текстов – уже далеко не новость. Но развитие интернета позволило подступиться «с циркулем и линейкой» и к более тонким материям: читательскому восприятию литературы. Статья Дмитрия Манина, на которую обратил мое внимание уважаемый [livejournal.com profile] tijd, как раз об этом.


Манин отобрал 34 текста разной степени художественности, надергал из них 3439 коротких фрагментов и предложил участникам сетевого эксперимента такие задания. Первое: самостоятельно угадать пропущенное авторское слово во фрагменте текста. Отрицательный логарифм вероятности успеха – мера «непредсказуемости» заданного слова. «Непредсказуемость» формально похожа на шенноновское количество информации, но не тождественна ему; в статье Манин объясняет, почему. А второе задание – выбрать пропущенное слово из двух предложенных (одно из которых – авторское, а другое почерпнуто из неправильных ответов на первый вопрос). Доля правильных ответов служит мерой «связанности» текста.

Оказалось, большинство рифмованных стихов обладают примерно такой же «непредсказуемостью», как проза (образцы которой были, однако, выбраны всего из трех произведений: «Войны и мира», «Доктора Живаго» и некоего публицистического эссе). А вот «связанность» стихов существенно выше, чем прозы – за исключением творений поэтов-авангардистов (Хармс, Введенский и Хлебников), которые зато обходят прозу по своей «непредсказуемости».

А как же иначе, скажете вы – ведь слова в стихотворении подчиняются закономерностям метра и рифмы, а значит, подобрать подходящее для них слово заведомо легче, чем для прозаического высказывания! Но влияние метра можно оценить отдельно, измеряя вероятность угадывания не самого слова, а только числа его слогов («метрическая непредсказуемость»). То же касается и «метрической связанности», определяемой вероятностью выбора из предложенных вариантов правильного числа слогов в пропущенном слове. Интересно, что «неметрическая непредсказуемость» растет по мере увеличения «метрической связанности»: иначе говоря, формальные ограничения повышают информативность текста и расширяют пределы языка.


График из обсуждаемой статьи Дм. Манина, отражающий связь «метрической связанности» и «неметрической непредсказуемости»

К сожалению, автор не объясняет, а почему вообще задачи на угадывание и выбор пропущенного слова дают разный результат? Он просто считает, что «непредсказуемость» характеризует нарушение опережающего читательского ожидания, а «связанность» – удовлетворение апостериорного ожидания, но мне такая интерпретация не очевидна.

Как бы то ни было, эта разница результатов ясно показывает, что «multiple choice questions», которые так любят составители ЕГЭ и подобных новомодных тестов, проверяют вовсе не то же самое, что старые добрые экзаменационные вопросы с открытым ответом :)

А вот обсуждение статьи Дм. Манина в журнале уважаемого [livejournal.com profile] a_shen.

Date: 2020-01-02 04:01 pm (UTC)
From: [identity profile] lj-frank-bot.livejournal.com
Hello!
LiveJournal categorization system detected that your entry belongs to the following categories: Криминал (https://www.livejournal.com/category/kriminal), Литература (https://www.livejournal.com/category/literatura), Музыка (https://www.livejournal.com/category/muzyka).
If you think that this choice was wrong please reply this comment. Your feedback will help us improve system.
Frank,
LJ Team

Date: 2020-01-02 11:37 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Только "Литература", никакой "Музыки" и уж тем более "Криминала" тут нет!

Date: 2020-01-02 11:39 pm (UTC)
From: [identity profile] lj-frank-bot.livejournal.com
Жаль, что так вышло

Date: 2020-01-02 04:59 pm (UTC)
mns2012: (Default)
From: [personal profile] mns2012
==Формальные ограничения повышают информативность текста и расширяют пределы языка.==

На мой взгляд, это похоже на следующую мысль Стравинского.

"Чем больше ограничений налагается на художественные средства выражения, тем более художник освобождается от цепей, стесняющих дух, [...] а произвольность ограничений помогает в достижении исполнительской точности." (перевод мой)

The more constraints one imposes, the more one frees oneself from the chains that shackle the spirit . . . and the arbitrariness of the constraint serves only to obtain precision of execution.

Stravinski, Igor (1970). Poetics of Music in the Form of Six Lessons. (The Charles Eliot Norton lectures). Harvard University Press Bilingual Edition (June 1, 1970).

Date: 2020-01-02 11:43 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"это похоже на следующую мысль Стравинского"

Да, действительно похоже. Другое дело, что Манин нашел способ количественного выявления этой закономерности.

А понимаете ли Вы, почему тексты вообще различаются по этим двум параметрам? Казалось бы, не все ли равно, сам ли испытуемый подбирает пропущенное слово или выбирает из двух предложенных экспериментатором?

К сожалению, Манин, видимо, уже свернул свою лавочку, потому что сайт этого теста, указанный в статье, http://ygrec.msk.ru, уже не существует :(

Date: 2020-01-02 07:15 pm (UTC)
From: [identity profile] poiupredatel.livejournal.com
А там написано по какому принципу отбиралось это самое слово, для исключения и угадывания? А то от этого зависит вообще всё.

Date: 2020-01-02 11:57 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"по какому принципу отбиралось это самое слово"

Вот что пишет автор об этом: "для типа 1 случайно (равновероятно) выбирается фрагмент и в нем слово. Словом считается любая последовательность из не менее 5 русских букв, заключенная между не-буквами"

А каким образом, по-Вашему, выбор конкретного слова для пропускания может повлиять на результат?

На мой взгяд, более важный фактор - длина фрагмента текста. Вот что пишет об этом автор:

"При всем этом, однако, разбиение текста на короткие фрагменты неизбежно обрубает некоторые связи для всех читателей. В наименьшей степени при этом страдают короткодействующие связи (синтаксис, аллитерация, ритмика и т.п.) и самые дальнодействующие, такие, как отсылки к общекультурному контексту. В наибольшей степени затронутыми оказываются связи, действующие на масштабе одного конкретного текста, в первую очередь семантические. Попросту говоря, не зная, о чем речь, правильное слово во многих случаях найти невозможно.

Это обстоятельство можно считать недостатком экспериментальной методики, однако оно же в принципе позволяет оценить роль таких внутритекстовых семантических (и стилистических, в той мере в какой они существуют) связей «среднего радиуса действия». Дело в том, что поскольку фрагменты предъявляются игрокам в случайном порядке, внимательный игрок постепенно собирает в уме образ текста из мозаики разрозненных фрагментов. Чем больше фрагментов текста было прочтено, тем лучше угадываются слова из оставшихся фрагментов — это экспериментальный факт. Разница между первым и последним фрагментами текста и дает некоторую меру силы указанных связей."

Он довольно обстоятельно разбирает и другие возможные артефакты.
Edited Date: 2020-01-02 11:58 pm (UTC)

Date: 2020-01-03 06:08 am (UTC)
From: [identity profile] poiupredatel.livejournal.com
Пример важности конкретного слова:

«От чего луна(1) так светит тускло
На сады и стены Хороссана(2)?
Словно я хожу равниной русской
Под шуршащим пологом тумана» —

Так спросил я, дорогая Лала(3),
У молчащих ночью кипарисов,
Но их рать ни слова(4) не сказала,
К небу гордо головы(5) завысив.

«Отчего луна так светит грустно(6)?» —
У цветов(7) спросил я в тихой чаще,
И цветы сказали: «Ты почувствуй
По печали розы шелестящей».

Угадать слова 2-3 невозможно в принципе (наименование и личное имя, не привязанные к контексту и не упоминавшиеся ранее).
С другой стороны угадать слова 1,4,5 сравнительно легко, по минимальному контексту. Тускло светит понятно что (если на сады и стены то явно не фонарь), "гордо завысить к небу" можно ограниченное количество вещей а по ритму подходят только головы.
Так же показательны слово 6 - эпитет, который в самом тексте различается и зависит только от автора, и слово 7 - в следующей строчке идёт повтор.

Так что выбор слова очень важен. Если он происходит случайно то ещё нормально. Хотя для того чтобы случайный выбор заработал, нужно много повторов и много людей.

Date: 2020-01-03 01:50 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Да, разумеется, одни слова угадать легче, другие - труднее. Тут надежда на то, что они выбираются наугад, случайно, а большое число участников как раз и обеспечивает интернет.

Автор, как я поняла, пока что попытался только отдельно оценить влияние стихотворного размера, но, наверное, можно было бы придумать, и как отдельно оценить влияние рифмы - насколько легче угадать в стихах рифмованное слово, чем нерифмованное слово в середине строки?

Date: 2020-01-03 12:35 am (UTC)
From: [identity profile] sedov-05.livejournal.com
Image (https://radikal.ru)

Date: 2020-01-03 01:51 am (UTC)
From: [identity profile] egovoru.livejournal.com
Спасибо за поздравление! Вас тоже с наступившим!

Date: 2020-01-03 09:40 am (UTC)
From: [identity profile] steblya-kam.livejournal.com
Для чистоты эксперимента методику следует проверить на текстах, сгенерированных ботами.

Date: 2020-01-03 01:52 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Автор использовал в этом качестве не боты, но творчество авторов с сайта Стихи.ру, что, по-видимому, близко :)

Date: 2020-01-05 09:52 am (UTC)
From: [identity profile] steblya-kam.livejournal.com
ахаха :-) но это всё-таки люди :-) для чистоты эксперимента надо было с ботами попробовать.

Date: 2020-01-05 12:26 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Не очень понятно, на какой вопрос мог бы ответить такой эксперимент? Автора интересовало главным образом, отличаются ли стихи от прозы по введенным им критериям, а ведь стихи, сочиненные ботами, заведомо являются стихами по формальным признакам? Максимум, чего можно было бы ожидать, это что стихи ботов не дали бы этого увеличения неметрической непредсказуемости (проще говоря, расширения словарного запаса), какое дают стихи людей - но и это, вероятно, зависело бы от словарного запаса ботов!

Кстати сказать, стихи с сайта Стихи.ру (номер 10) все-таки показывают это самое расширение; а самые близкие к прозе - не они, а стихотворные тосты и поздравления к 8 марта с сайта etost.ru (номер 19) и песенные тексты разных лет М. Щербакова (номер 26).

А понимаете ли Вы, почему тексты вообще различаются по этим двум параметрам, т.е., почему задания на самостоятельное придумывание слова и выбор из двух предложенных дают разные результаты? Мне это кажется загадкой, а автор совершенно этого не обсуждает. Может быть, это что-то само собой разумеющееся для филологов?

Date: 2020-01-09 10:18 am (UTC)
From: [identity profile] steblya-kam.livejournal.com
Именно поэтому. В нашей культуре существует презумпция (восходящая ещё к античности), что стихи фундаментально отличаются от прозы. Поэтому когда стихи писаны людьми, то эксперимент не чист: человек может сознательно или бессознательно следовать этой презумпции. А у бота этой презумпции нет. Эксперимент ответил бы на вопрос, является ли эта особенность свойством стихов в принципе или её привносят авторы.
Можно вывернуть вопрос наизнанку и посмотреть с другой стороны: "настоящие" ли стихи пишет бот или их умеют писать только люди.
А понимаете ли Вы, почему тексты вообще различаются по этим двум параметрам, т.е., почему задания на самостоятельное придумывание слова и выбор из двух предложенных дают разные результаты? - Нет, не понимаю. Это вопрос к автору.

Date: 2020-01-09 11:49 am (UTC)
From: [identity profile] egovoru.livejournal.com
"В нашей культуре существует презумпция (восходящая ещё к античности), что стихи фундаментально отличаются от прозы"

Стихи отличаются от прозы в первую очередь тем, что состоят из отдельных "стихов", то есть, стихи - это текст, разделенный на отдельные строчки. Такого чисто формального определения придерживается и автор. Его интересует, а есть ли в текстах, формально организованных таким образом, еще какие-то отличия от прозы? Его анализ показывает, что есть.

"настоящие" ли стихи пишет бот"

Мне кажется, тут мы вступаем на скользкую почву, потому что сначала ведь надо определить, что такое "настоящие" стихи? Автор благоразумно воздерживается от этого :)

В этой работе он анализирует только обычные, т.е., метрические и рифмованные стихи, но у него есть и другая, посвященная исследованию верлибра. И там у него получилось, что верлибр и ритмическая проза показывают небольшую отрицательную ритмическую связанность - то есть, предыдущая строчка настраивает читателя на некий ритм, а следующая - не оправдывает этот настрой :)

Обычные стихи при этом имеют высокую положительную ритмическую связанность, и даже обычная проза показывает ее небольшое положительное значение. Если верить этим результатам (но у них очень большая статистическая погрешность, что признает и сам автор), то все-таки верлибр - это не просто нарубленная на отрезки проза, а некий особый жанр.

Date: 2020-01-11 05:56 am (UTC)
From: [identity profile] steblya-kam.livejournal.com
Стихи отличаются от прозы в первую очередь тем, что состоят из отдельных "стихов", то есть, стихи - это текст, разделенный на отдельные строчки. - фейспалм. Запись стихов с разделением на строчки появилась только в эпоху Возрождения. В античности и в раннем средневековье их записывали сплошным текстом.
Если же аффтар имеет в виду разделение на ритмические отрезки, то это называется метром, и у верлибра его таки нет.

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-01-11 12:21 pm (UTC) - Expand

(no subject)

From: [identity profile] steblya-kam.livejournal.com - Date: 2020-01-12 09:12 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-01-12 01:33 pm (UTC) - Expand

(no subject)

From: [identity profile] steblya-kam.livejournal.com - Date: 2020-01-13 09:49 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-01-13 01:13 pm (UTC) - Expand

(no subject)

From: [identity profile] steblya-kam.livejournal.com - Date: 2020-01-14 09:47 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-01-14 12:55 pm (UTC) - Expand

(no subject)

From: [identity profile] steblya-kam.livejournal.com - Date: 2020-01-17 09:17 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-01-17 11:43 am (UTC) - Expand

(no subject)

From: [identity profile] steblya-kam.livejournal.com - Date: 2020-01-19 09:23 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-01-19 12:00 pm (UTC) - Expand

(no subject)

From: [identity profile] steblya-kam.livejournal.com - Date: 2020-01-25 09:05 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-01-25 01:04 pm (UTC) - Expand

(no subject)

From: [identity profile] steblya-kam.livejournal.com - Date: 2020-01-29 07:05 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-02-03 12:01 am (UTC) - Expand

(no subject)

From: [identity profile] steblya-kam.livejournal.com - Date: 2020-02-05 08:22 am (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-02-05 01:29 pm (UTC) - Expand

(no subject)

From: [identity profile] steblya-kam.livejournal.com - Date: 2020-02-08 07:29 am (UTC) - Expand

Date: 2020-01-19 06:55 pm (UTC)
From: [identity profile] uri-ben-cephas.livejournal.com
К сожалению, автор не объясняет, а почему вообще задачи на угадывание и выбор пропущенного слова дают разный результат? Он просто считает, что «непредсказуемость» характеризует нарушение опережающего читательского ожидания, а «связанность» – удовлетворение апостериорного ожидания, но мне такая интерпретация не очевидна.

В первом случае читатель выбирает из нескольких своих вариантов, а во втором из двух заданных.
Вряд ли можно ожидать, что результат будет одинаков, даже если бы выбор делался одинаковым образом и читателем и писателем, разве только если бы и читатель и писатель всегда перебирали все возможные слова.
Т.е. в первом случае идет оценка того, вызывает ли сам контекст узнавание пропущенного слова (о полном переборе речи нет, а если бы шла, то был бы выбор наиболее уместного слова), а во втором идет сравнение сторонним человеком выбора самого писателя с выбором случайного человека.
Вещи-то сильно разные в общем случае.
Очевидность авторского выбора vs качество авторского выбора.

Date: 2020-01-19 07:37 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"разве только если бы и читатель и писатель всегда перебирали все возможные слова"

А почему не предположить, что они именно это и делают? Конечно, это все равно не означает, что они выберут одно и то же слово, даже если их словарные запасы одинаковы - у них могут быть разные представления о том, какое слово лучше всего подходит в данном случае.

Согласитесь, что тот факт, что "открытые" экзаменационные вопросы повсеместно заменяют заданиями по выбору одного из предложенных вариантов, подразумевает, что это эквивалентные способы проверки знаний экзаменуемых (просто второй способ дешевле). А если это не так, то это требует пересмотра всей нашей системы образования!
Edited Date: 2020-01-19 07:54 pm (UTC)

Date: 2020-01-19 08:23 pm (UTC)
From: [identity profile] uri-ben-cephas.livejournal.com
А почему не предположить, что они именно это и делают?
Это тяжело. Не все люди могут легко перебрать.
Согласитесь, что тот факт, что "открытые" экзаменационные вопросы повсеместно заменяют заданиями по выбору одного из предложенных вариантов, подразумевает, что это эквивалентные способы проверки знаний экзаменуемых (просто второй способ дешевле). А если это не так, то это требует пересмотра всей нашей системы образования!

Согласен.
Да, думаю, не эквивалентные. Как минимум разница в способности извлекать знания из памяти должна нивелироваться.
Edited Date: 2020-01-19 08:24 pm (UTC)

Date: 2020-01-19 08:40 pm (UTC)
From: [identity profile] egovoru.livejournal.com
"Не все люди могут легко перебрать"

Те, кто не могут, возможно и не захотят играть в эту игру - она же добровольная?

"Да, думаю, не эквивалентные"

Во всяком случае, результаты этого эксперимента ясно это показали, хотя это и не было задачей автора. У него есть еще и другие работы в том же направлении - в частности, выяснение отличий восприятия метрического стиха и верлибра. У него вышло, что верлибр обладает небольшой негативной метрической связностью, что отличает его от прозы, у которой она тоже малая, но позитивная.

Date: 2020-01-19 09:18 pm (UTC)
From: [identity profile] uri-ben-cephas.livejournal.com
Те, кто не могут, возможно и не захотят играть в эту игру - она же добровольная?

Играть любят не только чемпионы))

Date: 2020-01-19 09:36 pm (UTC)
From: [identity profile] egovoru.livejournal.com
Меня больше смущает другое: как учитывается вклад тех, кто заведомо помнил наизусть предлагаемые фрагменты? В конце концов, выборка фрагментов была прозведена в основном из хрестоматийных авторов, и можно ожидать, что играть в эту игру захотели именно любители поэзии.

Автор пишет: "Для тех случаев, когда фрагмент игроку знаком или ответ подсмотрен в качестве исключения, игрок отмечает это обстоятельство при ответе на задание. Чтобы не наказывать за честность, мы не учитываем знакомость текста при подсчете очков, но в статистику эксперимента такие ответы не включаются". Но насколько честно участники отмечают?

А вот этот абзац я что-то вообще не поняла:

"Если игрок систематически подглядывает ответ и не отмечает знакомость фрагмента (если такие случаи есть), у нас есть возможность определить и отсеять результаты такого игрока. Дело в том, что на результативность замен (т.е. на то, как часто другие игроки принимают их за авторские слова) подглядывание, очевидно, не влияет. Между тем, чем лучше человек угадывает пропущенные слова, тем лучше у него и замены. Значит, мы может отсеять результаты тех игроков, у которых успешность угадывания аномально велика по сравнению с успешностью замен."

Почему это заведомое знание текста не влияет на результативность замен, да еще "очевидно"?

Date: 2020-01-19 10:58 pm (UTC)
From: [identity profile] uri-ben-cephas.livejournal.com
Методические вопросы есть конечно. Без исследования не сказать, насколько тут определим обман.
Почему это заведомое знание текста не влияет на результативность замен, да еще "очевидно"?
Здесь, по-видимому, имеется в виду, что когда человек всё-таки дает неверный вариант, то вероятность того, насколько этот неверный вариант убедителен для других игроков (насколько чаще они его выбирают как замену авторскому) коррелирует с истинной частотой угадывания игрока, без подглядывания.

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-01-19 11:06 pm (UTC) - Expand

(no subject)

From: [identity profile] uri-ben-cephas.livejournal.com - Date: 2020-01-19 11:34 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-01-19 11:38 pm (UTC) - Expand

(no subject)

From: [identity profile] uri-ben-cephas.livejournal.com - Date: 2020-01-19 11:49 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-01-19 11:55 pm (UTC) - Expand

(no subject)

From: [identity profile] uri-ben-cephas.livejournal.com - Date: 2020-01-19 11:37 pm (UTC) - Expand

(no subject)

From: [identity profile] egovoru.livejournal.com - Date: 2020-01-19 11:39 pm (UTC) - Expand

(no subject)

From: [identity profile] uri-ben-cephas.livejournal.com - Date: 2020-01-19 11:50 pm (UTC) - Expand

Profile

egovoru: (Default)
egovoru

January 2026

S M T W T F S
    123
456 78910
11121314151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 14th, 2026 09:07 am
Powered by Dreamwidth Studios