Читать книгу Башкирский стих XX века. Корпусное исследование - Борис Орехов - Страница 22

3. Башкирская поэзия XX века. Характеристика корпуса
3.2. Репрезентативность и сбалансированность корпуса

Оглавление

3.2.1. Оценка сбалансированности

Так как дальнейшие выводы будут основаны на подсчётах и статистических методах, апробированных в корпусной лингвистике, нужно убедиться, что собранная коллекция (мы также по статистической традиции будем называть её «выборкой») отвечает требованиям репрезентативности и сбалансированности.

В корпус вошли поэтические произведения 103 башкирских поэтов, творческая активность которых приходится на XX век. Стихотворений в выборке: 17 895, их общий объём 468 456 стихотворных строк и 1,77 млн словоупотреблений. «Зачинателем башкирской советской литературы был Мажит Гафури, начавший писать в 1902 году» [Вместо предисловия 1950: 5], он (годы жизни: 1880‒1934) является самым старым автором в корпусе, и ему принадлежат наиболее ранние стихотворения коллекции, датируемые 1902 годом. Корпус доведён до 2000-х годов, последнее включённое в него стихотворение – «Көндән-көнгә бойоғамын һаман…» (2005) Мустая Карима (1919‒2005). Полный список авторов, включённых в корпус, можно найти в Приложении 1. Коллекция отражает только книжные издания поэтических произведений, в нее не попали публикации в периодике. Из стихотворений, написанных до введения в башкирской печати кириллического алфавита, в корпусе есть только те, которые были позднее переизданы в современной графике. Оригинальные публикации на арабице и латинице в качестве источника нами не рассматривались.

Можно измерить долю участия каждого автора в коллекции по трём параметрам: число стихотворений, число стихотворных строк, число словоупотреблений. Интуитивно кажется, что эти параметры зависят друг от друга, то есть если растёт один, то растёт и другой: чем больше стихотворений одного поэта появится в корпусе, тем больше принадлежащих ему строк и словоупотреблений мы обнаружим в корпусе. Эта зависимость может нарушаться в случае, если при составлении коллекции в неё попадёт небольшое число произведений одного автора, которые, однако, будут иметь аномальную длину. Проверим ситуацию в корпусе. Мы используем для этого коэффициент корреляции Пирсона. Он принимает значения от −1 до 1. Значение близкое к 1 означает высокую степень корреляции, то есть в случае, если какой-то параметр будет расти для некоторого измерения, то и другой параметр для того же измерения вырастет. Верно и обратное: падение одного параметра будет означать падение другого.

Коэффициент корреляции близкий к −1 будет означать, что рост значений для одного параметра почти наверняка будет сопровождаться падением значений для другого, иными словами, мы будем иметь дело с отрицательной корреляцией. Наконец, близкий к нулю коэффициент следует трактовать так, что в отношениях параметров между собой нет никакой системы. Измерениями в нашем контексте выступают башкирские поэты, а параметрами – число стихотворений, стихов и слов в их произведениях.

Действительно, параметры показывают высокую степень зависимости друг от друга. Наибольший коэффициент корреляции обнаруживается для числа строк и числа слов каждого поэта: 0,993. Это говорит о том, что число слов в стихе – предсказуемая и маловарьируемая величина. Число стихотворений и число строк коррелируют на 0,888, что тоже достаточно значительный показатель, а число стихотворений и число слов каждого конкретного автора – сравнительно далёкие друг от друга (что тоже понятно: стихотворения могут быть разной длины и само по себе появление стихотворения в корпусе не обусловливает непременного роста корпуса на заданное число слов), но всё равно существенно сходящиеся параметры, коэффициент корреляции между которыми равен 0,879.


Рис. 1. Типичные и аномальные значения участия авторов в корпусе


На рис. 1 изображён так называемый «ящик с усами» (boxplot), особый вид графика, используемый для характеристики выборки. Концы «усов» ящика – это границы, в пределах которых находятся допустимые, то есть похожие друг на друга значения. Верхняя и нижняя стороны прямоугольника – это так называемые квартили (25-й и 75-й процентили), линией в середине ящика служит медиана. Точки над «усами» – это выбросы, то есть аномально большие значения на фоне остальных показателей. Видно, что выбросов немного, не больше 3‒7 % от общего числа включённых в корпус поэтов. Вклад (в безоценочном, чисто количественном смысле) каждого из авторов в основном не превышает 4 % от всего объёма включенных в коллекцию текстов. Исключения – 4,15 % стихотворений Рами Гарипова и 4,5 % Кадыра Даяна. Любопытно, что если по такому параметру, как число стихотворений, значение для Мажита Гафури остаётся в пределах нормы (2,65 %), то число слов, приходящихся на долю этого автора, зашкаливает (4,14 %). Такая ситуация как раз связана с необычностью для последующей башкирской литературы используемой М. Гафури поэтической формы, подразумевающей объёмные произведения, состоящие из длинных стихов. Это канон поэзии на тюрки́, который лирика советского времени быстро преодолеет.

Другие случаи таких нарушений зависимости поможет выявить линейная регрессионная модель. В её основе лежит идея, что рост одного параметра линейно зависит от роста другого, из чего следует, что значения параметров можно предсказать. Ситуации, похожие на ту, которую демонстрирует творчество М. Гафури, будут плохо предсказываться такой моделью, и их можно будет найти по ошибке предсказания. Визуализацию соотношения модельных (прямая на графике) и реальных (точки) значений можно наблюдать на рис. 2.


Рис. 2. Линейная зависимость приходящихся на долю автора словоупотреблений от числа стихотворений в корпусе


Как раз такая ситуация наблюдается у Г. Саляма, при 70 стихотворениях его доля в словоупотреблениях составляет 34 540, хотя модель предсказывает значение около 8326 слов.

Согласно данным линейной регрессии, поэтику-антипод М. Гафури и Г. Саляма демонстрирует Р. Мифтахов. При большом числе стихотворений (544, 3,07 %) его доля слов в корпусе невелика: 26 251, это всего 1,49 % от общего числа словоупотреблений в коллекции, хотя модель предсказывает почти в два раза больше, 49 066 слов. Это говорит о том, что большинство созданных автором произведений очень короткие.

Сказанное позволяет охарактеризовать корпус как сбалансированный, то есть равномерно представляющий творчество различных поэтов, не делая акцента на идиостиле одного автора, поэтического направления или кружка.

3.2.2. Оценка репрезентативности

Оценка репрезентативности – это ответ на вопрос, как соотносится материал, использованный в этом исследовании, со всем объёмом башкирской поэзии или, говоря языком статистики, выборка с генеральной совокупностью. Вероятным путём здесь было бы сравнение индекса коллекции с библиографией опубликованных на башкирском языке поэтических произведений. К сожалению, усилия, которые требовалось бы потратить на составление такой библиографии, намного превосходят те, что были предприняты для оцифровки имеющегося в нашем распоряжении корпуса.

Так как полная библиография отсутствует, исследователь может обратиться к другим источникам: биобиблиографическим изданиям, очеркам истории литературы и поэтическим антологиям. Все они по-своему отражают топологию башкирской литературы. Так, в биобиблиографический справочник [Гайнуллин, Хусаинов 1977: 3] «включены данные о писателях, являющихся членами Союза писателей СССР, а также нескольких известных писателях, умерших до организации творческого союза». В этой книге с помощью членства в писательской организации зафиксирована институционализированная часть башкирской поэзии. Из 160 упоминаемых там персоналий только 72 являются поэтами, пишущими по-башкирски. Из них 47 присутствуют в корпусе, то есть выборка на 65,28 % покрывает представленный в справочнике перечень.

Если вхождение в Союз писателей уже представляет собой значимый фильтр, гораздо более выпукло внутреннюю иерархию истории поэзии отражают литературоведческие исследования, посвящённые конкретным эпохам, как в этом случае: «Основное содержание эпохи и подлинно национальные интересы народа выражали поэты-демократы М. Гафури, Д. Юлтый, Ш. Бабич, С. Кудаш» [Ахмадиев 1971: 24] (все они есть в выборке). В предисловии к очеркам истории башкирской литературы [История 1963] упомянуто 10 поэтов (9 из них присутствует в корпусе), в главе о поэзии октябрьской эпохи – 9 персоналий (6 из них есть в корпусе), в очерке о 1920-х годах – 13 писателей (9 из них есть в выборке), в очерке, посвящённом башкирской поэзии 1930-х годов, место уделено 11 авторам (творчество 10 из них отражено в корпусе).

Наконец, о представленности в корпусе наиболее значимых для своего времени имён можно судить по составу антологий. В книге [Поэты 1950] в переводах на русский язык собрано творчество 25 поэтов, из них 19 (76 %) присутствует в выборке. Таким образом, можно сказать, что в анализируемом корпусе собрано большинство прошедших институциональный отбор башкирских поэтов, а в отношении центральных для своего периода персоналий покрытие выборки ещё лучше и может превышать 90 %.

Другим важным для исследования параметром является датированность текстов в корпусе. Многие явления метрики проанализированы в динамике, их история прослежена с 1900-х до 2000-х годов. В этих подсчётах участвует только та часть произведений, датировка которых известна и отражена в метаданных текстовой коллекции. Эта часть составляет 7938 стихотворений, то есть 44,36 % от общего объёма корпуса. В то же время датированные тексты в целом длиннее недатированных, так что привязанная ко времени часть выборки – это 242 141 строка и 932 283 слова, то есть 51,69 % и 52,49 % всего корпуса соответственно.

Все датированные тексты распределены по десятилетиям, их соотношение представлено в таблице 2 ниже. На рис. 3 датировка стихотворений представлена более детально.

Если в отношении текстов мы видим подавляющее преимущество стихотворений, написанных в 1960-е годы, а за второе по полноте представления десятилетие соперничают 1950-е и 1970-е, то распределение строк выглядит иначе. Наибольшую долю в корпусе также имеют 1960-е годы, однако второе место делят между собой 1950-е и 1930-е, и только за ними следуют 1970-е и 1940-е. Середина века получает широкое покрытие, материал 1900-х годов имеет статус вспомогательных данных (строго говоря, стихи, написанные в это время, создаются не на башкирском языке, а на тюрки́), а объем текстов, охватывающих 2000-е годы, недостаточен для серьёзных выводов.


Таблица 2. Распределение датированного материала по десятилетиям


Рис. 3. Распределение датированного материала


Доминирование 1960-х годов в выборке не случайно. Это десятилетие действительно стало временем роста печатной продукции на башкирском языке, что справедливо связывается исследователями с повышением статуса национальной литературы: «О росте художественного качества произведений башкирской литературы 〈…〉 свидетельствует 〈…〉 быстрый рост тиража их изданий. Так, в 1966 г. Башкирским книжным издательством было издано 320 наименований книг более чем 2,5 млн. тиражом, из них 141 наименование при тираже 841 тыс. экз. на башкирском языке. Выходят пять башкирских журналов, годовой тираж которых составляет 1 млн. 350 тыс. экз., 27 башкирских газет общим ежедневным тиражом 272 тыс. экз.» [Хусаинов 1983: 210].

Башкирский стих XX века. Корпусное исследование

Подняться наверх