Читать книгу Башкирский стих XX века. Корпусное исследование - Борис Орехов - Страница 21

3. Башкирская поэзия XX века. Характеристика корпуса
3.1. Поэтические корпуса и башкирский поэтический корпус

Оглавление

Материалом этого исследования стала созданная в XX веке поэзия на башкирском языке, объединённая в корпус. Корпус в том значении, которое здесь используется, – это электронная поисковая система. Поиск в ней осуществляется по коллекции текстов, а результатом поиска обычно являются контексты употребления слов или других языковых явлений, а также данные о частотности этих явлений в коллекции.

Обычно создатели корпусов стремятся к тому, чтобы текстовые коллекции были представительными, то есть достаточно большими, чтобы отражать устройство языка. В большом хорошем корпусе встретится всё, что есть в языке (слова, их значения, грамматические конструкции и т. д.).

Создатели корпусов стремятся также к тому, чтобы их корпуса были сбалансированными, то есть отражали бы реальное соотношение жанров в языке. Таким образом, если в хорошо сбалансированном корпусе какое-то слово (или грамматическое явление) встречается чаще, чем другое слово, то это значит, что оно встречается чаще и в языке.

Тексты, помещённые в корпус, специальным образом обрабатываются, чтобы из них можно было извлекать лингвистически значимую информацию. Такая обработка называется разметкой (или аннотацией). Она позволяет искать не просто слова, но и определённые грамматические формы и другие языковые явления.

Важным свойством применения корпуса как инструмента исследования становится количественный фактор, то есть возможность получить сведения о сравнительной распространённости того, что ищет пользователь.

Помимо больших корпусов, отражающих реальность языка, существуют и специализированные корпуса, необходимые для изучения какого-то аспекта языка и культуры. Создаются диалектные корпуса (отражающие систему диалектной речи), газетные корпуса (отражающие динамичные изменения в языке последнего времени, фиксируемые газетами), параллельные корпуса (отражающие межъязыковые соответствия).

Одной из разновидностей корпуса является поэтический корпус. Такого рода система позволяет не только искать нужные слова и другие языковые явления, но и делать это с учётом специфики стихотворного текста. Скажем, в поэтическом корпусе можно найти слово в строке, написанной определённым метром, или слово в позиции рифмы.

Пионерским в деле создания поэтических корпусов стал Поэтический корпус в составе Национального корпуса русского языка21 [Гришина и др. 2009], открытый для свободного доступа в 2006 году. Поисковая система корпуса настроена так, что с её помощью можно искать слова и конструкции, учитывая при поиске метр, стопность, строфику и другие характеристики стихотворения. Коллекция постоянно пополняется, и в 2015 году её объём превысил 10 млн словоупотреблений.

В литературе есть упоминание о существовавшем в 2004 году корпусе китайских поэтических текстов эпохи династии Тан [Duanmu 2004: 47], но сейчас этот корпус недоступен. Нужно добавить также, что для приобретения статуса поэтического корпуса в полном смысле недостаточно создать поиск по электронной коллекции стихотворных текстов, важна еще и специфическая стиховедческая разметка, отражающая формальные показатели стиха и дающая возможность пользователю искать с учетом этих показателей. Была ли такая разметка в китайском корпусе, неизвестно.

Вторым в этом ряду стал Башкирский поэтический корпус22, запущенный в октябре 2013 года [Орехов 2014а]. Тексты были морфологически и метрически размечены, а поиск позволяет находить слова и конструкции в строках определённого размера.

Вскоре после Башкирского поэтического корпуса в конце того же 2013 года завершилась первая фаза работы над Корпусом чешского стиха23 [Plecháč 2015]. Все тексты получили морфологическую, метрическую и строфическую разметку, а также некоторые дополнительные, облегчающие поиск уровни аннотации (восстановление словарной формы слова, фонетическую транскрипцию). Объём корпуса складывается в основном из поэтических произведений конца XIX и начала XX века, и на 2019 год составляет 76 699 стихотворений, 2 664 989 строк и 14 592 037 словоупотреблений.

21

URL: http://ruscorpora.ru/search-poetic.html

22

URL: http://web-corpora.net/bashcorpus/

23

URL: http://www.versologie.cz/en/kcv.html

Башкирский стих XX века. Корпусное исследование

Подняться наверх