Читать книгу Введение в корпусную лингвистику - Михаил Копотев - Страница 4
Глава 2. История корпусной лингвистики
ОглавлениеСогласно данным корпусов английского языка, термин corpus linguistics был впервые использован в 1977 году. По меркам развития любой науки это не просто недавно, а прямо-таки вчера. Однако за это время корпусная лингвистика успела стать одним из ведущих направлений современной лингвистики. В России новый термин стал известен, по-видимому, в 1996 году благодаря лекциям одного из создателей знаменитого Международного корпуса английского языка (International Corpus of English, ice-corpora.net/ice) Сидни Гринбаума. Во всяком случае первый раз сочетание «корпусная лингвистика» встретилось в русском корпусе в связи с этим именем:
«В декабре народ ломился на лекции по корпусной лингвистике профессора Гринбаума» (журнал «Карьера», № 2, 1999).
Трудно сказать, кто из студентов написал эту заметку в 1999 году, но именно она войдет в историю корпусной лингвистики как первый случай письменной фиксации русского термина.
Конечно, корпусная лингвистика возникла не на пустом месте. Ей предшествовал многовековой период создания корпусов и применения, в сущности, корпусных методов. Однако ключевым отличием от современной корпусной лингвистики были неэлектронная форма хранения материала и, соответственно, неавтоматические способы извлечения данных. Этот период в истории корпусной лингвистики часто называют доцифровым (англ. pre-electronic).
Знаменитая древнеиндийская грамматика, созданная великим Пáнини, была «антицифровой» по форме и корпусной по сути. Созданная приблизительно в V или IV веке до нашей эры, она передавалась буквально из уст в уста – в виде стихов. С другой стороны, она была основана на внушительном корпусе ведических текстов, представлявших уже мертвый на тот момент язык санскрит.
Многие другие доцифровые корпуса тоже были связаны со священными книгами разных религий. Среди них корпус библейских текстов стал самым популярным и наиболее исследованным. Основанные на Библии списки слов с указанием стихов получили название симфоний, или конкордáнций. Первый конкорданс появился в начале XIII века и назывался «Concordantiae morales sacrae scripturae» («Нравственная конкорданция Священного Писания»).
Следующий этап в развитии доцифровых корпусов наступил в XVIII–XIX веках и был связан с созданием словарей и развитием лексикографии. Многие известные до сих пор словари были созданы авторами на основе многотысячных картотек, по сути – иллюстративных корпусов. Многие из этих корпусов до сих пор хранятся за крепкими дверями с надписью «Картотека» или «Словарный отдел». Однако результатами работы с такими картотекам стали, например, словарь американского английского Ноа Вебстера (Webster’s dictionary) или Словарь живого великорусского языка В. И. Даля.
В. И. Даль собирал материалы для словаря буквально до конца своей жизни: за несколько дней до смерти он добавил новые слова, услышанные от прислуги. Но несколько слов Владимир Иванович придумал сам (например, живуля), а ряд слов самого что ни на есть живого великорусского языка (например, русский мат), наоборот, исключил.
В конце XIX – начале XX века появляются корпуса, созданные для лингвистических исследований или – чаще – для решения практических задач. Одна из них – подсчет частотности языковых единиц. Первым словарем такого рода стал Частотный словарь немецкого языка (Häufigkeitswörterbuch der deutschen Sprache). Словарь был подготовлен для улучшения стенографической системы немецкого языка на основе корпуса в одиннадцать миллионов слов и издан под редакцией Фридриха Вильгельма Кэниннга в Берлине в 1897 году. С тех пор было создано множество частотных словарей и списков для разных языков, в том числе и для русского.
В 1915 году в Известиях Отделения русского языка и литературы вышла работа, поставившая актуальный в те времена вопрос о «средстве для отличия плагиатов от истинных произведений». Н. А. Морозов составил «лингвистические спектры», или частотные графики, употребления служебных слов разными авторами. Это корпусное по методам исследование было выполнено на материале объемом в пять тысяч слов (большой по тем временам корпус!).
Примерно в то же время лингвисты нового поколения провозгласили отход от описания того, как нужно говорить: важно то, как носители языка говорят на самом деле. Этот принцип, сформулированный на рубеже XIX–XX веков, корпусная лингвистика услышала и сохранила как один из существенных для собственной методологии: корпусная лингвистика описывает прежде всего узус, а не норму.
Датский ученый Отто Есперсен одним из первых объявил о переходе от прескрептивных (то есть нормативных) грамматик к дескриптивным (то есть описательным). Он отказался от искусственно сконструированных, «чистых» примеров в пользу реального языкового материала. Для своего главного труда «Modern English Grammar on Historical Principles» (1909–1949) он специально подбирал источники примеров. Список этих источников занимает 40 страниц и является прообразом современного репрезентативного и представительного корпуса.
Еще одним развитием этой же идеи ориентации на узус стал Словарь языка А. С. Пушкина, который, с одной стороны, входил в многовековую традицию составления словарей языка писателя, а с другой – ставил своей целью сплошное описание всего множества текстов (по сути, основу словаря составил доцифровой корпус всех текстов А. С. Пушкина).
Современные корпуса: от коллекции текстов к многоуровневой аннотации
С изобретением и широким распространением «электронно-счетных машин», «электронно-вычислительных машин» и «компьютеров» (что одно и то же) доцифровые корпуса никуда не ушли. В некоторых областях лингвистики работа с бумажными картотеками, с текстами на бересте или на глиняных дощечках была и остается существенной частью исследовательской работы. Вообще, для разных языков и разных текстов наблюдается большой разброс в типах и количестве корпусов. Локомотивом корпусной лингвистики является, безусловно, английский язык: никому уже не придет в голову просто собирать английские тексты, когда существуют очень большие и хорошо аннотированные корпуса для всех вариантов этого языка.
В эру «до аннотирования» электронные корпуса представляли собой просто аккуратно собранную коллекцию текстов. Такими, например, были первые корпуса английского языка (Brown corpus, 1960-е годы) и русского языка (Упсальский корпус русских текстов, 1980-е годы).
В общем, первые электронные корпуса отличались от своих старших собратьев лишь форматом хранения, однако постепенно объем информации, заключенной в корпусе, существенно увеличился. В зависимости от количества и качества ресурсов для того или иного языка современным корпусом в одном случае назовут представительный, глубоко аннотированный ресурс, а в другом – простую электронную коллекцию текстов. Корпусная лингвистика – живое дело, и к моменту публикации этого учебника наверняка появится еще парочка новых ресурсов. О деталях мы поговорим в следующих главах, а здесь важно сказать, что каждый новый этап в развитии машинной обработки языкового материала открывал новые возможности сначала для создателей корпусов, а затем и для исследователей. По сути, это не покрытая пылью история, а современное состояние корпусной лингвистики: для части языков уже давно созданы морфологически и синтаксически размеченные корпуса, для других создаются первые, еще не аннотированные корпуса.
Очень трудно создавать корпус древних текстов. Начнем с того, что сканировать древние рукописи очень сложно и даже опасно (для самих рукописей). Лингвистические сложности начинаются уже на первом этапе обработки: слово может писаться разными способами. Например: фельдмаршалъ – фелд-маршалъ – фелтъ маршалъ и т. д. Какой вариант считать правильным? И – главное – как искать лексему независимо от всех орфографических вариантов?
В любом случае современная лингвистическая работа часто невозможна без перевода текстов в электронную форму, что автоматически превращает их в, так сказать, «корпус первого порядка». И это прекрасно, что старые корпуса не умирают, а продолжают жить, наполняясь аннотациями, расширяясь и углубляясь. Как поется в одной старой песенке, «работа есть работа, работа есть всегда».
Задания
1. Прочитайте в Википедии статью про Панини на русском и на любом иностранном языке. Какая из статей оказалась более информативной?
2. Существуют ли конкордансы священных книг основных религий мира? С помощью Яндекса или Гугла попробуйте найти конкордансы Корана, Торы (Пятикнижия Моисея), Трипитака.
3*. По вашему мнению, кого из русских лингвистов «доцифровой» эпохи (условно говоря, до 1970-х годов) можно назвать «корпусным» лингвистом в докорпусную эру? Почему?