Литературная Газета, 6446 (№ 03/2014) | страница 125
Итак, НКРЯ – это огромное собрание текстов самых разных жанров, по которым осуществляется специализированный поиск. НКРЯ состоит из многих корпусов, главный из которых – Основной. В нём объединены художественные произведения, публицистика XX–XXI веков, научная литература, официально-деловые тексты, тексты бытовых жанров. В выборе жанров важна сбалансированность, ведь полученная на основе корпуса статистика должна отражать реальный язык. Это значит, что если в XVIII веке в языке преобладали религиозные тексты, то так же будет и в Корпусе для текстов этого периода. В XIX веке придётся соблюдать баланс между огромным количеством художественных текстов и меньшим – публицистических, эпистолярных и научных. В XX веке будут преобладать тексты СМИ, а также научные и деловые; ближе к XXI появятся интернет-тексты, вплоть до ЖЖ, и, например, реклама. Решение о составе текстов за конкретный период – очень непростая научная задача.
Кроме Основного, в НКРЯ есть десять других корпусов. Мой любимый – Поэтический, в нём планируется собрать всю значимую русскоязычную поэзию. Здесь можно искать по особенностям рифмы, строки, строфики, клаузулы и др. Есть Параллельный корпус, предназначенный для сопоставления русского языка с иностранными. Специально для школы создан Обучающий корпус. В нём предусмотрена грамматическая разметка, соответствующая школьной программе, и адаптированный состав текстов. Например, я только что изучила с его помощью школьную классификацию наречий по значениям. Оказалось, что на весь русский язык всего четыре наречия «цели» (назло, бесцельно, чего, зачем) , тогда как «причины» побольше (недаром, поневоле, невольно, неспроста, незачем, почему, потому, поэтому, что и др.) .
Ориентация на узус
Согласно корпусной лингвистике, любое утверждение о языке должно быть проверено на очень большом – статистически релевантном – наборе текстов. И если раньше лингвистика была ориентирована на абстрактную официальную норму, то сейчас кажется гораздо более интересным изучение того, что происходит в языке на самом деле. Наш язык – живой организм, и за последние тридцать лет он заметно изменился, поэтому сейчас многие кодифицирующие положения нуждаются в проверке. Корпусное изучение узуса, то есть речевых обыкновений носителей языка, того, как мы все говорим и пишем, должно служить для подтверждения или корректировки традиционных положений. Так, для класть / ложить исследование показывает, что норма по-прежнему очень жёсткая. Но вот правило о том, что сказуемое при местоимении