Информационно-коммуникационные технологии в школьном обучении русскому языку и подготовке к ЕГЭ | страница 26
Корпусы текстов представляют сырой материал для создания и тестирования программ по переработке естественного языка. В данном случае под текстами понимаются и высказывания устной речи как в СМИ, так и в естественной коммуникации (например, соответствующие подкорпусы Британского национального корпуса). В целом все известные корпусы реализуют четыре варианта:
– национальный корпус, в котором представлены тексты из различных сфер коммуникации (монолингвальный кор>пус);
– сравнительный (или контрастивный) корпус, объединяющий несколько национальных корпусов, организованных аналогично (с совпадающей репрезентативностью и общим корпус-менеджером);
– параллельный корпус, или корпус параллельных текстов, содержащих тексты на одном языке и их переводы на другой язык (или на несколько языков);
– корпус разговорной речи, который может существовать отдельно, а не только в качестве подмассива Национального корпуса. Корпусы разговорной (и шире – устной) речи могут включать только аудиозаписи (в частности, Корпус диалектов английского языка) или, напротив, только транскрипцию или орфографическую запись устной речи (как подмассив Британского национального корпуса). Оптимальным вариантом полагают параллельное размещение в корпусе аудиозаписей и их стенограммы (в транскрипции или орфографии).
Таблица 1
Классификация корпусов В.П. Захарова
Каждый из вариантов пригоден для решения специфических задач. Например, сравнительный корпус позволяет изучать языки в контрастивном аспекте, в то время как параллельный корпус используется в качестве базы данных (базы примеров перевода) в современных системах машинного перевода. Обращение к нему в процессе контрастивного исследования нецелесообразно, поскольку в параллельных текстах на двух языках отражается неизбежная при переводе межъязыковая интерференция, что может существенным образом исказить результаты сопоставления.
Подробную классификацию корпусов предлагает В.П. Захаров в своем учебном пособии (Захаров 2005: 13). Приведем ее полностью.
Как видим, на основе корпусов можно моделировать любой из аспектов коммуникации. Основным достоинством моделей на основе корпуса является их валидность, достигаемая благодаря огромному количеству языкового материала, представленного в корпусе.
Любой корпус снабжается аннотацией. Предполагается, что аннотирование корпуса представляет собой его лингвистическую характеристику. Обычно такая характеристика включает описание текстов, составляющих корпус, определение единицы хранения, один из возможных вариантов лингвистического анализа. Аннотированный корпус приобретает такие преимущества, как простота использования и многофункциональность. Обычно при аннотировании корпусов сочетают автоматическую и ручную разметку. Автоматическая разметка и автоматическое аннотирование признаются удовлетворительными, если порог ошибки колеблется около 3 %. Некоторые программы работают довольно хорошо.