Звуки и знаки | страница 11
Ту же печальную картину показал анализ и других словарей-минимумов. Десять учебников испанского языка содержали четыре с половиной тысячи слов, общими же было двести сорок девять. А в двадцати шести учебниках того же испанского языка было обнаружено тринадцать тысяч слов. Хороший же словарь-минимум для тех, кто изучает испанский язык! Требовать от новичков, изучающих иностранный язык, знания всех этих слов нелепо и бессмысленно, не всякий переводчик-профессионал их знает.
Какие же слова считать употребительными, а какие нет? Ответ на этот вопрос дает статистика, так называемые частотные словари.
Частоты и слова
Чем чаще встречается в текстах слово, тем оно употребительнее, или, говоря языком математики, имеет большую частоту. Но как избежать слов, характерных только для данного текста, а в других почти не встречающихся? Самый лучший путь — брать не один источник, а несколько. А затем, подсчитав, сколько раз встречаются в этих книгах различные слова, сравнить результаты. Если они совпадают, то слово действительно является частым (или редким). Если не совпадают, то, значит, в одном из текстов оно было завышено из-за сюжета или пристрастия автора к этому слову.
Так, весьма частое для «Капитанской дочки» слово крепость, встретилось всего лишь в четырнадцати источниках из ста тридцати трех. Значит, слово это отнюдь не частое и занимает скромное место в списке самых употребительных слов русского языка. А составляй мы список лишь по «Капитанской дочке», то оно вошло бы едва ли не в первую двадцатку самых ходовых слов нашего языка!
В «Истории Пугачева» оно встречается еще чаще — сто тридцать четыре раза (ведь там речь то и дело идет о крепостях, взятых Пугачевым). В «Путешествии в Арзрум» оно встречается шестнадцать раз. Зато во всех художественных произведениях (кроме «Капитанской дочки») Пушкин употребил слово крепость всего один раз (в «Дубровском») и два раза в стихотворениях и поэмах.
Но не только количество разных текстов может гарантировать наши подсчеты от случайности. Не менее важно взять большой объем этих текстов. И чем он больше, тем вернее мы гарантированы, что никакие случайные факторы не повлияют на точность наших подсчетов.
Подсчеты частот слов производились давно: еще в средние века составлялись индексы к религиозным текстам, в которых указывалось, сколько и где упоминаются слова бог, ангел и т. д. Но только на пороге нашего века появляется серьезная потребность в частотных словарях. Первым таким словарем считается словарь немецкого языка, выпущенный в Берлине в 1897–1898 годах. Его составитель Ф. Кединг обработал колоссальный материал в одиннадцать миллионов слов!