Другому как понять тебя? | страница 10
Рис. 1. Образцы «главного предложного спектра» (по Н. А. Морозову)
Таким образом, результат анализа текста, по Морозову, можно представить в виде графика распределения частоты встречаемости различных языковых элементов, сгруппированных в тот или иной грамматический класс (например, график распределения частоты встречаемости предлогов). Эти графики Морозов и называл лингвистическими спектрами.
На рис. 1 приведены примеры лингвистических спектров ряда произведений современных Морозову русских писателей. При обработке текстов Морозов отсчитывал (исключая эпиграфы или вводные цитаты из иностранных авторов) первую тысячу слов. Наиболее часто повторяющимися оказались у всех исследованных авторов предлоги «в», «на» и «с», поэтому их графики Морозов и назвал «главным предложным спектром».
Повышение надежности метода и достоверности результатов достигается, во-первых, за счет увеличения объема текста, то есть числа языковых единиц, входящих в один спектр, и, во-вторых, за счет увеличения числа самих спектров. В конечном итоге и первое и второе требование выполняется при увеличении объема исследуемого текста.
Метод Морозова остался бы действующим рабочим инструментом литературоведов и по сей день, если бы не одно обстоятельство: все показатели этого метода зависят от объема анализируемого текста, а сам автор не определил границу объема, за которой надежность метода не подлежит сомнению. Дело в том, что показатели частоты употребления отдельных языковых элементов, полученные на текстах, скажем, в сто словоформ[1], могут различаться даже у одного автора, а весь метод строится на близости значений этих показателей. И только в достаточно больших текстах — порядка нескольких тысяч словоформ — показатели частоты стабилизируются и становятся пригодными для сравнения текстов разных авторов.
Ответ на вопрос о минимально необходимом объеме текста, достаточном для установления авторства, дал польский исследователь Е. Ворончак в работе, посвященной математико-статистическому анализу устойчивости различных показателей, используемых в настоящее время в исследованиях языка и стиля произведения. Он приходит к выводу, что границей объема текста (ниже которой результаты недостоверны, а выше — достоверны) является пять тысяч словоформ. Но проблема надежности методов, основанных на использовании частотных показателей, все же остается, так как в литературоведческой практике основной массив анонимной литературы состоит из текстов, гораздо меньших по объему (среди анонимных текстов наиболее часто встречаются письма, полемические статьи, черновые фрагменты произведений, т. е. тексты, не всегда превышающие и тысячу словоформ). Непригодность частотных расчетов для атрибуции коротких текстов заставляет изменить направление поиска надежных показателей. Одно из новых направлений в решении проблемы авторства