Как быстро отсканировать книгу в формат PDF (используя ClearScan) | страница 6



Где же взять Adobe Acrobat 9.0 и выше? В голове тут же начинает крутиться одно <нехорошее слово>. Но зачем мне учить вас нехорошим словам? Вы их знаете и без меня. Поэтому, как экзотический альтернативный способ, я придумал зайти на какой-нибудь аукцион, скажем E-bay, набрать adobe acrobat 9 pro и посмотреть можно ли получить то что хочется по разумной цене. Допустим — можно. И Acrobat у вас.

Запустив Acrobat, выбираем все TIFF-ы получившиеся после чистки. Для этого жмём на File ^ Combine ^ Merge Files into a Single PDF. Открывается окошко в котором мы

• справа вверху выбираем опцию Single PDF (она скорей всего и так выбрана)

• справа внизу, где видны три странички, выбираем самую большую страничку для лучшего качества

• Нажимаем Add Files ^ Add Files и добавляем все TIFF-ы. Чтобы добавить все файлы сразу, нажимаем мышкой на первый файл, потом держим клавишу Shift и нажимаем на последний файл. Нажимаем Combine Files и терпеливо ждём результата — одного файла в формате PDF.

4. OCR с опцией ClearScan

Это самая простая для нас ступень. Bo-первых, распознать текст (OCR) нужно для того, чтобы заменить изображения букв на шрифт (ClearScan). Во-вторых, если текст распознан, появляется возможность поиска по ключевым словам. Это удобно в учебниках, справочниках, да возможно и в художественной литературе. OCR не работает на сто процентов, и распознаёт текст не совсем верно. Но нам-то этого и не нужно. Мы не собираемся отделить этот распознанный текст от книги и опубликовать только его — это дело тех, кто выбрал текстовой формат. Аккуратность нам нужна только для поиска по ключевым словам, а для этой цели аккуратности OCR обычно хватает. Представьте себе какой-нибудь раздел в учебнике. Скажем, про постоянный ток. Сначала пойдёт заглавие — «постоянный ток». Потом определение постоянного тока. Потом свойства постоянного тока. Комбинация слов «постоянный ток» встретится в этом разделе много раз, и даже если OCR ошибётся однажды, второй случай употребления не останется незамеченным, и ваш поиск по ключевым словам «постоянный ток» приведёт в нужный раздел.

Что ж, запускаем OCR в том же Adobe Acrobat. Для этого делаем Document — OCR Text Recognition — Recognize Text Using OCR и в открывшимся окне нажимаем Edit в разделе Settings. Выбираем

• Primary OCR Language — надо указать основной язык документа

• PDF Output Style — ставим ClearScan

• Downsample Images — обычно можно Low (300dpi).