Как быстро отсканировать книгу в формат PDF (используя ClearScan) | страница 6
Где же взять Adobe Acrobat 9.0 и выше? В голове тут же начинает крутиться одно <нехорошее слово>. Но зачем мне учить вас нехорошим словам? Вы их знаете и без меня. Поэтому, как экзотический альтернативный способ, я придумал зайти на какой-нибудь аукцион, скажем E-bay, набрать adobe acrobat 9 pro и посмотреть можно ли получить то что хочется по разумной цене. Допустим — можно. И Acrobat у вас.
Запустив Acrobat, выбираем все TIFF-ы получившиеся после чистки. Для этого жмём на File ^ Combine ^ Merge Files into a Single PDF. Открывается окошко в котором мы
• справа вверху выбираем опцию Single PDF (она скорей всего и так выбрана)
• справа внизу, где видны три странички, выбираем самую большую страничку для лучшего качества
• Нажимаем Add Files ^ Add Files и добавляем все TIFF-ы. Чтобы добавить все файлы сразу, нажимаем мышкой на первый файл, потом держим клавишу Shift и нажимаем на последний файл. Нажимаем Combine Files и терпеливо ждём результата — одного файла в формате PDF.
4. OCR с опцией ClearScan
Это самая простая для нас ступень. Bo-первых, распознать текст (OCR) нужно для того, чтобы заменить изображения букв на шрифт (ClearScan). Во-вторых, если текст распознан, появляется возможность поиска по ключевым словам. Это удобно в учебниках, справочниках, да возможно и в художественной литературе. OCR не работает на сто процентов, и распознаёт текст не совсем верно. Но нам-то этого и не нужно. Мы не собираемся отделить этот распознанный текст от книги и опубликовать только его — это дело тех, кто выбрал текстовой формат. Аккуратность нам нужна только для поиска по ключевым словам, а для этой цели аккуратности OCR обычно хватает. Представьте себе какой-нибудь раздел в учебнике. Скажем, про постоянный ток. Сначала пойдёт заглавие — «постоянный ток». Потом определение постоянного тока. Потом свойства постоянного тока. Комбинация слов «постоянный ток» встретится в этом разделе много раз, и даже если OCR ошибётся однажды, второй случай употребления не останется незамеченным, и ваш поиск по ключевым словам «постоянный ток» приведёт в нужный раздел.
Что ж, запускаем OCR в том же Adobe Acrobat. Для этого делаем Document — OCR Text Recognition — Recognize Text Using OCR и в открывшимся окне нажимаем Edit в разделе Settings. Выбираем
• Primary OCR Language — надо указать основной язык документа
• PDF Output Style — ставим ClearScan
• Downsample Images — обычно можно Low (300dpi).