Как быстро отсканировать книгу в формат PDF (используя ClearScan) | страница 5
Говорю так, потому что на самом деле принципиальных вариантов что делать с отсканированной книгой не так много. Можно просто оставить её в TIFF файлах. Кстати, эти файлы можно оставить в любом случае. Как уже было сказано, TIFF файлы — «набор» книги. Из них потом можно лепить другие форматы. Мне лень их хранить, но потом не раз я покусал локотки из-за того что оригиналов уже не было. Однако, TIFF файлы не удобны для обмена. Они занимают много места, и смотреть из надо в графическом редакторе.
Можно перевести книгу в текстовой формат — TXT, RTF, DOC наконец, или в HTML-ные и XML-ные EPUB и FB2. Но это — переиздать книжку заново. И возможно, потерять всё или часть оформления книжки при переиздании. Нужно ли это, если книжка уже издана? Конечно, решать вам. Если оформления немного, то можно и переиздать. А если много и его хочется сохранить? Да и просто не хочется терять время на переиздание? Тогда остаётся либо «хлопнуть» книгу в DJVU, либо в PDF (кто-то «хлопает» и в PowerPoint, но это уж, простите, «ваще»). Эти форматы как «маленькие TIFF-ы» — книжка остаётся в графическом формате, но занимает меньше места.
В теории, DJVU больше подходит для отсканированных книг чем PDF, так как файлы получаются меньше. Но на практике, PDF куда более распространён (это факт), а программы позволяющие читать PDF куда более привлекательны (это моё мнение) чем то что создано для DJVU, что для меня выбор был ясен даже до появления технологии ClearScan. А теперь-то уж….
Суть технологии ClearScan состоит в замене изображений букв на стадии OCR на настоящий шрифт. Этот шрифт не является каким-либо готовым (системным) шрифтом более-менее похожим на оригинальный шрифт, а специальным шрифтом изготавливаемым программой Acrobat «на лету» под конкретную букву текста.
В результате, вместо страницы книги в графическом формате, появляется страница с (почти) настоящим текстом, по форме (почти) таким же как и оригинальный.
Ссылка на статью на английском языке о технологии ClearScan:
• http://blogs.adobe.com/acrolaw/2009/05/better pdf ocr clearscan is smal/
Как сказано в этой статье и проверенно на практике, самые лучшие результаты получаются при высоком разрешении оригинала (600dpi) и отсутствии на оригинале побочных помех (мусора, артефактов). Поэтому процесс чистки изображения после сканера (выравнивание освещённости, очистка от мусора, поднятие разрешения до 600dpi) необходим для получения качественного текста и максимально маленького размера файла.