Программа обработки текста после сканирования AfterScan | страница 4
HTML документы
Текст анализируется и исправляется в соответствии с правилами экранной типографики для HTML-документов. Текст также проверяется на наличие ошибок ручного ввода.
Для того, чтобы начать работать с текстом, откройте его в окне программы с помощью команды меню Файл → Открыть, горячих клавиш
Программа поддерживает все основные типы текстовых файлов за исключением формата docx Word 2007.
Предположим, что файл, который нам необходимо обработать, имеет расширение doc.
Для примера возьмем страницу из компьютерного журнала со сложным форматированием (рис. 1). Теперь с помощью программы FineReader выполним ее распознавание, причем, чтобы усложнить задачу, выберем заниженное для распознавание текста разрешение - 200 dpi - и не будем пользоваться средствами исправления ошибок FineReader. Передадим распознанный текст в Word, сохраним его на жестком диске и откроем с помощью программы AfterScan. Сравнивая рисунки 1 и 2 замечаем, что программа уже проделала немалую работу: убрала со страницы иллюстрации, переформатировала текст в одну колонку и изменила стиль заголовка. Для простоты удалим текст врезок, хотя, если его нужно сохранить, все врезки из основного текста переносятся в коне статьи. Теперь можно выполнить OCR-чистку. Нажимаем клавишу
Откроется окно, показанное на рис. 3. здесь нам предлагается выбрать режим чистки (интерактивный или автоматический) и тип текста. Для того, чтобы понять, как работает программа, выберем интерактивный режим, в котором каждый этап чистки будет выполняться под контролем пользователя. Впоследствии, освоившись с программой, вы можете для экономии времени выбирать автоматический режим.
Поскольку в нашем распоряжении версия программы Express, выбирать тип текста мы не можем, по умолчанию выбран Текст в современной орфографии (OCR), который, впрочем, подходит для решения большинства задач. Нажимаем кнопку Продолжить. Откроется окно, показанное на рис. 4, в котором будет видно название выполняемой в данный момент задачи и другая служебная информация. Время выполнения чистки сильно зависит от объема текста и быстродействия вашего компьютера.
После окончания чистки откроется следующее окно (рис. 5). Из 616 слов в тексте программа обнаружила 91 слово, которых нет в словаре или которые программа читает ошибочными, причем из этих слов три повторяются неоднократно. В соответствии со своими интеллектуальными алгоритмами программа решила, что эти слова хоть неизвестные, но не ошибочные, и просит пользователя подтвердить это решение. С удовлетворением отмечаем, что программа не ошиблась. А вот если бы она допустила ошибку в каком-нибудь слове, его нужно было бы переместить в раздел Ошибочные слова для последующего исправления.