Главная » Статьи » Компьютерные тонкости » Инструкции

Распознавание книг в pdf и djvu форматах, и очистка от мусора

В сети можно найти множество книг в форматах pdf и djvu, которые не удобны для чтения скринридером. Для перевода таких книг в удобочитаемые форматы их можно распознать программой ABBYY FineReader 12.
Для этого ее нужно скачать и установить, либо воспользоваться портабельной версией, что немного сложнее.

Распознаем книги

1. Скачиваем и распаковываем архив с установочными файлами программы в любое место, например, в папку d:\soft, где храним все дистрибутивы;
2. Запускаем файл «Тихая установка»;
3. По окончанию установки, через несколько минут, появится пункт в контекстном меню ABBYY FineReader 12;
4. Для конвертирования файлов *.pdf или *.djvu вызываем контекстное меню этого файла, выбираем ABBYY FineReader 12\Конвертировать в Microsoft Word;
5. Терпеливо ждем. Сначала дойдет до 100% распознавание, затем, после небольшой паузы начнется конвертация. После достижения 100% откроется Документ 1, который можно сохранить в любом из доступных программе Word формате.

Примечание: файлы, защищенные паролем, распознать не сможет.

6) при использовании портабельной программы запускаем ее, выбираем в альтовом меню Файл\Открыть pdf или изображение, начнется распознавание;
7) по окончанию распознавания выбираем в альтовом меню Файл\Передать в Word, дожидаемся окончания передачи и открытия документа;
8) Если при этом произошла ошибка, значит эта версия FineReader не совместима с установленной версией Word.

Удаление объектов

Часто после распознавания и перевода файлов формата pdf и djvu в формат docx на странице Jaws озвучивает наличие объектов, указывая их количество при открытии документа или при возвращении в окно документа из другого окна.
Как правило, это вставки ссылок на рисунки.
Удалять их можно именно как рисунки. Для этого:
1) Вызываем клавишей F5 диалоговое окно;
2) Командой Shift+Tab однократно переходим в поле выбора объекта, к которому будем переходить, стрелками курсора выбираем Рисунок;
3) Жмем Enter, затем Escape. Курсор переместится к началу ссылки на рисунок;
4) Жмем Delete, слышим Выделено/, жмем Delete еще раз, ссылка удалена;
5) Для удаления оставшихся рисунков повторяем цикл: F5, затем Enter, затем Escape, Delete, еще раз Delete.

При повторении цикла любое другое действие сбросит выбор рисунка в поле объекта выбора перехода. Будьте внимательнее!
В таком случае нужно вновь выбрать рисунок.

Очистка текста после распознавания книг

Тексты книг из форматов pdf и dgvu последней версией программы ABBYY FineReader 12 распознается шикарно, но все равно остаются и мешают чтению остатки от рисунков.
Пользуюсь при чтении скринридером Jaws 13.

В процессе чтения, в том месте, от которого планирую начать удаление, ставлю метку командой Ctrl+Win+k.
Дойдя до конца текста, который планирую удалить, жму команду Ins+Пробел, затем клавишу M (русская Ь). Джоз озвучит «выделение от отмеченного места до текущей позиции».
Остается удалить выделенный блок.

Для того чтобы проконтролировать удаляемый кусок, сразу после удаления жму команду отмены Ctrl+Z, Джоз озвучит первую и последнюю строчки выделенного блока текста
Если все как задумано, то удаляю.
Вернуться к поставленной отметке можно командой Win+k.

По ходу чтения восстанавливаю основные заголовки командой Ctrl+Alt+цифра 1, или 2, или 3.

По завершению чтения удаляю все лишние знаки.
1. Командой Ctrl+h вызываю окно Найти-заменить;
2. Вначале убираю лишние пробелы, нажав в первом поле появившегося окна клавишу Пробел дважды, а в поле Заменить жму ее один раз. Табаю до кнопки Заменить все. Повторяю нажатие на этой кнопке до тех пор, пока не прозвучит 0 замен. Чтобы не табать, жмем команду Alt+В русская раскладка;
3. Удаляю лишние пробелы перед знаками препинания, нажав в первом поле клавишу Пробел и нужный знак препинания, например, точку. В поле Заменить жму только этот же знак препинания;
4. Убираю лишние пробелы перед знаками конца абзаца. Этот знак вводится как ^p, крышка находится в английской раскладке на цифре 6 в верхнем цифровом ряду при нажатой клавиши Shift, букву p (русская з), нужно вводить обязательно маленькой. Вызываем команду Найти\Заменить, в первом поле жмем Пробел, затем ^p, в поле заменить только ^p;
5. Убираю лишние знаки абзаца, вводя в поле Найти знак абзаца дважды, то есть ^p^p, а в поле Заменить один раз ^p. Повторяю нажатие на кнопке Заменить все несколько раз. Если текст оканчивается последней пустой строкой, то последний знак абзаца этой командой не удалится.

Примерно этот же алгоритм можно применять и при очистке текста из скопированных страниц интернета.

Категория: Инструкции | Добавил: ivanchay071 (02.04.2015)

Просмотров: 877 | Теги: лично, зримо