Главная » Статьи » Компьютерные тонкости » Инструкции |
Распознавание книг в pdf и djvu форматах, и очистка от мусора
В сети можно найти множество книг в форматах pdf и djvu, которые не удобны для чтения скринридером. Для перевода таких книг в удобочитаемые форматы их можно распознать программой ABBYY FineReader 12. Для этого ее нужно скачать и установить, либо воспользоваться портабельной версией, что немного сложнее. Распознаем книги1. Скачиваем и распаковываем архив с установочными файлами программы в любое место, например, в папку d:\soft, где храним все дистрибутивы; 2. Запускаем файл «Тихая установка»; 3. По окончанию установки, через несколько минут, появится пункт в контекстном меню ABBYY FineReader 12; 4. Для конвертирования файлов *.pdf или *.djvu вызываем контекстное меню этого файла, выбираем ABBYY FineReader 12\Конвертировать в Microsoft Word; 5. Терпеливо ждем. Сначала дойдет до 100% распознавание, затем, после небольшой паузы начнется конвертация. После достижения 100% откроется Документ 1, который можно сохранить в любом из доступных программе Word формате. Примечание: файлы, защищенные паролем, распознать не сможет. 6) при использовании портабельной программы запускаем ее, выбираем в альтовом меню Файл\Открыть pdf или изображение, начнется распознавание; 7) по окончанию распознавания выбираем в альтовом меню Файл\Передать в Word, дожидаемся окончания передачи и открытия документа; 8) Если при этом произошла ошибка, значит эта версия FineReader не совместима с установленной версией Word. Удаление объектовЧасто после распознавания и перевода файлов формата pdf и djvu в формат docx на странице Jaws озвучивает наличие объектов, указывая их количество при открытии документа или при возвращении в окно документа из другого окна. Как правило, это вставки ссылок на рисунки. Удалять их можно именно как рисунки. Для этого: 1) Вызываем клавишей F5 диалоговое окно; 2) Командой Shift+Tab однократно переходим в поле выбора объекта, к которому будем переходить, стрелками курсора выбираем Рисунок; 3) Жмем Enter, затем Escape. Курсор переместится к началу ссылки на рисунок; 4) Жмем Delete, слышим Выделено/, жмем Delete еще раз, ссылка удалена; 5) Для удаления оставшихся рисунков повторяем цикл: F5, затем Enter, затем Escape, Delete, еще раз Delete. При повторении цикла любое другое действие сбросит выбор рисунка в поле объекта выбора перехода. Будьте внимательнее! В таком случае нужно вновь выбрать рисунок. Очистка текста после распознавания книгТексты книг из форматов pdf и dgvu последней версией программы ABBYY FineReader 12 распознается шикарно, но все равно остаются и мешают чтению остатки от рисунков. Пользуюсь при чтении скринридером Jaws 13. В процессе чтения, в том месте, от которого планирую начать удаление, ставлю метку командой Ctrl+Win+k. Дойдя до конца текста, который планирую удалить, жму команду Ins+Пробел, затем клавишу M (русская Ь). Джоз озвучит «выделение от отмеченного места до текущей позиции». Остается удалить выделенный блок. Для того чтобы проконтролировать удаляемый кусок, сразу после удаления жму команду отмены Ctrl+Z, Джоз озвучит первую и последнюю строчки выделенного блока текста Если все как задумано, то удаляю. Вернуться к поставленной отметке можно командой Win+k. По ходу чтения восстанавливаю основные заголовки командой Ctrl+Alt+цифра 1, или 2, или 3. По завершению чтения удаляю все лишние знаки. 1. Командой Ctrl+h вызываю окно Найти-заменить; 2. Вначале убираю лишние пробелы, нажав в первом поле появившегося окна клавишу Пробел дважды, а в поле Заменить жму ее один раз. Табаю до кнопки Заменить все. Повторяю нажатие на этой кнопке до тех пор, пока не прозвучит 0 замен. Чтобы не табать, жмем команду Alt+В русская раскладка; 3. Удаляю лишние пробелы перед знаками препинания, нажав в первом поле клавишу Пробел и нужный знак препинания, например, точку. В поле Заменить жму только этот же знак препинания; 4. Убираю лишние пробелы перед знаками конца абзаца. Этот знак вводится как ^p, крышка находится в английской раскладке на цифре 6 в верхнем цифровом ряду при нажатой клавиши Shift, букву p (русская з), нужно вводить обязательно маленькой. Вызываем команду Найти\Заменить, в первом поле жмем Пробел, затем ^p, в поле заменить только ^p; 5. Убираю лишние знаки абзаца, вводя в поле Найти знак абзаца дважды, то есть ^p^p, а в поле Заменить один раз ^p. Повторяю нажатие на кнопке Заменить все несколько раз. Если текст оканчивается последней пустой строкой, то последний знак абзаца этой командой не удалится. Примерно этот же алгоритм можно применять и при очистке текста из скопированных страниц интернета. | |
Категория: Инструкции | Добавил: ivanchay071 (02.04.2015) | |
Просмотров: 818 | |