Как читать PDF и DJVU файлы формата А4 на читалках 6” и на смартфонах
Тот, кто пользовался шестидюймовой электронной читалкой, я думаю, знает, что читать PDF книги формата A4 на таком маленьком экране не очень-то удобно: чтобы текст был крупнее, нужно разворачивать текст на 90° и читать полу-страницами, потому как текст не подстраивается под размеры экрана. Хотя даже в таком случае текст мелковат.
Но недавно я нашёл программу k2pdfopt, которая делает довольно качественный «reflow» для заданного PDF или DJVU файла и сохраняет результат в новый PDF-файл нужного формата (по умолчанию — под 6” читалку). Проще всего объяснить, показав для сравнения исходный и результирующий тексты:
![]() |
![]() |
Кроме того:
- программа понимает двух-колоночную вёрстку в исходном файле;
- программа умеет генерировать файлы для «ландшафного» просмотра;
- поддерживаются различные разрешения и DPI (т.е. можно переформатировать и под 3,7” смартфоны);
- цвета в цветных документах могут сохраняться или конвертироваться в чёрно-белые;
- есть версия под Windows, Linux, Mac OS X;
- (бонус!) есть специальная версия для Kindle 3 (написана другим автором), чтобы производить конвертацию прямо на читалке Kindle!
Программа работает в командной строке, плюс для неё есть отдельное GUI — K2PDFOPT Windows GUI, написанное другим автором.
Чтобы добиться отличного результата, нужно немного поморочиться, но это достаточно сделать один раз, и впоследствии использовать подобранные параметры:
- Чтобы в полученном PDF можно было использовать поиск по тексту и словаря по наведению на текст, нужно чтобы программа внедряла текст в PDF. Для этого нужно установить систему распознавания текста Tesseract (подробнее — тут) и при установке этой программы выбрать необходимые языки, после чего включить OCR (распознавание текста) в параметрах (встроенная система GOCR даёт плохой результат). Скорость конвертирования при этом в несколько раз ниже, но что поделаешь: OCR — операция не быстрая.
- Чтобы получить качественные шрифты с гладкими буквами, нужно задать более высокий DPI, я указываю -dr 2.
- Если текст в исходном файле всегда одноколоночный, то лучше задать параметр -col 1.
В случае, если результат конвертации вас не устраивает, настоятельно рекомендую почитать FAQ по K2PDFopt — там объяснено, какие параметры задавать в случае проблем.
Чтобы запустить конвертирование, проще всего перетащить PDF файл на иконку программы, после чего откроется окно консоли программы, где можно задать параметры в текстовом меню (ага, как в 90-х годах). Но чаще всего достаточно просто нажать [Enter] либо задать номера страниц для конвертирования, и запустить конвертацию, так что интерфейс не особо-то и нужен.
Рекомендую
Яндекс.Деньги: | PayPal: |
- Купить подарочный сертификат Amazon и послать его на e-mail alek
sey@tru fanov.com - Перевод Яндекс Деньги на счёт 41001351592123
Декабрь 6th, 2012 в 18:06
Премного благодарен! Обязательно воспользуюсь программой
Декабрь 13th, 2012 в 12:52
Здравствуйте! Ваша статья просто находка для меня! Подскажите, как в windows установить распознавание. Скачал этот Tesseract, а что дальше делать — не понимаю
Декабрь 13th, 2012 в 13:28
Илья, нужно: 1) Скачать Tesseract 2) При установке на каком-то из шагов оно спросит, какие словари ставить. Выбираете птичкой нужные и после установки самой программы будут ещё скачаны и установлены выбранные словари 3) После этого придётся выйти и войти из учётной записи или перезагрузиться, т.к. при установке Tesseract он прописывает переменные окружения 4) Перетащите PDF файл мышью на программу K2PDFopt, она запустится и будет видно текстовое меню 5) Введите: oc (латинские буквы) и нажмите [Enter] 6) Программа спросит, с помощью чего распознавать текст. Введите латинскую букву T и нажмите [Enter] для выбора Tesseract. Если при этом не появится никаких уведомлений об ошибке, то всё нормально 7) Далее — как обычно.
Декабрь 13th, 2012 в 13:56
Я скачиваю Tesseract с http://code.google.com/p/tesseract-ocr/ И там нет установщика. В том то и проблема, что не понимаю как его установить. Могу только извлечь архив. И еще пробовал в переменных средах его прописать, но не помогает.
Декабрь 18th, 2012 в 18:43
[…] в блогеОпубликовать в TwitterОпубликовать в Facebook … Как читать PDF и DJVU файлы формата А4 на читалках 6” и на … Но недавно я нашёл программу k2pdfopt, которая делает […]
Декабрь 28th, 2012 в 18:36
Илья, качать надо файл tesseract-ocr-setup-3.02.02.exe и запустить. В процессе установки он предложит выбрать языки, их надо «птичкой» выбрать, он скачает и поставит.
Февраль 9th, 2013 в 15:08
Я как раз думал править pdf и djvu под свою читалку, но раз есть готовая программа то почеему бы не заюзать! Спасибо!