Как читать PDF и DJVU файлы формата А4 на читалках 6” и на смартфонах

Тот, кто пользовался шестидюймовой электронной читалкой, я думаю, знает, что читать PDF книги формата A4 на таком маленьком экране не очень-то удобно: чтобы текст был крупнее, нужно разворачивать текст на 90° и читать полу-страницами, потому как текст не подстраивается под размеры экрана. Хотя даже в таком случае текст мелковат.

Но недавно я нашёл программу k2pdfopt, которая делает довольно качественный «reflow» для заданного PDF или DJVU файла и сохраняет результат в новый PDF-файл нужного формата (по умолчанию  — под 6” читалку). Проще всего объяснить, показав для сравнения исходный и результирующий тексты:

ScreenClip ScreenClip [1]

Кроме того:

  1. программа понимает двух-колоночную вёрстку в исходном файле;
  2. программа умеет генерировать файлы для «ландшафного» просмотра;
  3. поддерживаются различные разрешения и DPI (т.е. можно переформатировать и под 3,7” смартфоны);
  4. цвета в цветных документах могут сохраняться или конвертироваться в чёрно-белые;
  5. есть версия под Windows, Linux, Mac OS X;
  6. (бонус!) есть специальная версия для Kindle 3 (написана другим автором), чтобы производить конвертацию прямо на читалке Kindle!

Программа работает в командной строке, плюс для неё есть отдельное GUI — K2PDFOPT Windows GUI, написанное другим автором.

Чтобы добиться отличного результата, нужно немного поморочиться, но это достаточно сделать один раз, и впоследствии использовать подобранные параметры:

  1. Чтобы в полученном PDF можно было использовать поиск по тексту и словаря по наведению на текст, нужно чтобы программа внедряла текст в PDF. Для этого нужно установить систему распознавания текста Tesseract (подробнее — тут) и при установке этой программы выбрать необходимые языки, после чего включить OCR (распознавание текста) в параметрах (встроенная система GOCR даёт плохой результат). Скорость конвертирования при этом в несколько раз ниже, но что поделаешь: OCR — операция не быстрая.
  2. Чтобы получить качественные шрифты с гладкими буквами, нужно задать более высокий DPI, я указываю -dr 2.
  3. Если текст в исходном файле всегда одноколоночный, то лучше задать параметр -col 1.

В случае, если результат конвертации вас не устраивает, настоятельно рекомендую почитать FAQ по K2PDFopt — там объяснено, какие параметры задавать в случае проблем.

Чтобы запустить конвертирование, проще всего перетащить PDF файл на иконку программы, после чего откроется окно консоли программы, где можно задать параметры в текстовом меню (ага, как в 90-х годах). Но чаще всего достаточно просто нажать [Enter] либо задать номера страниц для конвертирования, и запустить конвертацию, так что интерфейс не особо-то и нужен.

Рекомендую Улыбка


Желаете отблагодарить автора? Есть несколько возможностей! :-)
Яндекс.Деньги:   PayPal:
Прочие варианты:


7 комментариев на “Как читать PDF и DJVU файлы формата А4 на читалках 6” и на смартфонах”

  1. Amorales Says:

    Премного благодарен! Обязательно воспользуюсь программой

  2. Илья Says:

    Здравствуйте! Ваша статья просто находка для меня! Подскажите, как в windows установить распознавание. Скачал этот Tesseract, а что дальше делать — не понимаю

  3. BlackBird Says:

    Илья, нужно: 1) Скачать Tesseract 2) При установке на каком-то из шагов оно спросит, какие словари ставить. Выбираете птичкой нужные и после установки самой программы будут ещё скачаны и установлены выбранные словари 3) После этого придётся выйти и войти из учётной записи или перезагрузиться, т.к. при установке Tesseract он прописывает переменные окружения 4) Перетащите PDF файл мышью на программу K2PDFopt, она запустится и будет видно текстовое меню 5) Введите: oc (латинские буквы) и нажмите [Enter] 6) Программа спросит, с помощью чего распознавать текст. Введите латинскую букву T и нажмите [Enter] для выбора Tesseract. Если при этом не появится никаких уведомлений об ошибке, то всё нормально 7) Далее — как обычно.

  4. Илья Says:

    Я скачиваю Tesseract с http://code.google.com/p/tesseract-ocr/ И там нет установщика. В том то и проблема, что не понимаю как его установить. Могу только извлечь архив. И еще пробовал в переменных средах его прописать, но не помогает.

  5. HoT NeWs » формат DjVu Says:

    […] в блогеОпубликовать в TwitterОпубликовать в Facebook … Как читать PDF и DJVU файлы формата А4 на читалках 6” и на &#8… Но недавно я нашёл программу k2pdfopt, которая делает […]

  6. BlackBird Says:

    Илья, качать надо файл tesseract-ocr-setup-3.02.02.exe и запустить. В процессе установки он предложит выбрать языки, их надо «птичкой» выбрать, он скачает и поставит.

  7. netang Says:

    Я как раз думал править pdf и djvu под свою читалку, но раз есть готовая программа то почеему бы не заюзать! Спасибо!