Кривая книжка в EPUB - вопрос

Опуская несущественную предысторию. Есть книжка в EPUB, приобретенная в невероятно угробищном магазине Blurb. Эту книжку не удалось отыскать ни в каких других магазинах, также этой книжки ни в каком виде нет в российском Интернете: автор живет в Канаде, но пишет по-русски. Никакого суперинтереса (и даже обычного интереса) книжка не представляет, меня просто попросили ее приобрести.

Так вот, купил книжку, приехал EPUB почему-то диких размеров - аж 130 мегов, тогда как даже большая книжка с иллюстрациями в EPUB (а это фактически просто HTML) занимает буквально 2-3 мегабайта.

Открыл эту книжку - и понял, в чем проблема. Она сверстана невероятно криво. На странице ридера выглядит вот так. И в ридере с этим сделать ничего нельзя - не масштабируется. На смартфоне можно масштабировать, но книжка нужна именно для ридера.

Вопрос. Кто-нибудь с таким сталкивался, с этим можно что-то делать? В угробищный магазин, разумеется, писал, ответа пока не получил. Через Calibre пытался перегонять в другие форматы - в результате получается все то же самое: здоровенный белый лист с мельчайшим текстом где-то в углу.

Разбирать EBUB и вытаскивать оттуда текст - не собираюсь, книжка не стоит таких затрат времени. Вот если такой кривой EPUB как-то можно привести в чувство конвертированием - тогда можно и напрячься.

Заранее спасибо за советы.

Upd: Да, это просто настолько криво отсканированные картинки. Можно их вытащить и скопом обрезать в Фотошопе, а потом собрать, но оно того не стоит. Конвертация в любые форматы ничего не дает, это же картинки, они в любом формате остаются картинками.

27.12.2016 13:04
Комментарии 38

Конверторы обрезать не умеют. Тут только разобрать, обрезать, собрать.
27.12.16 22:14
0 0

Картинки, если они в хорошем разрешении можно прогнать через прогнать через какой-нибудь приличный OCR. (Из бесплатных рекомендую github.com .) Получаем на выходе уже "настоящий" HTML с тестом, правда сверстанный под размер и положение слов на исходной картинке, но это уже легче. Возможно ридер уже сам справится с этим.
27.12.16 20:53
0 0

Алекс, ну, тут задача-то не особо сложная. Надо сделать скрипт, который:

1. "Выкорчует" все имиджи из EPUB в отдельную директорию;

2. Сделает кроп всем имиджам из этой директории по заданным предопределенным координатам;

3. Создаст новый EPUB (ну, или PDF, если подойдет) на базе обновленных кропленных имиджей;



Если дадите свой файл EPUB, могу набросать такой скрипт и прислать Вам исправленный EPUB-файл.
27.12.16 20:10
0 0

Я как-то кривые ч/б книжки конвертил в многостраничный TIFF со сжатием, типа факс-формат. Правда давно, точно не помню, но вроде irfanview. Разница по объему составляла несколько десятков раз, больше сотни точно. Отличный формат для монохромных сканов, кста.


gsp
27.12.16 19:53
0 0

Что за книжка-то? Возможно общественность сможет из спортивного интереса ее отыскать в удобоваримом формате?
27.12.16 19:36
0 0

TimeWaster: Что за книжка-то? Возможно общественность сможет из спортивного интереса ее отыскать в удобоваримом формате?

blurb - это сервис самодельных книжек, странно, что они качество не верифицируют
27.12.16 20:25
0 0

Должна помочь консольная утилита для редактирования изображений ImageMagick. На Википедии, кстати, есть примеры bash-скриптов для обработки всех файлов в каталоге, в том числе, для вырезания прямоугольной части картинки, начиная с нужных координат. Как раз то, что нужно Экслеру.
27.12.16 19:12
0 0

Ну да, "мапед не мой".... 😉



Потребовать возврата денег.

Компенсации за израсходованные нервные клетки.

Написать соответствующий отзыв на их сайте.

Связаться с автором напрямую и купить книгу у него, или , как писали выше, обменяться книгами с автографами авторов .

Вариант радикальный: написать на ту же тему СВОЮ книгу, только лучше.

И в .txt . Или в .html 😄
27.12.16 18:35
0 0

xoxol: Вариант радикальный: написать на ту же тему СВОЮ книгу, только лучше.

Говорят, когда Св Лукьяненко впервые купил е-читалку и вылез в интернет с вопросом, "а где, собственно, е-книги-то берут?", ему ответили "А книги, в принципе, и самому написать можно".
27.12.16 18:53
0 0

Зачем распознавать? "Оттолкаем на кухню, а там паркет дешёвый" - в смысле, если напечатать в pdf, то потом можно кропнуть средствами для работы с pdf (а то и срезать поля в процессе печати)
27.12.16 18:00
0 0

aamonster: Зачем распознавать? "Оттолкаем на кухню, а там паркет дешёвый" - в смысле, если напечатать в pdf, то потом можно кропнуть средствами для работы с pdf (а то и срезать поля в процессе печати)


А "напечатать" pdf можно КУДА? На бумагу или в другой pdf я себе представляю. А в EPUB как делается?
28.12.16 08:53
0 0

Судя по 130 мегабайтам, там однозначно куча джипегов. Только распознавать через Finereader.
27.12.16 17:45
0 0

sirUjin: Онлайн конвертер из epub в txt.



urix: Судя по 130 мегабайтам, там однозначно куча джипегов.



Ну вот я тоже подумал про конвертацию epub - doc - epub.

Потому и спросил про текстовость файла.






27.12.16 17:51
0 0

Alex Exler: Upd: Да, это просто настолько криво отсканированные картинки. Можно их вытащить и скопом обрезать в Фотошопе, а потом собрать, но оно того не стоит. Конвертация в любые форматы ничего не дает, это же картинки, они в любом формате остаются картинками.

Если внутри HTMLя картинки - то только файнридер, только хардкор. С допиливанием получившегося руками, конечно, ибо хоть в файнридере сейчас уже и есть экспорт разпознанного текста и в fb2, и в epub, но результат всё равно нельзя назвать полноценной е-книгой практически никогда.

В общем, получается, нужно сделать то, за что уплочены деньги магазину. В принципе, это что-то аналогичное "полиграфическому браку", по идее, за такое деньги назад надо требовать.
27.12.16 17:27
0 0

Есть редактор для EPUB, Sigil . Но я бы распаковал архив и проверил книгу в HTML редакторе.
27.12.16 16:27
0 0

Судя по размеру файла и виду страниц там не текст, а картинки. Как писали выше - или обрезать и пытаться читать с картинки, или распознать текст. Работы на пару часов.
27.12.16 16:19
0 0

Онлайн конвертер из epub в txt. Если картинки не важно, то работы на 2.5 минуты
27.12.16 16:13
0 0

Алекс, а нельзя этому автору написать: мол, дорогой далекий друг, очень хотелось бы познакомиться, можно ли получить вашу книжку с автографом? Ну как писатель писателю?
27.12.16 15:49
0 0

Прочитал текст. Алекс, а это произведение действительно того стоит? ))
27.12.16 15:48
0 0

файнридер
27.12.16 15:44
0 0

А там epub весь картинками?



Он же текстовый должен быть или я ошибаюсь?
27.12.16 15:19
0 0

Да уж, круто кто-то книжку сотворил, сканы, да еще такие кривущие, в EPUB...
27.12.16 15:11
0 0

Короче, если jpg можно вытащить оттуда, дальше я сделаю за минуту. Куча jpg > один PDF > резка полей сразу на всех страницах > новый PDF
27.12.16 14:58
0 0

Если можно в PDF перегнать, то дальше все просто. Отрезать лишние поля и всё.
27.12.16 14:51
0 0

Alex Exler: Разбирать EBUB

Опечатка по Фрейду 😉
27.12.16 14:11
0 0

Я согласен:
Alex Exler: Разбирать EBUB

Опечатка по Фрейду


В данном случае это не формат, а процесс. Спасибо, утро началось прекрасно.
27.12.16 14:41
0 0

Найти того, кто согласится обработать исходник и выслать уже готовый результат. 😄
27.12.16 14:04
0 0

Говорухин: Найти того, кто согласится обработать исходник и выслать уже готовый результат.

Очень плюсую. Разместить заявку на северах фриланса, наверняка найдется несколько студентов, которые охотно взялись бы за такую работу, чтобы заработать денег + хороший отзыв, он же рейтинг в каталоге.

Если картинка - распознать, если текстом - переконвертить. На флибусте есть взаимные конвертеры во все форматы, что у них есть. Хотя если картинка, то проще убить автора такого ипаба об стену.
27.12.16 14:00
0 0

Алекс, попробуйте вот что-нить такое, там есть margin fixer github.com/maforget/epubfixer . И еще вот гугл выдал, что в калибре есть фиксер manpages.ubuntu.com/manpages/precise/man1/epub-fix.1.html
27.12.16 13:38
0 0

Не мучатся, перегнать ABBYY в fb2. Делов на пару минут. Или перегнать в FB2 через какой нибудь интернет-сервис, заодно и обзор и тест интернет-сервисов по конвертации будет 😄
27.12.16 13:36
0 0

+1 к jpg, можно перегнать в него конвертером, а потом пересобрать в pdf-принтером, например.
27.12.16 13:30
0 0

а в fb2 перегнать и посмотреть, там картинка с текстом или нормальный текст можно?
27.12.16 13:27
0 0

Самое простое, что приходит в голову - перегнать в jpeg с обрезкой изображения страницы. Открываешь на большом мониторе в epub, затем "ножницами" (стандартный инструмент W10) вырезаешь текст. Сохраняешь в формате jpeg, png, html (что больше удобнее) из "ножниц" постранично. Затем можно сшить эти картинки в единый файл, например (тоже что первое в голову приходит) налепить в PowerPoint с вертикальным форматом слайда, и сохранить как pdf. Конечно, это будет pdf изображения, а не текста. Несомненно, и другие способы есть.

В общем, совет из серии "пока американцы разрабатывали ручку, пишущую в невесомости, русские использовали карандаш". Скорее всего есть и другие способы, менее тупые.
27.12.16 13:14
0 0

Я согласен: Скорее всего есть и другие способы, менее тупые.  


Да нет, вряд ли 😄

Очень похоже, что внутри просто картинки-сканы. В принципе, epub - это zip-архив с довольно простой структурой внутри. Попробуйте распаковать и посмотерть содержимое.
27.12.16 13:08
0 0

flashg : > В принципе, epub - это zip-архив с довольно простой структурой внутри.

A внутри архива - HTML.
27.12.16 14:30
0 0
Теги
Сортировать по алфавиту или записям
BLM 11
calella 97
авто 334
видео 2575
вино 269
еда 324