Documente (cărți) DJVU


(Adrian Manea) #1

Probabil sînteți familiarizați cu formatul djvu, cu o compresie mult mai bună decît PDF. Nu știu prea multe detalii tehnice, dar am deschis discuția pentru că am multe cărți în acest format, care nu se găsesc și PDF și unele sînt chiar la o calitate foarte bună, cu cuprins, copertă etc.

Principala problemă cu fișierele djvu este că nu pot sublinia pe ele, înțeleg că așa e natura fișierului.

Așa că întreb: cunoaște cineva vreo variantă bună de a converti DJVU în PDF (chiar și aplicație cu plată), eventual să aibă și OCR? Eu am testat cu PDFPenPro și a durat o groază, producîndu-mi o carte de vreo 400 MB (din vreo 5-10 MB de djvu), fără OCR. Dacă mai aplicam și OCR-ul, dura în plus și probabil creștea și mărimea fișierului.

Cum aș putea face ca să folosesc o carte DJVU chiar ca „material de lucru”? Mi-ar fi foarte utile unelte obișnuite din PDF, precum adnotări, sublinieri, semne de carte, notițe etc.

L.E. Doar ce am testat cu o carte de 6 MB (600 pagini, cu cuprins) o variantă online, care mi-a produs un PDF de 60 MB, fără cuprins, dar cu ceva OCR. Apoi în aplicația DjVu Reader FS, aplicația pe care am cumpărat-o și cu care citesc DJVU-uri de obicei. Am exportat PDF de acolo și a rezultat un document de 400 MB, cu cuprins, dar fără text selectabil…

Înțeleg că OCR și manipularea PDF-urilor sînt chestii serioase, nu mă aștept să fie multe aplicații bune și nici ieftine. Dar dacă s-a confruntat cineva cu problema asta, ce mă sfătuiește?


(Cattus Thraex) #2

sînt două: DjView și MacDjView, nu mai știu care dintre ele convertește f. bine în PDF, fac și eu asta uzual, deși un PDF ocupă spațiu cam dublu, dar lucrezi altfel cu un PDF.


(Adrian Manea) #3

Le-am testat, dar nu fac textul selectabil. Nu cer chiar OCR, dar măcar să pot sublinia, altfel decît cu freehand.


(Cattus Thraex) #4

N-am spus că fac textul selectabil, am spus că una dintre ele, nu mai știu care, exportă f. bine ca PDF.


(Adrian Manea) #5

DjView. Cealaltă (cu Mac- în față) nu exportă deloc.

Din cîte tot învîrt acum, nu bate nimic varianta aceea online. Cum am zis, a făcut 60 MB din 6, dar e textul selectabil. Acum rulez și OCR-ul oferit de ei, să vedem.

L.E. Funcționează impecabil și OCR-ul lor (în engleză). Doar că face cartea, din 60 MB…600. :slight_smile: Dar a recunoscut absolut fiecare cuvințel și nu era chiar perfectă în versiunea djvu. Cine vrea să testeze, e asta: https://db.tt/qKePuFb9


(Cattus Thraex) #6

Un PDF exportat din DjVu e mai mare, dar chiar așa de mare? Hm… La mine e uzual cam dublu, poate ceva mai mult.


(Adrian Manea) #7

Am testat și nu e prima oară cînd crește atît. Am pus fișierul la dispoziție dacă vrei (sau oricine are o variantă).


#8

Eu folosesc DJView si Acrobat Pro DC pt asta. DJView exporta in pdf, dar sub forma de imagini rezolutie mare (300-600 dpi), Acrobat Pro DC face OCR destul de ok in limba romana, impecabil En si Fr.


(Adrian Manea) #9

Mulțumesc, dar Acrobat e mult prea scump. Și măcar de-ar funcționa impecabil, dar am auzit că e greu să spui că-și face banii.


(Cattus Thraex) #10

Cred că spațiul ocupat pe disc la export PDF din DjVu este în funcție de original, exportă – într-adevăr – la rezoluție f. mare, deși o setezi, să zicem, la 150 dpi. Rezultatul însă se poate mări f. mult și tot clar este. Cred că s-ar ajunge la volum mai mic dacă, după export, documentul este exportat ca fișiere jpg și apoi redus spațiul ocupat de ele. Asta cere însă timp.


(Cattus Thraex) #11

Am senzația că dezvoltatorii aplicației DjVu ori MacDjVu nu s-au prea preocupat de detalii, respectiv de a avea un export PDF la mărime minimă pt a păstra raportul optim rezoluție/spațiu pe disc. În mod normal, spațiul ocupat de disc de un fișier .djvu nu ar trebui să fie mult mai mic decît același document format PDF, dacă exportul este bun. Se întîmplă însă, cred, ceea ce se întîmnplă cu scanurile, mulți pozează cărți cu telefonul mobil color la resoluție maximă, deși nu e nevoie, rezultatul fiind un document de 1-2 GB care, la calitate maxim posibilă pe contextul dat, ar încăpea în circa 150–250 MB. Dacă aplicație nu e setată să păstreze un spațiu cît mai mic pe disc, păstrînd la maximum calitatea originalului, atunci apare un export de 10 ori mai mare decît originalul, fără a avea ceva în plus decît că este PDF.


(Adrian Manea) #12

Da, de acord, la fel par a sta lucrurile și cu alte aplicații (cum ziceam, eu folosesc DjVu Reader FS din App Store. Probabil că s-au gîndit că, cine citește djvu nu mai vrea PDF, habar n-am de ce. În fine, pînă acum nu rețin decît varianta aceea online, aceea s-a comportat cel mai bine.


(Cattus Thraex) #13

Apropo, cum se face un fișier .djvu?


(Adrian Manea) #14

Eu, unul, nu știu. De fapt, nici nu știu vreo aplicație de scris, scanat, poze, orice, care să exporte DJVU. Eu le iau „ca atare”, precum epub/mobi sau vechiul .lit. Dar nu știu diferențe tehnice și nici alte dedesubturi.


(Cattus Thraex) #15

Păi acuma îmi dau seama că nu știu vreo aplicație care să creeze fișiere .djvu! Păi cumva trebuie să se creeze, nu?


(Cattus Thraex) #16

Acuma știu: cu interfață, doar în Windows, în OS X, cu command line ori cu aplicații instalate prin MacPorts.
https://commons.wikimedia.org/wiki/Help:Creating_a_DjVu_file


(Adrian Manea) #17

Inspirat din ce scrie acolo, am instalat cu macports djvu2pdf. Am convertit cartea pe care o tot învîrt și mi-a dat un PDF de 60 MB. Dar cu text neselectabil. Ei, tot am aflat ceva.


(Cattus Thraex) #18

Dacă textul este neselectabil, înseamnă că e scan/poză în original. Pe secvența asta, eu folosesc adnotări cu liniuțe și săgețele + marchez paginile cu bookmark. La fel este cu orice PDF care nu pornește de la un text exportat ca PDF, ci de la un scan/poză, deci nu e vina aplicației de export.


(Tudor Vedeanu) #19

Cele două formate sunt foarte diferite, atât ca tehnică de compresie cât și ca scop. DjVu a fost conceput pentru compresia documentelor scanate, care nu sunt altceva decât niște colecții de poze (bitmap) care conțin text, câte una pentru fiecare pagină. Cei care au făcut DjVu au născocit o tehnică interesantă de a comprima foarte eficient acele pagini-poze, mult mai eficient decât o poate face compresia în format JPG, de exemplu.

PDF este un format de uz general și nu excelează la compresia imaginilor de tip scan (nici n-a fost făcut pentru asta). Ăștia care fac DjVu-readerele pur și simplu iau paginile-poze din fișierul DjVu și le exportă în PDF sub formă de poze necomprimate, care sunt evident mult mai mari. Dacă ar fi vrut probabil că ar fi putut optimiza procesul de conversie în PDF, mai ales că acum există tehnici mult mai potrivite de compresie a imaginilor în PDF decât vechiul JPG.


(Tudor Vedeanu) #20

Am făcut o conversie folosind programul STDU Converter (pentru Windows). A rezultat un PDF de 4,91 MB la o calitate egală cu cea a DjVu-ului. Nu cred că există o aplicație pentru conversie mai bună decât asta. Văd că folosește inteligent algoritmii de compresie (JBIG2 pentru imagini monocrome, JPEG2000 pentru cele color), semn că e lucrată cu mare atenție. Atâta doar că nu face OCR.