Pro hromadné ořezání stránek PDF je super nástroj Briss:
https://sourceforge.net/projects/briss/
V OpenJDK 1.8 nějak nechtěl fungovat, ale v JDK17 to jede pěkně. Umí nařezat i vícesloupcové sazby, díky čemuž lze fotit i 2 stránky najednou.
Ořezání v PDF je ale pouze "Crop", kde PDF obsahuje pořád originální obrázek bez ořezu. Pro OCR je potřeba obrázky z PDF dostat včetně správného ořezu, pro což jsem použil "Print to PNG" přes "PDF Creator".
V PNG jsem pak odstranil pozadí pomocí ImageMagick-u a pomocí OCR Tesseract jsem je převedl zpět do prohledávatelného PDF. Potřebné balíčky pro Windows MSYS2:
pacman -S mingw-w64-x86_64-imagemagick
pacman -S mingw-w64-x86_64-tesseract-ocr
pacman -S mingw-w64-x86_64-tesseract-data
(je potřeba vybrat balíček "ces", v případě potřeby jiných jazyků spustit vícekrát)
#!/bin/bash
dir="ocr"
for file in "$dir"/*.jpg; do
/mingw64/bin/convert.exe $file -fuzz 35% -opaque White -rotate 90 -quality 60 $file.jpg
/mingw64/bin/tesseract.exe $file $file -l ces PDFecho "Done: "$file
done
Žádné komentáře:
Okomentovat