Průzkumník života: Jak zpracovat hromadu fotek nebo skenů knížek do prohledávatelného PDF

neděle 30. července 2023

Jak zpracovat hromadu fotek nebo skenů knížek do prohledávatelného PDF

Pro hromadné ořezání stránek PDF je super nástroj Briss:

V OpenJDK 1.8 nějak nechtěl fungovat, ale v JDK17 to jede pěkně. Umí nařezat i vícesloupcové sazby, díky čemuž lze fotit i 2 stránky najednou.

Ořezání v PDF je ale pouze "Crop", kde PDF obsahuje pořád originální obrázek bez ořezu. Pro OCR je potřeba obrázky z PDF dostat včetně správného ořezu, pro což jsem použil "Print to PNG" přes "PDF Creator".

V PNG jsem pak odstranil pozadí pomocí ImageMagick-u a pomocí OCR Tesseract jsem je převedl zpět do prohledávatelného PDF. Potřebné balíčky pro Windows MSYS2:

pacman -S mingw-w64-x86_64-imagemagick

pacman -S mingw-w64-x86_64-tesseract-ocr

pacman -S mingw-w64-x86_64-tesseract-data

(je potřeba vybrat balíček "ces", v případě potřeby jiných jazyků spustit vícekrát)

#!/bin/bash
dir="ocr"
for file in "$dir"/*.jpg; do

/mingw64/bin/convert.exe $file -fuzz 35% -opaque White -rotate 90 -quality 60 $file.jpg

/mingw64/bin/tesseract.exe $file $file -l ces PDF
echo "Done: "$file
done

Žádné komentáře:

Okomentovat