Kennung: tesseract

bookscan.py - ein Buch-eBuch-Konverter

Nicht meckern - selber machen!

Unter genau diesem Motto habe ich mich für das lange Wochenende entschieden eine kleine Buch zu eBuch-Software zu schreiben. bookscan.py ist ein ziemlich rohes und rauhes Stück Code, aber es funktioniert bereits erstaunlich gut.

Man nehme: Python 2.4 (vermutlich auch höher), Qt 4.3.3 (vah), PyQt 4.3.3 (vah), tesseract 2.0 (vah), sane-backends / scanimage 1.0.18 (vah) und alles unter Gentoo/Linux 2.6.23

Der Programmablauf ist weitgehend banal:

  1. Vorschau einscannen
  2. gewünschten Bildauschnitt auswählen / ausmessen (Sitenzahl, Kopfzeile braucht man nicht)
  3. Anzahl der Seiten pro Scan (aufgeschlagenes Buch = 2 Seiten) einstellen
  4. dpi-Zahl einstellen 300 bis 400 sind optimal
  5. scannen ... scannen ... scannen
  6. Texterkennung laufen lassen
  7. ggf. Korrekturen vornehmen
  8. als PDF-ausgeben lassen
  9. auf eBuch-Lesegerät laden - Fertig

Das Programm ist weit davon entfernt allgemein nutzbar zu sein und hat noch viele Einschränkungen und jede Menge Ideen sind noch nicht fertig. Die Bedienoberfläche ist noch in vielen Bereichen eine Baustelle. Aber da es bereits passabel funktioniert im Kern (man muß allerdings ein bisl im Python-Code einige Voreinstellungen noch per Hand anpassen) möchte ich nach der Devise 'realease often and release early' es einfach zu verfügung stellen.

Download:

bookscan.tar.gz


  Nergal