OCR mit Tesseract

<< Click to Display Table of Contents >>

Navigation:  Belege >

OCR mit Tesseract

Tesseract ist eine freie Software zur Texterkennung (OCR).

 

Informationen zu diesem Programm finden Sie auf tesseract-ocr.github.io und https://de.wikipedia.org/wiki/Tesseract_(Software)

 

Wenn Tesseract installiert ist, kann das Programm dazu verwendet werden, den Inhalt von gescannten PDF-Belegen in Text umzuwandeln, so dass die enthaltenen Belegnummern, Beträge und IBANs automatisch oder manuell übernommen werden können.

 

Die Installationsdatei von Tesseract 5 finden Sie auf folgender Seite: https://github.com/UB-Mannheim/tesseract/wiki

 

Die Traineddata gibt es hier: https://github.com/tesseract-ocr/tessdata_best

 

Tesseract kann manuell wie folgt aufgerufen werden:

 

tesseract.exe <bilddatei> <Ziel textdatei ohne txt Endung>  -l deu --psm 6

 

Tesseract unterstützt keine PDF-Dateien. Amicron-Faktura wandelt deshalb vor dem Aufruf die PDF-Belege automatisch in ein Bild um und übergibt dieses dann anstelle der PDF-Datei an Tesseract.