<< Click to Display Table of Contents >> Navigation: Belege > OCR mit Tesseract |
Tesseract ist eine freie Software zur Texterkennung (OCR).
Informationen zu diesem Programm finden Sie auf tesseract-ocr.github.io und https://de.wikipedia.org/wiki/Tesseract_(Software)
Wenn Tesseract installiert ist, kann das Programm dazu verwendet werden, den Inhalt von gescannten PDF-Belegen in Text umzuwandeln, so dass die enthaltenen Belegnummern, Beträge und IBANs automatisch oder manuell übernommen werden können.
Die Installationsdatei von Tesseract 5 finden Sie auf folgender Seite: https://github.com/UB-Mannheim/tesseract/wiki
Die Traineddata gibt es hier: https://github.com/tesseract-ocr/tessdata_best
Tesseract kann manuell wie folgt aufgerufen werden:
tesseract.exe <bilddatei> <Ziel textdatei ohne txt Endung> -l deu --psm 6
Tesseract unterstützt keine PDF-Dateien. Amicron-Faktura wandelt deshalb vor dem Aufruf die PDF-Belege automatisch in ein Bild um und übergibt dieses dann anstelle der PDF-Datei an Tesseract.