PdfToXMLPreparser

Gruppe

Preparser

Funktion

Dieser Preparser dient dazu Text und einige andere Informationen aus einem PDF-Dokument zu extrahieren und in eine XML-Datei zu wandeln.

Konfigurationsdatei

PdfToXMLPreparser.properties

Beschreibung


Dieser Preparser dient dazu Text und einige andere Informationen aus einem PDF-Dokument zu extrahieren und in eine XML-Datei zu wandeln. Folgende Parameter sind vorhanden.

onlyFormData=false
withDocumentInformation=true
withFormData=true
withImages=false
#textElementSeparator=:


Parameter

Bedeutung

onlyFormData

(optional) Gibt an, ob nur Formulardaten ausgewertet werden sollen (und kein anderer Text des PDFs). Default: false. Wichtiger Hinweis: Falls true, dann muss trotzdem auch Parameter withFormData true sein, damit Formulardaten ausgelesen werden.

withDocumentInformation

(optional) Gibt an, ob die Metadaten ausgewertet werden sollen. Default: true.

withFormData

(optional) Gibt an, ob Formulardaten ausgewertet werden. Default: true.

withImages

(optional) Gibt an, ob Bilder mit ausgewertet werden sollen. Default: false.

textElementSeparator

(optional) Es kann ein Wert definiert werden, mit welchem Steuerzeichen des PDFs ersetzt werden.

Der Aufbau der vom Preparser erzeugten XML-Datei hängt von den Werten der Parameter ab. Um eine Quellstruktur passend zu Ihrer Einstellung und der dazu erzeugten XML-Datei zu erstellen, können Sie folgendermaßen vorgehen. In den Beispielen haben wir das bereits für Sie gemacht.


Beispiele


Wir gehen im weiteren Verlauf von folgender vereinfachten PDF-Datei aus (mit "normalem" Text und Formulardaten): example.pdf

Beispiel 1


Zuerst möchten wir aus der PDF-Datei lediglich die Formular-Daten auslesen. Dazu verwenden wir die folgende Konfigurationsdatei.


onlyFormData=true
withDocumentInformation=false
withFormData=true
withImages=false
#textElementSeparator=:


Beispiel-Profil: Profile-PdfToXMLPreparser.pak

Beispiel 2


Nun lesen wir alles aus (bis auf Bilder), also die Formulardaten und den "normalen" Text.


onlyFormData=false
withDocumentInformation=true
withFormData=true
withImages=false
#textElementSeparator=:


Beispiel-Profil: Profile-PdfToXMLPreparser_2.pak

Beispiel 3


Vielleicht ist es Ihnen beim zweiten Beispiel schon aufgefallen. Innerhalb einer PDF-Seite, werden (aus technischen Gründen) die Textzeilen rückwärts, also von unten nach oben ausgelesen.

Falls die Reihenfolge der ausgelesenen Daten wichtig ist, kann man folgendermaßen vorgehen. Sehen Sie sich im Beispielprofil in der Zielstruktur das zusätzliche Berechnungsfeld sort_field und im Knoten LineData die Eigenschaften "Sortierfeld" und "Sortierung" an.

Beispiel-Profil: Profile-PdfToXMLPreparser_3.pak