PdfToXMLPreparser
Gruppe |
|
Funktion |
Dieser Preparser dient dazu Text und einige andere Informationen aus einem PDF-Dokument zu extrahieren und in eine XML-Datei zu wandeln. |
Konfigurationsdatei |
PdfToXMLPreparser.properties |
Beschreibung
Dieser Preparser dient dazu Text und einige andere Informationen aus einem PDF-Dokument zu extrahieren und in eine XML-Datei zu wandeln. Folgende Parameter sind vorhanden.
onlyFormData=false
withDocumentInformation=true
withFormData=true
withImages=false
#textElementSeparator=:
Parameter |
Bedeutung |
onlyFormData |
(optional) Gibt an, ob nur Formulardaten ausgewertet werden sollen (und kein anderer Text des PDFs). Default: false. Wichtiger Hinweis: Falls true, dann muss trotzdem auch Parameter withFormData true sein, damit Formulardaten ausgelesen werden. |
withDocumentInformation |
(optional) Gibt an, ob die Metadaten ausgewertet werden sollen. Default: true. |
withFormData |
(optional) Gibt an, ob Formulardaten ausgewertet werden. Default: true. |
withImages |
(optional) Gibt an, ob Bilder mit ausgewertet werden sollen. Default: false. |
textElementSeparator |
(optional) Es kann ein Wert definiert werden, mit welchem Steuerzeichen des PDFs ersetzt werden. |
Der Aufbau der vom Preparser erzeugten XML-Datei hängt von den Werten der Parameter ab. Um eine Quellstruktur passend zu Ihrer Einstellung und der dazu erzeugten XML-Datei zu erstellen, können Sie folgendermaßen vorgehen. In den Beispielen haben wir das bereits für Sie gemacht.
Erstellen Sie ein neues Profil.
Wählen Sie diesen Preparser aus und geben Sie diesem die erstellte Konfigurationsdatei an.
Setzen Sie die Checkbox Ergebnis vom Preparser überschreibt Backup-Datei.
Speichern Sie das Profil. Es wird auf inaktiv gesetzt werden, da keine Quell- und Zielstruktur vorhanden ist, aber das können Sie ignorieren.
Starten Sie das Profil mit Ihrer PDF-Datei. Das Profil wird auf einen Fehler laufen, aber auch das können Sie ignorieren.
Sie können nun aber die Eingangsdatei des Profil-Jobs (im Control Center) verwenden, um daraus eine XSD-Datei zu erstellen und diese zur automatischen Erzeugung einer Quellstruktur verwenden.
Beispiele
Wir gehen im weiteren Verlauf von folgender vereinfachten PDF-Datei aus (mit "normalem" Text und Formulardaten): example.pdf
Beispiel 1
Zuerst möchten wir aus der PDF-Datei lediglich die Formular-Daten auslesen. Dazu verwenden wir die folgende Konfigurationsdatei.
onlyFormData=true
withDocumentInformation=false
withFormData=true
withImages=false
#textElementSeparator=:
Beispiel-Profil: Profile-PdfToXMLPreparser.pak
Beispiel 2
Nun lesen wir alles aus (bis auf Bilder), also die Formulardaten und den "normalen" Text.
onlyFormData=false
withDocumentInformation=true
withFormData=true
withImages=false
#textElementSeparator=:
Beispiel-Profil: Profile-PdfToXMLPreparser_2.pak
Beispiel 3
Vielleicht ist es Ihnen beim zweiten Beispiel schon aufgefallen. Innerhalb einer PDF-Seite, werden (aus technischen Gründen) die Textzeilen rückwärts, also von unten nach oben ausgelesen.
Falls die Reihenfolge der ausgelesenen Daten wichtig ist, kann man folgendermaßen vorgehen. Sehen Sie sich im Beispielprofil in der Zielstruktur das zusätzliche Berechnungsfeld sort_field und im Knoten LineData die Eigenschaften "Sortierfeld" und "Sortierung" an.
Beispiel-Profil: Profile-PdfToXMLPreparser_3.pak