TextPreParser

Gruppe

Preparser

Funktion

Preparser, der dazu dient einige wenige Angaben aus einem Text-Dokument zu extrahieren.

Konfigurationsdatei

TextPreParser.xml

Beschreibung


Dieser Preparser dient dazu, sehr ähnlich zum PDFPreParser, aus einer unstrukturierten Textdatei ein paar wenige Angaben zu extrahieren, die sonst mit einem Profil nur sehr schwer oder gar nicht zu extrahieren wären. Technische Details können Sie der Dokumentation zum PDFPreParser und dem Beispiel unten entnehmen. Das Root-Element ist TextPreParser statt PDFPreParser.

Beispiel


Gehen wir von folgendem, etwas wirr strukturierten Eingangsdaten aus.


input.txt
************************************************************************************************
Note.............:
Load. Unit.......: S90 2 Swap bodies 7.45
Booked GM3.......: 80 Muster contact: Max Muster
Weight KG........: 24000 Tel.........:
Ord. LM..........: 0 Fax.........: max@muster.com
Loading: 180516 20:30 1 of 1 Unloading: 180517 04:00
------------------------------------------------------------------------------------------------
053-DT-1 147-STO-1
Max Muster AG
Muster-Straße 1 Büttnerstraße 21
30165 Hannover 30165 Hannover
DE GERMANY DE GERMANY
+4918049200 Fax:+491804926600 +4918044240 Fax:+491803424232
Sender Ref No:
Consignment GM3 Euro/Muster/Half Loading unit ID Pack Receiver
------------------------------------------------------------------------------------------------
053-DT-180514147546 46.6 0 0 0
------------------------------------------------------------------------------------------------
================================================================================================
B/L No...........: Car Ref:
Shipment ID......: 003-DSO-S3543110 (Shipment ID to be entered on the freight invoice)
INCOTERMS........: DDU CONSIGNEE
Transport Agreement Reference: 2125-COM-807-30
Agreed Price
FREI 560 EUR
--------------------------
Seller...........: Example GmbH Hauptstraße 21 GERMANY
30165 Hannover 4951167222202 Fax: 51167491222
Buyer on Invoice.: Muster AG Musterstraße 15 GERMANY
30165 Hannover +49421588535600 Fax: +41588535601
Invoice Receiver.: Muster AG Musterstraße 15 GERMANY
30165 Hannover +49147681000 Fax: +492347615732
*** END OF DOCUMENT ***


Um diese Daten in den Griff zu bekommen, verwenden wir folgende Konfigurationsdatei für den Preparser in einem Profil mit dem Namen TextPreParserProfile.


TextPreParser.xml
<?xml version="1.0" encoding="UTF-8"?>
<TextPreParser>
<Profile>
<Name>TextPreParserProfile</Name>
<LineFrom>1</LineFrom>
<LineTo>100</LineTo>
<Tag>
<Name>LoadUnit</Name>
<BeginsAfter>Load. Unit.......:</BeginsAfter>
<Words>1</Words>
</Tag>
<Tag>
<Name>SwapBodies</Name>
<BeginsAfter>2 Swap bodies</BeginsAfter>
<Words>1</Words>
</Tag>
<Tag>
<Name>ShipmentID</Name>
<BeginsAfter>Shipment ID......:</BeginsAfter>
<Words>1</Words>
</Tag>
<Tag>
<Name>Adresse</Name>
<BeginsAfter>053-DT-1 </BeginsAfter>
<EndsBefore>Sender Ref No:</EndsBefore>
</Tag>
<Tag>
<Name>Name</Name>
<LinesAfter Tag="Adresse">1</LinesAfter>
</Tag>
<Tag>
<Name>Strasse</Name>
<LinesAfter Tag="Adresse">2</LinesAfter>
</Tag>
<Tag>
<Name>Ort</Name>
<LinesAfter Tag="Adresse">3</LinesAfter>
</Tag>
<Tag>
<Name>Land</Name>
<LinesAfter Tag="Adresse">4</LinesAfter>
</Tag>
<Tag>
<Name>AdressID</Name>
<BeginsAfter>053-DT-</BeginsAfter>
<Words>1</Words>
</Tag>
</Profile>
</TextPreParser>

Download


Sie können sich als Beispiel das Profil TextPreParserProfile.pak herunterladen und importieren. In der Zielstruktur können Sie die Daten dann natürlich nach Belieben aufbereiten.


  • TextPreParser.xml (im Profil bereits integriert, aber hier nochmal explizit).

  • input.txt (im Profil bereits integriert als Testdaten, aber hier nochmal explizit zum manuellen Hochladen).