Satzarterkennungen

In jedem Knoten der Quellstruktur kann man über das Kontextmenü eine oder mehrere Satzarterkennungen definieren. Damit werden dem Parser die Regeln beschrieben, welche Satzarten in welche Knoten gehören. Jede Satzarterkennung besteht aus einer Bedingung und einem Wert. Folgende Bedingungen sind wählbar.


Wenn mehrere Satzarterkennungen für denselben Knoten definiert sind, werden sie ODER-verknüpft.

Für XML-Eingangsdaten ist es notwendig, auch den Feldern eine Satzarterkennung zuzuordnen. Dabei wird immer die Bedingung Ist gleich verwendet.

In dem speziellen Fall, dass ein logischer Datensatz über mehrere Textzeilen geht, kann ein regulärer Ausdruck verwendet werden mit einem vorangestellten Operator (?s)

Bitte beachten Sie auch den Abschnitt "Satzarterkennung prüfen und erstellen".

Satzarterkennung prüfen und erstellen


Bestimmte Fehler in der Quellstruktur verhindern oder beeinträchtigen das erfolgreiche Parsen der Quelldaten.


  • Fehlende Satzarterkennungen für Knoten, bzw. auch für Felder bei XML.

  • Fehlende Vererbung der Satzarterkennung zum Eltern-Knoten.

  • Knoten-Eigenschaft Trennzeichen Zeile/Datensatz fehlt oder ist zu viel.


Man kann eine Prüfung auf diese Fehler durchführen und teilweise diese Fehler automatisch korrigieren. Siehe dazu die Option Satzarterkennungen neu erstellen im Quellstruktur-Menü. Das Verhalten des Tools hängt von der Dokumentenart des Profils ab.


XML (Dokumentenart)

Fehlende Satzarterkennung für Felder und Knoten wird automatisch ergänzt als Ist gleich Feldname/Knotenname. Vererbung zum Eltern-Knoten und Feld-Trennzeichen werden nicht geprüft, weil sie bei Dokumentenart XML nicht relevant sind.

IDoc (Dokumentenart)

Root-Knoten muss mit EDI_ beginnen. Fehlende Satzarterkennung für Knoten wird automatisch ergänzt. Vererbung zum Eltern-Knoten wird geprüft und gegebenenfalls ergänzt. Feld-Trennzeichen sind bei IDoc (da ein Feste-Länge-Format) nicht relevant.

CSV (Dokumentenart), Datenbank, Excel (Dokumentenart)

Satzarterkennungen in allen Knoten werden geprüft, aber nicht automatisch gesetzt. Die Vererbung zum Eltern-Knoten wird geprüft und gegebenenfalls ergänzt. Feld-Trennzeichen werden geprüft, aber nicht geändert.

Feste Länge

Satzarterkennungen in allen Knoten werden geprüft, aber nicht automatisch gesetzt. Die Vererbung zum Eltern-Knoten wird geprüft und gegebenenfalls ergänzt. Feld-Trennzeichen werden nicht geprüft.

EDIFACT (Dokumentenart)

Satzarterkennungen werden für EDIFACT-Segmente geprüft, aber nicht automatisch gesetzt. Composite-Knoten (enthält Felder aber keine Unterknoten und Name beginnt mit C oder S, gefolgt von drei Ziffern) werden dabei ignoriert. Vererbung an Eltern-Knoten (Segmentgruppen) wird geprüft aber nicht automatisch ergänzt. Feld-Trennzeichen sind nicht relevant.

EDIFACT (Dokumentenart) mit Kennzeichen TradaComs

Die Prüfung ist (bisher) nicht implementiert. Es erscheint eine Fehlermeldung.

X12 (Dokumentenart), BWA (Dokumentenart)

Satzarterkennungen werden geprüft aber nicht gesetzt. Vererbung an Eltern-Knoten wird geprüft, aber nicht gesetzt.

Eigene Klasse

Es erfolgt keine Prüfung oder Korrektur. Der Eingangsbaum wird ohne Prüfung als fehlerfrei angenommen.

Automatische Ergänzung der Satzarterkennung


Die Satzarterkennung kann nur für IDoc (Dokumentenart) und XML (Dokumentenart) automatisch gesetzt werden, weil nur hier eine plausible Regel existiert, wie die Satzarterkennung lauten muss. Es werden aber nur solche Segmente bei IDoc bzw. solche Elemente bei XML verändert, die überhaupt keine Satzarterkennung haben. Bestehende Satzarterkennungen werden nicht verändert. Es wird auch nicht geprüft, ob sie sachlich richtig sind, also ob sie zu den Eingangsdaten passen. Hinweis: Um alle Satzarterkennungen zu entfernen, können Sie die Funktionalität Quellstruktur-MenüStapelverarbeitung SonstigeSatzarterkennung löschen verwenden.

Automatische Vererbung der Satzarterkennungen


Bei den Dokumentenarten IDoc (Dokumentenart), CSV (Dokumentenart), Datenbank, Excel (Dokumentenart) und Feste Länge werden fehlende Satzarterkennungen von den Unterknoten zu den Eltern-Knoten automatisch übertragen, falls nicht ein anderer nicht behebbarer Fehler aufgetreten ist. Bei EDIFACT (Dokumentenart), X12 (Dokumentenart) und BWA (Dokumentenart) erfolgt nur die Prüfung ohne Veränderung. Für XML (Dokumentenart) und Eigene Klasse erfolgt keine Prüfung.

Feld-Trennzeichen prüfen


Feld-Trennzeichen sind als Eigenschaften der Quellstruktur-Knoten definiert. Bei der Dokumentenart Excel (Dokumentenart) muss das Feld-Trennzeichen für Knoten, die selbst Felder enthalten, ein Semikolon (;) sein, bei Datenbank ein Komma (,). Bei CSV (Dokumentenart) muss es gesetzt sein, aber es muss nicht das Semikolon sein. Wenn bei CSV der zeitgesteuerte Eingangsagent Eigene Klasse mit einer der Klassen DefaultSQLCron oder DefaultFileSQLCron konfiguriert ist, wird auch Semikolon erwartet. Knoten, die selber keine Felder, sondern nur Unterknoten enthalten (Oberknoten), sollten kein Feld-Trennzeichen haben.

Ergebnis der Prüfung/automatischen Korrektur


Wenn bei einer der Prüfungen ein Fehler auftritt, der nicht korrigiert werden kann, wird das Profil nicht verändert. Eine automatische Korrektur erfolgt also nur, wenn alle erkannten Fehler automatisch korrigiert werden konnten. Jede Änderung wird in die allgemeinen Meldungen geschrieben. In jedem Logeintrag steht dabei der Name des Profils. Die Änderung des Profils wird erst dann dauerhaft, wenn das Profil gespeichert wird.

Gefundene Fehler werden in einem Fehlerdialog angezeigt. Es gibt keine Garantie, dass alle Fehler gezeigt werden. Nach manueller Korrektur eines Fehlers sollte die Prüfung deshalb wiederholt werden.

Wann das Tool nicht verwendet werden soll


In seltenen Ausnahmefällen ist es möglich, dass der Profilentwickler absichtlich von den hier dargestellten Regeln in der Quellstruktur abweicht. In diesen Fällen ist die Prüfung nicht sinnvoll und sollte nicht durchgeführt werden.