EncodingByBomOrXmlPreParser

Gruppe

Preparser

Funktion

Dieser Preparser kann eine Eingangsdatei anhand dessen BOM oder Encoding-Information im XML-Header in das Profil-Encoding umkodieren.

Konfigurationsdatei

EncodingByBomOrXmlPreParser.properties

Beschreibung


Der Preparser erkennt und entfernt am Anfang der Eingangsdatei stehende Byte-Order-Mark-Bytes (BOM) und kann bei fehlendem BOM auch das Encoding einer XML-Datei aus dem XML-Header erkennen. Bei erkanntem Datei-Encoding wird die Datei gegebenenfalls in das Ziel-Encoding umkodiert, das im Profil angegeben ist (falls die Kodierung unterschiedlich ist). Die in der Datei erkannte Kodierung wird im Job-Log vermerkt, wenn Phase 1 aktiviert ist.

Unterstützte Encodings


BOM: UTF-8, UTF-16LE, UTF-16BE, UTF-32LE und UTF-32BE.

XML: Praktisch alle im XML-Header möglichen Encoding-Namen, wenn sie in Java unterstützt werden.

Empfehlung


Als Profil-Encoding sollte eines gewählt werden, dass alle in den Eingangsdaten möglichen Encodings abbilden kann, z. B. UTF-8. Wenn die Eingangsdatei in diesem Encoding kommt und kein BOM bzw. auch keinen XML-Header hat, wird sie mit diesem Profil-Encoding richtig geparst (SOAP-Daten haben üblicherweise Encoding UTF-8, keinen XML-Header und kein BOM). Das Profil ist dann aber auch in der Lage, Eingangsdaten, die in einem anderen Encoding kommen, das durch BOM oder XML-Header richtig deklariert ist, in das gewünschte Profil-Encoding (hier UTF-8) umzuwandeln.

Parameterbeschreibung


Parameter

Beschreibung

check.BOM

(optional) Falls true, dann wird das BOM beachtet und entsprechend umkodiert. Default: true.

check.XML

(optional) Falls true, dann wird die XML-Kodierung beachtet und entsprechend umkodiert. Default: true.

Hinweis: Die Erkennung eines BOMs hat Vorrang vor der Encoding-Angabe im XML. Wenn beide Parameter auf false stehen, wird die Eingangsdatei nie verändert.