UnicodeToASCIIPreparser

Gruppe

Preparser

Klassenname

com.ebd.hub.datawizard.parser.UnicodeToASCIIPreparser

Funktion

Dieser Preparser wandelt Unicode-Daten in ASCII-Daten um, indem er Nicht-ASCII-Zeichen ersetzt, oder entfernt.

Konfigurationsdatei

sample_UnicodeToASCIIPreparser.properties

Beschreibung

Dieser Preparser wandelt Unicode-Daten in ASCII-Daten um, indem er Nicht-ASCII-Zeichen ersetzt, oder entfernt. Zur Konfiguration erwartet der Preparser den Pfad zu einer Properties-Datei mit 2 Parametern.

conversiontype

(replace oder remove) Bei replace werden Nicht-ASCII-Zeichen in ihre ASCII-Basiszeichen umgewandelt. Zeichen ohne bekanntes Basiszeichen werden entfernt. Mit remove werden Nicht-ASCII-Zeichen entfernt.

upperlimit

(optional) Wert (dezimaler Bytewert des kodierten Zeichens), der den Start eines Nicht-ASCII-Zeichens festlegt (ASCII-Basiscode geht von 0 bis 127). Default: 128

Beispiel

sample_UnicodeToASCIIPreparser.properties
conversiontype=replace
upperlimit=256

Konkrete Beispiele für die obige und weitere Konfigurationen.

Eingangsdaten

conversiontype

upperlimit

Ergebnis

Schönstraße kostet 1 Million €

replace

Schonstrasse kostet 1 Million

Schönstraße kostet 1 Million €

replace

Schonstrasse kostet 1 Million

Schönstraße kostet 1 Million €

replace

128

Schonstrasse kostet 1 Million

Schönstraße kostet 1 Million €

replace

256

Schönstraße kostet 1 Million

Schönstraße kostet 1 Million €

replace

65536

Schönstraße kostet 1 Million €

Schönstraße kostet 1 Million €

remove

128

Schnstrae kostet 1 Million