UnicodeToASCIIPreparser

Gruppe

Preparser

Funktion

Dieser Preparser wandelt Unicode-Daten in ASCII-Daten um, indem er Nicht-ASCII-Zeichen ersetzt, oder entfernt.

Konfigurationsdatei

sample_UnicodeToASCIIPreparser.properties

Beschreibung


Dieser Preparser wandelt Unicode-Daten in ASCII-Daten um, indem er Nicht-ASCII-Zeichen ersetzt, oder entfernt. Zur Konfiguration erwartet der Preparser den Pfad zu einer Properties-Datei mit 2 Parametern.


conversiontype

(replace oder remove) Bei replace werden Nicht-ASCII-Zeichen in ihre ASCII-Basiszeichen umgewandelt. Zeichen ohne bekanntes Basiszeichen werden entfernt. Mit remove werden Nicht-ASCII-Zeichen entfernt.

upperlimit

(optional) Wert (dezimaler Bytewert des kodierten Zeichens), der den Start eines Nicht-ASCII-Zeichens festlegt (ASCII-Basiscode geht von 0 bis 127). Default: 128

Beispiel


sample_UnicodeToASCIIPreparser.properties
conversiontype=replace
upperlimit=256


Konkrete Beispiele für die obige und weitere Konfigurationen.


Eingangsdaten

conversiontype

upperlimit

Ergebnis

Schönstraße kostet 1 Million €

replace


Schonstrasse kostet 1 Million

Schönstraße kostet 1 Million €

replace


Schonstrasse kostet 1 Million

Schönstraße kostet 1 Million €

replace

128

Schonstrasse kostet 1 Million

Schönstraße kostet 1 Million €

replace

256

Schönstraße kostet 1 Million

Schönstraße kostet 1 Million €

replace

65536

Schönstraße kostet 1 Million €

Schönstraße kostet 1 Million €

remove

128

Schnstrae kostet 1 Million